Captions.AI 正在席卷视频创作领域。借助 AI眼神接触工具和 28 种语言的自动字幕等功能,让任何人都可以直接在手机上使用AI轻松编辑视频。公司已经吸引了超过 1000 万位全球创作者,推出了一系列世界首创的视频相关生成功能,客户每月制作超过 300 万个视频。公司在2024年7月 C 轮融资中筹集了 6000 万美元,此次融资使公司筹集的总融资额超过 1 亿美元,估值达到 5 亿美元。以下是Lightspeed 合伙人Michael Mignano 与Captions.AI 联合创始人兼首席执行官 Gaurav Misra 关于Captions.AI产品发展和AI视频编辑领域的洞察对话。
Captions.AI 联合创始人兼首席执行官 Gaurav Misra 简介
Michael mcnano:公司在很多方面都与创始人有关,所以要了解公司,我们需要了解你。Gaurav讲讲你的生活故事吧。
Gaurav Misra:我在波士顿出生,实际上,三岁时我们搬回了印度,那是我们的老家。我在印度新德里长大,读了小学、中学和高中。上大学的时候的计划是我必须回到美国上大学。
我开始申请了大约20个地方,这显然是很少有人会做的,大多数人只会选三四个。我从来没有见过我要去的波士顿大学,我根本不知道波士顿大学是什么样子的,对其他任何大学也是如此,我不知道它们之间如何比较,哪个更好哪个更坏,在哪些地方学习什么。我完全没有概念。所以,我有点像盲人摸象一样进来的,甚至都没有参观过校园。但我父母说,波士顿很好,所以你去波士顿吧。
我从来没去过,也没参观过。我完全不知道自己在干什么,我父母就简单地把我送到这里,让我自己找到路。
Michael mcnano:你在印度长大的时候喜欢做什么?你的兴趣是什么?你忙碌的时候都做什么?
Gaurav Misra:很多不同的事情。我父母非常相信课外活动这种东西。他们认为你必须尽可能多学一些东西。
所以我基本上参加了几乎所有的课程,任何你能学的东西,每一项运动,每一种乐器,只要是你能学的东西,我的父母都让我去学。他们在这方面花了很多钱,让我尽可能多地学习。
实际上,我觉得这对我帮助很大,因为学习本身是一项技能。它是一种你可以练习的东西,如果你做得越多,你在这方面会越好,也会很快上手。我学了语言课,做了各种各样的事情,所以这很有趣。
但我的确特别喜欢一个领域,就是计算机科学。因为在印度,教育系统有点不同,从一开始就把计算机科学作为课程的一部分。实际上,从一年级开始就有了。我记得在五年级的时候,我们就开始编程了。他们让你学习Visual Basic,这是那时候的编程语言。
那时候技术水平也差一些。我们那时候用的是DOS计算机,我们会写一些图形程序,但没有GPU,就是写在VGA控制器上的。
我总是在课外花时间学习编程,学习如何做那些课堂上不教的事情。所以那是我的一个特别关注领域。
我大学主修计算机科学。在十一年级,我们学了C++,所以我们已经基本上覆盖了大学里通常学的所有东西。
获得机器学习博士学位和初期的工作经历
Michael mcnano:你从波士顿大学毕业后,听说你在几家公司做过工程师工作,对吗?
Gaurav Misra:大学的时候主修机器学习,那时候TensorFlow还不存在,深度学习刚开始流行。现在我们可以有效地训练深度学习模型,这在之前是做不到的。人们知道这个趋势很有前途,但不清楚具体方向。我当时在做的PhD更多是数据挖掘和组合优化的问题,它确实让我为这一领域的职业生涯做好了准备。
读PhD读了不到一年,我有点失望,因为学术界的发展速度比我期待的慢,而且是渐进性的。
我拿到一个offer。我在微软实习过,波士顿有一个微软研究开发中心。我在那里实习过,他们给了我一个offer,是软件测试工程师的职位。这个角色基本上就是测试软件并编写自动化测试软件。
我没有接受那个职位,可能这是个正确的决定,因为他们为这个职位提供了很高的薪水,但是一旦你进入那个路径,就很难逃出来。他们试图把有才华的人吸引到这个岗位上。但微软之后实际上完全取消了这个职位。几年之后就完全消失了。所以人们要么得转岗,要么面临裁员。所以,这可能不是一个好的选择路径。
我最后去了一家初创公司,薪水很低。老实说,我在那里学到了很多,因为那是我第一次在现实生活中实际应用机器学习。那个初创公司叫Lattice Engines,是一家波士顿的初创公司,主要做销售和市场营销评分。
我在Lattice Engines遇到了很多很有才华的人,后来一直保持联系,并在之后的工作中继续合作。但公司表现一般,虽然它的表现不错,但没有什么特别的突破或者退出。我可能当时太年轻,不能完全明白为什么那样。不过我确实享受我做的事情。
我离开Lattice Engines之后去了微软,这次是在合适的团队和职位。他们在波士顿组建了一个新团队,专注于在Azure上建立一个机器学习平台。目标是让任何人都能做机器学习,像拖放模型和连接数据并进行训练。
当时这些模型还不是深度学习模型,而是支持向量机、决策树和随机森林之类的东西。基本上,你可以在一个可视界面上拖放东西,以便更多人能访问和使用这项技术。这个团队很新,有初创的能量,认识了一些很棒的人,他们至今仍保持联系。其实当时我的经理后来在Cruise公司负责工程工作,项目经理后来成了Slack的CEO。
在那里接触了很多机器学习。一个有趣的项目是让计算机猜测你的年龄,你上传照片,它会猜测你的年龄。这是微软的一个产品,叫how-old.net。这让我对这类应用非常感兴趣。这也是我第一次听说Snapchat。
但我后来离开微软,加入了另一家初创公司Localytics。我在那儿遇到了我的联合创始人。Localytics是一个非常强大且易于使用的、对初创公司来说价格也很合理的分析平台。我来的时候是个AML/数据工程师。当时公司有一些大机会。他们在使用名为Vertica的数据库,这是一种列式数据库,技术比较老旧。它在处理请求数量和其他方面达到了扩展的极限,由于数据库设计的方式,维护成本也很高,花费了公司大量的钱。我们发现了名为Snowflake的东西,当时几乎没人听说过。我们是它的第一批客户之一,当时可能是最大的客户。
我做的一部分工作是迁移到Snowflake,搞清楚怎么做。另一部分是为不同类型的事物构建机器学习模型,比如发送最佳时间之类的。我被雇佣为机器学习团队的一员。我的联合创始人Dwight虽然不直接和我一起工作,他在不同的团队,他是项目经理,负责其他事情。我想我们总共一起工作的时间少于六个月,非常短暂。
跃升为 Snapchat 的杰出团队
Michael mcnano:在Localytics和Captions之间,你如何从分析基础设施转到了一个非常面向消费者的公司Snapchat?
Gaurav Misra:我想了解在大型消费类公司工作是什么感觉,那里的问题是什么。那时候大家都迷上了分布式系统,所有人都想解决这类问题。
所以那是令人兴奋的,加上机器学习应用。我知道这家公司有些有趣的事。我花了很多时间考虑是否要搬到纽约,一个我从未去过的地方,我所有的朋友都在波士顿。我在考虑这个工作,但感觉是对的。我想那支团队有些特别。团队的创始人Andrew Lin可能是我见过最厉害的技术人员之一,能从无到有地创造东西。这人建立了纽约团队,他本身是工程师,面试时完全不同于其他人,非常聪明。他做过很多事情,之前在Hulu,还当过Airtime的CTO。他建立了一个围绕创新文化的团队,让我们尝试各种东西,看看效果如何。这与我之前做机器学习工程师很不同。教会我如何构建好产品,如何思考产品探索,如何真正解决用户需求和问题。
在一家大型to C公司保持创新活力
Gaurav Misra:在Snapchat后来我负责的是设计工程团队。我写过一个博客贴文章,可能还在Snapchat的博客上,讲述了我如何进入设计工程团队的故事。那大概是我在纽约Snapchat团队工作两年后的事。
随着公司成长,它的运作变得缓慢,工程和产品团队变大,公司自身变得更加风险规避。我们的目标是拥有一支能够快速迭代和发布产品的小团队,以隔离的方式,比如在几个测试产品中,看看是否有效。如果有效,再让大团队大规模构建,解决大规模公司如Snapchat所需的扩展问题。我们会快速构建很多产品和实验,甚至是小功能更改,我们有个系统可以在Snapchat主应用上层叠加这些新功能。团队成员可以创建不同组合的版本,这在Snapchat内部被称为Spooky。人们可以获取Spooky,查看公司正在进行的内部实验和产品演变的思路。
设计工程团队更像是创新团队。确切地说,它更像一个产品实验团队。我们会直接收到Evan的反馈,Evan是Snap的CEO。他会说我们应该在某个领域尝试一些东西,然后我们会提出很多想法,制造东西,展示给他和公司其他人看。任何人都可以获取Spooky,所以他们会看到这些东西,并在公司内部迅速传播。
这让公司内部快速积攒人气,因为人们会谈论这些实验。"这是某人在尝试的酷东西,你见过吗?听说过吗?" 很多东西会迅速传开。我们团队是Snap的设计团队一部分,有点设计又有点工程的混合。
那时Evan非常关心设计,确保产品做得很好。他对Snapchat为何能成功有独特的见解,几乎没有人能理解。他了解产品和用户的方式没人能比。
较早参与 Snapchat 主要功能变动
Michael mcnano:有哪些大的功能是从设计团队的实验中发展出来的?
Gaurav Misra:我们做了Spotlight的第一个原型和初始版本,就是Snap的竖直滚动视频平台。那段时间非常疯狂,因为Snapchat以前是横向滚动的,视频也是横向滚动的,故事也是。
竖直滚动视频是个全新的概念,有很多内部讨论,比如拇指的舒适度,向上滑比横向滑动要容易,还有效率问题,可能那些都会有影响。在Spotlight项目上,我们做了初期的原型,实验过加入点赞按钮,用过很多其他实验,还制定了自己的小算法来对视频进行排序。我们用不同的信号对其进行重新排序,公司内部的人测试这些视频,看看喜欢哪种算法。
另一个大的变化是Snapchat的导航栏,过去它有三个界面:收件箱,摄像头和Discover,以及右边的服务。还有一些额外的功能,比如地图。地图是一项最了不起的功能,但你得在相机上缩放才能进入。同时还有一个显示页面,主要是优质内容,比如迷你剧,它在Discover之后又隐藏了一个滑动。
Snapchat没有任何按钮,一切都靠用户自己知道如何操作。这是我们做的一个大改动,添加了导航栏,有五个标签。我们不仅设计了概念,还真正将其投入生产。我们的团队发布了实际生产代码,这和我们平常的操作不一样。生产代码需要很多时间和精力。这些隐藏操作是Snapchat产品文化的重要组成部分,需要让产品更易于使用,公司发布了这个大导航变动,对产品来说是个巨大转变。
离开Snapchat创立一家顶级人工智能公司
Michael mcnano:你是怎么从Snapchat转到创建Captions的?
Gaurav Misra:我一直在和Dwight保持联系。我们每隔几个月就会见面,讨论初创公司的想法和我们能做的事情、机会在哪里。2019年时,视频领域看起来非常有机会,事情变得非常有趣,因为那时候抖音(TikTok)在美国开始兴起,我们看到从跳舞视频到交互式视频(talking videos)的演变,人们开始真正表达自己、分享意见和故事。
我觉得令人兴奋的是,这是互联网史上第一次人们能够在一个新的层面上真正表达自己。
视频变得病毒式传播,不再是因为其视觉或美学性质,而是因为人的个性。如果你能看到肢体语言和面部表情,还有信息的层次,比文字要高得多,非常令人兴奋。所以我们最初的设想是,我们要建立一个社交网络或类似的东西,我们会从创作工具开始,利用它去启动社交网络或类似的东西,这就是让我们兴奋的地方。当然,在Snap工作一切都很棒,是个很好的工作环境,有很棒的人,但我觉得我想做点什么,时机也似乎是对的,这就是感觉。
Michael mcnano:你与Dwight是怎么最终一起共同创办公司的呢?
Gaurav Misra:其实我们在离开Localytics后一直保持联系。我们都搬到纽约,每隔几个月就会见面,吃晚饭或喝点东西,讨论我们可以构建什么,什么是有趣的机会。但总是有个问题,就是这不是最佳时机。直到2021年。
从社交网络开始做起
Michael mcnano:最初的社交网络想法是什么?是类似于TikTok的吗,还是完全不同的东西?
Gaurav Misra:我们更多想关注通讯方面,我想关注交互式视频,让人们彼此交流之类的。这是我们最初的想法。
我们尝试了社区应用和视频社区等,这就是我们起初几周所做的,而Captions就是在那个时期创作的。
交互式视频是指有人在视频中实际讲话,可能是旁白,也可能是面对面讲话的视频。这种形式在Instagram之后开始流行,因为之前的视频只是有人对食物进行特写,或者对景观进行横向拍摄,这是以前视频的本质和范围。没人会在视频中说话,人们只是对东西进行特写或者移动镜头,可能在上面写些文字,这大概是Snapchat的风格。但交互式视频在TikTok上真的爆发了,到了我们看到的规模。
可能还有其他公司在做类似的事情,比如Loom也是某种形式的交互式视频,但用途不同。
Michael mcnano:你觉得TikTok上交互式视频的用途是什么?人们在拍摄风景或食物,他们在交互式视频中想做什么?为什么在TikTok上发生这种现象?
Gaurav Misra:我觉得在TikTok上发生这种现象是因为它是唯一一个用户的默认行为是等待或者观看的平台。默认情况下,任何出现在你屏幕上的东西,你会认为TikTok的推荐应该不错,至少会看一会。你给每个内容一个机会,而在那之前,每个平台,包括故事,默认行为都是跳过。
所以很多人看故事的方法是跳过那个不感兴趣的,回去看有趣的,而在TikTok上你是看这个,如果不喜欢再换下一个。这是一个完全的转变,非常厉害的创新。某种程度上它就像一个不断播放广告的平台,每个人都在制作广告,这些广告在彼此竞争。这就是它的基本运作方式。
它的动机基本上是在最初几秒赢得你的关注。这是一种销售策略。
个性以及所有这些东西在平台上真的体现出来,细微的事情也很重要,因为这些内容在全球范围内竞争。TikTok的算法会不断寻找在各种指标上表现最好的内容,然后推送给更多的人,观察他们的表现,找到最好的,再推送给更多的人。这是一个不断运行的循环,激励每个人去优化,如何最好地与观众连接,让他们尽可能多地观看视频。这就是游戏规则。
Captions.AI 工具的意外惊喜
Michael mcnano:所以交互式视频(talking videos)兴起,如何引导你们到今天的产品?你们是如何优化制作交互式视频的?
Gaurav Misra:这是我们面临的一个大问题,如何制作一个交互式视频平台?我们当时想从工具开始。所以在考虑工具时,我们开始想,要做一个交互式视频的工具,让人们操作更容易。这就是Captions的想法,可能是自动转录。当时还不存在这种功能,TikTok和Instagram都没有。没有像Captions那样在视频顶部显示的形式。
当时很多人围绕着可访问性和静音观看视频进行手动添加字幕,他们会花一个小时手动输入这些文字。
所以我们发现了这一点,觉得这是个完美的起点,因为它正好能服务于交互式视频。我们制作了这个应用,花了几天时间就做出了第一个版本,发布后睡了一觉,醒来时发现它已经在应用商店排行榜上了。
这真是个惊喜。
非常快。我记得打电话给Dwight说每小时有600个视频在制作,你做了什么吗?他说没有,我什么也没做。
当时应用非常简单,没有服务器。所有请求都直接调用Google API,因为那时候没有自己的服务器,账单增加了,我们必须筹钱,所以我自掏腰包每月支付超过一万美元。但没有服务器,所以没什么能崩溃。应用非常简单。这是开始,激发了我们解决视频创作问题的兴趣,使用机器学习和不同的设计来解决这些问题,我们对交互式视频领域非常兴奋。
之后我们更兴奋了,这就是事情的起点。
这是我们尝试的第一个项目。其实我们当时还在进行风险投资的路演。时间上非常完美,因为在路演中,当人们质疑这是否真的能行时,我们可以拿出成果展示,证明确实能行。
Michael mcnano:你们在路演的时候,是否也在推销社交媒体那一部分?还是说你们首先想要从工具开始?
Gaurav Misra:对,我们就是在推销社交媒体,但我认为人们显然会质疑,就像我一样,如果有人告诉我这个想法,我也会怀疑。
即使你能搞定这个工具,这已经相当难了,那你如何将其转变成社交网络?这是完全不同的挑战,很难让人相信。
即使制作一个工具本身也很难,但是工具出现的时机真是太好了,我们可以展示实际成果。
Michael mcnano:那么接下来你们做了什么?当时只有你和Dwight吗?
Gaurav Misra:对,是我和Dwight,还有一个合同工,现在他还在我们公司。
我们开始走上建立社交网络的道路,我们的确这么做了,大概持续了一年左右。我们花了一年时间尝试各种可能的想法和角度,最终发现这真的很难。
在某个时点,我们转向了照片方向,这开始逐渐起作用。当时Instagram变得更像视频平台,所以人们在问我的照片去哪了?我们看到不同平台上的确在讨论这个问题。所以我们开始做照片分享,一个仅限澳大利亚的照片分享应用还挺成功。在美国我们大概有五六万的日活跃用户,表现相当不错。
实际上,我们基于这个应用筹集了一轮A轮资金,那是去年年初。
为照片分享应用开启 A 轮融资,意外赚了 50 万美元
Michael mcnano:交互式视频工具仍在运行吗?它是否仍在内部运行,而你们在同时开发照片应用?
Gaurav Misra:它还在那里。我们其实有些担忧,因为运行成本大约每月两万美元,虽然不多但一年下来就是25万美元,这对种子期公司来说也不少。所以我们在考虑是否应该关闭它,讨论了一会儿,最后决定,为什么不开个付费墙呢,这样如果没人付费,基本上就等于关闭了,如果有人付费,系统就能自我维持,我们也不必关闭它。所以我在周末加了付费墙,没有告诉任何人。可能跟iOS工程师提过一句,如果看到我提交的PR,不用担心。
然后就忘了这事,一直在专注于我们的照片分享应用,该应用表现很好,我们为此筹集了一轮A轮资金,每天有五六万用户,数百万张照片上传,一切顺利。
在A轮之后,我查看了个人的Apple账号,与公司账号是分开的,发现Captions赚了50万美元。ARR增长曲线直线上升,而这没有投入任何人力,没有客服支持,有1800个客服工单六个月无人回复。它自己就这么运行着。这时我们不得不认真考虑,想清楚我们到底想做什么。
原本对Captions的愿景和ML、AI相关的思考让我们重新兴奋起来。所有我职业生涯中所做的一切都融合在这个项目中。
Michael mcnano:这并不是社交网络必然失败,而是你们有另一个明显更成功的项目。那么你们是如何过渡的呢?所有人都签署了社交应用的计划,如何告诉投资者和团队?
Gaurav Misra:告诉团队有点难,但我们有合适的团队,当时只有四个人,大家都愿意接受新任务,进行调整和转变。但这还是有些挫败感,毕竟我们刚刚筹集了一轮A轮资金,大家对我们的计划很兴奋。但讨论了利弊之后,我们意识到很多公司还在努力解决变现问题,甚至上市公司也是如此。
我们越来越兴奋于视频领域,重新回到了我们真正关心的视频和机器学习。告诉投资者的过程中,他们向我们咨询了各种问题,有些投资者可能认为这仍然可能演变成社交网络,至少在最初是这样,我们也需要证明这一商业模式是否可行。但一旦开始转型,增长轨迹几乎立即显著变化,所有人就迅速支持了。
从头开始构建基于文本的视频编辑器
Michael mcnano:你们完全投身于视频应用Captions,最初只是做字幕转录工具,接下来你们开始思考其他可以解决的问题了吗?
Gaurav Misra:当时视频编辑应用市场上几乎没有文本编辑功能存在。我们看到这是一个自然的过渡,如何让交互式视频更易于编辑。我们做的第一件事是基于文字进行编辑,因为你在整段视频中都在说话,现在你甚至不需要听,只需找到正确的词,添加图片,切掉特定词的部分,或者做任何你想做的事。
在手机上,界面简单易用,低复杂度,按钮少。这是一个巨大的渐进展示和设计练习,让界面在需要时才显示相关功能,而不是一直展示,尤其是对于初学者。有限、简单易用的功能在需要时才出现。这与市面上的其他应用完全不同。产品市场契合点就在这里,基于文字进行视频编辑的方式开始真正快速发展。这显著改变了增长轨迹,是个巨大的差别。
是去年的七月发布版让产品产生了很大的转变,包含所有基于文字编辑的内容。你基本上可以只用文字来完成所有的视频编辑。
Michael mcnano:这个有意思的地方在于,有时你觉得你已经找到了产品市场契合点,但实际上你可能还在推着巨石上山。然而,当你跨越那个门槛,比如在这个七月发布版中,看到一切开始顺滑下来,你会觉得这才是真正的市场契合。那么,你做了基于文字的视频编辑,然后还添加了哪些功能?现在Captions应用有这么多功能,你们是如何实现这些的?
Gaurav Misra:我们最终的目标是帮助大家制作视频。我们从第一性原理出发,考虑如何提供最佳的用户体验,特别是针对那些初学者,而不是已经有两年经验的专业人士,我们认为这也是个很大的市场。
我们设计了整个应用,从创意生成、脚本撰写、相机相关功能到编辑功能和导出的一系列创新。我们的目标是让这个过程尽可能简单,让人们来这里制作视频,并尽可能提供他们需要的所有功能。随着时间的推移,人们会告诉我们他们认为应该添加哪些功能,甚至会告诉我们不应该做什么。
我们将产品路线图分为两类:公共路线图和秘密路线图。公共路线图涵盖任何人提出的需求,哪怕只提出一次。显而易见的一些操作性需求,比如HDR导出或者撤销和重做的功能,这些都是工作流程中必备的,我们需要优先处理。
另一部分是秘密路线图,这部分主要是我们自己设想的创新功能,我们认为这些功能会在某种程度上改变用户行为。例如,当用户尝试这种新方法后,他们再也不会回到旧方法。这是我们使用AI的具体方式,帮助用户解决复杂问题。
Michael mcnano:你们推出的哪些功能属于这种改变用户行为的功能?
Gaurav Misra:眼神接触功能是其中一个很好的例子。我们最初花了很多时间在提词器技术上,帮助用户录制视频。这很难,因为你得记住台词,重复录制,甚至要看着镜头建立与观众的信任。
因此我们推出了提词器,并引入了基于AI的提词功能,比如根据你的讲话自动调整节奏。但人们还是觉得自己在读稿,看起来像在阅读。我们尝试把提词器移到相机下面,但还是觉得像在读稿。所以我们开发了眼神接触功能,这个功能一推出立刻就大受欢迎。我们花了一个或两个月的时间来完成测试,至今仍很受欢迎,人们觉得这个功能非常酷。
有了这个工具你可以把稿子放在旁边,很多人喜欢从纸上读。你可以这样做,完全按自己的方式来。这是个工作流程的改变,很难有其他公司能够竞争。如果我们在提词器业务上竞争,每个人都会互相抄袭,而这种功能改变了整个游戏规则,你不再需要提词器了。
超越编辑器 - 推出AI驱动的 Lipdub
Michael mcnano:你们最近还宣布了lip dub功能,可以谈谈这个吗?
Gaurav Misra:这是我们一段时间以来一直在研究的技术。我们在开发眼神接触功能时就开始研究lip dub技术。当时的研究还很有限,但我们从那时起开始训练初始模型,随着时间的推移,我们不断改进和重建这些模型,最终达到了今天的水平。
lip dub是一种技术,能够将视频转换为不同语言,并让它看起来像你在说另一种语言。我对此感到非常兴奋,因为我自己喜欢语言和学习语言。从个人背景来看,这太神奇了,能看到自己说完全不同的语言。而且这个应用有很多潜在用途,比如创作者、电影等国家都能用到。
我们对这个应用非常兴奋,而且这个应用总体上对世界是个正面的影响,能让人们更好的产生连接。这种技术的滥用潜力也有限。
Michael mcnano:人们用这个功能做什么?是创作者使用更多,还是用于交流,比如人们相互沟通?
Gaurav Misra:我们看到两者都有,但交流方面的使用可能超过预期。比如人们给不说同一种语言的祖父母发送消息,或者给来自不同国家的伴侣发送信息,甚至惊喜他们。
我们听到用户的反馈,比如他们通过Intercom联系我们,还在各种地方看到评论。
Michael mcnano:过去一年左右的AI技术进步在多大程度上促成了这一切的可能?显然,AI技术爆发了,感觉第一个大时刻是DALL-E,然后是ChatGPT。这些在你们今天能做到的事情上起了多大作用?
Gaurav Misra:真的很多。我想在那之前几乎不可能实现这一切。想象一下,核心翻译技术也进步了很多。我们用GPT-4来处理很多核心翻译工作,实际的语言到语言翻译。它在处理细致入微的翻译上好多了。很多人不明白,翻译实际上不像谷歌翻译那样简单。尤其是在视频中,根据我使用的男性或女性代词,或者我的身份认同,不同语言的句子结构会完全不同。谷歌翻译会遗漏这些细节,谷歌翻译总是选择男性代词。
你不能告诉谷歌翻译用特定的细微差别来翻译,某些语言中有敬语级别,比如印地语,你可以以三种不同的敬语级别与人交谈。这些上下文谷歌翻译处理不了,但GPT可以,所以在翻译相关的用例上完全改变了游戏规则,而且它的准确性也高多了。它在各种翻译中表现都很好,包括俚语和日常语言。我们甚至有一个功能可以让你听起来像个TikTok网红,所有这些都离不开最近的技术进步。
再说我们的模型训练,使用一年前的A100,需要3到4周的时间训练这些模型。但用H100,只需要不到一周,大概5天左右。这是个巨大的飞跃。数据越多,使用新一代GPU训练的模型越好,因为我们能更快完成每个周期。如果发现问题,我们可以更快地解决问题。这些都让之前无法实现的事情成为可能。
5年后视频编辑会是什么样子?
Michael mcnano:展望未来,五年后的视频编辑或创作会是什么样子?
Gaurav Misra:它将完全不同于今天。肯定会有不同层次的用户,有专业人士也有普通人。
随着技术的演进,很多公司正在研究文本生成视频,这无疑会变得有趣。我们看到很多人将这些文本生成的视频带入我们的平台进行编辑。我认为这样的案例在未来会大火。
同样,基于文本的视频编辑,或者基于提示的编辑,也许是未来的一部分。可以肯定的是,人们将能够以几乎任何方式修改视频,甚至可能从零生成视频,而无需录制。
Michael mcnano:除了视频,还有哪些你个人觉得现在非常有趣的AI产品或应用?
Gaurav Misra:不想显得无聊,但我真的非常喜欢GPT。我认为它仅仅触及了其潜力的表面。最近听说它的估值大约是800亿美元,我觉得太低了,应该达到数万亿。
GPT可以做几乎所有事情,这很有趣,因为我父亲开始给邻里发写得很不错的邮件,大家都在问他怎么做到的。这显示了GPT的强大,是非常非常强大的工具。
Captions.AI 的招聘信息
Michael mcnano:人们可以在哪里了解更多关于Captions的信息?你们在招聘吗?
Gaurav Misra:我们几乎在所有岗位都在招聘。我们非常兴奋在解决一些最有趣的问题,这不仅是在尖端科技领域,比如AI和ML训练、操作化,还有图形和GPU技术。这个领域的现状是过去十年里最有趣的,每天每周都有新进展,真的很有趣。我们在纽约招聘几乎所有岗位,包括市场、工程、设计等。你可以在Captions.ai了解更多信息。
原视频:Gaurav Misra: Building an AI-Powered Creative Studio
https://www.youtube.com/watch?v=_E8jLTtfZzc&list=PLXW6zY9x-gk1oPyjZ_qBCDEYKTbPpGa8S&index=6
Albatross Venture
信天创投数字经济生态圈
点击关键词阅读详情
通用型
法大大|链上科技|司库立方|缔联科技|海蜂法务|JINGdigital|九科信息|趣云数据|巧思科技|心知科技|爱设计&AiPPT.cn|
垂直型
美味不用等|手回集团|飞榴科技|十六进制|4KMILES|领骏科技|九章数据|豆沙包科技|劢微机器人|迈思科技|千巡科技|
信天创投感谢您关注!
信天创投成立于2014年,立足于产业,聚焦数字化、绿色化的早期科技投资。目前基金管理规模为10亿人民币,投资项目包括法大大、兰度生物、手回集团、司库立方、劢微机器人等。
微信号:avcapital
BP通道:Bp@avcapital.cn