Descript创始人谈AI内容创作的未来
创始人
2024-10-28 21:28:59
0

本文是De首席执行官兼创始人Andrew Mason与Lightspeed 合伙人Michael Mignano一起讨论AI内容创作未来的Youtube视频翻译版。De是一个强大的AI音视频编辑平台,具有转录、屏幕录制、剪辑创建和AI语音等功能,这款极受欢迎的产品拥有一众播客用户。Michael和Andrew谈论了De作为专为播客和视频创作者设计的AI产品的演变、合成内容世界的发展探索,以及De的新功能,包括De Rooms和Underlord。Andrew谈到了由OpenAI Startup Fund领投的5000万美元C轮融资,ChatGPT的早期版本充分激发了人们的信心,使得De可以简化媒体制作难度。同时也聊到了AI在媒体创作中的未来。以下为谈论内容。

附产品介绍视频,视频来源:https://www.youtube.com/watch?v=p6BvO-9EoCQ

Michael:对于观众来说,这次访谈很特别的一点是,我们是在Deor Rooms上进行的,也就是你们用于捕捉播客视频和采访的解决方案对吗?

Andrew:是的,这是我们第三四次尝试这种解决方案了,不过我觉得这次是最终解决方案。我们刚刚发布了它,并将在接下来的几周内逐步推广。

Michael:太棒了。我第一个注意到的就是它的界面是白色的,我非常喜欢。很多其他产品的界面都是深色的,实际上会把人的脸显得很暗。这是我对Rooms产品的第一印象。它确实有深色模式供那些更喜欢深色界面的人使用,但De的用户界面是明亮的。由于我对播客的热爱和经验,我对这个产品非常喜欢。

但我觉得De一直走在为播客提供极致体验同时也为其他用途提供优质服务的微妙平衡之间。你会想把De定义成一个播客工具吗?

Andrew:我们把De视为一个多领域的创作工具。人们经常试图把我们归类为播客工具或者视频工具。我们显然是从音频播客起步的,但是我们的工具分类方式有些不同。我们认为你要么是在制作由语音驱动的叙事媒体,要么是在制作音乐。应该有一个工具来制作叙事媒体,不应该局限于音视频或者无脚本的播客和有脚本的的视频。

Michael:接着我们来谈谈远程录制,我们在Rooms里做的事情可以说是现代创作工具所需的基本功能,对吗?

Andrew:播客是我们最大的用例之一,这是我们的强项,很多人主要是使用De来制作播客,但我们的希望是打造一个能涵盖音频和视频创作全栈式工具。将其细分为各种类别可能会比较棘手,而且这不应该是用户要考虑的事情。我们只是试图做一个适用于一切的工具。

Michael:我是在制作Anchor和Spotify时听说De的,因为很多人告诉我在用它做各种各样的事情。你提到播客仍然是最大的用例之一,那么,其他形式的叙事媒体有哪些已经成为最大的用例呢?

Andrew:总体来说,主要是播客、视频内容和剪辑。剪辑就是把较长的内容剪辑成亮点,并将其作为专业内容分发到社交媒体上。视频内容主要是企业为了内容营销而制作的视频。

图:创建剪辑功能展示

Michael:还有创作者们为他们的YouTube频道甚至短视频制作视频。剪辑在短视频领域现在变得很疯狂。我觉得现在全世界有一个趋势,就是在面向公众消费者的内容领域,剪辑有时候比长格式内容更重要。你们感觉呢?

Andrew:这确实是De的一个非常受欢迎的用法。让我惊讶的是,人们使用De和其他类似工具来加载视频仅仅用于添加字幕播放器等小功能。现在我们正经历一个有趣的阶段,我认为有些人使用工具仅仅是为了非常小的能力点,而这些功能点迟早会被整合到一起。

Michael:就目前来看添加字幕可能是他们订阅的主要功能。比如用户在其他地方完成了视频制作,然后在这里添加字幕。你认为用户付费的功能未来会被整合成一套完整的系统吗?

Andrew:我认为工具会被整合,每人每月支付20美元只为了给视频添加字幕层的时代会逐渐消失。

类似于苹果和谷歌在他们操作系统内嵌的工具中加入越来越多的AI编辑功能,我认为这是一个很好的想法。许多基础功能可能会被苹果和谷歌的工作流程所吸收。这是我们自七年前开始De以来观察到的现象。我相信你在Anchor上也看到了这一点,某些重要的功能会有爆发式增长然而未必能够作为单独的业务持续下去,最终很有可能会被整合成一项普通功能。我认为创业者的挑战在于识别哪些是值得投入或者继续保留的功能。

Michael:随着生成式AI的出现以及各种小工具的爆炸式增长,这个挑战被放大了十倍。剪辑一定程度上已经成为了一种主要的内容呈现形式。那么平台本身需要做出哪些改变调整,才能更好地支持剪辑?

Andrew:现在剪辑就好像一种黑科技一样,它能够促使用户重新去关注长格式的内容。未来这些功能可以在平台上进行整合,这样就能同时支持长格式内容和短格式内容了,就如同一个内容单元一样。

Michael:当你在构建视频创作工具时,如何划分你重点关注的视频类别的价值可持续,并且不太可能被平台整合代替?

Andrew:类似于一次批量创建1000个视频用于A/B测试广告这类事情,对我们来说不太可能成为一个有持续竞争优势的领域。我们重点关注的是那些需要精心雕琢的视频类别。例如,企业在YouTube页面上的视频、创作者的视频,这些视频的制作都有一定程度的精心选择和手工制作的成分,AI很难很快全面取代这些类型的工作。确实有一些类别的视频,生成式AI能够驱动这些视频的创建,尤其是像ppt等主要以文档或幻灯片形式存在的视频内容。但很多当下制作的视频需要人的介入,这是我们的强项所在。

今天早上我看了一段视频,是Casey Neistat关于布鲁克林一道消防栓变成了鱼塘的视频。你看过吗?非常棒。人类的接触感是无可取代的,我在看的时候觉得这段视频只有Casey而非机器能做出来。未来优质内容几乎会变得越来越优质,最好的内容会被认为非常出色,可能有一个界限,低于这个界限的内容将被AI商品化。我很难预测未来将会是什么样的情况。25年前,大多数人不会想到有一天他们会听AI生成的有声书,因为很难想象这种感觉会好到足以越过“恐怖谷”。但现在我们基本上生活在这样的世界里,大部分时间甚至不知道自己在听的是合成的东西。

AI虚拟人的发展也是类似的。但是相比较而言,AI语音更加实用,可以通过听觉传递内容。但AI虚拟人实际上并没有传递信息,它只是视频的点缀,信息传递主要来自语音。因此,使用合成的虚拟人感觉像是一种试图制造连接和真实性的方式。一旦它足够好,人们是否会产生连接感真的很难预测。我们不希望有那种明明不是真正的人与人之间的联系,却硬要营造出来的感觉。一切都是合成的,不需要虚假的头像,只播放语音。

Michael:看到合成语音、合成视频、合成图像的发展如此之快真的很激动人心。AI催化了De的发展,这一切都始于2018年前后的Lyrebird。而现在你们有了Underlord,还有各种不同的AI功能。我想知道哪些功能对创作内容或De用户的内容输出产生了最大的影响?

Andrew:我们C轮融资时获得了OpenAI的投资。大约是在ChatGPT和 GPT-4发布前一两个月,当我们正在进行融资时,山姆·阿尔特曼给我们展示了这个项目。他说:“我要给你们访问这个项目的权限,很少人见过,但是见过的每个人都完全改变了他们的产品路线图,因为这是非常令人兴奋的技术。”所以我们的第一个版本是一个Slack机器人,基本上就是 ChatGPT。毫无疑问当我们使用它时,是那种让你永远不会忘记的事情,就像人类登月或9·11事件一样,不知道哪个类比更加合适。我们和其他人一样赶紧思考:我们该如何利用这项技术?这个“降临地球的外星人”将为我们提供什么?我们能做很多事情,重要的是要集中于那些最能推动创新的AI技术。

我们最早的愿景是能重新发明视频的交互范式,使其像文字处理器这样简单直观,无需额外的认知负担,你就真正解锁了这个媒介的潜力。实现这个目标非常困难,你必须考虑:视频是一个二维的工具,它具有时间和层次,而我们必须在一维的空间中表达这些并使其感觉自然。

很多视频工具都是传统的产品设计和工程工作方式。De本质上是一个由我们试图证明并实现技术支持的设计理念。所有基于生成式AI的功能都非常具有变革性,但是我们产品核心任务始终是实现本质的目标。

Michael:你能不能举些例子,说明自ChatGPT以来,实现音视频文本可编辑这个核心愿景方面有哪些改变呢?尤其是在语音转文字方面,每个 GPT的版本是如何影响这个过程的呢?以及其他一些工具比如Sora或通用视频,它们是如何与核心目标联系起来的呢?

Andrew:在ChatGPT出现之前,我们最受欢迎的功能之一是填充词删除功能。用户录制一些内容然后点击按钮,它会移除所有的“嗯”、“啊”和“喜欢”等词。我们还计划进一步扩展这一功能。如果有人进行剧本录制,你可以移除重复的部分。如果没有进行剧本录制,你可以移除漫无目的的部分或闲聊。

当ChatGPT出现时,仿佛是为我们准备的用于自动编辑的AI自助餐,加速了我们早已计划要做的事情。

我们现在正在推进在视觉层面类似于自动编辑的产品。比如对视频进行故事板创作,将其分成不同的镜头,然后用内容填充这些镜头。很多工具已经可以做到这一点,但没有一个做得很好。说明这仍然是一个相对困难的问题,因为大多数模型只在分析文字,没有看屏幕上的图像。随着AI技术发展走向多模态,产品质量会提高。我们内部称这种现象为“装饰”。以视频为例,大部分信息实际上是通过音频传输的,视觉元素只是为了保持观众的参与和兴趣。

图:删除填充词功能展示

但“装饰”的创造还没有很好地解决。多模态的内容非常有趣,每当我们看到GPT-4或更多公司在展示多模态模型时,团队会触发大量的新想法。这些模型全面提升了产品质量。如果你只用文本而不听、不看像素,你只能讲述一半的故事。如果你可以听到语调,听到音质等,这样就能传递出更多信息。

总结一下,我们可以把ChatGPT的每一次迭代和其他工具的创新视为我们核心任务的加速器。它们帮助我们更好地实现文本编辑音视频的愿景,同时尝试在视觉层面进行自动编辑和创作,为我们的用户提供更创新、更直观的工具。

Michael:GPT的进步确实扩大了产品的使用范围。在AI不断进步的情况下,用户界面是如何逐渐被简化甚至削减,以及工具与人工智能助手在未来会以怎样的方式进行交互,我们可以好好地深入探讨一番。

Andrew:当生成式AI刚出现时,有人相信未来的UI可能仅仅是一个文本输入框或语音输入。但我不认为事情会这么简单。假如你是一个需要和编辑合作的作家,你不会只是口述想要编辑的内容,反而会自己动手编辑或在建议模式下做标注,语音有时候很难传达出用户想要的那种控制和精细程度。我们最大的不同之处在于,我们专注于重新发明工具,使之成为一个强大的基础工具,比如功能强大的文字处理器。

Michael:换个问法,AI在何时会开始驱动UI,减少人为操作并根据用户的需求动态调整界面和体验呢?我们正逐渐迈向一个可以根据需求生成软件界面的世界。对于De这样一个多模态的工具你是否考虑过这种情况呢?

Andrew:从生产角度来看我确实看到过一些雏形,比如让AI实时将草图转化为产品。现有的工具如Devin或Magic,可以自动编码,这些都表明软件将变得更加灵活可拓展。我认为对于De这样的产品开启了更多可能性。

或许未来界面会根据当前情况动态调整输入面板。但这会可能会比较难因为人们很重视工具的可预测性和位置的固定。但可以想象一些其他设计模式,比如实时分析音频和视频并提出主动建议,这确实很有趣。

谈到Underlord,这是我们的AI助手,因为没有人愿意接受AI的统治,但有一个助手进行辅助似乎很不错。Underlord是De中的一个侧面板,包含了各种可以委托的任务,比如帮你删除重复段落、改善音质、添加章节或者根据视频生成节目摘要或博文等。

你提到客户对这些功能的接受度,不同功能的接受程度确实不同。比如,生成博文或章节这些简单的任务用户更愿意使用,而自动编辑功能有些人喜欢,有些人则未必,这在一定程度上取决于编辑的效果是否令人满意,所以多模态技术在这方面会非常有帮助。

Michael:用户总体上对这些AI功能的信任度如何?他们对于使用AI处理如此创意和个性化的任务是否依然持有犹豫态度?

Andrew:当我们在开发新功能特别是AI功能并考虑将其整合到产品中时,我们会考虑如何使这些功能可控且易用。简单来说,我们在构建这些功能时的设想的是,为人类用户设计的拨号和控制旋钮,然后我们设计API让AI去操控这些旋钮。

这个设计理念的核心在于,AI的操作都是人类用户可以做的事,如果他们愿意,他们可以撤销AI的操作自己进行微调。AI仅仅是用来控制旋钮运行的工具。因此,人类和AI都能使用这些旋钮,AI只是控制人类可以操作的部分。

这种方式与许多现有的视频创作解决方案不同。其他解决方案更像是添加一个脚本就能生成一个完整的视频,而这类视频通常质量不高,用户也无法调节,使体验显得较差。我们尝试通过不同的方式在保持用户的信任基础上推出功能。用户可以自愿尝试,喜欢就继续用,不喜欢就用人类版的功能。

Michael:这种方法非常聪明,实际上有助于消除用户对AI功能的信任障碍。说到Detour,这是一个音频城市导览项目,是在De之前的项目,非常酷。我想知道,你有没有想过如果有现在的AI技术,你会如何重新设计这个项目?

Andrew:显然生成式AI给Detour带来了新的机会。Detour的理念是制作高质量的音频导览,由最了解这座城市的人解说。失败的原因在于我们无法快速进行内容制作:每个导览制作需要6个月,成本在2万到3万美元之间,再加上苹果抽取30%的份额,即使它是一个特别的产品商业模式也很难持续。

基本理念是,音频导览通常乏味干燥,而我们希望通过AR使其更具电影感和沉浸感。完全生成式的导览能实时响应用户的位置变化,同时能够满足人们的好奇心和对地点的信息需求,这种产品可能会比De应用更加广泛,因为它更易扩展。

你提到一个有趣的观点,现在一些AI模型越来越好,比如11 Labs正在为各种人物提供语音授权,想象你在一个城市漫步时,有某个著名的人物在讲述他曾居住过的建筑物的故事,这种体验会非常吸引人。此外,随着 AirPods的普及,这种体验也变得更加可行,用户可以更随意地进行导览。

Michael:关于Groupon,许多现在存在的技术在当时并不存在。你觉得AI是否可以以某种方式改进这个产品呢?

Andrew:虽然听起来让人难以接受,但Groupon并不是真正的技术公司,它更像是加了技术光环的社区,每天发布一个很酷的活动。随着时间推移,我们确实做了一些个性化推荐并尝试成为链接本地商业的系统平台,AI技术可能会对我们的个性化推荐和运营效率产生重大影响。

图:团购网站Groupon

Michael:那么你想如何在产品中使用AI呢?

Andrew:首先,最明显的一个应用是个性化定制:利用机器学习来个性化地发现用户感兴趣的东西,这在之前可能无法实现。但更好的想法借鉴一个叫Arcade的产品:用生成式AI描述物品,然后它真正制作出实物。比如制作珠宝。

Michael:我在想,是否可以利用生成式AI进行大规模多变量测试,看看人们会购买什么?一旦达到特定的转化率,比如当有一定人数转化为实际销售时,就可以去生产该事件或产品。基本上就是制作一些概念产品,然后如果有100人表示感兴趣,你就去生产它们。

Andrew:这确实很有趣。不过Groupon的第一版本非常简单,每天只有一个活动推荐没有多个选择,它强调的是发现和眼前突然出现的推荐,而不是个性化算法推荐的内容。它的魅力在于,如果你刷到一个感官剥夺舱的体验机会,以前从未想过要做这样的事情,但现在它有50%的折扣,此刻就是最好的体验时机,因为不知道未来还有没有机会。这种体验创造了尝试新事物的紧迫感。

市场被众多克隆产品所破坏。有四五十个类似Groupon的每日优惠活动出现,使得市场变得极为不稳定,有很多不同的选择。如果某个网站的这类活动消失了,可能在其他网站的某一天又会重新出现。比如,每天你都可能在不同的地方获得一个修脚的优惠。

我确实认为Groupon可以有一个很酷的版本,仍然专注于每日一个新的发现。如果不依靠风投实现的业务规模可能有限,但仍然可以是一个不错的生意。我不确定我会如何利用AI来实现这一点。

Michael:除了De,你最喜欢的AI产品或功能是什么?

Andrew:我一直在用一个叫Granola的笔记工具,和其他类似的笔记助手差不多,但它工作方式有些不同,记录你电脑的音频并在一个类似文档编辑器的界面中记笔记并生成大纲。它做的非常好的一点是:用Granola进行通话时实时记笔记,通话结束后再增加细节。大纲包括重要的要点,然后就可以深入查看实际的逐字记录。我也喜欢使用精通产品的人制作的产品,他们热爱产品并且知道如何制作优秀的产品。

Michael:完全同意,我也很喜欢。为了透明起见,我是这家公司的投资者,所以感谢你提到它。这次对话真是太愉快了,感谢你的参与。

Andrew:谢谢Michael。

翻译:AI Venture Studio

链接:https://www.youtube.com/watch?v=ADCWalQf2AE

Albatross Venture

信天创投数字经济生态圈

点击关键词阅读详情

通用型

|链上科技 | | | || | | |

垂直型

| | | | ||||| | |

信天创投感谢您关注!

信天创投成立于2014年,立足于产业,聚焦数字化、绿色化的早期科技投资。目前基金管理规模为10亿人民币,投资项目包括法大大、兰度生物、手回集团、司库立方、劢微机器人等。

微信号:avcapital

BP通道:Bp@avcapital.cn

相关内容

引入AI技术为研发按下“加...
□ 本报记者 李 刚 “返岗之前,我首先从北京赶到上海,与两位国内...
2025-03-17 08:13:20
数字孪生黄河加速迈入AI时...
本报讯(记者 谭勇 通讯员 黄梦思)基于微调的DeepSeek大模...
2025-03-17 08:11:47
如何查找CentOS系统的...
CentOS系统网关配置与查询指南 在Linux服务器管理中,网关...
2025-03-17 06:12:08
转发周知!1图读懂AI生成...
随着人工智能技术的发展,人工智能生成合成内容日益逼真,网络传播内容...
2025-03-16 23:13:14
年度活跃买家数突破1亿,阿...
钛媒体App 3月16日消息,3月16日消息,阿里巴巴集团旗下源头...
2025-03-16 23:12:05
网警提醒:甄别AI生成网络...
警惕AI生成网络谣言, 切勿让“神器”变“凶器” AI技术正在逐...
2025-03-16 22:12:48

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...
2024年度中国银行业发展报告... 21世纪经济报道 记者李愿 北京报道 10月19日,中国银行业协会在2024金融街论坛年会·金融街之...