AI能“生”万物吗?
创始人
2024-08-28 08:45:02
0

Sora诞生半年后,它的“挑战者”纷至沓来,连“等不及”又“追不上”的英伟达也亲自下场。

迄今为止,Sora依旧只释放小样、未开放使用,而快手可灵、智谱清影、Vidu已率先打开体验大门,走向大众。

尽管“一键生成”的初体验称不上完美,却搅动了内容产业的一池春水。身边不少微短剧、广告、动画已经开始用上AI这个“效率搭子”。人工智能生成技术,从前不久的文生图,到如今的文生视频、图生视频、视频生成视频,“AIGC宇宙”不断扩张。

AI,是华夏神话里的“神笔马良”吗?它能让多少想象力、创造力活起来、动起来?

“文生视频”,如何“生”

“文生视频是一颗重磅炸弹。”半年来,从大厂到独角兽的Sora复现潮无一不在说明产业界对“生成”的重视。

视频生成,简言之是通过生成式人工智能技术,将文本、图片等多模态输入,转化为视频信号。

当前,视频生成的技术路线主要有两种。一种是扩散模型,其中又分为两类,一类是基于卷积神经网络的扩散模型,如Meta的EmuVideo、腾讯等推出的VideoCrafter;一类是基于Transformer架构的扩散模型,如OpenAI的Sora、快手的可灵AI、生数科技的Vidu等。另一种是自回归路线,如谷歌的VideoPoet、Phenaki等。

2024年7月26日,中国科技企业智谱AI面向全球用户发布其自主研发的人工智能生成视频模型清影(Ying)。图为用户登录界面

目前,基于Transformer架构的扩散模型是视频生成模型的主流选择,也称“DiT”(Di为Diffusion缩写,T为Transformer缩写)。

文本“扩散”为视频?“扩散在此指一种建模方式。”北京大学信息工程学院助理教授、博士生导师袁粒举了一个生动例子——

米开朗琪罗在凿刻著名的大卫雕像时,说过这样一句话:雕塑本来就在石头里,我只是把不要的部分去掉。“这句话很形象地形容了‘扩散’这一建模过程。原始的纯噪声视频好比未经雕琢的石块。如何敲打这个大石块,敲除多余的部分,直到把它敲成轮廓清晰的‘大卫’,这样的方式就是‘扩散’。”袁粒说。

袁粒进一步解释:“Transformer就是一个神经网络,遵从‘规模规则’,执行敲石块的过程。它能处理输入的时空信息,通过理解其内部复杂关系来理解现实世界,使模型具备推理能力,既能捕捉视频帧之间的细微联系,也能确保视觉上的连贯、时间上的流畅。”

“效率搭子”,有多快

一只憨态可掬的北极熊被闹钟叫醒,背起行囊,乘坐直升机、转乘高铁、换乘出租车、登上轮船,跨越山河湖海、历尽艰难险阻,终于到达南极,与企鹅相会……

这部时长1分半、名为《一路向南》的动画短片,由视频生成模型Vidu完成。原本1个月的工作量,有了AI这个“效率搭子”的加入,仅用1周时间就制作出精良作品——效率是过去的4倍。

这让北京电影节AIGC短片单元最佳影片得主、Ainimate Lab AI负责人陈刘芳心生感慨:视频生成技术,让高水平动画不再是大厂才敢玩的“烧钱游戏”。

AI动画《一路向南》的创作团队仅由3人构成:一名导演、一名故事版艺术家、一名AIGC技术应用专家。而以传统流程制作的话,需要20人。算下来,仅制作成本就降低90%以上。

正如快手视觉生成和互动中心负责人万鹏飞所言,视频生成的本质是从目标分布中采样计算得到像素。这种方式能以更低的成本,达到更高的内容自由度。

进入Vidu的视频生成页面,笔者也体验了一把“一键生成”的自由。上传一张照片设置为“起始帧”或作为“参考的人物角色”,在对话框里输入想要生成的场景的文字描绘,点击“生成”,一条灵动精彩的短视频就自动生成了。从进入页面到下载完毕,不足1分钟。

将一张图片发给国产视频大模型Vidu,一段动画视频随即自动生成。图为视频截图

“‘人人成为设计师’‘人人成为导演’的时代将会到来,就像当年‘人人拥有麦克风’一般。”智谱AI首席执行官张鹏说。

“世界模拟器”,有戏吗

视频生成,颠覆的仅仅是内容产业吗?这显然不是OpenAI的初衷。“生成视频”只是一道“开胃菜”。

Sora诞生之前,OpenAI并未将其定位为AIGC的实现工具,而是复刻物理世界的“容器”——世界模拟器。这一容器里,运行着真实世界的物理规律、环境行为、交互逻辑,恰似《黑客帝国》描绘的虚拟世界,冲击着我们的想象与感官。

然而,物理世界是三维的,目前的Sora等模型还只是基于二维运作,并非真实物理引擎,也就谈不到深层次的物理世界模拟。

“多年来,我一直表示,‘看到’世界即为‘理解’世界。但是现在我愿意将这个概念推进一步,‘看到’不仅仅是为了‘理解’,而是为了‘做到’。”斯坦福大学讲席教授李飞飞公开表示,空间智能的底线是将“看到”和“做到”联系在一起,有一天,AI将会做到这一点。

当“看到”还不等于“做到”时,人工智能的创造就不能停。最近,又有新的技术路线出现了。不同路线之间你追我赶,共同向前,推进这个由向量与模型构造的智能世界。

未来的“世界观”,依旧是一道尚未揭晓的谜题。正如美国物理学家费曼所说:“我不能创造一个我不理解的世界。”但这并不意味着,理解了一个世界,就一定能够创造出一个世界。

此刻,依旧是颠覆到来的前夜。这就是为什么当我们向技术探索者抛出关于未来的问题时,会得到截然不同的答案。也许“不确定”,正是这个时代的幸事。

(半月谈)

相关内容

全球首个 AI 智能体安全...
IT之家 7 月 14 日消息,据蚂蚁技术消息,世界数字科学院(W...
2025-07-14 20:42:37
大连工业大学隐私视频泄露女...
7月14日,一则《大连市公安局中山区分局公民死亡证明书》在网络流传...
2025-07-14 19:13:04
智源宣布全面开源RoboB...
7月14日,智源研究院宣布,具身大脑RoboBrain 2.0 3...
2025-07-14 14:41:41
患癌归来的朱雨玲续写神话,...
北京时间7月14日,WTT美国大满贯女单决赛,中国澳门队朱雨玲4:...
2025-07-14 14:11:48
别跟LLM太交心!斯坦福新...
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 小心!AI的...
2025-07-13 15:43:57
原创 ...
文/杨剑勇 英伟达再次创出世界纪录,市值突破4万亿美元大关,换算人...
2025-07-13 15:43:18

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...