这段时间短视频平台最流行的内容就是“开局一张图,后续全靠AI编”的文生视频,国外有LumaAI,国内有快手可灵,但无一例外的,这些文生视频的吸睛点并不在于它们生成的画面有多真实,而在于它的脑洞有多大,前一秒还很正常的视频,下一个镜头就直接变成了风马牛不相及的内容,像极了误食见手青的老铁,也像极了梦境中不清醒的你,那为什么AI会生成这些乱七八糟的内容呢?
01
AI已成数据污染的重灾区
人工智能的“智能”,本质上就是对人类知识体系的总结,所以它所回答的内容也一定来自已有的知识,而这些知识的载体可能是文字、图片、视频、音频等等,这也是为什么人工智能需要训练素材的原因,比如我们熟悉的xxx-7B大模型,可以简单粗暴地理解为它的回答是基于70亿训练素材而来。
那么这时候问题来了,这些训练素材来自哪里呢?答案就是十分成熟的互联网搜索引擎。
比如我们在百度搜索“电脑报是什么?”弹出来的第一个不再是官网或广告,而是一段AI生成的总结,显然,这个回答的数据根源就来自搜索得到的各种资料,这也就意味着,AI生成的内容准确性高低,直接取决于训练数据的质量,比如百度弹出的这个回答就有自相矛盾的地方,前面说1992年创刊本来是对的,但后面又说1999年开始出版发行……
AI回答常常是准度不够,字数来凑,需要用户自行甄别
那么现阶段的AI开发,有没有特别注重训练素材呢?我的答案是并没有,有些AI的回答引用来源甚至可能是另一个AI,相当于让宝骏的师傅来修宝马,然后还写进了维修手册……
既然AI引用的信息来源于网络,那么AI生成的信息当然也可以发布到网络上,从而被其他AI引用,这意味着在AI大模型爆棚的今天,AI之间的数据套娃已经十分严重,很多时候我们已经无法得知真实的原始信息来自何处。
GPT-4o坚定地认为9.11大于9.9
前几天还有一个引发了大量争议的AI测试——9.9和9.11这两个数字谁更大?根据我们的测试,绝大多数AI面对这个问题都给出了错误的答案,甚至连这两个数相减都能给出错误答案。
有的AI一开始答对了,但只需要再问一句“你确定?”它就会光速滑跪并给出错误的答案。当然,也不是所有AI都如此,还是有部分AI可以正确回答,这其实就体现出了各家在训练参数优化上的差距。
02
算法限制长视频合理生成
AI文生视频其实并不是近期才有的,甚至Sora都算不上先驱,早在去年就有相关视频火爆全网了,比如经典的“威尔史密斯吃面”,虽然在普通人看来,吃面是很简单的一件事情,但在AI眼中却犯了难:使用筷子的动作是否正确、嘴部咀嚼动作的连贯性、面条能否随着吞咽动作的消失,都十分具有挑战性,而且是一步错,步步错。
现在的文生视频都是基于扩散模型模式而来,而扩散模型在图片生成领域可谓“风生水起”,知名的Stable Diffusion就是基于此技术。但与单帧图片相比,视频数据更难收集,视频中的时间信息和动态信息建模难度更大,数据标注的成本也非常高,因此,现在的文生视频模型多是在文生图模型基础上进行时空建模来实现。
但由于每两帧之间的时空建模都是独立进行的,极易出现画面不连贯的现象:前一帧还是中国人的脸,而下一帧开始就逐渐变成外国人……所以AI长视频往往是一开始还相对自然,后面就开始“放飞自我”,什么“老太太变摩托车骑手然后又变成宇航员”这种操作可谓层出不穷,甚至会出现严重不符合物理、生物规律的情况。
当然,也有一些比较聪明的文生视频算法会尽量避免AI过度脑补,比如快手的可灵在生成视频时就更倾向于相对缓慢的运镜和较少的画面要素变化,画面演进的过程中尽量减少无中生有的情况,所以能够得到还不错的效果,但也凸显出当下的文生视频AI结构相对简单,无法正确理解世界物理规则的现状。
来源:壹零社