字节豆包直面AI视频降本难题,压力给到了谁?
创始人
2024-10-16 22:54:19
0

每经记者:杨昕怡 每经编辑:魏官红

自Sora横空出世开辟了AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?

10月15日,火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到,目前该技术方案已应用于豆包视频生成模型。

发布会上,Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。

此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展:经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上。

“首先,超大规模视频训练数据集导致计算和处理成本激增。”王悦指出大模型厂商在预处理过程中面临诸多挑战,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

图片来源:每经记者 杨昕怡 摄

自研多媒体处理框架,豆包直面AI视频降本难题

在9月24日的火山引擎AI创新巡展上,豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型一并发布,吸引业内外人士关注。其实,字节跳动在视频生成模型上下的功夫不止于此。

10月15日,火山引擎发布了大模型训练视频预处理方案,致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。

据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

在视频生成模型的训练中,算力成本无疑是首屈一指的挑战。

一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示,在拥有高质量数据后,视频模型会比大语言模型更难训练,有更多的算力需求,“目前已知的开源视频模型没有特别大,主要是目前很多视频模型处于不知道如何使用数据的阶段,(用于训练的)高质量数据也没有特别多。”

计算机科学家Matthias Plappert的研究也显示,Sora的训练对算力规模的要求巨大,在训练环节大约需要在4200~10500张NVIDIA H100上训练1个月,且当模型生成到推理环节以后,计算成本将迅速超过训练环节。

为了解决降本难题,火山引擎借助Intel的CPU等资源,将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

对于该方案的应用,李航在发布会现场透露,豆包视频生成模型PixelDance在训练过程中已采用该方案。同时,火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

此外,在此次发布会上,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。

拿到AI视频时代的“船票”之后,去向何方?

AI正全方位重塑着人们生产、传播和接受信息的路径。其中,不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。

今年7月,商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi;8月,“AI六小龙”之一的MiniMax发布了视频生成模型video-1;9月,可灵AI完成第9次迭代,发布“可灵1.5模型”,阿里云在云栖大会上推出全新的视频生成模型,字节也发布了2款视频生成模型⋯⋯AI视频产品的诞生和迭代几乎是以月来计时的。

对于AI视频产品的“爆发”,北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示,国内AI视频产品正处于快速发展和不断迭代的阶段,主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。

目前市场上AI视频产品的落地大多在影视、电商营销等领域,例如今年7月,即梦AI和博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》;今年9月,快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。

与此同时,工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出,如今部分AI视频产品处于导入期,因为技术或合规性,很难在市场上铺开,“目前感觉开源(AI视频产品)比闭源的更受欢迎,因为AI视频生成的成本很高,而视频制作者往往缺少资金,所以利用开源的、下载到终端的AI算法可以更好地制作生成视频。”

在他看来,现阶段AI视频产品主要有算力和合规风险两方面的主要障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间;另一难点在于合规风险,如今对隐私越来越重视,合规是绕不过去的话题,而AI视频有时可能会侵犯个人隐私。”他解释。

此外,易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧,“由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期。”

AI视频的时代来到了,但这注定是一个长坡厚雪的赛道,如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的不变命题。

每日经济新闻

相关内容

7月11日广晟有色涨5.5...
证券之星消息,7月11日广晟有色(600259)涨5.57%,收盘...
2025-07-11 18:11:28
一小饭店老板随手拍视频竟成...
山东临沂市的黄兰(化名)怎么也没想到,自己随手拍摄的一段菜品视频,...
2025-07-11 16:11:12
开启“零门槛”AI视频创作...
随着移动端的普及和数字化技术的成熟,短视频创作内容不仅逐渐向各行各...
2025-07-11 14:12:34
审查中国AI大模型,美国又...
路透社9日报道称,美国官员一直在秘密评估中国的人工智能(AI)大模...
2025-07-11 12:11:57
字节飞书亮剑AI企服战场
作者 | 刘宝丹 编辑 | 周智宇 企业级AI应用被视为驱动经济提...
2025-07-11 12:11:22
美团辟谣“30万本科生送外...
7月10日,美团通过微信公众号“小团有话说”发文称,针对不少自媒体...
2025-07-11 09:14:07

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...