上线、开源!腾讯大消息
创始人
2024-12-08 06:14:18
0

12月3日,备受业界关注的腾讯混元视频生成大模型,正式宣告上线。

此前,腾讯混元大模型已经陆续推出了文生文、文生图、3D生成等能力。此次推出的视频生成能力,被认为是混元系列大模型当前的最后一块重要拼图。

同时,腾讯宣布开源该视频生成大模型,参数量达到130亿个,是当前最大的视频开源模型。

目前,通过腾讯元宝App,先后点击“AI应用”“AI视频”即可使用该功能,但前期需要申请。

评测表现优秀

记者体验发现,和多数视频生成大模型一样,腾讯混元视频生成大模型的用户只需要输入一段描述,即可生成视频。目前的生成视频功能支持中英文双语输入、多种视频尺寸以及多种视频清晰度。

去年以来,国内外各类大模型“百花齐放”。尤其以Sora为代表的国外视频生成大模型,让影视、游戏等行业感到“颠覆式”的机遇。

今年以来,字节跳动、商汤、阿里达摩院也已相继推出视频生成大模型。作为国内数字技术的领军企业之一,腾讯混元视频大模型“何时推出、效果如何”等问题,此前备受市场关注。

腾讯将本次推出的混元视频生成大模型与国内外多个顶尖模型进行了评测对比,结果显示,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。

评测结果显示,腾讯混元视频生成大模型可以实现超写实画质、生成高度符合提示词的视频画面,画面流畅不易变形。

腾讯同步公布了几个测试生成视频,可以看到,在冲浪、跳舞等大幅度运动画面的生成中,腾讯混元可以生成流畅、合理的运动镜头,物体不易变形;光影反射基本符合物理规律,在镜面或者照镜子场景中,可以做到镜面内外动作一致。

同时,模型还可以实现在画面主角保持不变的情况下自动切镜头,这是业界大部分模型所不具备的能力。

腾讯混元大模型根据“超大海浪,冲浪者在浪花上起跳,完成空中转体”等一系列提示词生成的视频。

腾讯混元大模型根据“穿着白床单的幽灵面对着镜子”等一系列提示词生成的视频。

腾讯混元大模型根据“一位中国美女穿着汉服,头发飘扬,背景是伦敦”等一系列提示词生成的视频。

腾讯混元大模型根据“一位60多岁、留着胡须的灰发男子,坐在巴黎的一家咖啡馆里,沉思着宇宙的历史”等一系列提示词生成的视频。

“拥挤”赛道再添有力竞争者

今年2月,OpenAI发布了首个视频生成模型Sora,吹响视频生成大模型赛道的冲锋号角。

单看国内,今年以来,就有生数科技联合清华大学于4月发布了长时长、高一致性、高动态性视频生成大模型Vidu;6月,快手发布视频生成大模型可灵AI;7月,商汤推出最新AI视频模型Vimi,阿里达摩院发布AI视频创作平台寻光;9月,字节跳动推出了PixelDance和Seaweed两个AI视频生成模型。

根据此前经验看,腾讯在大模型细分赛道上,几乎都不是最早“冲出来”的一批企业,但在相关产品正式发布后,产品性能表现相对优秀。

生成高质量视频的时长,是评判视频生成大模型的关键指标之一。腾讯混元此次发布的视频生成大模型最长可生成16秒的视频,已和美国Meta公司推出的视频生成大模型相当。

腾讯混元相关负责人表示,混元视频生成大模型的领先能力主要源于其技术创新,使用了跟Sora类似的DiT架构,并在架构设计上进行多处升级。

此外,混元视频生成模型适配了新一代文本编码器提升语义遵循,具备强大的语义跟随能力,能更好地应对多个主体描绘,实现更加细致的指令和画面呈现;采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换;通过先进的图像视频混合VAE(3D变分编码器),让模型在细节表现方面有明显提升,特别是高速镜头等场景。

据了解,腾讯混元视频生成模型可用于工业级商业场景,例如广告宣传、动画制作、创意视频生成等场景。此前,已有多家媒体率先将内部测试阶段的腾讯混元视频生成能力用于创意视频制作,制作了《江山如此多娇》《山水之间》等多部优秀作品。

混元系列大模型已全面开源

腾讯宣布开源该视频生成大模型,已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。

基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力,加速行业创新步伐。

记者查阅发现,鉴于大模型开源后,可以吸引全球开发者共同参与模型的改进和优化,推动技术快速发展,国内外已有不少大模型宣布开源。如美国知名企业家埃隆·马斯克旗下的人工智能初创公司xAI的大模型Grok于今年3月正式宣布开源,轰动一时。

从年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。

作者:孔令仪 林超

相关内容

里通义开源音频生成模型,能...
7月1日消息,阿里通义实验室开源了旗下首个音频生成模型ThinkS...
2025-07-02 06:12:54
瑞金医院联合华为开源Rui...
6月30日,在由上海交通大学医学院附属瑞金医院(以下简称瑞金医院)...
2025-07-01 22:41:43
华为仓颉编程语言首个 LT...
IT之家 7 月 1 日消息,华为仓颉编程语言首个 LTS 版本 ...
2025-07-01 21:12:49
魔搭社区:坚持定位非盈利机...
7月1日,模型开源社区魔搭表示,将坚持非盈利机构的定位,立足公益性...
2025-07-01 20:40:59
数字人出圈、智能体跑通闭环...
近期大火的罗永浩数字人受到行业热议,其神形音容与真人无异,直播首秀...
2025-07-01 16:11:36
瞭望 | AI进高校 治理...
全天候解答疑难问题、辅助查找资料、收集文献、分析数据……“Deep...
2025-07-01 15:42:18

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...