业界首个!豆包开源VideoWorld:纯视觉模型颠覆AI认知!
创始人
2025-02-13 15:49:07
0

要点快读

豆包,作为字节跳动旗下的智能AI产品,它提供聊天机器人。在A股市场,人工智能(AI)题材的热度持续升温,尤其是豆包概念股,在DeepSeek概念股之后,成为了市场上的新宠。目前,该项目代码与模型已开源。受此消息影响,周一豆包概念股掀潮停潮。

豆包发布视频生成实验模型“VideoWorld”,该项目代码与模型已开源。

国内AI公司豆包科技宣布开源视频生成大模型“VideoWorld”,该模型突破性实现仅凭视觉信号理解世界**,无需任何文本标注数据。据技术白皮书显示,VideoWorld在视频预测、场景重建等任务中准确率超90%,标志着AI视觉认知进入“纯视觉时代”。

VideoWorld由豆包大模型团队联合北京交通大学、中国科学技术大学共同提出。其核心基于一种潜在动态模型,能高效压缩视频帧间的变化信息,结合自回归Transformer架构和矢量量化-变分自编码器,让机器可仅通过浏览视频数据就能掌握推理、规划和决策等复杂能力。

不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,仅通过“视觉信息”即可认知世界。这无疑是AI视觉技术的又一重要突破:

技术范式革命:抛弃传统“文本-视觉”对齐训练,直接通过视频流学习物理规律,模型通用性提升10倍(MIT对比实验);成本坍缩:省去天量文本标注费用,训练成本降低80%(豆包披露数据),中小企业可快速部署;场景爆发:自动驾驶、工业检测、元宇宙等需高精度环境理解的场景迎来落地加速期。

豆包现阶段共发布俩个AI视觉模型,一个是上文提到发布的VideoWorld模型,还有一个是12月份发布的视觉理解模型。豆包视觉理解模型是字节跳动在2024年12月18日的火山引擎FORCE原动力大会上发布的。

对于豆包开源VideoWorld大模型,你有什么看法呢?欢迎在评论区留言分享你的观点。

相关内容

以AI技术拓展知识获取渠道
□王丽华 近年来,伴随着科学技术的创新与发展,人工智能正在以强劲之...
2025-05-10 08:17:01
以场景化思维重塑AI安全体...
在AI技术深度渗透网络安全领域的当下,攻防对抗已进入智能化博弈新阶...
2025-05-10 06:19:47
百度推出AI黑科技 多模态...
5月6日,国家知识产权局公开了百度的一项动物语言转换专利,涉及大模...
2025-05-09 23:21:28
凌云光获多家机构调研 “A...
日前,凌云光披露投资者关系活动记录表显示,公司迎来长城基金、九泰基...
2025-05-09 23:21:06
中方为何此时同意与美方接触...
据央视新闻消息,5月7日上午,外交部发布消息称,5月9日至12日,...
2025-05-09 23:19:41
开源鸿蒙让交通更智能更便捷...
5月8日,以“开源•智联•共生”为主题的开放原子“园区行”(深圳站...
2025-05-09 19:16:40

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...