业界首个！豆包开源VideoWorld：纯视觉模型颠覆AI认知！_linux资讯

创始人

2025-02-13 15:49:07

0次

要点快读

豆包，作为字节跳动旗下的智能AI产品，它提供聊天机器人。在A股市场，人工智能(AI)题材的热度持续升温，尤其是豆包概念股，在DeepSeek概念股之后，成为了市场上的新宠。目前，该项目代码与模型已开源。受此消息影响，周一豆包概念股掀潮停潮。

豆包发布视频生成实验模型“VideoWorld”，该项目代码与模型已开源。

国内AI公司豆包科技宣布开源视频生成大模型“VideoWorld”，该模型突破性实现仅凭视觉信号理解世界**，无需任何文本标注数据。据技术白皮书显示，VideoWorld在视频预测、场景重建等任务中准确率超90%，标志着AI视觉认知进入“纯视觉时代”。

VideoWorld由豆包大模型团队联合北京交通大学、中国科学技术大学共同提出。其核心基于一种潜在动态模型，能高效压缩视频帧间的变化信息，结合自回归Transformer架构和矢量量化-变分自编码器，让机器可仅通过浏览视频数据就能掌握推理、规划和决策等复杂能力。

不同于Sora、DALL-E、Midjourney等主流多模态模型，VideoWorld在业界首次实现无需依赖语言模型，仅通过“视觉信息”即可认知世界。这无疑是AI视觉技术的又一重要突破：

技术范式革命：抛弃传统“文本-视觉”对齐训练，直接通过视频流学习物理规律，模型通用性提升10倍（MIT对比实验）；成本坍缩：省去天量文本标注费用，训练成本降低80%（豆包披露数据），中小企业可快速部署；场景爆发：自动驾驶、工业检测、元宇宙等需高精度环境理解的场景迎来落地加速期。

豆包现阶段共发布俩个AI视觉模型，一个是上文提到发布的VideoWorld模型，还有一个是12月份发布的视觉理解模型。豆包视觉理解模型是字节跳动在2024年12月18日的火山引擎FORCE原动力大会上发布的。

对于豆包开源VideoWorld大模型，你有什么看法呢？欢迎在评论区留言分享你的观点。

字节数据视觉技术概念股模型文本视频业界场景字节跳动豆包