业界首个!豆包开源VideoWorld:纯视觉模型颠覆AI认知!
创始人
2025-02-13 15:49:07
0

要点快读

豆包,作为字节跳动旗下的智能AI产品,它提供聊天机器人。在A股市场,人工智能(AI)题材的热度持续升温,尤其是豆包概念股,在DeepSeek概念股之后,成为了市场上的新宠。目前,该项目代码与模型已开源。受此消息影响,周一豆包概念股掀潮停潮。

豆包发布视频生成实验模型“VideoWorld”,该项目代码与模型已开源。

国内AI公司豆包科技宣布开源视频生成大模型“VideoWorld”,该模型突破性实现仅凭视觉信号理解世界**,无需任何文本标注数据。据技术白皮书显示,VideoWorld在视频预测、场景重建等任务中准确率超90%,标志着AI视觉认知进入“纯视觉时代”。

VideoWorld由豆包大模型团队联合北京交通大学、中国科学技术大学共同提出。其核心基于一种潜在动态模型,能高效压缩视频帧间的变化信息,结合自回归Transformer架构和矢量量化-变分自编码器,让机器可仅通过浏览视频数据就能掌握推理、规划和决策等复杂能力。

不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,仅通过“视觉信息”即可认知世界。这无疑是AI视觉技术的又一重要突破:

技术范式革命:抛弃传统“文本-视觉”对齐训练,直接通过视频流学习物理规律,模型通用性提升10倍(MIT对比实验);成本坍缩:省去天量文本标注费用,训练成本降低80%(豆包披露数据),中小企业可快速部署;场景爆发:自动驾驶、工业检测、元宇宙等需高精度环境理解的场景迎来落地加速期。

豆包现阶段共发布俩个AI视觉模型,一个是上文提到发布的VideoWorld模型,还有一个是12月份发布的视觉理解模型。豆包视觉理解模型是字节跳动在2024年12月18日的火山引擎FORCE原动力大会上发布的。

对于豆包开源VideoWorld大模型,你有什么看法呢?欢迎在评论区留言分享你的观点。

相关内容

不去北上广 县城医院同样可...
IT时报记者 贾天荣 在癌症诊疗中,早发现、早诊断、早治疗至关重要...
2025-07-02 10:12:00
如何看待AI“一本正经地胡...
本文转自【人民日报】 原标题:如何看待AI“一本正经地胡说八道”(...
2025-07-02 09:40:47
盘古Pro MoE 72B...
近日,华为宣布开源盘古70亿参数的稠密模型和720亿参数的混合专家...
2025-07-02 09:13:12
里通义开源音频生成模型,能...
7月1日消息,阿里通义实验室开源了旗下首个音频生成模型ThinkS...
2025-07-02 06:12:54
瑞金医院联合华为开源Rui...
6月30日,在由上海交通大学医学院附属瑞金医院(以下简称瑞金医院)...
2025-07-01 22:41:43
华为仓颉编程语言首个 LT...
IT之家 7 月 1 日消息,华为仓颉编程语言首个 LTS 版本 ...
2025-07-01 21:12:49

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...