腾讯研究院AI速递 20250303
创始人
2025-03-03 07:23:56
0

生成式AI

一、 DeepSeek 开源周彩蛋,披露成本利润率!还有大量技术细节

2. 采用H800 GPU配置,根据负载差异动态调整节点数量,每台H800的prefill吞吐约73.7k tokens/s;

3. 应用大规模跨节点专家并行技术与双批次重叠处理策略,针对不同场景优化并行策略提高效率。

二、 腾讯直播谈最新快思考模型:API 成本只有 deepseek 不到一半

1. 腾讯发布快思考模型Turbo S,吐字速度提升一倍,首字时延降低44%,API成本仅为deepseek的1/2-1/4;

2. 采用创新Hybrid-Mamba-Transformer融合架构,降低计算复杂度和KV-Cache占用,实现成本下降;

3. 通过长短思维链融合技术,在保持快速响应的同时提升数学、代码等强推理任务表现。

三、 实测腾讯元宝电脑版:满血DeepSeek,装上就是AI PC

1. 腾讯元宝电脑版上线,内置自家混元大模型和满血版DeepSeek,支持深度思考和联网搜索功能;

2. 元宝电脑版特色是利用微信公众号资源进行搜索,支持多模态功能,可生成图片、解析截图和生成代码;

3. 元宝数据激增,APP单日下载突破50万,DAU超530万进入TOP3。Web端访问量跃升至第四。

四、 Meta无预警发布新一代AI眼镜,专为AI和机器人研究打造

1. Meta无预警发布第二代Aria智能眼镜(Aria Gen 2),专为AI和机器人研究人员打造,将向第三方科研人员开放使用;

2. 新眼镜升级传感器套件,鼻托处新增心率监测PPG传感器和接触式麦克风,支持全天候使用(主动使用6-8小时);

3. 集成多项本地化机器感知系统,包括SLAM空间定位技术,可在GPS信号薄弱环境实现自主建图与导航,已与Envision合作开发视障辅助功能。

五、 字节视频生成新突破!Phantom搞定多人物/主体一致性

1. 字节跳动推出主体一致性视频生成模型Phantom,突破性解决多主体一致性挑战,能同时保持多个主体的完整性特征;

2. 模型支持身份保持、单参考和多参考主体视频生成,可以精准抓取人物、动物、服装等关键特征,实现自然融合;

3. Phantom基于DiT架构,采用主体到视频(S2V)生成方案,通过文本-图片-视频三元组数据训练,平衡创造性和可控性。

六、 终于!AI语音不再"像AI"?Sesame的语音存在感突破

1. Sesame团队专注开发自然对话语音伴侣,致力于跨越语音助手的"恐怖谷",让AI声音更自然、富有情感;

2. 团队开发"对话语音模型"(CSM),将情感智能、对话节奏、情境意识和一致性格融入语音生成,使用变换器技术整合对话上下文;

3. CSM模型用百万小时英语音频训练,测试显示大模型生成的语音更接近真人,主观测试中在无上下文情况下人们难以分辨AI与真人声音。

前沿科技

七、 Meta把数字人成本打下来,普通人手机拍照即可生成3D数字人

1. Meta推出新技术Avat3r,仅需4张手机拍摄的面部照片,5分钟内即可生成可动的3D数字人模型;

2. 采用动态3D高斯重建模型+ViT视觉Transformer架构,结合DUSt3R和Sapiens技术,单块RTX3090显卡即可实现实时渲染;

3. 支持单图/画作/雕塑跨次元建模,通过FLAME面部编码和跨注意力层实现微表情捕捉,大幅降低数字人制作门槛。

报告观点

八、 GPT-4.5不如DeepSeek?OpenAI首席研究官正面回应

1. OpenAI发布GPT-4.5后遭遇"群嘲",不少用户认为其在某些方面不如DeepSeek,OpenAI首席研究官Mark Chen对此作出回应;

2. Chen解释OpenAI走两条技术路线:无监督学习(GPT-4.5)和推理(O1/3),两者互补而非对立,GPT-4.5在知识量和创意写作方面优于推理模型;

3. 关于DeepSeek高效率的专家混合模型(MoE),Chen表示OpenAI也在GPT-4.5中探索这一技术,并称"几乎所有大型语言模型都在使用它"。

九、 a16z报告:原生AI产品与业务外包模式存在根本性冲突

1. BPO市场规模庞大(2024年超3000亿美元),但现代AI技术已能高效处理传统外包工作,语音AI助手已具备大规模生产应用的成熟度;

2. 原生AI产品与BPO商业模式存在根本性冲突——BPO依赖"人力溢价",向AI转型将压缩利润率,对上市公司而言等同于"文化自杀";

3. AI创业窗口期有限,基础模型"平民化"后初创企业竞争优势将减弱,成功关键在于迅速将技术转化为客户锁定护城河。

十、 马斯克:5年内AI超越人类,2029年文明终结概率20%

1. 马斯克预测2029年AI将超越人类总智能,认为AI对人类文明有80%概率带来好处,但也有20%概率导致人类灭绝,并不会存在"中间状态";

2. 马斯克批评OpenAI背离初衷,从非营利开源变成追求最大利润的闭源组织,并质疑谷歌AI(如Gemini)存在价值观问题,未重视安全;

3. 谷歌联创谢尔盖·布林在内部备忘录中呼吁员工每周工作60小时并全勤到办公室,称"通往AGI的最后角逐已经开始"。

相关内容

计算架构,行业AI竞争的下...
2025-07-03 16:25:26 作者:狼叫兽 当Dee...
2025-07-03 17:42:01
阿里与荣耀进一步深化AI生...
央广网北京7月3日消息(记者 冀文超)7月2日,荣耀全新年度折叠旗...
2025-07-03 17:12:53
百度的AI为什么没人用,中...
牛文文 创业黑马集团董事长&创始人 AI, 第一个颠覆就是搜索。 ...
2025-07-03 17:12:38
画到哪,动到哪!字节跳动发...
Angtian Wang 是字节跳动的研究员,研究方向包括视频生成...
2025-07-03 13:13:17
AI投资从叙事博弈走向产业...
□徐兵 上半年,AI行情上演了一场典型的资本“冷热交替”。一季度,...
2025-07-03 08:11:36
深度:由百度文心4.5模型...
向开源致敬 还记得1991年那个看似平常的时刻吗?一位名不见经传的...
2025-07-03 06:12:11

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...