近日,网易有道宣布“子曰”大模型迎来 4.0 版本的全方位升级,标志着该大模型正式迈入全模态时代,不仅全面支持文本、图片、音频的融合交互,有道更宣布将核心的“多模态模型”与“语音合成(TTS)模型”正式开源。与此同时,翻译模型也迎来了深度的技术重构,翻译质量与效率实现双重提升。
据介绍,开源的“子曰4”多模态模型在 27B 参数规模上,面向教育场景,将支持视觉输入的数理能力拉到了行业顶尖水平(SOTA)。在同等参数规模的模型中,“子曰4”在处理带图表的数学题、物理题等高难度视觉数理问题上表现惊艳。中文纯文本数理难题的性能也获得显著提升,模型准确率达81.4%,达到行业领先水平。
此次与多模态模型一同开源的还有语音合成(TTS)引擎 ,该引擎基于前沿的“语音编码器 + LLM”架构打造,面向开发者及内容创作者提供零样本、低门槛的语音克隆与情感合成能力。
目前,它已全面支持中文、英语、日语、韩语等14种语言。系统可支持不同语言间同一说话者音色的自然迁移,无需额外训练即可保持音色一致性,且合成结果具备母语级别的自然度与流畅度,跨语种克隆也没有口音泄露问题。