AI视频生成初创公司Luma周四推出了Luma智能体,旨在处理文本、图像、视频和音频的端到端创意工作。Luma智能体由该公司的统一智能系列模型驱动,其架构基于单一多模态推理系统训练而成。
Luma智能体被定位为广告代理商、营销团队、设计工作室和企业的全新工作方式。Luma表示,其智能体能够规划和生成文本、图像、视频和音频,同时与其他AI模型协调工作,包括Luma的Ray 3.14、Google的Veo 3和Nano Banana Pro、字节跳动的Seedream,以及ElevenLabs的语音模型。
Luma的智能体基于该公司的Uni-1模型构建,这是其统一智能AI模型系列的第一款产品。据Luma首席执行官兼联合创始人Amit Jain介绍,该模型在音频、视频、图像、语言和空间推理方面进行了训练。
Jain向TechCrunch表示,Uni-1模型可以"用语言思考,并在像素或图像中想象和渲染......我们称之为'像素中的智能'"。他补充说,音频和视频等其他输出能力将在后续模型发布中推出。
"我们的客户不是在购买工具;他们正在重新定义业务运作方式,"Jain说道。
Luma已经开始向现有客户推出其新的智能体平台,包括全球广告代理商Publicis Groupe和Serviceplan,以及阿迪达斯、马自达和沙特AI公司Humain等品牌。
Jain表示,Luma智能体是一个游戏规则改变者,因为它们能够在资产、协作者和创意迭代之间保持持续的上下文。据Jain介绍,它们还可以评估和优化输出结果,通过迭代式自我批评来改善自己的结果。
Jain说,这种检查工作的能力正是编程智能体如此有用的原因。"你需要那种评估工作、修复问题并循环执行直到解决方案良好准确的能力。"
Jain表示,目前在创意环境中使用AI工具的工作流程并没有为创意行业人员带来他们期望的AI加速效益。相反,更像是:"这里有100个模型,学会如何提示它们。"
他说,Luma智能体的不同之处在于,用户不需要为图像或想法的每次迭代来回提示——系统会生成大量变化组合,让用户通过对话来引导方向。
"通过统一智能,因为这些模型除了能够生成之外还能理解,我们能够构建一个能够完成这种端到端工作的系统,"Jain说道。
以设计建筑的人类建筑师为例。当他们绘制线条时,他们正在创建结构、光线、空间动态和生活体验的内部心理表征。Jain说,这与统一智能构建的原理相同。
Jain表示,该系统可以显著加速创意工作流程。在演示中,他展示了200字的简报和产品图像(一支口红)如何引导系统为广告活动生成各种地点、模特和配色方案的想法。
在另一个例子中,Luma智能体将一个品牌价值1500万美元、历时一年的广告活动在40小时内转化为针对不同国家的多个本地化广告,成本不到2万美元,并通过了品牌内部的质量控制和准确性检查,Jain说道。
虽然Luma智能体现在通过API公开提供,但Jain表示,该公司计划逐步推出访问权限,以确保用户保持可靠的访问并避免工作流程中断。
Q&A
Q1:Luma智能体是什么?它有哪些核心能力?
A:Luma智能体是由AI视频生成公司Luma推出的创意AI工具,能够处理文本、图像、视频和音频的端到端创意工作。它基于统一智能模型构建,可以规划生成多种媒体内容,并与其他AI模型协调工作,包括Google的Veo 3、字节跳动的Seedream等。
Q2:统一智能模型与传统AI工具有什么区别?
A:统一智能模型最大的不同是能够"用语言思考,在像素中想象和渲染",具备理解和生成双重能力。它能保持跨资产、协作者和创意迭代的持续上下文,还能通过迭代式自我批评来评估和优化输出结果,而不是像传统工具那样需要用户反复提示。
Q3:Luma智能体在实际应用中效果如何?