一个艺术小白、科技编辑怎么就闯进了 Art Central?
这周,亚洲重量级当代艺术博览会 Art Central 2026 在香港举办,作为第 11 届,也是历来规模最大一届,吸引了超过 50 个国家及地区 117 间画廊和 500 多位艺术家。
3 月 28 日,雷科技受邀参观了这次 Art Central 2026,看到了亚太各地艺术家百花齐放的作品,有香港本土艺术家的《白境——心之所向》,也有马德里艺术家的《林徽因(2025)》等。
《林徽因(2025)》,图片来源:雷科技
在亚洲重量级当代艺术博览会 Art Central 上,大多数时候你能依靠的只有眼睛和一点点背景说明。更确切的是,说明信息不仅是英文,通常也不长,更多东西还是要自己从作品「看到」。
老实讲,我看不懂。除了基本的审美判断和自我心理分析,作为一个艺术小白确实再看不出其他门道,但这并不妨碍我的好奇心,好奇它们为什么吸引我?为什么这么创作?我喜欢的到底又是什么风格?
这可能也在一定程度上解释了 Chance AI 作为全球首个视觉智能体(Visual Agent),为什么能在 iOS、Android 上受到全球,尤其是北美年轻人的喜爱,排在下载榜前列。
打开 Chance AI,镜头对准现场的作品拍下,不需要输入任何问题,AI 就会告诉你作品名、艺术家、创作背景、材质、视觉和美学分析等等。
就拿我在 Art Central 现场看到的《林徽因(2025)》来说,被它吸引的时候甚至还不知道作品名更不用说了解作品背后的故事和表达。而 Chance AI 在这个场景下很好地扮演了随身 AI 讲解员的角色,我也很容易抓住作品背后的表达、作者、美学继续的追问。
图片来源:雷科技
当然,Chance AI 也并不完美,有些作品就不能笃定创作者的名字,只能基于风格给出一些比较可能的艺术家。另外,新增的 Live 模式或许还没打磨好,不管怎么换角度也不能识别出来一些作品,但换成拍照又可以准确识别和解读。
但整个过程有一种很奇怪的感觉。它不像在用一个工具,更像是在尝试一种新的观看方式,更重要的是,我的好奇心好像也变得非常重。
为什么?
视觉即 AI,好奇心是如何被解放?
只看产品形态,Chance AI 其实不难理解。
打开应用,没有输入框,没有按住说话,更没有复杂功能入口,主界面的视觉中心就是「相机」。好奇什么,就对着拍什么,AI 识别画面后会直接告诉你关键信息,有了一些线索后,你可以继续一个方向追问了解。
整个过程不需要先想好一个问题,纠结怎么组织语言,思考从哪问起,更不用纠结该不该拍。最重要的是一颗好奇的心,再顺手举起手机「拍照识别」,AI 就会解答眼前的疑惑与好奇。
这种使用方式,比传统对话 AI 更接近一种「本能反应」。
图片来源:雷科技
很视觉 AI,也和 Gemini、豆包的使用方式差别很大。
用 Gemini 或豆包的时候,你通常需要自己先想一个问题,就算是给 AI 一个图片也要想好想问什么,比如这是谁的作品,是什么风格,或者想让它解释某个细节。图像更多还是作为上下文,让它更好理解你的问题。
图片来源:雷科技
一言以蔽之,以 Gemini 和 豆包 为代表的产品,本质还是对话优先。无论是文本输入,还是上传图像,甚至是 live 视频通话,本质还是围绕「我问,你答」的交互形式,即便加入视觉信息,也只是为了让 AI 更了解上下文。
但 Chance AI 反过来则是视觉优先。它的起点不是问题,而是画面(视觉)。这种差异在实际体验里非常直观。你不需要先组织语言,不需要先思考怎么提问,甚至不需要明确目的,所以大幅降低了对 AI 的使用门槛和摩擦。
当然不只是在 Art Central 作为一名讲解员。Chance AI 还有一系列的视觉智能体,包括但不限于:拍照购、食识拍、穿搭检查师、肌肤分析、菜单翻译师等。
单看功能并不稀奇,尤其是是在 AI 应用大爆发的今天。不过从实际演示和展示的案例来看,Chance AI 相比 Gemini、ChatGPT 等通用 AI,更能通过视觉准确了解客观物体以及背后更深层的信息。
就以一张德国常见的啤酒桶局部照为例,不仅在场媒体都认不出,我们也尝试了国内外主流的几款通用 AI,但都不能准确识别,只有 Chance AI 成功了。
甚至在 MMMU-Pro Benchmark 的视觉推理性能上,Chance AI Visual Agent 1.5 还超越了 Gemini 3 Pro Preview、GPT-5.4(xhigh),以及人类。
图片来源:雷科技
为什么一家初创公司能在权威多模态基准测试的子项中超越一众 AI 巨头?想要理解这一点,一方面我们可以从 Chance AI 的工作路径来看。
相比主流 AI 单纯的图像客观描述和基于文字的 RAG(检索增强生成),Chance AI 还是从视觉出发,先搜索浏览互联网上大量的视觉信息,包括 Instagram、TikTok、Youtube 等来源,然后再更进一步思考推理,再结合地点、物品等更多信息,最终不需要任何提示词,就能给出一段不错的「解说」。
左侧通过相册上传,右侧通过现场拍摄,图片来源:雷科技
就像 OpenClaw(中文俗称「龙虾」)通过 Harness(环境)和 Skill(技能)机制大幅提高了智能体的能力下限和上限,现场交流中,Chance AI 也透露在视觉推理性能上的领先,一个关键就是在于 Harness Engineering 的工程架构第一次带到视觉领域。
另一方面则在于数据的积累。
今天的行业共识是,数据仍然是 AI 的核心,打开 Chance AI,下滑就能看到一个基于视觉的兴趣社区,用户会分享日常与 Chance AI 的交互。视觉 AI 的应用方向、增长的用户以及使用频次,都在帮助 Chance AI 继续改进 AI 的体验,还有视觉背后的「大脑」。
交互和智能,视觉即世界?
但从「先想清楚问题」,变成「先看见世界」,值得在意的一点,还有以「视觉」为核心的交互和智能路线。
先说视觉交互。Instagram、TikTok(抖音)甚至乃至小红书的流行已经不言自明,这些应用也证明了全球用户对于视觉交互的偏好。去年 Google 的第二季度财报也透露,Google Lens 视觉搜索已经是增长最快的搜索入口之一,同比增幅甚至达到了 70%。
Google Lens 的核心用户是短视频、手游、手机的原生一代年轻人。对他们来说,拍一下/圈一下再问 Google 比「想好关键词再打字」更自然,也更快接受视觉搜索的交互形式。
从这个角度,也能看到 Chance AI 的潜力和机会。而且相比 Google Lens 和 Gemini 还没有真正打通,Chance AI 已经把整个 AI 视觉的交互体验整合得比较顺畅、自然,也开始基于几十万真实用户逐步建构自身的数据优势。
图片来源:App Store
但 Chance AI 的野心显然不只是一个 AI 应用。
「视觉一直是人类智能的基石之一,但它的力量源自更为基础的某种东西。在动物学会筑巢、照料幼崽、用语言沟通或建立文明之前很久,『感知』这一看似孤立的能力——感受到一缕微光,触到某种纹理——就悄然点燃了一条通往智能的演化之路。」
去年 11 月,AI 教母、斯坦福大学教授、World Labs 创始人李飞飞发表了一篇长文,核心论述了以视觉为核心构建的空间智能是「世界模型」的必经之路。
Chance AI 创始人曾熙也和雷科技等媒体分享了类似的看法。大脑一开始的进化并不是为了思考,而为了处理更多的视觉信号,帮助生物生存、探索,「人类大脑接近 70% 的算力是拿来处理视觉信号,杯子为什么一下子就能拿起来,我们觉得很本能、很直觉,但事实上经过了极为复杂的处理。」
他是硬件出身,从 OPPO 到一加,后又加入字节跳动担任 Flow 产品总监,参与过豆包 0-1 的探索。但相比豆包以及一众 AI 应用围绕「语音/文字」输入框作为交互核心,Chance AI 则围绕更直观的「视觉」打造 AI 交互体验。
而视觉可以说是最直观的操作系统,我们与物理世界的交互、通过各种数码产品的 GUI 与数字世界的交互,核心还是依赖视觉信息的输入和反馈。
但既然如此,为什么 Chance AI 没有选择做「始终在线」的可穿戴 AI 硬件(比如 AI 眼镜),而是做了一款基于手机的 APP?
曾熙在交流中就向雷科技等媒体表示,Chance AI 团队成员很多都是硬件出身,之所以不更进一步直接做基于视觉的可穿戴 AI 硬件,一方面是认为当下 AI 硬件的供应链(芯片、电池技术等)并不成熟,同时也看不到类似移动互联网带来的渠道革命,作为创业公司并不适合现在入场。
所以,Chance AI 选择了在现阶段聚焦硬件背后的「视觉大脑」,也是今天的行业空白。不过有意思的是,虽然 Chance AI 还不打算自己做硬件,但已经在和部分垂直场景的硬件厂商进行合作洽谈,将不同视觉智能体接入不同的硬件产品中。