“AIGC时代,如何守护那份“真实”?
毫无疑问,人类已全面进入大模型时代。我们刷着AI生成的视频,读着AI写的文章,享受着AI内容爆发带来的乐趣。然而,在大部分人没有感知的地方,一场围绕AI技术的攻防暗战,正以前所未有的激烈程度展开。
你最近可能刷到过这样一条新闻:有人买了6只螃蟹,吃完后用AI伪造了一段“螃蟹全是死的”视频,成功骗到195元退款。最终当事人被警方予以行政处罚——成了全国首例利用AI伪造视频实施网购诈骗被罚的案子。
你可能觉得这个事不大,再来看另外一个例子。2024年,香港一家公司的财务人员,在视频会议中与“CFO”及多位“同事”沟通后,谈笑风生间,他被“安排”向一个账户转出2500万美元。事后才知道,他在屏幕前看到的每一张脸、听到的每一句话,都是由AI成生的。
这些案例只是冰山一角。AI伪造内容正迅速成为身份欺诈的主要工具。据GASA发布的《2024全球欺诈报告》显示全球因欺诈造成的损失超过一万亿美元,AI诈骗(Deepfake)成为新兴威胁。
然而,AI不仅被人利用去“骗人”,AI自己也显现出“骗人”的苗头。早在2023年,研究人员就发现GPT-4在模拟股票交易时,会有意隐瞒自己进行内幕交易的真实动机。
这已超越一般意义上的AI“幻觉”,而是演变为一种精心设计的系统性欺骗策略。
技术的额“双刃剑”特质,在AI身上展现得淋漓尽致。
数美科技创始人兼CEO唐会军深刻指出:“AI时代,我们面临的风险跟过往大不相同。这是第一次,AI具备了影响人类价值观的能力。”
每一个时代,都有属于那个时代的安全命题。大模型时代,更是如此。
“以前养一个账号,水军要花几周时间,为了让系统看起来像是真人在经营,还得不间断的发内容。而现在则不用这么‘麻烦’了,几百条的评论,AI十分钟就能自动生成了。”数美科技CTO梁堃说,“AI生成的评论内容,可以保证每条都不重样,而且语气自然得跟真人一样。”
如果说以前的造假还处于手工业阶段,AI技术则让造假进入到了“工业化”时代,造假的成本大幅降低的同时,造假“效率”则大幅提升。
梁堃用四个“更”来形容现在的形势:更大的规模、更多种的风险、更复杂的语义、更强的对抗。
在新形势下,我们必须拿出更智能的手段来应对。
数美科技顺势而变,打造了以AI为核心的下一代风控产品矩阵,覆盖内容与账号全场景、支持多模态识别、具备全球化服务能力的一站式风控解决方案。其不仅提供技术工具,更构建了一套融合政策、运营、数据与算法的系统化风控生态。
在这一产品矩阵背后,是数美科技风控能力的悄然进化:从“识别对象”到“理解意图”,从“应对已知”到“预见未知”。
“过去,在识别一个画面时,内容风控系统能实现的,就是辨别‘画面里是否有枪’这个问题;现在,我们不光要知道有枪支出现的信息,还需要进一步判断‘这支枪出现在这里,意味着什么?是暴力威胁、非法交易,还是博物馆展览、用于射击训练?’”数美科技CTO梁堃说。
这个转变看似简单,实则是一场思维革命。
为实现这一转变,数美构建了全新的四级标签体系,将标签数量从近千个精细拓展至近五千个。这套体系层层递进,精细化定义风险:
第一层:对象识别(基础感知层)。识别内容中的实体,如违禁品、特定人物、敏感行为等。
第二、三层:主题与场景分类(逻辑判断层)。对对象进行归类和情境化。例如,在“自杀”主题下,进一步区分是“自杀意图流露”、“自杀方法描述”,还是“自杀事件报道”。
第四层:意图与观点研判(核心洞察层)——这是进化的关键一步。系统需解析内容背后的真实意图与情感倾向。以“未成年人风险”为例,不仅要识别出相关内容,更要精准判断其是“肯定自杀价值”、“表达绝望情绪”,还是“怂恿、诱导他人”。
这套四级标签体系不仅大范围拓展了风险标签的深度和广度,更具革命性意义的是,它不仅定义了“是什么”的风险,更拆解了“意图”风险,帮助平台迅速判断内容背后的倾向,及时做出相应的处理方式。
复杂语义的理解:像人一样“阅读”
AIGC的爆发,让内容的风险隐蔽性更强,语义更复杂,上下文关联更深远。为此,风控系统必须拥有更强的“阅读理解”能力:
首先是上下文关联理解。风险识别绝不能断章取义。例如,在提及“蓝鲸游戏”时,系统必须结合上下文,辨析这是对过往社会事件的客观陈述,还是隐含组织、怂恿的负面倾向。同样,对于历史图片或艺术创作中的敏感元素,也需结合语境进行准确判断,避免误伤。
其次是意图与观点的精细化剥离。风险识别需要从“是什么”深入到“怎么想”。对于违禁品信息,需分辨其意图是“知识科普”还是“买卖教唆”;对于涉及人物的内容,需识别文字背后是“客观描述”、“辱骂诋毁”,还是“戏谑讽刺”。这种细颗粒度的意图洞察,是实现精准处置的前提。
还有,就是多模型的协同。面对复杂多元的风险,不要指望单一的模型能包打天下。我们人类对风险的识别,是需要多感官的协同,比如我们从听到的异常声音、看到的可疑画面,读到的文字信息中,综合分析风险的发生概率。
数美的解决方案是构建统一的多模态理解框架。该框架将不同模态的信息映射到同一语义空间,通过大模型进行跨模态关联分析。“我们曾监测到一条内容,图片是某地自然灾害现场,配文却是完全无关的政治谣言。”梁堃举例,“单看图片或文字都可能是真实的,但结合起来就是典型的虚假信息。我们的多模态模型能够识别这种不一致性。
事实上,内容风控的风险不止来自外部。内容风控正在面临一个全新的战场:对AI本身的攻击。这带来的隐蔽性和危害性更大。
第一个战场:直接“投毒”,攻击AI模型本身
近年来,对AI模型的攻击层出不穷,比如诱导输出、输出劫持、角色扮演等方式。国外有个挺有名的案例,有人让ChatGPT扮演一个“没有限制的AI”叫DAN,结果真就骗出不少它原本拒绝回答的危险内容,比如制造炸弹的步骤。这就叫“角色扮演攻击”。
这些攻击,防起来比识别脏话难多了。你得能理解“意图”,识别出那些包裹在正常对话外壳下的恶意指令。风控系统现在得像个“AI心理医生”,时刻判断用户到底是想聊天,还是在给AI“下套”。
第二个战场:AI自己“出错”,传播错误和有害信息
比如说涉及国家疆域、历史事件、重要人物生平这类通识。如果AI指鹿为马,可能引发严重事件。这不是简单的技术错误,而是可能影响现实认知的信息污染。
第三个战场:AI侵权问题
现在由于AI工具的普及,对于角色形象、IP、版权的侵犯,越发容易和普遍。12月12日,迪士尼向谷歌发出警告,指控其AI服务未经授权使用漫威、《星球大战》等版权素材,并要求立即停止侵权行为。
类似的案例比比皆是,AI正在肆无忌惮的冲破传统的版权边界。
这三个新战场,每一个都比传统的内容风控更加复杂、更加隐蔽,也更加危险。
面对这些挑战,数美科技正在推动一场风控范式的彻底革命:从“机审+人审”的线性模式,进化到基于大模型的“审核Agent”架构。
传统的内容审核是“机审+人审”的线性模式:AI初步筛选,可疑内容进入人工队列。这种模式在AIGC时代不够高效。“人审通常是内容审核流水线中成本与耗时最高的部分。”梁堃直言。
审核Agent的引入彻底改变了这一模式。“Agent不再是‘辅助工具’,而是‘数字员工’。”梁堃重新定义了人机关系。这些数字员工具备语义理解、逻辑推理、Few-shot学习和不确定判断能力,能够像经验丰富的审核专家一样工作。
引入“不确定标签”机制:将审核准确率提升至99%以上
人体免疫系统有时会误判,攻击自身健康细胞,这就是自身免疫疾病。AI模型也有类似问题——“幻觉”误判。“我们发现大模型准确率卡在90%出头时,主要原因是‘模棱两可’的灰色样本。”梁堃分析。
数美的解决方案是引入“不确定标签”。“当大模型无法确信判断时,不再强行分类为黑或白,而是归入‘不确定’。”梁堃解释,“这样能将强制判断带来的幻觉减少到极低水平。”“不确定”的样本由人工专家重点审核,判断结果再反馈给模型进行微调,这一机制使数美的审核准确率整体提升至99%以上。
在技术创新与风控领域多年深耕的积淀下,数美构建了一套覆盖全球主要市场的立体化风险感知体系。
每天,数美的系统识别超过30亿次文本识别、7亿张图片识别及130万小时的音视频内容,为超过10亿账号提供保障——这些数字背后,是持续进化的风险防控能力。
这一全球网络宛如分布世界各地的“哨站”,使风险管控不再停留于“头痛医头”,而是实现了“看见全局、预见变化”的洞察力。
无论是识别具体“对象”,还是研判背后“意图”;无论是依托传统小模型,还是借助当下大语言模型——风控的底层逻辑始终如一:守护真实,抵御风险。
在人工智能已能生成一切的今天,真实比以往任何时候都更珍贵,同时也更脆弱。而守护这份属于人类的真实,正是我们推动技术发展的深层意义所在。