当谣言搭上“AI”的东风_linux资讯

当谣言搭上“AI”的东风

创始人

2025-06-12 17:12:49

0次

大模型研究小分队

AI标识制度在应对虚假信息“更多更真”的治理挑战中，展现出积极的技术潜力，可作为内容治理链条的重要前端支点。但同时也需正视，作为仍在探索中的治理手段，AI标识具有明显的技术短板，需要与现有的内容生态治理体系相互协同，聚焦高风险领域，实现治理效能的提升。

正如半年前我们在公众号文章：所担忧的那样，随着AI在内容领域的快速应用，利用AI生成谣言、进行虚假宣传正在对公众带来负面影响。据南都大数据研究院不完全统计，2024年搜索热度较高的50个国内AI风险相关舆情案例中，超过1/5与AI造谣有关。[1]进入2025年，“西藏定日县地震一小孩被压废墟”等涉AI谣言频繁登上舆论焦点。[2]此外，AI合成换脸用于虚假宣传等违法案件频发，如不法商家冒充孙俪等明星带货[3]、杜撰“苗古金贴非遗传承人”[4]，以此牟取流量与收益。

一、AI新技术与治理老难题

与以往相比，AI生成的违法有害内容，在性质上并没有发生根本变化。AI只是将原本存在的内容治理“老问题”进一步放大加速，主要集中在三个方面：

一是“更易”，即更低的门槛。生成高度“真实感”内容已不再依赖专业知识或写作技能。中国互联网联合辟谣平台报道，在中部某省村落，村民们通过将网络热点关键词粘贴进AI模型生成文章，发布后获取流量收益。[5]技术赋能下，大量非专业的“草根”也能制造出接近真实的虚假内容。

二是“更多”，即技术可令虚假信息“批量化生产”。例如“医疗泰斗客死他乡”这一谣言，嫌疑人通过算法指令控制AI生成煽情谣言，借500个账号矩阵实现日均1万条产出，几乎成为“工业化造谣”。“垃圾进、垃圾出”的“AI污染”现象，也是虚假信息批量生产所导致的次生负面表现。

三是“更真”，即多模态、多细节的信息更具迷惑性。AI生成的谣言往往掺杂伪装性的“新闻语言”和视觉要素，极具欺骗性。“西安市鄠邑区地下出热水”这一谣言包含多种细节，令普通人难以分辨真假。[6]

这三类风险并非简单叠加，而是在现实传播场景中形成了“乘法”的放大效应，加剧了内容治理的挑战。同步，也促使当前AI内容治理的新路径——AI标识制度在实践中检验其有效性与局限性。

二、AI标识的治理价值与自身局限

对于内容生成平台，要求对AI生成内容，添加元数据隐式标识；对可能造成混淆误认的内容，按内容类型（文本、图片、音频、视频等）在指定位置添加显式标识；对于传播平台，要求提醒用户主动声明AI生成内容，并进行标注，同时对生成平台添加的元数据等隐式标识进行核验，并根据核验结果进行相应标识等。

（一）理论上，AI标识能够为内容治理提效赋能

另一方面，显式标识有助于降低相关内容的可信度。一项发表在《PNAS Nexus》期刊的研究显示，“AI生成”的显式标签往往会削弱受众对内容的信任。研究项目让4976名受试者对不同类型的新闻标题进行评估，发现无论新闻内容真假与否，被标注为“AI生成”的标题均被认为更不准确，且受试者的分享意愿也更低。[8]因此，作为一种“中间态”的提醒机制，“显示标识”能够在无法立即确认真伪的情况下，起到最低限度的警示作用，减少潜在风险升级扩散的可能。

值得注意的是，也正因为“显示标识”具有降低内容可信度的特点，其适用范围会有所限定。以避免过度标识后对用户带来的信息过载，甚至无法建立基本的信息信任等弊端。当前，AI广泛应用于内容生产行业，带来提质增效、激发创意等积极效用，推动广告素材生产、教育培训方案等内容产业从“千人千面”走向“一人千面”。为进一步促进AI技术在内容生产领域带来的积极价值，我国目前对显示标识的适用范围有所限定，将其聚焦于易引起“混淆误认”等负面影响的领域，而非一刀切适用。

（二）实践中，标识效用的发挥仍面临较大的不确定性

作为主要依赖技术手段的治理方式，AI标识不可避免地具有技术局限性。一是“易规避”，哈佛大学的一项研究指出，“在一些明确假设下，如攻击者具有简单常见的能力，可对内容做轻微修改，实现强水印（标识）管理是不可能的”。[9]此外，非法使用者往往不会通过官方API进行操作，而是直接下载开源模型并在本地或匿名环境中部署训练，这种使用模式在设计之初就绕开了水印嵌入、身份认证等合规机制。[10]如Stable Diffusion等域外开源模型，其水印组件可被攻击者轻易移除，从而生成不受约束、无水印的内容。[11]二是“易伪造”，即通过模仿水印（标识）嵌入方式，在非原始模型或非授权用户下制造假的水印（标识），误导溯源与归属判断，或是将人类内容标为AI生成[12]。三是“易误判”。以文本检测为例，研究发现，传统方法（如KGW算法）以词汇比例来判断是否AI生成，易引发误判。[12]如媒体报道，《滕王阁序》等知名文学作品也被误判为“AI率100%”。[13]对此，专业人士表示：“由于AI生成内容的性质在不断变化，AI检测会存在误判情况。尽管通过技术改进可以降低AI检测的误判率，但不可能完全消除”。[14]

除此之外，AI标识制度还面临成本挑战。引入如嵌套水印等技术确实可以提升检测的可靠性，但在验证过程中逐层解码所需的计算资源甚至可能超过生成本身。[15]哈佛大学相关研究指出：在工具尚不完善的背景下，判断一段内容是否由AI生成可能是“代价高昂、效率低下且随意的过程”。[16]

综上，在当前阶段，标识的可行性、有效性仍然充满不确定性，更谈不上实现“一劳永逸式”的AI内容治理，应避免对其赋予过高期待。发挥标识的技术效用，需将其纳入治理体系做通盘考虑。

三、明确AI标识的长短板，回归内容治理的根本逻辑

当前，AI所带来的内容问题仍主要集中在谣言、虚假宣传等领域，此类信息的“更多”“更真”对内容治理带来切实挑战。AI技术标识作为一种“长短板分明”的治理工具，应充分发挥其“长板”优势，同时依靠已有的内容治理体系补齐“短板”，从而实现整体治理效能的最大化。具体而言：

一是将标识工具嵌入现有内容治理体系，合理界定标识方案的定位与功能。与欧美囿于监管受限、缺乏抓手，从而妥协折中选择AI标识作为内容治理手段不同的是，AI标识只是我国成熟健全的内容治理体系中的工具之一。以营造清朗网络空间为目标，我国内容生态建立了从用户到平台，从监管制度到社区规则的健全体系。作为体系中的一环，AI标识方案仍然服务于内容治理的根本目标。为此，在制度设计中，我国目前也将标识的重点落于防止“混淆误认”的领域，即尽可能降低高度拟真的AI生成内容被误认为真实，进而引发谣言传播、欺诈、冒名侵权等次生风险的领域，相应的一系列技术与责任机制也都围绕这一目标展开。

结语：随着AI技术的快速普及渗透、AI生成内容将不可避免地成为信息生产的常态，“人工”与“智能”的边界也将日趋模糊，内容治理的目标仍将回归至内容性质本身。除了在谣言、虚假宣传等高风险领域，应用标识技术手段为治理赋能外，在AI创作无处不在的未来，加强信息素养教育，引导公众建立对信息媒介的客观认知或是更为基础性的工作。

本期文章由腾讯研究院大模型小分队：王融钟雨霏王强完成

参考文献来源：

[1] 南都大数据研究院. “一键生成谣言！50个国内AI舆情风险案例，AI造谣占两成.” 南方都市报, 19 Feb. 2025,

[2] 任静. “AI谣言舆情特征及风险研判.” 法治网舆情中心, 12 May 2025,

mp.weixin.qq.com/s/-1JtEBLOfYWYsWZs0Kcyog. 访问日期：2025年5月21日.

[3] 广州日报. “邓超、孙俪工作室，发布严正声明.” 18 May 2025.

https://mp.weixin.qq.com/s/ckJmhMYKqWBaKFX_LzAJnQ.

[4] “这款百万人下单的网红热敷贴，连代言人都是假的！” 人民日报, 28 Apr. 2025,

https://mp.weixin.qq.com/s/m2BatFp6uXz-miaQFWpT0w.

[5] “场景一键生成、图文真假难辨，AI批量造谣背后竟是……” 中国互联网联合辟谣平台, 11 July 2024,

[6] 公安部网安局. “利用AI洗稿造谣，西安警方依法处罚多人.” 公安部网安局, 27 Mar. 2024,

mp.weixin.qq.com/s/lZjp_8HT_5eNJHNUFDCseQ. 访问日期：2025年5月21日.

[7] 部门规章：《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》《互联网信息服务算法推荐管理规定》；规范性文件：《人工智能生成合成内容标识办法》；国家标准：《网络安全技术人工智能生成合成内容标识方法》

[8] Sacha Altay, Fabrizio Gilardi, People are skeptical of headlines labeled as AI-generated, even if true or human-made, because they assume full AI automation, PNAS Nexus, Volume 3, Issue 10, October 2024, pgae403,

https://doi.org/10.1093/pnasnexus/pgae403

[9] Zhang, Hanlin, et al. Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models. Harvard University, 23 July 2024. arXiv,

arxiv.org/abs/2311.04378.

[10] Burgess, Matt. "Criminals Have Created Their Own ChatGPT Clones." WIRED, 7 Aug. 2023, https://www.wired.com/story/chatgpt-scams-fraudgpt-wormgpt-crime/. 早在2023年，科技媒体《WIRED》就曾报道过此类黑产语言模型的可得性，并指出它们从一开始就走上了与合法LLM服务截然不同的道路：“自七月初以来，有犯罪分子在暗网论坛和市场上兜售他们声称开发的两个大型语言模型。这些系统……模仿了ChatGPT和谷歌Bard的功能……但与合法公司开发的LLM不同，这些聊天机器人是面向非法活动进行营销的。……这些“黑产LLM”去除了任何形式的安全保护或伦理限制。”

[11] Hu, Yuepeng, et al. Stable Signature is Unstable: Removing Image Watermark from Diffusion Models. Duke University, 12 May 2024. arXiv:2405.07145.

https://arxiv.org/abs/2405.07145.

[12] Dong, Ziping, et al. Imperceptible but Forgeable: Practical Invisible Watermark Forgery via Diffusion Models. The State Key Laboratory of Blockchain and Data Security, Zhejiang University, 28 Mar. 2025. arXiv:2503.22330.

[13] https://mp.weixin.qq.com/s/TeU3tNYPYSIp_FqCIvNQ3g

[14] “AI检测翻车现场：《滕王阁序》100% AI生成？实测结果来了.” 扬子晚报, 10 May 2025,

https://mp.weixin.qq.com/s/3sMO9U7lyGntot0qbQxBqA.

[15] Sowmya S., Sahana Karanth, and Sharath Kumar. “Protection of Data Using Image Watermarking Technique.” Global Transitions Proceedings, vol. 2, 2021, pp. 386–391. Elsevier, doi:10.1016/j.gltp.2021.08.035.

[16] Srinivasan, Siddarth. “Detecting AI Fingerprints: A Guide to Watermarking and Beyond.” Brookings Institution, 8 May 2024,

https://www.brookings.edu/articles/detecting-ai-fingerprints-a-guide-to-watermarking-and-beyond/.

[17] 赵精武、陈翊瑄. “思享｜‘网络谣言’的老题新治.” 法理杂志, 18 May 2025,

https://mp.weixin.qq.com/s/SXl8YoM6JQIFI8663hnAfQ.

水印标识技术信息误判治理模型高风险谣言内容 https 公安部网安局

上一篇：银河通用X清华大学发布首款开源人形机器人全身遥操系统OpenWBT

下一篇：42岁网红“草帽姐”自曝患肝纤维化终生无法康复，劝粉丝不要经常生气

当谣言搭上“AI”的东风

相关内容

热门资讯