复旦大学 《信息内容安全》(又名网络舆情课、爬虫课)结课了,经过理论和技术的学习,同学们选择了很多有趣的问题,运用课程学过的知识进行了数据采集、处理和挖掘,并进行了机理方面的深入思考。 技术知识与人文、社会在一个层面上进行了融合,达到了课程教学和做课程项目PJ的目的。这里先展示一个PJ,是关于AI创作的舆论分析。
PJ选题背景
从孙燕姿的AI翻唱歌曲在B站爆火引发全民讨论,到"篮球巨星科比"的AI克隆视频引发伦理争议;从Midjourney生成的《太空歌剧院》斩获艺术大奖,到国内画师集体抗议AI作品参赛,AI创作技术正以前所未有的速度席卷着各大平台。人工智能的效益与风险深刻地影响着社会各界,大家对于AI创作的看法如何呢?
在这一背景下,刘贺明、张起和张起源同学组成的PJ小组聚焦"AI创作"这一热点议题,选取了具有代表性的三大内容平台——知乎、B站和百度贴吧作为研究对象,分析大众对AI创作这一问题的观点和看法。
数据来源与处理
知乎:作为中国最大的知识分享社区,代表深度思考和理性讨论。爬取的内容分为两个部分:问题及回答。问题类似于一个大标题:“如何看待XXXX”,而回答则类似评论区,由用户对问题进行解答。通过提取cookie和页面滚动方式分析问题的URL,使用爬虫进行了采集。
贴吧:作为兴趣社群的发源地,反映真实用户和垂直态度。包括帖子列表爬虫(tieba.py)与评论内容爬虫(tieba_comment.py),分别负责从关键词搜索到帖子元信息获取,再到逐帖抓取全部楼层评论。
通过爬虫技术,我们收集了超过8w条真实评论,涵盖 AI绘画、AI视频、AI音乐三大创作类型。这些数据不仅包含文本内容,还整合了用户画像(性别、等级、会员状态)、时空信息(IP属地、发布时间)以及互动数据(点赞、评论、分享)。之后进行数据清洗,清除与AI创作无关的评论,特别是一些包含"免费", "教程", "教学", "入门"之类词汇的疑似广告。
数据分析与讨论
分析不同社区、不同身份、不同背景的用户对AI创作的真实态度及其看法,试图回答几个关键问题:(1)普通用户如何看待AI创作?(2)不同平台的用户态度有何差异?支持者与反对者的核心论点分别是什么?(3)哪些因素影响了公众对AI创作的接受度?
1. 评论的时间分布
对2020年后发布的的评论进行统计,总体上评论数量随时间呈增长趋势,且样本中的大部分评论也集中在今年的10、11、12(图中12月只是部分)月份。总体上评论数随时间呈增长趋势,可能的原因之一是最近各大模型被人们广泛使用,AI生成图片、音乐、视频的使用次数相比之前确有增多。
2. B站对AI创作关注的群体分析
基于B站用户特有的等级与大会员机制,进行统计。评论的用户大多数都是高等级的用户,其中5、6级的用户共占样本总数的 85% 左右,且大会员 占比也较高,约占 35% 。可见B站的社区生态成熟,用户粘性较强,大部分用户都是长期、高活跃度的 “老用户”,且用户的付费率较其他平台相比也较高。
3. 词云分析
对B站、知乎、贴吧这三个平台各自以及汇总地画出一个关键词词云图。下面仅展示三个汇总的结果。总体上可发现三个平台的差别:
B站上的评论更聚焦于对ai创作的内容进行评价(如关键词孙燕姿、科比等),且讨论话题大多是ai创作的音乐与视频;
知乎上的评论更聚焦于对ai创作背后的技术进行讨论,与其他平台相比评论内容更为深入;
贴吧上的评论更聚焦于对ai绘画的讨论;
总体的关键词词云图更靠近知乎的关键词词云图,这也大概率是由于知乎平台上的评论多为长文本, 信息量较大的缘故而造成的。
4.情感分析
选用了SnowNLP作为基准测试工具,其情感分析模块基于朴素贝叶斯 (Naive Bayes)算法实现,模型使用电商评论数据进行训练,对AI创作评论并不太适合。所以,也引入了Hugging Face的 transformers 库,并使用roberta-base-finetuned-dianping-chinese模型来进行观点的情感分析。以知乎为例,两者对比如下,通过人工抽阅,总体上Bert的情感分析更合理,该图显示,知乎用户的情感倾向呈现出以理性讨论为主导的特征,对AI创作持正面态度的用户占比与持负面态度的用户占比相差不大,前者略多。
为了进一步了解知乎用户对于AI艺术创作的讨论内容,我们首先统计了所有知乎用户回答中的高频词,然后分别 统计了对AI创作持正、负面态度的回答中的高频词。结果显示:“技术”“领域”“发展”“工具”等词汇 的主导地位,其中“技术”一词频次高达14235次,远超其他词汇,凸显出知乎用户对AI本质属性的高度关注。同时,正面与负面独有关键词清晰展现了双方立场的分化: 正面评价集中于“帮助”“机会”“提升”等积极动词,体现对AI为各行业赋能的信心以及对AI辅助日常工作学习的夸赞; 负面评价则围绕“画师”“程序员”“成本”“泡沫”等词汇展开,突出对AI创作能力的质疑或者对AI影响人类作机会的担忧。
***B站和贴吧略***
5. 大众对AI创作持不同态度的成因分析
支持者普遍将AI视为创造性工具的革命性升级,认为AI对生产效率显著提升,特别是在游戏开发、动漫制作等领域; AI降低了创作门槛,非专业用户通过Stable Diffusion、Suno等工具,也能生成多样化的视频与音乐, 大大激发了相应社交平台的热度与活力。最后,AI创作 涌现出新职业与新经济,技术革新催生了新的产业链与就业机会。
反对者主要担忧AI对现有创作生态、法律秩序与人文价值的冲击,其抵触情绪源于: 版权与原创性危机, 就业机会减少, 人像侵权,最后是 艺术本质被消解。部分人认为AI创作缺乏灵魂,其泛滥将导致文化同质化与审美降级。
教学资料
教材: 《Python爬虫大数据采集与挖掘》第二版(曾剑平,清华大学出版社,2025),教材经过多年使用、完善,形成了独具一格的知识体系,是 互联网大数据技术分析及应用相关课程的合适教材。编著者提供大量的教学资料,包括课件、Python代码、习题答案、教案、在线题库等。