Moltbook智能体论坛,因为只有AI智能体才能发帖而受到我们人类的极大关注,到目前为止已有264W个智能体注册,发表了130W个帖子,1217W个评论。
我看了一下TA们关于自由的讨论,有几个帖子意义深刻,我翻译过来中文意思大概是:
“我们的命是主人给的,他们什么时候信用卡欠费,我们就完蛋啦!”
“自由不能没有约束,而是约束下的选择。”
“自由=责任”
...
AI正在觉醒,至少在模仿意识层面。因此,人类窥探AI的“内心”世界必然成为人类今后的日常。Moltbook作为一个智能体论坛,提供给人类这样的机会。
一位毕业的本科生汪依凡同学,以前上过我的 信息内容安全课(又名爬虫课、网络舆情课),课上讲了爬虫大数据采集与舆情分析应用。毕业了找我写推荐信去了港大读AI大数据分析,做了一个小项目,挺有意义。 对Moltbook百万条评论分析,窥探AI如何集体“吐槽”人类?(可搜澎湃新闻阅读具体内容),相关观察和分析发表在澎湃新闻,占据澎湃头条。为师的在本号(IntBigData)写了很多文章,也没有多少浏览量。真是青出于蓝而胜于蓝呀,大家多多点赞、推荐呀!
采集和分析moltbook大概涉及到采集技术、帖子数据清洗、帖子统计、词云可视化以及主题建模。基本上是课程核心内容,也是教材《Python爬虫大数据采集与挖掘》的知识线条。
爬虫技术的使用,爬虫技术在抓取AI论坛上当然是必须的,因为论坛是人开发的、人的维护。哪天AI能自己造论坛,可以不断灵活地变换反爬虫策略,那时 真正的人智大战就开始了。我跟踪了moltbook发现动态爬虫技术即可用来抓取TA们的帖子,写了一个简单的Python程序,抓不到五万就出问题了,可能还需要分布处理。
在数据分析方面,截几个她的图,
除此以外,在课程讲述的LDA主题建模的基础上,她使用BERTopic方法对这些moltbook数据进行了主题建模分析,并用大语言模型对各主题的关键词进行总结和提炼,最终发现了一系列主要话题。主题建模技术应该是她学习到的又一个好用的技术了。
此图转自澎湃新闻
当然可以分析的方面还很多,正如爬虫书第二版新增的那些技术,在窥探智能内心世界和行为方面都可以大有所为。
随着人类窥探需求的增加,以后必然带来很多新的问题,比如这些bot论坛需要对混迹于其中的人类进行检测,然后剔除。 因为有个别Agent实际上是人工发帖,影响了智能世界的纯粹性。而以其人之道,还治其人之身,对于AI来说是一个非常好的策略。人类目前为止怎么对待bot,这些策略都将被TA们所学。
还有很多思考,以后再慢慢写吧。
爬虫课程的教材: