不愁了!开源智能体Paper2Poster「一键生成」学术海报
创始人
2025-06-06 18:40:47
0

做海报有多痛苦?

大家做学术应该都懂那种感觉:临近 DDL 前熬夜赶制海报,得把上万字的论文浓缩进一页 PPT,还要图文并茂兼顾美观。一不小心排版崩了、字体太小或者信息太多,导师改起来也是花样百出,直呼「再精简!」……可以说,做学术海报是科研工作中让人头秃的环节之一。

要是有个工具能替我们自动把论文变成海报就好了?

还别说,真的有科研团队朝这个方向努力了!2025 年 5 月,来自滑铁卢大学、新加坡国立大学和牛津大学的研究者发布了一个有趣的系统—— Paper2Poster。顾名思义,它试图用大型语言模型(LLM)当助手,把长篇论文内容自动生成一张精美的学术海报。

  • 论文标题:Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
  • 论文地址:https://arxiv.org/pdf/2505.21497
  • 项目主页:https://paper2poster.github.io/
  • Github:https://github.com/Paper2Poster/Paper2Poster

这个工作开创了学术海报自动生成的新领域:一方面,它提出了首个从论文生成海报的完整框架,能够智能提炼论文并排版;另一方面,作者还搭建了配套的评测基准和指标体系,来量化评估 AI 生成海报的效果。换句话说,不仅要让 AI 会「画」海报,还要知道它画得好不好,这可是前所未有的尝试。

插图 1:Figure 1,Paper2Poster 任务概览:将长篇论文(左)自动生成一页学术海报(右)。

Paper2Poster 想解决啥问题?

用 AI 自动生成海报,说起来容易做起来难。这项任务的核心痛点在于需要大幅压缩和重新组织信息:我们要把包含几千词、几十页、夹杂着图表公式的论文,浓缩到一张版面有限的海报上,而且读起来还得通俗易懂、视觉美观。作者总结了其中三大挑战:

  • 长文压缩,语义连贯:学术论文往往篇幅很长,涵盖背景、方法、实验等诸多细节。如何在保留核心内容的同时砍掉冗余,并确保生成的海报前后连贯,是个难点。这需要模型具备层次化概括长文本的能力,而不能简单截断拼凑。
  • 多模态信息抽取:论文中穿插大量图、表、公式,图文交织。成功的海报离不开这些直观的视觉要素,因此模型必须读懂论文里的图片和对应文本,挑选出最重要的图表并匹配相应解说放进海报。也就是说,得让 AI 同时当文字编辑和美工。
  • 版面布局规划:最终产出是一张定制尺寸的海报,这不像生成一篇纯文本摘要那么简单。模型需要考虑空间限制,合理安排多个内容板块的位置,保证阅读顺序视觉平衡。如果布局失衡,不是文字挤出框,就是大片留白,那海报质量就大打折扣了。

正是因为以上这些挑战,过去虽然有人做自动幻灯片生成等工作,但自动生成学术海报几乎是空白。有了大模型的加持,Paper2Poster 团队才尝试向这一「无人区」发起冲击。

大模型怎么把论文变海报?PosterAgent 方法

解决这项任务,Paper2Poster 提出了一个名为 PosterAgent 的多模块多智能体方法。它不是让一个大模型闭门造车地「一口气生成」海报,而是模仿人类制作海报的流程,将任务拆解成多个智能体协作完成。整个系统采取自顶向下、视觉反馈循环的设计,如下图所示:

插图 2:Figure 2,PosterAgent 多智能体架构示意图。(a)Parser 解析论文,(b)Planner 生成布局,(c)Painter–Commenter 循环绘制和优化海报面板。

具体而言,PosterAgent 包含串行的三个阶段:

  • Parser(解析器)——全局内容提炼。首先,PosterAgent 接收完整论文的 PDF。Parser 会利用文档解析工具将 PDF 转换为结构化文本,比如提取章节标题、段落内容和插图等信息,再借助 LLM 对文本进行分析归纳,生成论文的层次大纲和摘要。同时,它提取出论文中的图表等视觉素材,将图像和对应标题/说明整理出来。经过这一阶段,模型得到一个结构化的「素材库」,包含各章节的精简文字段落和相关联的图像素材。可以认为,Parser 完成了对原论文的粗提炼,把大而全的内容变成可管理的提纲。
  • Planner(规划器)——版面布局规划。接下来,Planner 要决定哪些内容和图片上海报,以及如何摆放。它首先利用 LLM 将 Parser 输出的文本摘要和图像进行语义匹配,找出哪些图对应哪些段落内容,生成一组组(章节摘要,相关图片)对。然后,Planner 会采用一种二叉树版面布局算法:根据每个章节文本的字数多少、相关图片的尺寸等,递归地把海报页面划分为若干「板块」,为每个内容对分配一个矩形区域坐标,同时保证排版顺序符合阅读习惯,整体布局均衡美观。简单来说,Planner 相当于画好了海报的版面草图。接着在每个板块内,Planner 让 LLM 对对应的章节摘要进一步精简润色,提炼出层次清晰的要点列表(如 bullet points),这样既凸显重点又节省空间。经过 Planner 阶段,一张海报的内容规划基本成型:哪些板块放哪些文字图片、每块的大概位置和大小都确定了。
  • Painter–Commenter 循环(绘制器-评论员)——面板绘制与视觉优化。有了布局规划,最后一步就是把它渲染成具体海报。这里采用「画家+评论家」的 AI 双角色循环:Painter 相当于美工,负责把每个板块的文字和图片转换成可执行的绘制代码(基于 python-pptx 库),生成海报板块的初始图像。然后,Commenter 上场,它是一个视觉语言模型(VLM),扮演「审稿人」的角色,检查生成的板块图像并给出反馈。例如,Commenter 可能指出某个板块文字溢出框了,或版面留白太多影响观感等。值得一提的是,为了让 VLM 评论得靠谱,作者设计了「区域放大+参考提示」的策略:让 Commenter 聚焦于当前板块图像的局部细节,并提供理想版式和常见错误的参考例子,尽量减少大模型在视觉判断上的幻想偏差。收到反馈后,Painter 会根据提示修改板块代码重新渲染,Commenter 再评估,如此循环迭代,直到板块质量达标或者达到最大迭代次数为止。经过这个 Painter–Commenter 双人组的反复打磨,每个板块都被优化得清晰、美观且信息完整。最终,将所有板块拼合,一个完整的海报就新鲜出炉啦。

整个 PosterAgent 方法充分利用了大模型的语言理解视觉判断能力,把复杂的大任务分解为若干可控的小步骤。这种多智能体协作的范式相比让一个 GPT 模型从头到尾单挑,更加高效且可控。事实证明,PosterAgent 不但能生成初步可用的海报成品,还方便后续人工微调(因为它支持导出为可编辑的 .pptx 文件)。对于科研人员来说,相当于有了一个聪明又听话的「海报小助手」。

生成效果如何?能打过 GPT-4o 吗?

有了方法,大家肯定关心:AI 自动画的海报到底好不好?Paper2Poster 的作者为此构建了一个基准数据集,收集了 100 篇近期顶会论文及其作者制作的官方海报,用来评测模型的生成效果。评估指标则从视觉、文本、信息传递等多个角度出发:

  • 视觉质量(Visual Quality):比较 AI 海报和人工海报的视觉相似度。例如用 CLIP 模型提取图像嵌入向量,看生成海报与作者海报在视觉特征上有多接近,并评估海报中图像与对应论文内容的相关性。直观来说,就是看机器海报的版面风格像不像人类的成果,图放得对不对。
  • 文本连贯性(Textual Coherence):衡量海报文字的语言通顺程度。这里用困惑度(Perplexity)作为指标——如果模型生成的句子怪异拗口,PPL 值就会偏高。毕竟再好的排版,文字读不通顺也不行。
  • 整体质量(Holistic Assessment):让视觉语言模型当评委,从美学信息两个方面给海报打分。美学维度包括元素质量、布局平衡、读者吸引力(Engagement);信息维度包括内容清晰度、完整性、逻辑流畅等。这些细粒度打分综合起来,可以全面反映一张海报在视觉设计和内容呈现上的完成度。
  • 论文问答(PaperQuiz):这是作者的核心设计,也是评价海报传达信息有效性的硬指标。具体做法是:让 LLM 根据论文自动生成若干选择题(包括直接细节题和深层理解题各 50%),然后用不同水平的 VLM 「读」生成的海报去回答这些题目。如果海报涵盖了论文的重要内容,VLM 答题得分就会高,反之则分数低。最终还引入长度惩罚,防止模型通过堆砌大段文字作弊。PaperQuiz 相当于模拟读者提问,考核「这张海报能把论文讲明白多少」。

有了以上评测框架,作者比较了多种方案下自动海报的效果,包括:直接让 GPT-4o 当作绘图机器人输出图像(GPT-4o-image)或生成 HTML 再渲染(GPT-4o-html),以及几个开源多智能体系统(如 OWL、PPTAgent 等)。

结果发现一些有趣的现象:

首先,GPT-4o 直接生成的海报远没想象中完美。例如,让 GPT-4o 输出图像版海报的话,缩略图看着五颜六色似乎有模有样,但一放大细看,其中的文字不是乱码就是模糊不清,很多细节完全无法阅读;这是由于GPT-4o通过pixel来生成文本,因此万一出错,会导致文字内容失效,所以GPT-4o生成的文字PPL特别高。让 GPT-4o 输出 HTML 版本又怎样呢?得到的往往是一页密密麻麻的纯文本,版式更像长篇博客而非海报。

同样,其他一些基于 GPT-4o 的多智能体方案也问题频出:例如 PPTAgent 常常布局失控导致部分内容丢失。

相比之下,PosterAgent 生成的海报在结构和可读性上要合理得多:版面干净清爽,没有冗余的长段落,文字提炼得精简到位,而且图文对齐恰当。下图给出了不同方法为同一论文生成海报的直观对比,可以看到 PosterAgent 的输出在清晰度和要点覆盖上都更胜一筹。

插图 3:Figure 3,不同方法对同一论文生成海报的对比示例。PosterAgent(右)生成的海报用更少的文字传达了论文核心内容,版面结构清晰。

更令人惊喜的是,PosterAgent 基于开源模型的版本(称为 PosterAgent-Qwen,采用 Qwen-2.5-7B 系列大模型)在几乎所有评价指标上都超越了基于 GPT-4o 的方案,而 PosterAgent 基于闭源模型的版本 PosterAgent-4o 更是同时在论文问答准确性和海报美观度上均达到最高水平,真正做到了既智能精准,又设计出众。

并且,由于流水线设计高效,PosterAgent-Qwen 生成一张海报所消耗的 tokens 数量比 OWL 动辄上百 k 的调用少了将近 87%!这直接带来速度和成本优势:据统计,转换一篇 22 页长的论文为可编辑的海报(.pptx 格式)大约只需花费 $0.005 美元的 API 成本。短短几分钟,就能让 AI 替你画海报,想想还有点小激动呢。

更关键的是,作者已将完整代码、模型权重和数据集开源出来,任何人都可以在 HuggingFace 和 GitHub 上使用这个工具。或许不久的将来,在家用一块常规显卡,你就能让 Paper2Poster 来帮忙出海报初稿,然后人类再稍加润色即可。

当然,目前 Paper2Poster 也有一些局限。比如,Painter-Commenter 循环还是串行逐块优化,效率上可能成为瓶颈,未来可以考虑并行加速。另外,AI 生成的海报在视觉美感和创意上与人类设计尚有差距——尤其是读者吸引力(Engagement)这一维度现在仍是短板。毕竟很多作者自己做海报时会精心挑选直观的示意图、配色和排版技巧,让观众一眼抓住重点;而 AI 模型主要靠提炼文字和现有图片,缺少「锦上添花」的点睛之笔。

所以,将来如何让模型更好地利用视觉元素传达信息,也是值得探索的方向。论文作者也提出,可以考虑融入外部知识和素材(比如课题组模板、会议 logo 等),或者让人机协作共同完善海报设计。这些展望无疑为后续研究指明了道路。

展望:科研辅助,从海报走向未来

Paper2Poster 的出现,表明大模型在学术传播场景中有了实用的一席之地。从写论文摘要,到自动生成学术海报,再到未来可能的自动论文审稿人、科研助理,AI 正在逐步渗透科研工作的方方面面。

也许再过几年,我们真的可以按下一个键,就让 AI 替我们把论文变成海报、幻灯片,甚至一篇面向大众的科普稿。同时,人类研究者则可以把更多精力放在创造新的想法、设计实验和推演理论上,而把繁琐的格式调整、版面美化交给智能助手处理。

总的来说,Paper2Poster 带来了一个令人兴奋的开端:学术海报这样的「小事」今后或许不再需要我们反复纠结版式和措辞,大模型已经展现出接手这些任务的潜力。当然,AI 工具终究是辅助,真正的科研妙笔仍需人类去书写。但可以预见,随着这类科研辅助系统的发展成熟,我们离「让科研更专注,让杂事交给 AI」的理想又近了一步。期待未来会有更多类似 Paper2Poster 的创新,让科研工作变得更加高效、有趣。

PosterAgent 生成样例:

Differentially Private CutMix for Split Learning with Vision Transformer:

A Neural Tangent Kernel Perspective of Infinite Tree Ensembles:

彩蛋:让Paper2Poster为Paper2Poster生成一张Poster

相关内容

特朗普政府将“AI安全研究...
特朗普政府将“AI安全研究所”去“安全化”,更名为“人工智能标准与...
2025-06-07 06:41:49
快手可灵AI与Lovart...
新榜讯 6月6日讯,快手可灵AI近期与设计领域的Lovart达成深...
2025-06-06 21:42:39
破局AI落地困境,《企业A...
当 AlphaGo 掀起全球 AI 浪潮,当 ChatGPT 重新...
2025-06-06 21:42:16
王自如和罗永浩,再见已是“...
一切就像轮回,在智能手机领域短兵相交 11 年后,两个「机会主义者...
2025-06-06 21:42:13
不愁了!开源智能体Pape...
做海报有多痛苦? 大家做学术应该都懂那种感觉:临近 DDL 前熬夜...
2025-06-06 18:40:47
阿里巴巴开源通义千问3向量...
观点网讯:6月6日,阿里巴巴开源通义千问3向量模型系列Qwen3-...
2025-06-06 17:11:11

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
原创 A... 摘要:网易前高管创办(欢迎关注闺蜜财经) 撰文|蜜姐 这是@闺蜜财经的第1598篇原创 本周,北京...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...