发布日期:2026-02-25 04:17点击次数:

AutoFigure团队 投稿量子位 | 公众号 QbitAI西双版纳pvc管道管件胶
你是否也经历过这样的望:
论文截稿在即,面对大段的文字你抓耳挠腮,PPT画框画到手抽筋;
尝试用Nano banana生个图,颜值拉满但逻辑全错,甚至还自带“克苏鲁”风格的模糊字符;
^好不容易调好了Prompt,结果想改个小图标,却发现AI给你的只是张从下手的“死图”。
这种“审美与逻辑不可兼得、生成与编辑断层”的痛点,终于要被终结了。
现在,你可以把大段的文字材料直接塞给AutoFigure,西湖大学团队出的全新智能体绘图框架。
它能够键读懂上万字的论文、书籍、博客,自动化地吐出质量的学术插图为你所用。
重磅的是,其优化版本AutoFigure-Edit实现了从“像素”到“矢量”的跨越:生成的插图不再是死板的图片png,而是细节可编辑的SVG文件(现在你可以在PPT里直接编辑了)。
目前,该工作已入选ICLR 2026。代码、数据集、Web交互界面全部开源,并同步上线了可键使用的在线网站。
背景:为什么AI以前画不好科学插图?
在学术绘图界,直存在两个端:
1. End-to-end派(如GPT-Image):审美在线,但逻辑经常“蹦迪”,文字是重灾区,充满了莫名其妙的幻觉字符。
2. Text-to-code派(如TikZ/SVG生成):逻辑倒是严密,但视觉果往往丑得像上个世纪的教科书,缺乏现代论文的感。
AutoFigure提出了“理式渲染”(Reasoned Rendering)范式:将“脑子(逻辑布局)”和“手(美化渲染)”分开。
技术案:模拟大牛设计师的“三步走”策略
AutoFigure的核心是个分工明确的多智能体协作系统。
△AutoFigure架构图(由AutoFigure生成,未经修改)
步:Conceptual Grounding(构建逻辑骨架)
AI读入你长达万词的文字材料,自动提取实体和关系,生成个粗糙但结构正确的布局(SVG/HTML代码)
二步:Critique-and-Refine(Agent闭环迭代)
模拟人类设计师与甲的反复拉锯西双版纳pvc管道管件胶 ,对图片布局进行反复修改:
AI Designer负责根据反馈修改布局。AI Critic则负责挑毛病(例如“这里箭头重叠了”、“布局重心不稳”),直到得到满意的绘图质量。三步:Aesthetic Rendering & “Erase-and-Correct”
在终美化阶段,AutoFigure先将布局渲染为张精美的图片。随后,为了解决现在AIGC生图文字变形的问题,保证图片中文字的正确,AutoFigure引入了门的“擦除-修正”策略:用OCR识别模糊字符,把它们“抠掉”,万能胶厂家再重新覆盖上清晰的矢量文本。
AutoFigure-Edit:把AI生成图装进PPT
△AutoFigure-Edit流程图(由AutoFigure-Edit生成)
在新版本AutoFigure-Edit中,西湖大学团队进步,引入了SAM3自动抠图技术,包括:
利用Meta新的SAM3技术识别图中的Icon。配RMBG-2.0自动去除背景。矢量重组:将这些干净的图标重新塞进生成的SVG模板中。
奥力斯 万能胶厂家 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
终,你得到的是个可以在浏览器内置编辑器里直接拖拽、改字、换的动态画布,能够按照你的想法对图片细节进行改。
△基于AutoFigure-Edit的在线画布
△AutoFigure-Edit渲染过程示例图
人类实验结果:66.7的觉得它达到了Camera-ready标准!
为了验证AutoFigure的果,团队构建了全球个大规模科学插图基准——FigureBench。
规模宏大:涵盖3,300质量文本-图片对,跨越论文、综述、技术博客、教科书等四种科学文本。
△FigureBench数据集介绍
降维击:在逻辑清晰度和准确度上,AutoFigure的优势大,在教科书类任务中胜率甚至达97.5。
△在FigureBench上的实验结果
具说服力的是人类盲测:10位论文作对生成的图片进行评审,结果显示66.7的认为AutoFigure生成的图已经达到了Camera-ready(出版)标准。
△人类评价结果
接下来,我们看几个case,直观感受下。
由AutoFigure-Edit产生的法图:
由AutoFigure-Edit产生的法图:
由AutoFigure-Edit产生的法图:
法图,左侧为阶段PNG形式,右侧为终转换得到的SVG文件:
法图,左侧为阶段PNG形式,右侧为终转换得到的SVG文件:
由AutoFigure-Edit产生的生物机制图:
由AutoFigure-Edit产生的材料机制图:
由AutoFigure产生的综述图:
由AutoFigure产生的教科书图:
项目价值:AI Scientist的“后块拼图”
插图不仅是视觉补充,是复杂科学概念的桥梁。AutoFigure的出现,意味着:
1. 赋能AI科学:这是AI实现全流程自主研究(从文本到绘图)的关键步。
2. 不只是架构图:论是流程图、法流程,还是复杂的教科书示意图,它都能手到擒来。
本项目提供了可键使用的在线网站。建议各位研究者先收藏,下次ddl前,起码画图应该不会那么仓促了。
GitHub:
https://github.com/ResearAI/AutoFigure-Edit论文:
https://arxiv.org/abs/2602.03828v1HuggingFace:
https://huggingface.co/datasets/WestlakeNLP/FigureBench网站:
https://deepscientist.cc彩蛋:
所有学者均可费体验demo,有期刊投稿需求的朋友不用担心,Nature风格、Science风格等多样风格键生成也将很快上线。
想要体验这款“绘图器”吗?点击上链接即可开始你的创作!
本项目由西湖大学张岳实验室开源。西湖大学实验室(WestlakeNLP)成立于2018年9月,由张岳教授。张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院院长。他著有剑桥大学出版社出版的《自然语言处理》书,并担任过EMNLP 2022等多个顶NLP会议的程序委员会主席。
本项目核心团队成员包括翁诣轩*、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果包括Cycle Researcher、DeepReview、DeepScientist(两个月刷新三个前沿任务SoTA的人工智能科学项目)等工作。欢迎感兴趣的同学加入到自动化科学发现研究,有意向申请长期实习、博士生、研究助理者可联系张岳教授邮箱(zhangyue@westlake.edu.cn)。
相关词条:管道保温 塑料管材生产线 锚索 玻璃棉毡 PVC管道管件粘结胶
18232851235