论文工厂:MIT 如何用几十个 AI 把「写论文」拆成流水线|认识的乐趣 · 第4期
一周自动产出 34 篇实证论文。我们把它的架构和提示词逐条拆开,挑出能直接抄进你自己工作流的部分。
如果你也用 AI 写过东西,大概率见过这一幕:让它写一段文献综述,它张口就来,引文煞有介事,点开却查无此文;让它分析一份数据,它把「相关」写成「导致」,把一个勉强显著的系数说得斩钉截铁;让它润色,满屏都是「这表明」「不仅……而且」和泛滥的破折号。它很流畅,但你不敢用。
MIT 斯隆管理学院的 Nathan Wilmers,和伦敦大学学院(UCL)的 Per Engzell,干脆把这个问题做成了一个系统。他们搭了一套叫 The Paper Factory(论文工厂)的多智能体流水线:你丢进一个研究问题和一份数据,几十个 AI agent 接力,自动跑统计、写作、查错,最后导出一篇带图表和引用的完整实证社科论文。一周时间,它生成了 34 篇。
结果很微妙:作者判断,这些论文里不少「够格送去同行评审」,但无一能直接发表——它们能挖出真实的经验规律,却在框架、取舍和判断上差了一口气。论文《The Paper Factory》已作为 SocArXiv 预印本放出,还附了一个公开的成品画廊,你可以自己去读那 34 篇,自行判断(注1)。
但这一期我们想拆的,不是「AI 到底能不能写论文」这个会吵翻天的问题。真正值钱的,不是它会写论文,而是它用一整套工程手段,把 AI 从「油嘴滑舌」逼成「严谨」的那套设计。这套设计和你要不要写论文无关——只要你在用 AI 干正经活,它就能抄。下面我们分两半拆:一半架构,一半提示词;能直接复制的,我都给你标出来。
一、先认识这座「工厂」
先说它反直觉的地方:论文工厂不是「一个很聪明的大模型一气呵成」,恰恰相反,它假设每一个 agent 都不可靠、都会偷懒、都会自我感觉良好,然后用流程把这些毛病一个个摁住。
它把「写一篇论文」拆成十几道工序,每道工序由一个独立的 agent 完成:提出研究发现、清洗数据、跑回归、自我批判、过质量关、成文、润色……工序之间不靠一个无所不知的「大脑」串起来,而是靠文件交接。这套思路,本身就是这期最该抄走的东西。
二、架构:四件「逼 AI 严谨」的工程设计
第一件 · 文件即状态机:每步都「失忆」,整体却可控
论文工厂不让 agent 在一个越滚越长的对话里攒记忆,而是每一步都开一个全新的 agent,彼此只通过磁盘上的文件交接。这一步该不该做、做到哪了,不靠「它记得」,而靠「扫描哪些产物文件已经存在」反推。
原文里有一句很硬的指令:「Run each step with a fresh agent context.(每一步都用全新的 agent 上下文跑)」,以及「Never stop at a plan or scaffold…(绝不停在一个计划或骨架上)」——意思是每一步都必须落出一个实打实的产物文件,而不是交一份「我打算这么做」。
这样做的好处是工程上的:天然可中断、可续跑、可审计。某一步错了,回到那个文件重跑即可,不必从头再聊一遍。
【你能怎么用】把长任务从「一个长对话」里拆出来,让 AI 每一步只产出一个文件:大纲.md、清洗.py、结果.csv。下次直接说「读这个文件,接着往下做」。可中断、可回看、不串味——这是个人用 AI 做复杂活时,立刻能感到差别的一招。
第二件 · 发散 → 收敛:并行很多个,再「只选一个」
到了「找研究发现」这种开放度很高的环节,论文工厂不让一个 agent 一次性给答案,而是同时跑 6 路互不相见的独立候选,每一路只聚焦做出一个小结果;然后由一个专门的 decider(裁决者)从中只挑一个,并被明令禁止「合并」「综合」。
原文的措辞近乎严厉:「Do not synthesize. Do not merge packages. Pick one.(不要综合。不要合并这些产出。只选一个。)」
为什么这么轴?因为把多个 AI 产出「平均」或「缝合」到一起,你会得到一锅没有立场的浆糊——每个观点都被磨平,最后谁也不得罪,也谁都说不出。独立发散保住了锋利度,显式选择保住了判断。
【你能怎么用】开放式的活(取标题、定选题、想分析角度),让 AI 一次给 3–6 个彼此独立的版本,你自己或另开一个「评委」prompt 只挑一个,禁止它折中。比指望一个 agent 一次到位要好得多。
第三件 · 生成 / 批判 分离:每个「作者」都配一个「审稿人」
论文工厂里,每一个负责产出的 agent,都配一个上下文独立、立场对立的 critic(批判者)。关键在于,这个批判者的任务被刻意收窄:它只问一件事——「这个产出有没有立刻致命的硬伤?」原文:「Does this package have an immediate fatal empirical flaw…?」同时还有一条护栏,防止它从一个极端滑向另一个极端:「Do not reject … merely because it has normal limitations.(不要因为它有常规局限就毙掉它。)」
道理朴素得有点扎心:作者审不了自己。同一个上下文里,模型只会顺着你、夸你、替你打圆场。换一个干净、对抗性的新上下文,它才会去抓「夸大其词」和「机械性假象」。
【你能怎么用】写完一段、跑完一个分析,新开一个对话,把它当成一个敌意审稿人,只让它找「立刻致命的硬伤」,别管常规局限。你会发现它突然「敢说话」了。
第四件 · 质量闸 + 问题账本:「数字对了」也不算通过
这是整套设计里最像「制度」的部分。论文工厂设了两道闸,职责分得很清楚:
- 闸一:只查「代码能不能复现论文里的数字」。
- 闸二:查「这些数字到底支不支持文中的论断」。
一句原文点破了二者的区别:「Matching numbers is necessary but not sufficient for a pass.(数字对得上,是通过的必要条件,但不充分。)」数字能复现,不等于结论站得住——这是无数论文翻车的地方。
更妙的是它还配了一份只增不删的问题账本(audit_issue_ledger.md)当跨步记忆:带 blocking 标记的问题没清干净,就过不了闸,而且禁止静默删除历史问题。这一条专治 AI 流水线的一个顽疾——「问题在后续步骤里悄悄消失了」。
【你能怎么用】别让 AI 一句「我改好了」就翻篇。把「复现」和「支持论断」分两步问;让它把发现的问题写进一个清单,只增不删,没解决的不许进入下一步。
三、提示词:把规矩,写死进 prompt
如果说架构是骨架,提示词就是论文工厂用来「驯化」机器的条款。它的思路始终一致:不假设 AI 自觉,而是把每一条规矩白纸黑字写死。下面四条最值得抄,其中三条我整理成了可以整段复制的模板。
第一条 · 防偷懒、反走捷径
AI 有强烈的「挑好做的做」的惰性。论文工厂在 prompt 里直接堵死:「Do not choose a weaker design just because it runs faster… keep the design and solve the runtime problem.(不要因为某个设计跑得快就选它……保留强设计,去解决运行问题。)」翻译成人话:强方案慢,那就去把它跑通,而不是退而求其次换个弱的。再加一条——别停在计划或脚手架上,这一步要的是落盘的具体产物。
【可直接抄】在你的 prompt 里显式禁止两件事:「用计划代替执行」和「挑好做的弱方案」。
第二条 · 把「嗅探」编码成清单
老练的审稿人一眼能看出的「伪结果套路」,论文工厂把它们列成了一张显式清单,让 AI 逐条自查。这是最能直接迁移到你自己领域的一招——把你这行「老手一眼能看出的坑」写成 checklist 塞进 prompt。下面这段可直接复制(社科量化方向):
- [可复制 · 伪结果审稿清单 prompt]
- 角色:你是一名挑剔的量化社科审稿人。
- 对下面的分析,逐条排查这些「伪结果套路」,命中就标 ⚠ 并说明原因和验证方法,没问题标 ✓:
- 共享分母的比例回归(X/N 对 Y/N,分母彼此相关)
- 残差 / 补集变量(用总量减去自身,造出一个反向变量)
- sum-to-one 恒等(份额加总为 1 带来的机械负相关)
- room-to-move 梯度(基线越低越容易涨的天花板效应)
- 按结果变量取样 / 筛选样本
- 对照组被污染 / 样本自选择进入处理组
- 前定变量里混进了结果的后果
- 反向因果 / 双向因果没有排除
- 默认严重度:如果核心结论依赖第 1 条「共享分母比例回归」,直接记为 Concern,并要求更换识别策略。
- 输出一张表格:套路 | 是否命中 | 定位到段落 | 如何验证。
- 待查分析:"""在此粘贴你的方法与结果"""
原文给的默认严重度规则同样可参考:「If a central claim relies on a shared-denominator share regression … treat that as a default Concern.」
第三条 · 语气,必须绑死证据强度
这是 AI 写作最容易翻车、也最该上硬约束的地方。论文工厂规定:识别策略不成立,就强制改口——「you MUST use hedged language … rather than causal language.(你必须使用对冲性的措辞,而不是因果性的措辞。)」没做出因果识别,就只能说「相关 / 与……一致 / suggestive」,不许说「导致」。下面这段可直接复制:
[可复制 · 因果严谨自查 prompt] 角色:论文方法审查员,挑剔、不奉承。 审查下面的文字,严格执行三件事: ① 因果措辞闸门:除非研究设计能识别因果(随机实验、DID 且通过平行趋势检验、断点回归、工具变量且工具外生且够强、事件研究),否则禁止使用「导致 / 提高 / 降低 / 使得 / 因为……所以」,一律改成「相关 / 与……一致 / suggestive / 在控制 X 后依然存在」。 ② 证据分级:每一个结论后面标注 [因果可识别] / [仅相关] / [描述性],并写明依据哪种设计。 ③ 越界清单:逐句列出「措辞强度 > 证据强度」的地方,指出风险,并给出降级改写。 只输出:问题清单(定位到句)+ 改写建议。 待审:"""在此粘贴你的方法 / 结论段"""
第四条 · 防编造,再把「AI 味」擦掉
最后两道护栏,对付 AI 的两个老毛病:一是编,二是腔。论文工厂的规则很直接:「Never fabricate examples… must come from a real, citable source.(绝不编造例子……必须来自真实、可引用的来源。)」每个数字还要回到原表核两遍。然后它专门写了一步「去 AI 味」的润色,列出一长串要删的痕迹。下面这段把两者合在一起,可直接复制:
[可复制 · 防编造 + 去 AI 味 prompt] 第一段 · 事实护栏(处理我的文本时永远遵守): ① 禁编造:例子、文献、引用必须真实可查;不确定就写「[待核实]」,绝不杜撰作者、年份、期刊、DOI。 ② 数字双核:正文每个数字,回到我给的数据核对两遍,列「正文数字 vs 数据源」对照表,不一致一律标红。 ③ 措辞不越界:套用上面的「因果措辞闸门」。 第二段 · 去 AI 味(只改文风,不动事实): 删掉这些痕迹——滥用破折号、加粗斜体强调、「It is not X, it is Y」句式、「This suggests that…」、单句成段、冒号列举成串、套路化的主题句,以及 robust / striking / nuanced / delve / landscape 等词。 输出:改写后的全文 + 一份「改动点」清单。
反讽的是,要让大模型写得不像大模型,靠的不是「你自然一点」这种空话,而是这样一条条契约,把它的默认倾向一项项纠正回来。
四、可抄:把这套缩小到你的桌面
如果你想搭一个自己的「写作 / 研究 agent」,论文工厂的目录结构本身就是一张可以照搬的蓝图——每个文件夹就是一道工序、一个独立 agent:
paper-agent/ ├─ 00_question.md # 投料:研究问题 + 数据说明 ├─ findings/ # 发散:6 路独立候选,互不可见 │ ├─ cand_1.md … cand_6.md │ └─ DECIDER.md # 收敛:只选 1 个,禁止合并 ├─ analysis/ │ ├─ run.py results.csv # 自动跑统计,落盘硬产物 │ └─ critic.md # 生成-批判分离:独立、对抗,只挑致命硬伤 ├─ gates/ │ ├─ gate1_reproduce.md # 闸一:数字能否复现 │ └─ gate2_support.md # 闸二:数字是否支持论断 ├─ audit_issue_ledger.md # 问题账本:只增不删 └─ paper.md → paper.pdf
再配三条让它「跑得稳」的硬约定:其一,每步开新 agent,只读它需要的文件、只产出一个文件;其二,每一步结尾必须输出一行机器可读的判决——VERDICT: PASS | CONCERN | FAIL — 理由,交给代码来放行或打回,而不是靠「感觉」;其三,问题账本只增不删,带 blocking 的没清干净,禁止进入下一步。
你不必真去写论文。哪怕只是让 AI 帮你写周报、做调研、整材料,这套「拆成文件 + 发散选一 + 配个审稿人 + 分两道闸 + 记一本只增不删的账」,照样能让产出从「看着唬人」变成「敢用」。
五、34 篇论文,和那道交不出的工序
回到那个微妙的结果:一周 34 篇,够格送审,却无一可直接发表。
差的那口气是什么?作者的判断是:框架、取舍,以及在彼此竞争的标准之间做权衡的判断力。流水线能把「严谨」拆成一道道可检查的工序——能不能复现、措辞配不配得上证据、有没有踩进伪结果的坑——这些都能被编码、被自查、被闸门拦下。但「这个问题值不值得问」「在两个都说得通的解释之间该信哪一个」「这篇到底想说什么」,目前还交不出来。
这恰恰是这套系统最诚实、也最有用的地方:它没有许诺替你思考,而是把「思考之外那些机械、繁琐、却最容易出错的活」尽量自动化、尽量逼到严谨——然后把真正需要判断的部分,干干净净地留给了你。
把它当一个会自动写论文的玩具,它确实好玩;但把它当一套「逼 AI 严谨」的工程范本来抄,你今天就能用上。毕竟,让灯亮起来的从来不是机器本身,而是你给它定下的那些规矩。
———
注释
注1:论文为 Wilmers, N. & Engzell, P., "The Paper Factory",SocArXiv 预印本(2026),含公开的成品论文画廊。该系统基于「编码智能体(coding agents)」实现,相关背景可参见 Anthropic 的 "Coding agents in the social sciences"。文中英文引语均出自该系统公开的提示词与说明,中文为意译。
参考资料
· Wilmers, Nathan, and Per Engzell. "The Paper Factory." SocArXiv preprint, 2026. · Anthropic. "Coding Agents in the Social Sciences." 2026. · Nathan Wilmers, MIT Sloan School of Management 教师主页(研究领域:工资与收入不平等、经济社会学、劳动社会学)。 · Per Engzell, University College London(计算社会科学 / 社会学)。 · 关于「数字可复现 ≠ 结论成立」与审稿中的常见统计陷阱,可延伸阅读计量经济学因果识别(DID、RDD、IV、事件研究)相关教材。
———
认识的乐趣 · 第4期 · 干货拆解 | 关注我们,下一期继续拆。
- 作者:沈哲
- 链接:https://shenzhe.org/article/paper-factory-workflow
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。


