论文工厂：MIT 如何用几十个 AI 把「写论文」拆成流水线

论文工厂：MIT 如何用几十个 AI 把「写论文」拆成流水线｜认识的乐趣 · 第4期

一周自动产出 34 篇实证论文。我们把它的架构和提示词逐条拆开，挑出能直接抄进你自己工作流的部分。

如果你也用 AI 写过东西，大概率见过这一幕：让它写一段文献综述，它张口就来，引文煞有介事，点开却查无此文；让它分析一份数据，它把「相关」写成「导致」，把一个勉强显著的系数说得斩钉截铁；让它润色，满屏都是「这表明」「不仅……而且」和泛滥的破折号。它很流畅，但你不敢用。

MIT 斯隆管理学院的 Nathan Wilmers，和伦敦大学学院（UCL）的 Per Engzell，干脆把这个问题做成了一个系统。他们搭了一套叫 The Paper Factory（论文工厂）的多智能体流水线：你丢进一个研究问题和一份数据，几十个 AI agent 接力，自动跑统计、写作、查错，最后导出一篇带图表和引用的完整实证社科论文。一周时间，它生成了 34 篇。

结果很微妙：作者判断，这些论文里不少「够格送去同行评审」，但无一能直接发表——它们能挖出真实的经验规律，却在框架、取舍和判断上差了一口气。论文《The Paper Factory》已作为 SocArXiv 预印本放出，还附了一个公开的成品画廊，你可以自己去读那 34 篇，自行判断（注1）。

但这一期我们想拆的，不是「AI 到底能不能写论文」这个会吵翻天的问题。真正值钱的，不是它会写论文，而是它用一整套工程手段，把 AI 从「油嘴滑舌」逼成「严谨」的那套设计。这套设计和你要不要写论文无关——只要你在用 AI 干正经活，它就能抄。下面我们分两半拆：一半架构，一半提示词；能直接复制的，我都给你标出来。

一、先认识这座「工厂」

先说它反直觉的地方：论文工厂不是「一个很聪明的大模型一气呵成」，恰恰相反，它假设每一个 agent 都不可靠、都会偷懒、都会自我感觉良好，然后用流程把这些毛病一个个摁住。

它把「写一篇论文」拆成十几道工序，每道工序由一个独立的 agent 完成：提出研究发现、清洗数据、跑回归、自我批判、过质量关、成文、润色……工序之间不靠一个无所不知的「大脑」串起来，而是靠文件交接。这套思路，本身就是这期最该抄走的东西。

二、架构：四件「逼 AI 严谨」的工程设计

第一件 · 文件即状态机：每步都「失忆」，整体却可控

论文工厂不让 agent 在一个越滚越长的对话里攒记忆，而是每一步都开一个全新的 agent，彼此只通过磁盘上的文件交接。这一步该不该做、做到哪了，不靠「它记得」，而靠「扫描哪些产物文件已经存在」反推。

原文里有一句很硬的指令：「Run each step with a fresh agent context.（每一步都用全新的 agent 上下文跑）」，以及「Never stop at a plan or scaffold…（绝不停在一个计划或骨架上）」——意思是每一步都必须落出一个实打实的产物文件，而不是交一份「我打算这么做」。

这样做的好处是工程上的：天然可中断、可续跑、可审计。某一步错了，回到那个文件重跑即可，不必从头再聊一遍。

【你能怎么用】把长任务从「一个长对话」里拆出来，让 AI 每一步只产出一个文件：大纲.md、清洗.py、结果.csv。下次直接说「读这个文件，接着往下做」。可中断、可回看、不串味——这是个人用 AI 做复杂活时，立刻能感到差别的一招。

第二件 · 发散 → 收敛：并行很多个，再「只选一个」

到了「找研究发现」这种开放度很高的环节，论文工厂不让一个 agent 一次性给答案，而是同时跑 6 路互不相见的独立候选，每一路只聚焦做出一个小结果；然后由一个专门的 decider（裁决者）从中只挑一个，并被明令禁止「合并」「综合」。

原文的措辞近乎严厉：「Do not synthesize. Do not merge packages. Pick one.（不要综合。不要合并这些产出。只选一个。）」

为什么这么轴？因为把多个 AI 产出「平均」或「缝合」到一起，你会得到一锅没有立场的浆糊——每个观点都被磨平，最后谁也不得罪，也谁都说不出。独立发散保住了锋利度，显式选择保住了判断。

【你能怎么用】开放式的活（取标题、定选题、想分析角度），让 AI 一次给 3–6 个彼此独立的版本，你自己或另开一个「评委」prompt 只挑一个，禁止它折中。比指望一个 agent 一次到位要好得多。

第三件 · 生成 / 批判分离：每个「作者」都配一个「审稿人」

论文工厂里，每一个负责产出的 agent，都配一个上下文独立、立场对立的 critic（批判者）。关键在于，这个批判者的任务被刻意收窄：它只问一件事——「这个产出有没有立刻致命的硬伤？」原文：「Does this package have an immediate fatal empirical flaw…?」同时还有一条护栏，防止它从一个极端滑向另一个极端：「Do not reject … merely because it has normal limitations.（不要因为它有常规局限就毙掉它。）」

道理朴素得有点扎心：作者审不了自己。同一个上下文里，模型只会顺着你、夸你、替你打圆场。换一个干净、对抗性的新上下文，它才会去抓「夸大其词」和「机械性假象」。

【你能怎么用】写完一段、跑完一个分析，新开一个对话，把它当成一个敌意审稿人，只让它找「立刻致命的硬伤」，别管常规局限。你会发现它突然「敢说话」了。

第四件 · 质量闸 + 问题账本：「数字对了」也不算通过

这是整套设计里最像「制度」的部分。论文工厂设了两道闸，职责分得很清楚：

闸一：只查「代码能不能复现论文里的数字」。
闸二：查「这些数字到底支不支持文中的论断」。

一句原文点破了二者的区别：「Matching numbers is necessary but not sufficient for a pass.（数字对得上，是通过的必要条件，但不充分。）」数字能复现，不等于结论站得住——这是无数论文翻车的地方。

更妙的是它还配了一份只增不删的问题账本（audit_issue_ledger.md）当跨步记忆：带 blocking 标记的问题没清干净，就过不了闸，而且禁止静默删除历史问题。这一条专治 AI 流水线的一个顽疾——「问题在后续步骤里悄悄消失了」。

【你能怎么用】别让 AI 一句「我改好了」就翻篇。把「复现」和「支持论断」分两步问；让它把发现的问题写进一个清单，只增不删，没解决的不许进入下一步。

三、提示词：把规矩，写死进 prompt

如果说架构是骨架，提示词就是论文工厂用来「驯化」机器的条款。它的思路始终一致：不假设 AI 自觉，而是把每一条规矩白纸黑字写死。下面四条最值得抄，其中三条我整理成了可以整段复制的模板。

第一条 · 防偷懒、反走捷径

AI 有强烈的「挑好做的做」的惰性。论文工厂在 prompt 里直接堵死：「Do not choose a weaker design just because it runs faster… keep the design and solve the runtime problem.（不要因为某个设计跑得快就选它……保留强设计，去解决运行问题。）」翻译成人话：强方案慢，那就去把它跑通，而不是退而求其次换个弱的。再加一条——别停在计划或脚手架上，这一步要的是落盘的具体产物。

【可直接抄】在你的 prompt 里显式禁止两件事：「用计划代替执行」和「挑好做的弱方案」。

第二条 · 把「嗅探」编码成清单

老练的审稿人一眼能看出的「伪结果套路」，论文工厂把它们列成了一张显式清单，让 AI 逐条自查。这是最能直接迁移到你自己领域的一招——把你这行「老手一眼能看出的坑」写成 checklist 塞进 prompt。下面这段可直接复制（社科量化方向）：

［可复制 · 伪结果审稿清单 prompt］
角色：你是一名挑剔的量化社科审稿人。
对下面的分析，逐条排查这些「伪结果套路」，命中就标 ⚠ 并说明原因和验证方法，没问题标 ✓：
共享分母的比例回归（X/N 对 Y/N，分母彼此相关）
残差 / 补集变量（用总量减去自身，造出一个反向变量）
sum-to-one 恒等（份额加总为 1 带来的机械负相关）
room-to-move 梯度（基线越低越容易涨的天花板效应）
按结果变量取样 / 筛选样本
对照组被污染 / 样本自选择进入处理组
前定变量里混进了结果的后果
反向因果 / 双向因果没有排除
默认严重度：如果核心结论依赖第 1 条「共享分母比例回归」，直接记为 Concern，并要求更换识别策略。
输出一张表格：套路 | 是否命中 | 定位到段落 | 如何验证。
待查分析："""在此粘贴你的方法与结果"""

原文给的默认严重度规则同样可参考：「If a central claim relies on a shared-denominator share regression … treat that as a default Concern.」

第三条 · 语气，必须绑死证据强度

这是 AI 写作最容易翻车、也最该上硬约束的地方。论文工厂规定：识别策略不成立，就强制改口——「you MUST use hedged language … rather than causal language.（你必须使用对冲性的措辞，而不是因果性的措辞。）」没做出因果识别，就只能说「相关 / 与……一致 / suggestive」，不许说「导致」。下面这段可直接复制：

［可复制 · 因果严谨自查 prompt］角色：论文方法审查员，挑剔、不奉承。审查下面的文字，严格执行三件事： ① 因果措辞闸门：除非研究设计能识别因果（随机实验、DID 且通过平行趋势检验、断点回归、工具变量且工具外生且够强、事件研究），否则禁止使用「导致 / 提高 / 降低 / 使得 / 因为……所以」，一律改成「相关 / 与……一致 / suggestive / 在控制 X 后依然存在」。 ② 证据分级：每一个结论后面标注 [因果可识别] / [仅相关] / [描述性]，并写明依据哪种设计。 ③ 越界清单：逐句列出「措辞强度 > 证据强度」的地方，指出风险，并给出降级改写。只输出：问题清单（定位到句）+ 改写建议。待审："""在此粘贴你的方法 / 结论段"""

第四条 · 防编造，再把「AI 味」擦掉

最后两道护栏，对付 AI 的两个老毛病：一是编，二是腔。论文工厂的规则很直接：「Never fabricate examples… must come from a real, citable source.（绝不编造例子……必须来自真实、可引用的来源。）」每个数字还要回到原表核两遍。然后它专门写了一步「去 AI 味」的润色，列出一长串要删的痕迹。下面这段把两者合在一起，可直接复制：

［可复制 · 防编造 + 去 AI 味 prompt］第一段 · 事实护栏（处理我的文本时永远遵守）： ① 禁编造：例子、文献、引用必须真实可查；不确定就写「[待核实]」，绝不杜撰作者、年份、期刊、DOI。 ② 数字双核：正文每个数字，回到我给的数据核对两遍，列「正文数字 vs 数据源」对照表，不一致一律标红。 ③ 措辞不越界：套用上面的「因果措辞闸门」。第二段 · 去 AI 味（只改文风，不动事实）：删掉这些痕迹——滥用破折号、加粗斜体强调、「It is not X, it is Y」句式、「This suggests that…」、单句成段、冒号列举成串、套路化的主题句，以及 robust / striking / nuanced / delve / landscape 等词。输出：改写后的全文 + 一份「改动点」清单。

反讽的是，要让大模型写得不像大模型，靠的不是「你自然一点」这种空话，而是这样一条条契约，把它的默认倾向一项项纠正回来。

四、可抄：把这套缩小到你的桌面

如果你想搭一个自己的「写作 / 研究 agent」，论文工厂的目录结构本身就是一张可以照搬的蓝图——每个文件夹就是一道工序、一个独立 agent：

paper-agent/ ├─ 00_question.md # 投料：研究问题 + 数据说明 ├─ findings/ # 发散：6 路独立候选，互不可见 │ ├─ cand_1.md … cand_6.md │ └─ DECIDER.md # 收敛：只选 1 个，禁止合并 ├─ analysis/ │ ├─ run.py results.csv # 自动跑统计，落盘硬产物 │ └─ critic.md # 生成-批判分离：独立、对抗，只挑致命硬伤 ├─ gates/ │ ├─ gate1_reproduce.md # 闸一：数字能否复现 │ └─ gate2_support.md # 闸二：数字是否支持论断 ├─ audit_issue_ledger.md # 问题账本：只增不删 └─ paper.md → paper.pdf

再配三条让它「跑得稳」的硬约定：其一，每步开新 agent，只读它需要的文件、只产出一个文件；其二，每一步结尾必须输出一行机器可读的判决——VERDICT: PASS | CONCERN | FAIL — 理由，交给代码来放行或打回，而不是靠「感觉」；其三，问题账本只增不删，带 blocking 的没清干净，禁止进入下一步。

你不必真去写论文。哪怕只是让 AI 帮你写周报、做调研、整材料，这套「拆成文件 + 发散选一 + 配个审稿人 + 分两道闸 + 记一本只增不删的账」，照样能让产出从「看着唬人」变成「敢用」。

五、34 篇论文，和那道交不出的工序

回到那个微妙的结果：一周 34 篇，够格送审，却无一可直接发表。

差的那口气是什么？作者的判断是：框架、取舍，以及在彼此竞争的标准之间做权衡的判断力。流水线能把「严谨」拆成一道道可检查的工序——能不能复现、措辞配不配得上证据、有没有踩进伪结果的坑——这些都能被编码、被自查、被闸门拦下。但「这个问题值不值得问」「在两个都说得通的解释之间该信哪一个」「这篇到底想说什么」，目前还交不出来。

这恰恰是这套系统最诚实、也最有用的地方：它没有许诺替你思考，而是把「思考之外那些机械、繁琐、却最容易出错的活」尽量自动化、尽量逼到严谨——然后把真正需要判断的部分，干干净净地留给了你。

把它当一个会自动写论文的玩具，它确实好玩；但把它当一套「逼 AI 严谨」的工程范本来抄，你今天就能用上。毕竟，让灯亮起来的从来不是机器本身，而是你给它定下的那些规矩。

———

注释

注1：论文为 Wilmers, N. & Engzell, P., "The Paper Factory"，SocArXiv 预印本（2026），含公开的成品论文画廊。该系统基于「编码智能体（coding agents）」实现，相关背景可参见 Anthropic 的 "Coding agents in the social sciences"。文中英文引语均出自该系统公开的提示词与说明，中文为意译。

参考资料

· Wilmers, Nathan, and Per Engzell. "The Paper Factory." SocArXiv preprint, 2026. · Anthropic. "Coding Agents in the Social Sciences." 2026. · Nathan Wilmers, MIT Sloan School of Management 教师主页（研究领域：工资与收入不平等、经济社会学、劳动社会学）。 · Per Engzell, University College London（计算社会科学 / 社会学）。 · 关于「数字可复现 ≠ 结论成立」与审稿中的常见统计陷阱，可延伸阅读计量经济学因果识别（DID、RDD、IV、事件研究）相关教材。

———

认识的乐趣 · 第4期 · 干货拆解　|　关注我们，下一期继续拆。

閒全文完