主题:拆解 MIT「论文工厂」的架构与提示词设计
形式:多图卡片 carousel(封面 + 9 张知识卡 + 收尾卡)
受众:科研 / 学术向 | 语气:专业干货
用法:每个「卡片 N」对应一张图;末尾的「正文 caption / 标签 / 配图建议」用于发布时填写。
🖼 封面卡
主标题: MIT 把「写论文」做成了流水线
副标题: 一个能自动写社科论文的多智能体系统,拆解它的架构 × 提示词
角标: 第 4 期 · 干货拆解
底部钩子: 16 步 · 几十个 agent · 两道质量闸——它凭什么不胡说?
卡片 1 |先认识「论文工厂」
MIT Sloan 的 Nathan Wilmers 做的系统:丢进「一个研究问题 + 一份数据」,自动产出一篇完整的实证论文(跑统计 + 出 PDF)。
- 16 步流水线,每步由一个独立 AI agent 完成
- 中途还设了「批判者」「审计员」「质量闸」
真正值钱的不是"它能写论文",而是它用工程手段逼 AI 严谨的那套设计。 这期拆一半架构、一半提示词。
卡片 2 |架构①:文件即状态机
▍每步都「失忆」,整体却可控
它不靠一个超长对话攒记忆,而是每一步都开一个全新 agent,彼此只通过磁盘文件交接。进度靠"扫描哪些产物文件已存在"反推。
→ 天然可中断、可续跑、可审计 → 逼着每步产出落盘的硬成果,而不是只给"一个计划"
出处:*"Run each step with a fresh agent context." / "Never stop at a plan or scaffold…"*
【迁移】长任务别塞进一个长会话;把状态外置成文件,让每步幂等、可单独重跑。
卡片 3 |架构②:发散 → 收敛
▍并行多个候选,再「只选一个」
找发现这一步,它同时跑 6 路独立候选,每路只做一个聚焦小结果;然后一个 decider 只挑 1 个,并明令"不许合并、不许综合"。
为什么:把多个 AI 产出"平均 / 缝合",会得到没有立场的浆糊。独立发散 + 显式选择,才能保住锋利度。
出处:*"Do not synthesize. Do not merge packages. Pick one."*
【迁移】开放式生成 = 多个独立候选 + 一个选择步,别指望一个 agent 一次到位。
卡片 4 |架构③:生成者 / 批判者 分离
▍每个「作者」都配一个「审稿人」
每个产出 agent 都配一个上下文独立、立场对立的 critic。批判者的任务被刻意收窄:
- 只问"有没有立刻致命的硬伤"
- 但"别因常规局限就毙"
为什么:作者很难审判自己;换个对抗性新上下文,专抓"夸大其词 / 机械性假象"。
出处:*"Does this package have an immediate fatal empirical flaw…?"* + *"Do not reject … merely because it has normal limitations."*
【迁移】重要产出都配独立验证者,并给它一个狭窄、对抗性的任务。
卡片 5 |架构④:质量闸 + 问题账本
▍「数字对了」也不算通过
- 两道闸职责不同:
- Gate 1:只查"代码能否复现论文里的数字"
- Gate 2:查"数字到底支不支持这个论断"
再加一张只增不删的问题账本 audit_issue_ledger.md 当跨步记忆:blocking 未清 → 过不了闸,且禁止静默删除。专治"问题在后续步骤里凭空消失"。
出处:*"Matching numbers is necessary but not sufficient for a pass."*
【迁移】每步输出一行机器可读判决(VERDICT: …)交给代码编排;建一份只增不删的问题日志。
卡片 6 |提示词①:防偷懒 / 反走捷径
▍用条款,把 AI 的惰性按住
它在 prompt 里直接写死:别因为某个设计跑得快就选它;强设计慢,就去解决运行问题,而不是换一个弱设计。还有一条:"别停在计划或脚手架上——这一步要的是落盘的具体产物。"
出处:*"Do not choose a weaker design just because it runs faster… keep the design and solve the runtime problem."*
【可直接抄】在 prompt 里显式禁止"用计划代替执行""挑好做的弱方案"。
卡片 7 |提示词②:把「嗅探」编码成清单
▍让 AI 像审稿人一样查伪结果
审计 prompt 直接列出"伪结果套路"清单:共享分母的比例回归、残差 / 补集变量、sum-to-one 恒等、room-to-move 梯度、对结果取样……并给默认严重度:
凡核心论断靠共享分母比例回归的,默认记为 Concern。
出处:*"If a central claim relies on a shared-denominator share regression … treat that as a default Concern."*
【可直接抄】把你领域里"老手一眼能看出的坑",写成显式 checklist 塞进 prompt。
卡片 8 |提示词③:语气绑死证据强度
▍不许 overclaim,也不许编
- 识别失败就强制改口:因果设计没过 pre-trend,就必须用 *suggestive / consistent with*,不许用 *causes*
- 防幻觉护栏:绝不编造例子或引用,每个例子必须来自真实可引用来源;只用确信真实存在的文献;每个数字对着表格核两遍
出处:*"you MUST use hedged language … rather than causal language."* + *"Never fabricate examples… must come from a real, citable source."*
【可直接抄】把"措辞强度 ↔ 证据强度"写成硬规则;在最易编造处(例子 / 引用 / 数字)下死约束 + 自动校验。
卡片 9 |提示词④:去机器人味负向清单
▍专门写一步,把「AI 味」擦掉
它有一整支 prompt 列出要删的 AI 痕迹:em dash、加粗斜体、"It's not X, it's Y"、"This suggests that"、单句成段、冒号列举、套路化主题句、滥用 *robust / striking / nuanced / landscape*……
反讽也正是精髓:要让 LLM 不像 LLM,得靠逐条契约把它的默认倾向纠正回来。
【可直接抄】把"AI 腔"列成负向清单,作为最后一道润色 prompt。
收尾卡 |一句话总结
这套系统真正的护城河,不是"会写论文",而是把科研的严谨性,翻译成了可执行的工程约束:
状态外置 · 发散收敛 · 生成-批判分离 · 质量闸 · 问题账本 · 语气绑证据。
收藏这期,下次搭你自己的 AI 工作流能直接套。 关注我,第 5 期继续拆。
📝 正文 caption(发布时贴在帖子下方)
MIT 有位教授把"写一篇社科论文"拆成了 16 步流水线,几十个 AI agent 接力,中间还有批判者、审计员和两道质量闸。
我扒了它的提示词和架构,挑出对科研 / 做 AI 工作流最有用的 9 个设计:从"文件即状态机""发散再收敛",到"数字对了也不算通过""把审稿人的嗅觉写成 checklist""语气必须绑死证据强度"……每条都配了原文出处,能直接抄进自己的 prompt。
这是拆解系列第 4 期。你正在搭自己的多智能体 / AI 写作流程吗?评论区聊聊卡在哪一步。
🏷 标签
#AIagent #提示词工程 #prompt #多智能体 #科研工具 #AI写作 #学术科研 #大模型 #AI干货 #MIT
🎨 配图 / 排版建议
- 封面:深色底 + 大字标题「MIT 把写论文做成了流水线」,右上角小角标「第 4 期」,底部一行钩子问句。
- 内页:统一模板。左上角卡号 ①②③…,一行卡片标题 + 3–4 条短句;英文出处用等宽小字单独一行,做"证据感"。
- 配色:克制、偏科研感——黑 / 白 + 一个强调色(建议蓝或品红),全程只用这一个强调色。
- 节奏:架构 4 张用一种强调色,提示词 4 张换另一种,帮读者区分两大板块。
- 作者:沈哲
- 链接:https://shenzhe.org/article/paper-factory-carousel
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。


