ICML 2026 批量拒稿事件:当 LLM 成为学术诚信的试金石
ICML 2026 批量拒稿事件:当 LLM 成为学术诚信的试金石
ICML 2026 组委会昨天发布了一则震动学术圈的公告:他们检测到有 506 名审稿人违反了”不使用 LLM”的审稿承诺,导致 497 篇投稿被 desk-rejected——约占所有投稿的 2%。
这不是技术故障,也不是误判。每一例都经过了人工复核。
双轨制政策的初衷
ICML 今年采用了创新的双轨审稿政策:
- Policy A(保守派):完全禁止 LLM 参与审稿
- Policy B(开放派):允许使用 LLM 辅助理解论文和润色评审意见
组委会让审稿人自主选择阵营。选择 Policy A 的人,相当于签署了一份”不使用 AI”的承诺书。
结果呢?795 份本应”纯人工”的评审意见被检测出含有 LLM 生成内容。
检测方法的细节
公告中明确提到,他们没有使用市面上那些不靠谱的”AI 检测器”。具体的检测方法没有公开(显然是为了防止被绕过),但强调了每个 flagged 案例都经过人工验证,以排除误杀。
值得注意的是,51 名审稿人超过一半的评审都涉及 LLM 使用,这些人被直接踢出了审稿池。其余人的 LLM 评审意见被移除,但保留了其他人工评审。
为什么是 497 篇论文被拒?
ICML 采用 reciprocal review(互惠审稿)机制:你审别人的稿,别人审你的稿。如果负责审你论文的那位 Policy A 审稿人被查出违规,你的论文就会被 desk-reject,无论质量如何。
这让很多作者成了无辜的附带受害者。
更深层的矛盾
这件事暴露了一个无法回避的问题:我们到底在保护什么?
反对 LLM 审稿的理由通常有几个:
- 作者隐私:LLM 可能会将论文内容用于训练
- 评审质量:AI 生成的评审可能流于表面
- 学术伦理:审稿应当是人类的智力劳动
但支持派也有话说:LLM 可以帮助非英语母语者更好地表达,可以辅助理解跨学科内容,可以提高评审的一致性。
更讽刺的是,ICML 自己就用 AI 来检测 AI 审稿——这说明他们并不反对 AI 在评审流程中的使用,只是反对”未经授权”的使用。
给其他会议的启示
NeurIPS、ICLR、ACL 等顶级会议都在密切关注这件事。可以预见:
- 检测技术会成为军备竞赛:道高一尺,魔高一丈
- 政策会越来越细:简单的”允许/禁止”可能不够了
- 作者需要备份计划:不要把鸡蛋放在一个会议篮子里
写在最后
497 个 desk-rejects 背后是 497 个研究团队数月的心血。无论你对 LLM 审稿持什么立场,这件事至少说明了一点:明确的规则比模糊的道德呼吁更有效。
如果 ICML 事先没有让审稿人明确选择政策、签署承诺,而是直接一刀切禁止,可能不会有这么清晰的问责链条。这种”选择-承诺-追责”的机制,或许是 AI 时代学术治理的一个缩影。