跳过正文

未发表研究当考卷,AI数学现原形

大语言模型在数学竞赛题上刷分刷得欢,遇到真·数学家手头的未解难题却原形毕露。《纽约时报》最新报道,一群数学家搞了个叫"First Proof"的测试,用他们自己还没发表的研究级问题考AI——结果LLM全线溃败。这不是简单的分数难看,而是暴露了当前AI在抽象数学推理上的本质缺陷。

这本质上是一场针对"数据污染"的精准打击。 之前的数学基准(如GSM8K、MATH)早被各大模型在训练时嚼烂了,考的是记忆力而非理解力。用未发表的研究级问题,相当于把开卷考变成闭卷考,逼着AI展示真正的逻辑推导能力。但话说回来,数学家挑题难免有"选择偏差"——他们潜意识里会选那些"看起来AI做不出来"的难题,这测试更像是个精心设计的陷阱,而非全面体检。

更深层的信号是:通用大模型的数学天花板已经显现。 当前LLM靠模式匹配和统计学习走天下,面对需要严格逻辑链和抽象思维的数学证明时,本质上还是在做"高级联想"而非"真正推理"。这对那些鼓吹"AGI将至"的资本市场叙事,无疑是盆冷水。反过来,这利好DeepMind这类专攻形式化数学证明的团队,以及Lean这类严谨的形式化验证工具——未来数学AI很可能是"神经网络+符号系统"的混合架构,而非纯端到端的大模型。

这标志着AI评估正式进入"军备竞赛"阶段:出题人越来越刁钻,模型必须真懂而非死记。未来半年到一年,物理、生物等领域必然涌现类似的"未发表研究"基准。真正的突破不在于模型参数多大,而在于能否将神经网络的直觉与形式化证明的严谨融合。当考卷变成实时生成的, memorization就无处遁形——这才是AI通向真正智能的成人礼。


原文链接:Q&A with mathematicians behind the “First Proof” experiment, which tests AI’s mathematical competence on questions drawn from the authors’ unpublished research (Siobhan Roberts/New York Times)

本文由 AI 辅助生成,仅供参考。