当Anthropic、OpenAI和Google的研究员们开始在Twitch上直播AI玩《宝可梦:蓝》,这绝不只是极客的怀旧游戏。它揭示了一个更关键的趋势:顶尖AI实验室正在为评估大模型的“智商”而发愁,不得不转向经典游戏寻找答案。
这不是游戏,而是“结构化决策考场” 本质上,《宝可梦:蓝》被当成了一个复杂、长序列的决策沙盒。与传统的选择题式基准(如MMLU)不同,游戏要求AI完成一连串任务:理解像素画面、规划路线、管理资源(精灵球、HP)、与NPC对话并做出选择。这直接测试了模型最核心也最神秘的能力——在开放环境中的任务分解与多步推理。说白了,就是看AI能不能“想好几步棋”,而不是只回答下一个词。对于砸下重金研发“推理”能力的公司来说,这提供了一个比公关稿更直观的内部评估工具。
然而,“终极测试”是严重的过度宣传 这个方法存在几个硬伤。首先,评估范围极其狭窄。一个在像素化、规则固定的1996年游戏中表现优异的模型,能否将其能力泛化到现实世界的模糊问题、专业领域或多模态交互中?答案很可能是否定的。其次,它完全回避了AI更根本的挑战:内在的可解释性、价值观对齐、以及真实社会常识。用游戏分数来衡量“智能”,就像用象棋等级分来评判一个人的全面能力一样片面。这更像是一个有趣的工程实验,而非范式突破。
趋势已明:模拟环境将成为AI的“健身房”和“考场” 值得关注的是,这并非孤立事件,而是“用高互动性数字环境训练和评估AI”大趋势的一部分。从《我的世界》到各类物理仿真器,复杂的游戏和模拟环境因其低成本、可重复和丰富的状态空间,正成为理想的AI测试场。未来6-12个月,我们很可能会看到更多公司内部采用类似方法,甚至出现标准化的游戏基准测试套件。
用《宝可梦》测AI,聪明地暴露了当前评估体系的乏力,但远非终极答案。真正的智能测试,仍在现实世界的混沌之中。
本文由 AI 辅助生成,仅供参考。