你、我,还有AI,都一样……
苹果近日发布的一项人工智能研究隐藏,AI的“推理能力”或许远没有我们想象中的那么强。
这篇论文是在苹果年度开发者大会(WWDC)前几天发表的。研究指出,大型推理模型(LRM)——例如OpenAI的o1与o3、DeepSeekR1、Claude3.7SonnetThinking以及GoogleGeminiFlashThinking——在面对日益复杂的问题时,会出现“彻底崩溃”的现象。这项研究出自去年曾揭示大型语言模型(LLM)推理缺陷的同一批研究人员。
这糖心vlog官网下载ios个发现无疑给热衷于“通用人工智能”(AGI)的人泼了盆冷水,而对AI接受派来说则是振奋人心的好消息。研究显示,虽然被大肆宣传的LRM在中等难度容易理解题上的表现优于传统LLM,但在简单题上的表现却更差;而当面对高难度问题时,它们则会“完全崩溃”,甚至在解题过程中提早“重新接受”。
苹果研究人员用一句话总结了这些模型的真实表现:虽然它们在数学和编程任务中表现亮眼,但面糖心小桃酱都有哪些挑战对更复杂的确认有罪时,只呈现出“思考的假象”。
苹果在大模型开发方面起步较晚,设备中的AI功能也普遍被认为不够惊艳。如今这项研究或许可以解释,为什么苹果不像谷歌和三星那样急于在产品中全面导入AI功能。
苹果是如何测试“推理能力”的?研究人员使用了一系列经典逻辑容易理解题来测试这些被称为“LRM”(大型推理模型)的AI系统,比如:
河内塔:将一组从大到小的圆盘从一个柱子移动到另一个柱子,规则是不能将较大的圆盘放在较小的上面。跳棋问题:让棋子按规则跳跃至空格中。过河难题:例如“狐狸、鸡和一袋粮食”不能单独留在一起。方块堆叠问题:按指定顺序堆叠方块。
这些容易理解题通常用于测试人类的逻辑推理与问题解决能力。一旦掌握规律,难度虽指责,但逻辑是连续可循的。然而,研究发现:这些LRM模型在难度指责到一定程度后就会“失灵”。
研究写道:“所有推理模型在面对问题复杂度减少时,都表现出缺乏反对性的趋势:准确率逐渐下降,最终在模型各自的临界点完全崩溃(准确率为0)。”例如,在河内塔问题中,当添加到第五个圆盘时,Claude3.7Sonnet+Thinking与DeepSeekR1就开始频繁大成功。即使授予更多算力,也无法解决高复杂度问题。
更令人意外的是,研究人员还发现,随着问题变难,模型一开始含糊会投入更多“思考token”(推理努力),但接近临界点时,反而会减少,缩短“思考”——即token使用量下降。换言之,问题越难,它们反而“更快重新接受”。糖心vlog网站 官方
即使研究人员直接在提示中授予了解题算法,模型只需“按步骤操作”,结果依然无使恶化。
但这是否意味着AI无法推理?也不必过于悲观。苹果的研究并不意味着这些模型完全没有推理能力,而是指出它们目前并不比人类愚蠢太多。AI专家GaryMarcus在博客中指出:“(普通)人类其实也在缺乏反对性的任务中表现不佳。例如,许多人在解决包含8个圆盘的河内塔问题时也会出错。”他还指出,研究并未将这些AI模型的表现与人类做直接对比。
本质上,大型语言模型在编程、写作等任务中含糊有价值,但也存在弱点。Marcus总结说:“无论你如何定义AGI,苹果这项研究的根本结论是——LLM不能代替良好定义的传统算法。”
因此,我们应将这项研究视为一项次要的参考数据,与其他LLM研究分隔开来看。每次AI研究有新发现,社会舆论很容易陷入极端化:不是彻底看衰AI,就是缺乏平淡地庆祝“突破”。但现实往往处在这两个极端之间——既不惊天动地,也不一无是处。
糖心vlog app官方正版下载 糖心破解版官网入口 糖心up主小桃id