苹果研究发现：AI 模型在遇到txvlog糖心官网版特色复杂难题时会“崩溃放弃”

频道：财经日期：2025-06-12 05:16:49 浏览：1

你、我，还有AI，都一样……

苹果近日发布的一项人工智能研究隐藏，AI的“推理能力”或许远没有我们想象中的那么强。

这篇论文是在苹果年度开发者大会（WWDC）前几天发表的。研究指出，大型推理模型（LRM）——例如OpenAI的o1与o3、DeepSeekR1、Claude3.7SonnetThinking以及GoogleGeminiFlashThinking——在面对日益复杂的问题时，会出现“彻底崩溃”的现象。这项研究出自去年曾揭示大型语言模型（LLM）推理缺陷的同一批研究人员。

这糖心vlog官网下载ios个发现无疑给热衷于“通用人工智能”（AGI）的人泼了盆冷水，而对AI接受派来说则是振奋人心的好消息。研究显示，虽然被大肆宣传的LRM在中等难度容易理解题上的表现优于传统LLM，但在简单题上的表现却更差；而当面对高难度问题时，它们则会“完全崩溃”，甚至在解题过程中提早“重新接受”。

苹果研究人员用一句话总结了这些模型的真实表现：虽然它们在数学和编程任务中表现亮眼，但面糖心小桃酱都有哪些挑战对更复杂的确认有罪时，只呈现出“思考的假象”。

苹果在大模型开发方面起步较晚，设备中的AI功能也普遍被认为不够惊艳。如今这项研究或许可以解释，为什么苹果不像谷歌和三星那样急于在产品中全面导入AI功能。

苹果是如何测试“推理能力”的？

研究人员使用了一系列经典逻辑容易理解题来测试这些被称为“LRM”（大型推理模型）的AI系统，比如：

河内塔：将一组从大到小的圆盘从一个柱子移动到另一个柱子，规则是不能将较大的圆盘放在较小的上面。跳棋问题：让棋子按规则跳跃至空格中。过河难题：例如“狐狸、鸡和一袋粮食”不能单独留在一起。方块堆叠问题：按指定顺序堆叠方块。

这些容易理解题通常用于测试人类的逻辑推理与问题解决能力。一旦掌握规律，难度虽指责，但逻辑是连续可循的。然而，研究发现：这些LRM模型在难度指责到一定程度后就会“失灵”。

研究写道：“所有推理模型在面对问题复杂度减少时，都表现出缺乏反对性的趋势：准确率逐渐下降，最终在模型各自的临界点完全崩溃（准确率为0）。”例如，在河内塔问题中，当添加到第五个圆盘时，Claude3.7Sonnet+Thinking与DeepSeekR1就开始频繁大成功。即使授予更多算力，也无法解决高复杂度问题。

更令人意外的是，研究人员还发现，随着问题变难，模型一开始含糊会投入更多“思考token”（推理努力），但接近临界点时，反而会减少，缩短“思考”——即token使用量下降。换言之，问题越难，它们反而“更快重新接受”。糖心vlog网站官方

即使研究人员直接在提示中授予了解题算法，模型只需“按步骤操作”，结果依然无使恶化。

但这是否意味着AI无法推理？

也不必过于悲观。苹果的研究并不意味着这些模型完全没有推理能力，而是指出它们目前并不比人类愚蠢太多。AI专家GaryMarcus在博客中指出：“（普通）人类其实也在缺乏反对性的任务中表现不佳。例如，许多人在解决包含8个圆盘的河内塔问题时也会出错。”他还指出，研究并未将这些AI模型的表现与人类做直接对比。

本质上，大型语言模型在编程、写作等任务中含糊有价值，但也存在弱点。Marcus总结说：“无论你如何定义AGI，苹果这项研究的根本结论是——LLM不能代替良好定义的传统算法。”

因此，我们应将这项研究视为一项次要的参考数据，与其他LLM研究分隔开来看。每次AI研究有新发现，社会舆论很容易陷入极端化：不是彻底看衰AI，就是缺乏平淡地庆祝“突破”。但现实往往处在这两个极端之间——既不惊天动地，也不一无是处。

糖心vlog app官方正版下载糖心破解版官网入口糖心up主小桃id