首页 > 灵异恐怖 > 大白话聊透人工智能 > 伊利诺伊大学团队AI推理新突破：“AI思维的隐藏规律”

伊利诺伊大学团队AI推理新突破：“AI思维的隐藏规律”（1/2）

伊利诺伊大学香槟分校张俊宇团队联合麻省理工、宾大等院校搞出的这项研究，核心就是给AI的“思考行为”定了规矩——提出推理定律（LORE）框架，第一次从理论上解释了为啥AI会“瞎琢磨”（简单题想太多）或“敷衍了事”（复杂题想太少），还给出了能让AI变“懂事”的训练方法。咱们用大白话把这个硬核研究拆明白，普通人也能看懂AI到底咋思考、咋变聪明。

一、先搞懂：现在的AI推理有多“不靠谱”？

咱们先看个生活里的例子：一个学生考试，遇到1+1=2这种简单题，非要写满一页草稿纸论证；碰到压轴的复杂数学题，却只写两行就交卷。现在的大型推理AI（比如OpenAI的o1、DeepSeek的R1）就这德性——思考资源分配完全没谱。

这种“不靠谱”带来两个大问题：一是效率低，简单问题浪费算力，复杂问题算力不够；二是准确率差，该细想的没细想，该简略的瞎啰嗦，最终结果一言难尽。

研究团队一深挖，发现病根儿很简单：AI训练时没人教它“怎么合理分配思考时间”。就像家长教孩子做题，只讲“这道题咋做”，却没说“简单题快速过，复杂题多琢磨”，孩子自然乱分配时间。AI也是如此，没人给它定“思考规矩”，只能凭训练时的经验瞎蒙，导致推理行为又乱又不可控。

二、核心突破：推理定律（LORE）——给AI的思考定“家规”

研究团队提出的推理定律框架，就像给AI制定的“思考家规”，包含计算定律和准确性定律两条核心规矩，还配套了验证方法，咱们一个个掰扯清楚。

1. 两个核心定律：AI思考的“基本准则”

咱们把AI的推理过程比作厨师做菜，一下子就能懂这两条定律：

- 计算定律：思考资源要和问题复杂度成正比

好厨师做菜，炒个番茄炒蛋10分钟搞定，做道佛跳墙得花好几个小时——菜越复杂，花的时间和精力越多。

AI思考也该这样：解决问题需要的“思考资源”（比如推理步骤、算力消耗），必须和问题的复杂度成正比。

这里的“问题复杂度”，研究团队给了明确定义：解决问题需要的最少基本操作步骤数。比如算2+3，1步就能搞定，复杂度低；算一个复杂的矩阵运算，需要10步，复杂度就是前者的10倍。

按计算定律，复杂度10倍的问题，AI该花10倍的思考资源。但现在的AI经常违反这个规矩——简单题花10倍资源，复杂题只花1倍，纯属本末倒置。

- 准确性定律：问题越复杂，准确率越容易“断崖式下跌”

这个定律咱们用多米诺骨牌来理解：摆3块骨牌，轻轻一推就能全倒；摆100块骨牌，只要有1块没摆好，整个链条就断了，全倒的概率会急剧下降。

AI推理复杂问题时，就像摆多米诺骨牌——复杂问题需要分多步推理，每一步都有出错的可能，步骤越多，出错概率就会呈指数级上升，最终准确率“断崖式下跌”。比如解一道需要10步的数学题，每步准确率90%，最终准确率只有34.8%；要是20步，准确率直接跌到12.1%，这就是指数衰减的威力。

2. 两个验证原理：怎么判断AI守没守“家规”？

直接测量“问题复杂度”太难了（就像很难说清“番茄炒蛋和红烧肉谁更复杂”），研究团队又提出两个可落地的验证原理，相当于“家规执行的检查标准”：

- 单调性原理：问题越难，资源该越多，准确率该越低

就像爬山，爬500米的小山，花的体力少，登顶概率高；爬5000米的雪山，花的体力多，登顶概率还低。

对应到AI上：如果问题A比问题B复杂，那AI解决A时，该消耗更多思考资源，准确率也该比B低。要是反过来，就说明AI的推理行为出问题了。

- 组合性原理：独立问题的思考资源要“加起来”，准确率要“乘起来”

还是用做菜举例：做番茄炒蛋（10分钟）和红烧肉（30分钟），两道菜独立，一起做的话总时间该是10+30=40分钟；要是厨师只用20分钟就做完，要么偷工减料，要么瞎忙活。

对应到AI上：两个完全独立的问题（比如一道几何题和一道代数题，解题思路互不干扰），AI同时解决它们时：

1. 消耗的总思考资源 = 解决第一个问题的资源 + 解决第二个问题的资源；

2. 最终的总准确率 = 解决第一个问题的准确率 × 解决第二个问题的准确率。

要是AI的表现偏离这个标准，就说明它的思考分配又乱了。

三、LORE-BENCH测试基准：给AI做“推理体检”

光有定律和原理还不够，得有工具检测AI守没守规矩。研究团队开发了LORE-BENCH测试基准，相当于给AI做“推理行为体检”的专用工具，分两个部分：

1. LORE-MONO：检测单调性的“阶梯题集”

这个部分的核心是构造难度递增的问题序列，确保问题的复杂度关系是明确的，就像给学生出的“阶梯练习题”，从1步到30步难度逐步增加。

- 具体做法：选数学、科学、语言、编程4个领域，每个领域设计10个“种子问题”（比如基础的矩阵计算、简单的编程题）；然后给每个种子问题增加步骤，生成30个难度递增的变体（比如1步矩阵运算→2步→…→30步）。这样一来，第30个变体的复杂度明确是第1个的30倍。

- 检测目的：看AI解决这些阶梯题时，思考资源是不是随着难度增加而增加，准确率是不是随着难度增加而降低——如果是，说明AI符合单调性原理；如果不是，就是“体检不合格”。

- 防作弊设计：研究团队会仔细检查问题序列，排除那些有“捷径”的题（比如答案有周期性规律，AI不用推理就能蒙对），确保AI必须真思考，而不是耍小聪明。

2. LORE-PO：检测组合性的“拼盘题集”

这个部分的核心是组合两个独立的问题，就像给厨师出的“拼盘任务”，让他同时做两道毫不相干的菜。

- 具体做法：从着名的MATH500数学数据集里，随机选两个来自不同学科的问题（比如几何题+代数题），组合成一道“复合题”；确保这两个子问题完全独立，解决一个对另一个没任何帮助。

- 检测目的：看AI解决复合题时，思考资源是不是等于两个子问题的资源之和，准确率是不是等于两个子问题的准确率之积——如果差得太远，就说明AI的组合性表现不合格。

四、体检结果：现在的AI有多“不达标”？

研究团队用LORE-BENCH给10个主流推理AI（比如DeepSeek-R1系列、Phi-4-i）做了“体检”，结果让人挺意外：单调性勉强及格，组合性几乎全军覆没。

1. 单调性：大部分AI“基本及格”

面对阶梯题集时，大部分AI能做到“题越难，花的思考资源越多，准确率越低”，就像学生面对难题会多花点时间，虽然正确率下降，但态度是对的。

但也有例外：一些小模型（比如1.5B参数的模型）在某些领域“犯糊涂”——比如解决第30步的复杂题，花的资源比第1步的简单题还少，纯属“敷衍了事”。

2. 组合性：几乎所有AI“严重挂科”

这是最严重的问题，几乎所有测试的AI都违反了组合性原理，主要表现为两种“思考错位”：

- 思考不足：偷工减料

比如解决“几何题+代数题”的复合题，理论上该花10+20=30步推理，结果AI只花了15步就草草结束，相当于厨师没做完两道菜就端上桌，肯定不好吃——最终准确率自然暴跌。

- 思考过剩：胡思乱想

本章未完，点击下一页继续阅读。