激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

誰說Scaling Law到頭了?新研究:每一步的微小提升會帶來指數(shù)級增長
2025-09-16 14:15來源:機器之心

編輯:張倩

很多人認為,Scaling Law 正在面臨收益遞減,因此繼續(xù)擴大計算規(guī)模訓練模型的做法正在被質(zhì)疑。最近的觀察給出了不一樣的結(jié)論。研究發(fā)現(xiàn),哪怕模型在「單步任務(wù)」上的準確率提升越來越慢,這些小小的進步疊加起來,也能讓模型完成的任務(wù)長度實現(xiàn)「指數(shù)級增長」,而這一點可能在現(xiàn)實中更有經(jīng)濟價值。

如果繼續(xù)擴大計算規(guī)模,邊際收益卻在遞減,企業(yè)繼續(xù)真金白銀投入更大模型的訓練是否還是一個合理的選擇?大概從去年開始,AI 領(lǐng)域就在爭論這一問題。

最近,有篇論文給出了一個有意思的觀點:雖然 scaling law 顯示 LLM 在測試損失等指標上存在收益遞減,但模型在現(xiàn)實世界的價值往往源于一個智能體能夠完成任務(wù)的長度。從這個角度來看,更大的模型非但沒有收益遞減,反而能將單步準確率的微小提升復合放大,在任務(wù)完成長度上實現(xiàn)指數(shù)級躍升。

論文標題:The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

論文鏈接:https://arxiv.org/pdf/2509.09677

代碼鏈接:https://github.com/long-horizon-execution/measuring-execution

數(shù)據(jù)集鏈接:https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution

這篇論文來自劍橋大學等機構(gòu)。論文指出,長期以來,完成長程任務(wù)一直是深度學習的致命弱點。自動駕駛 demo 很炫酷,但要真正上路跑長途,用了十多年才實現(xiàn)。AI 能生成驚艷的圖片,但拍一段連貫、一致的長視頻至今仍是難題?,F(xiàn)在企業(yè)都想要 AI 幫忙處理整個項目,而不只是回答零散問題。但這里有個核心疑問:我們該如何衡量 LLM 能可靠執(zhí)行多少步的工作?

LLM 在簡單長任務(wù)上的失敗被認為是推理能力的根本缺陷。盡管 LLM 在復雜推理基準測試上有了巨大改進,依然有論文聲稱思考模型只是給出了「思考的幻覺」(arXiv:2506.06941),因為當任務(wù)變得更長時,它們最終會失敗。

這些結(jié)果在社區(qū)中引發(fā)了很多爭論。但本文作者認為,我們可以通過解耦推理或智能體任務(wù)中規(guī)劃(planning)和執(zhí)行(execution)的需求來解決這個問題。

規(guī)劃涉及決定檢索什么信息或使用什么工具以及使用順序,而執(zhí)行就是讓規(guī)劃變成現(xiàn)實。在《思考的幻覺》論文中,LLM 顯然知道規(guī)劃,因為它最初正確地執(zhí)行了許多步驟。本文研究者認為,最終的失敗在于執(zhí)行 —— 隨著任務(wù)變長,模型在執(zhí)行規(guī)劃時更容易犯錯。盡管人們非常關(guān)注 LLM 的規(guī)劃能力,但執(zhí)行仍然是一個研究不足的挑戰(zhàn)。隨著 LLM 開始用于長推理和智能體任務(wù),這一方向變得越來越重要。

在這篇論文中,作者在受控環(huán)境中測量了 LLM 的長程執(zhí)行能力。他們通過顯式提供所需的知識和規(guī)劃來隔離 LLM 的執(zhí)行能力。通過控制輪數(shù)和每輪的步驟數(shù)(它們共同構(gòu)成任務(wù)長度),他們揭示了關(guān)于 LLM 長程任務(wù)執(zhí)行能力的見解:

1、Scaling 是否存在收益遞減?

作者觀察到,雖然單步準確率的提升幅度在減小,但準確率的微小提升可以復合放大,進而導致模型能夠完成的任務(wù)長度呈指數(shù)級增長。

過去大家覺得,scaling 模型大小之所以會有用,是因為這會提高模型存儲參數(shù)化知識或搜索規(guī)劃的能力。

然而,作者在實驗中發(fā)現(xiàn),在顯式提供了所需的知識和規(guī)劃后,scaling 模型大小仍能顯著提高模型成功執(zhí)行的輪次數(shù)量。這說明 scaling 模型的價值不僅體現(xiàn)在能讓模型記住更多知識或更會尋找問題解答上。

2、Self-Conditioning 效應(yīng)

人們可能會認為,長任務(wù)中的失敗僅僅是由于小而恒定的每步錯誤率不斷累積造成的。然而,作者發(fā)現(xiàn),隨著任務(wù)的推進,每步錯誤率本身會上升。這與人類形成了對比,人類在執(zhí)行任務(wù)時通常會通過練習而進步。

作者推測,由于模型訓練的很大一部分是根據(jù)上下文預測最可能的下一個 token,因此讓模型以自身容易出錯的歷史為條件會增加未來出錯的可能性。他們通過控制展示給模型的歷史中的錯誤率來對此進行測試。隨著歷史中的錯誤率升高,他們觀察到后續(xù)步驟的準確率急劇下降,這驗證了模型會進行 self-condition 設(shè)定。

作者表明,除了先前已發(fā)現(xiàn)的長上下文問題外,self-conditioning 設(shè)定還會導致模型在長程任務(wù)中的性能下降,而且與長上下文問題不同的是,這種性能下降并不會通過增大模型規(guī)模而得到緩解。

3、思考的影響

作者發(fā)現(xiàn)近期的思考模型不會受到先前錯誤的影響,能夠修正 self-conditioning 限制。此外,順序測試時計算量(sequential test time compute)的顯著提升了模型在單輪對話中可完成任務(wù)的長度。在沒有思維鏈(CoT)的情況下,像 DeepSeek V3 這樣的前沿大語言模型甚至連兩步執(zhí)行都無法完成,而其具備思考能力的版本 R1 則能執(zhí)行 200 步,這凸顯了行動前進行推理的重要性。

作者對前沿思考模型進行了基準測試,發(fā)現(xiàn) GPT-5 的思考版本(代號 Horizon)能夠執(zhí)行超過 1000 步,遠超緊隨其后的競爭對手 —— 能執(zhí)行 432 步的 Claude-4-Sonnet。

LLM 能力的「參差不齊」既令人著迷又讓人困惑。與傳統(tǒng)機器不同,大語言模型在執(zhí)行重復性任務(wù)時更容易出現(xiàn)故障。因此,作者認為,長任務(wù)中的執(zhí)行失敗不應(yīng)被誤解為缺乏推理或規(guī)劃能力。他們發(fā)現(xiàn),通過擴大模型規(guī)模和增加順序測試時間的計算量,模型長程執(zhí)行能力會得到顯著提升。如果一個模型能夠完成的任務(wù)長度表明其經(jīng)濟價值,那么持續(xù)投入以增加計算量可能是值得的,即便短任務(wù)基準測試給人一種進展放緩的錯覺。

這篇論文讓很多人感覺深受啟發(fā),還有人提出我們應(yīng)該設(shè)計更多針對模型執(zhí)行深度方面的基準測試,以更好地衡量模型 scaling 所帶來的收益。

以下是論文的詳細內(nèi)容。

論文方法詳解

在論文中,作者詳細介紹了他們的每一個結(jié)論是怎么得出來的。

雖然單步準確率收益遞減,但 scaling 仍有價值

作者首先分析了模型的單步準確率與其預測范圍長度之間的關(guān)系。為了得出數(shù)學關(guān)系,他們做出了兩個類似于 LeCun (2023) 的簡化假設(shè)。第一,他們假設(shè)模型的步準確率在任務(wù)過程中保持恒定。第二,他們假設(shè)模型不會自我修正,這意味著任何單一錯誤都會導致任務(wù)失敗。他們僅在此次分析中做這樣的假設(shè),該分析能提供有用的直覺。他們的實證分析則更進一步,還研究了 LLM 在實際情況中如何在長程任務(wù)執(zhí)行時不表現(xiàn)出穩(wěn)定的步驟準確率,以及它們可能如何糾正錯誤。

命題 1:假設(shè)步驟準確率 p 恒定且無自校正,模型達到成功率 s 時的任務(wù)長度 H 由下式給出:

作者在圖 2 中繪制了 s=0.5 時的這一增長函數(shù)。注意,當步驟準確率超過 70% 后,步驟準確率的微小提升會帶來比指數(shù)級更快的任務(wù)長度改善。這一推導表明,即使在通常包含短任務(wù)的問答基準測試中,準確率的提升似乎放緩,但從數(shù)學角度而言,人們?nèi)钥善诖诟L的任務(wù)上取得顯著收益。

例如,在軟件工程任務(wù)中,Kwa et al. (2025) 通過實證觀察發(fā)現(xiàn),前沿模型在 s=0.5 時的可完成任務(wù)長度正呈指數(shù)級增長,每 7 個月翻一番。利用上面的結(jié)果,作者在圖 1 中展示出,即使在步驟精確度的回報遞減機制下,任務(wù)長度的這種指數(shù)級增長也會發(fā)生。如果設(shè)定 s=0.5,就會得到

。因此,要隨著時間(x)維持 H_0.5 的指數(shù)級增長,所需的步驟精確度 p 為

,這確實是一個遞減函數(shù)。

作者注意到,人類勞動的報酬往往是按時間計算的。如果一個智能體的經(jīng)濟價值也源于它能夠完成的任務(wù)時長,那么單輪或短任務(wù)基準可能并非評估進一步投資于大語言模型計算資源所帶來收益的可靠參考。這些基準可能會讓人產(chǎn)生進展放緩的錯覺,而作者認為,更能體現(xiàn)經(jīng)濟價值的指標 —— 模型能夠完成的任務(wù)時長,實際上仍在快速增長。

通過解耦規(guī)劃和知識來隔離執(zhí)行

接下來,作者描述了如何通過實證方法衡量模型的長程任務(wù)執(zhí)行能力。

首先,團隊給出了一個很有啟發(fā)性的例子:一個用于熱門且具有經(jīng)濟價值的航班預訂任務(wù)的智能體。

在接收到搜索結(jié)果后,它必須對顯示的航班進行評估,以確定要預訂哪一個。評估單個航班選項的計劃可能包括一系列操作,例如查看詳細信息,核實航班時間、行李限額和航空公司評價是否符合用戶偏好,應(yīng)用任何可用的折扣或獎勵計劃,以及最終根據(jù)成本和行程時間做出選擇。這些獨立步驟中的每一步都需要檢索一些信息,并將其與現(xiàn)有的信息狀態(tài)相結(jié)合,以最終評估一個航班選項,而這兩項操作都需要知識。對多個航班選項的成功評估構(gòu)成了該規(guī)劃的執(zhí)行過程,直至做出最終的預訂決定。

這篇論文聚焦于執(zhí)行環(huán)節(jié),因為作者認為它是長程任務(wù)完成能力的關(guān)鍵組成部分。傳統(tǒng)上,執(zhí)行環(huán)節(jié)受到的關(guān)注少于推理、規(guī)劃和世界知識等能力,而這些能力一直是 LLM 能力討論的主要焦點。這種相對的忽視是很重要的,因為執(zhí)行中的失敗被錯誤地歸因于推理或規(guī)劃能力的局限。這種看法可能源于一種觀點,即執(zhí)行是一項簡單或平凡的任務(wù)。畢竟,這是機器歷來擅長的事情。人類一旦學會如何完成一項任務(wù),在執(zhí)行時也相當可靠,甚至會通過練習得到提高。然而,由于 LLM 并不具備正確性保證,作者假設(shè),在長時程任務(wù)中,執(zhí)行對 LLM 而言可能會出人意料地具有挑戰(zhàn)性。他們推測:

即使推理、規(guī)劃和世界知識都得到完善,LLM 在長期執(zhí)行過程中仍會出錯。

為了證明這一點,他們通過顯式提供必要的知識和規(guī)劃來隔離執(zhí)行失敗的情況。他們將前述航班選擇智能體示例中提出的「先檢索后組合」步驟串聯(lián)起來。每個步驟都包括檢索相關(guān)信息或規(guī)劃中指定的工具,然后組合其輸出以更新當前狀態(tài)。規(guī)劃負責決定檢索什么以及如何組合,而執(zhí)行則是實際執(zhí)行這些操作。這符合一種自然的抽象 —— 鍵值(key-value)詞典。鍵作為規(guī)劃的一個步驟,指定要檢索的知識或要調(diào)用的工具,而值則代表知識或工具的輸出,隨后需要將其與當前狀態(tài)組合。

在這項研究中,作者將規(guī)劃作為每個查詢中的鍵提供,從而消除了 LLM 對規(guī)劃能力的需求。他們還在上下文中提供鍵值詞典,消除了對模型參數(shù)知識的任何依賴。通過這種設(shè)計,作者直接控制兩個重要的維度,它們相乘可得到任務(wù)長度(「先檢索后組合」步驟的數(shù)量):輪次數(shù)量和輪次復雜度(K)。輪次復雜度可以通過改變每輪查詢的鍵的數(shù)量來調(diào)整。

實驗結(jié)果

在實驗部分,作者得出了以下幾個核心結(jié)論:

長程任務(wù)執(zhí)行具有挑戰(zhàn)性。顯著增大模型規(guī)模會大幅增加模型能夠正確執(zhí)行的輪次數(shù)量。

模型會把自己上一步犯的錯誤當成新上下文繼續(xù)學(self-conditioning),這導致每一步的準確率下降。增大模型規(guī)模并不足以緩解這一問題。

思考模型能解決 self-conditioning 限制的問題,還能在單輪中執(zhí)行明顯更長的任務(wù)。

增加輪次的影響

作者首先驗證了一個假設(shè) —— 即使在不需要世界知識和規(guī)劃的任務(wù)中,長時程任務(wù)執(zhí)行也可能具有挑戰(zhàn)性。然后,他們研究了增大模型規(guī)模對長時程任務(wù)執(zhí)行的益處。

作者在圖 4 中展示了結(jié)果。除了 Gemma3-4B 和 Qwen3-4B 之外,所有模型在第一步都達到了 100% 的準確率,這凸顯出它們具備完美完成任務(wù)中單個步驟所需的知識和推理能力。然而,任務(wù)準確率在后續(xù)回合中迅速下降。即使是表現(xiàn)最佳的模型(Qwen3-32B),其準確率在 15 個輪次內(nèi)也降至 50% 以下。這證實了作者的假設(shè):即使去除了規(guī)劃和知識方面的要求,長時程任務(wù)執(zhí)行對 LLM 而言仍可能具有挑戰(zhàn)性。

如圖 4(a)所示,更大的模型在更多輪次中保持更高的任務(wù)準確率,導致在任務(wù)長度上呈現(xiàn)明顯的 scaling 趨勢(圖 4(c))。

為什么每輪準確率會下降?是 self-conditioning 在作怪

人們可能會認為模型的每輪表現(xiàn)會保持穩(wěn)定。然而,圖 4(b)顯示,隨著輪次數(shù)量的增加,各輪次的準確率在穩(wěn)步下降。對此,作者研究了兩個相互對立的假設(shè):

模型的性能會僅僅因為上下文長度的增加而下降,與內(nèi)容無關(guān);

模型會以自身過去的錯誤為條件(self-conditioning)。在觀察到自己在之前回合中的錯誤后,它犯錯誤的可能性會更大。

結(jié)果顯示,self-conditioning 會導致輪次準確率在長上下文之外進一步下降。

圖 5(a)中的結(jié)果表明,長上下文和 self-conditioning 都會導致準確率下降。當以無錯誤的歷史為條件(誘導錯誤率 = 0.00)時,模型在第 100 輪的輪次準確率低于其初始值,這與之前關(guān)于長上下文退化的觀察結(jié)果一致。更有趣的是,隨著上下文中注入錯誤的比例的提高,第 100 輪的準確率持續(xù)下降。這證明了 self-conditioning 效應(yīng) —— 隨著模型出錯,它們更有可能犯更多錯誤,從而導致整個輸出軌跡中的每輪準確率持續(xù)下降,如圖 5(b)所示。

此外,與長上下文不同,擴大模型規(guī)模并不能緩解 self-conditioning 效應(yīng)。請注意,在誘導錯誤率為 0 的情況下,第 100 輪的準確率會隨著模型規(guī)模的增大而持續(xù)提高。

如圖 5(c)所示,將模型擴展到前沿水平(2000 億以上參數(shù)),如 Kimi-K2、DeepSeek-V3 和 Qwen3-235B Instruct-2507,在多達 100 輪的對話中基本解決了長上下文退化問題,在修復后的歷史對話上實現(xiàn)了近乎完美的準確率。

然而,即使是這些大型模型仍然容易受到 self-conditioning 作用的影響,因為隨著其歷史對話中誘導錯誤率的增加,它們的性能會持續(xù)下降。這可能與最近的研究結(jié)果類似,即大型模型在多輪對話中會出現(xiàn)性格轉(zhuǎn)變。而在本文的案例中,這種轉(zhuǎn)變是朝著容易出錯的「性格」方向發(fā)展。

在圖 6 中,作者清晰地發(fā)現(xiàn) Qwen3 thinking 模型不會進行 self-condition—— 無論其上下文中的錯誤率如何,模型在第 100 輪的準確率都保持穩(wěn)定。這可能源于兩個原因:

強化學習訓練能夠減少語言模型最可能的下一個 token 預測行為,使它們更傾向于任務(wù)成功而非延續(xù)上下文。

移除先前輪次的思維軌跡可能會降低先前輪次對模型輸出的影響,因為模型會獨立思考新的輪次。

通過檢查模型的思維軌跡,作者觀察到它們在思維鏈中不會回溯到先前的輪次。此外,作者通過明確移除先前歷史作為一種潛在的修正方法進行了上下文管理實驗,發(fā)現(xiàn)這確實減輕了 self-conditioning。

模型在單個輪次中能夠完成的任務(wù)有多長?

模型能夠處理的總?cè)蝿?wù)長度是輪次數(shù)量和每輪需要執(zhí)行的步驟數(shù)量共同作用的結(jié)果。作者也在實驗中測量了后一個維度:模型每輪能夠執(zhí)行的最大步驟數(shù)量。

實驗結(jié)果顯示,在沒有思維鏈的情況下,不具備思考能力的模型難以在單輪中完成哪怕兩個步驟的銜接。

在圖 12(左)中,作者首先發(fā)現(xiàn),當被提示直接作答且不使用思維鏈時,更大規(guī)模的 Qwen3 32B、Gemma3 27B,以及像 DeepSeek-V3(670B)和 Kimi K2(1026B)這樣的前沿非思考型模型,連復雜度為 2 的單輪任務(wù)都無法完成。這與先前的研究結(jié)果一致,即對于 Transformer 模型執(zhí)行序列任務(wù)而言,思考 token 是必不可少的。

作者強調(diào)這一點是因為,許多智能體工作流為了在上下文窗口中容納更多動作,會直接要求模型行動而不使用思維鏈。作者發(fā)現(xiàn),借助思維鏈,模型在單輪中能夠執(zhí)行的步驟數(shù)量顯著增加。這表明,對于智能體而言,行動前先進行推理至關(guān)重要。在附錄 B 中,作者還展示了諸如多數(shù)投票之類的并行測試時計算,僅能在單輪執(zhí)行長度和輪次數(shù)量上帶來微小提升。這為以下觀點提供了初步證據(jù):對于長時程執(zhí)行任務(wù),順序性的測試時計算更為有效。

在圖 12(右側(cè))中,作者就前沿模型在單輪對話中能夠執(zhí)行的任務(wù)長度進行了基準測試。他們發(fā)現(xiàn) GPT-5(代號 Horizon)與其他模型(如 Gemini 2.5 Pro、Grok 4 和 DeepSeek R1)之間存在驚人的巨大差距。他們還發(fā)現(xiàn),經(jīng)過強化學習訓練的思維模型 DeepSeek R1 的性能顯著優(yōu)于其經(jīng)指令微調(diào)的對應(yīng)模型 DeepSeek-V3。

總體而言,長時程執(zhí)行是一項挑戰(zhàn),開源權(quán)重模型在這方面仍在追趕那些僅通過 API 提供的模型,這凸顯了未來研究的機遇。

作者的實驗部分寫得非常翔實,不過有人質(zhì)疑這些實驗是否符合長時程任務(wù)的標準。感興趣的讀者可以去仔細看一下。

更多細節(jié)請參見原論文。

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃簂iyazhou@jiqizhixin.com