機(jī)器之心發(fā)布
通義 DeepResearch 重磅發(fā)布,讓 AI 從 “能聊天” 躍遷到 “會(huì)做研究”。在多項(xiàng)權(quán)威 Deep Research benchmark 上取得 SOTA,綜合能力對(duì)標(biāo)并跑贏海外旗艦?zāi)P?,同時(shí)實(shí)現(xiàn)模型、框架、方案全面開源,把深度研究的生產(chǎn)力真正帶到每個(gè)人手里。
相比于海外的旗艦?zāi)P桶嘿F和限制的調(diào)用,通義 DeepResearch 團(tuán)隊(duì)做到了完全開源!開源模型,開源框架,開源方案!在 Humanity's Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch, WebWalkerQA 以及?FRAMES?等多個(gè) Benchmark 上,相比于基于基礎(chǔ)模型的 ReAct Agent 和閉源 Deep Research Agent,其 30B-A3B 輕量級(jí) tongyi ?DeepResearch,達(dá)到了 SOTA 效果。
通義 DeepResearch 團(tuán)隊(duì)也在 Blog 和 Github 完整分享了一套可落地的 DeepResearch Agent 構(gòu)建方法論,系統(tǒng)性地覆蓋了從數(shù)據(jù)合成、Agentic 增量預(yù)訓(xùn)練 (CPT)、有監(jiān)督微調(diào) (SFT) 冷啟動(dòng),到強(qiáng)化學(xué)習(xí) (RL) 的端到端全流程。尤其在 RL 階段,該團(tuán)隊(duì)提供了集算法創(chuàng)新、自動(dòng)化數(shù)據(jù)構(gòu)建與高穩(wěn)定性基礎(chǔ)設(shè)施于一體的全棧式解決方案。在推理層面,模型展現(xiàn)出雙重優(yōu)勢(shì):基礎(chǔ)的 ReAct 模式無(wú)需提示工程即可充分釋放模型固有能力;而深度模式 (test-time scaling) 則進(jìn)一步探索了其在復(fù)雜推理與規(guī)劃能力上的上限。
Homepage: ?https://tongyi-agent.github.io/
Blog: ?https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Github: ?https://github.com/Alibaba-NLP/DeepResearch
Hugging Face: ?https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
Model Scope: ?https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
1 數(shù)據(jù)策略:基于全合成數(shù)據(jù)的增量預(yù)訓(xùn)練和后訓(xùn)練
模型能力的提升,主要得益于通義 DeepResearch 團(tuán)隊(duì)設(shè)計(jì)的一套多階段數(shù)據(jù)策略。這個(gè)策略的核心目標(biāo)是,不依賴昂貴的人工標(biāo)注,也能大規(guī)模地生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。
1.1 增量預(yù)訓(xùn)練數(shù)據(jù)
團(tuán)隊(duì)引入了 Agentic CPT(增量預(yù)訓(xùn)練)來(lái)為模型打下堅(jiān)實(shí)的 Agent 基礎(chǔ)。為此,開發(fā)了一個(gè)系統(tǒng)化、可擴(kuò)展的數(shù)據(jù)合成方案。它能利用后續(xù)訓(xùn)練流程產(chǎn)生的數(shù)據(jù),形成一個(gè)數(shù)據(jù)生成的正向循環(huán)。
數(shù)據(jù)重組和問(wèn)題構(gòu)建? 基于廣泛收集和增量更新的知識(shí)文檔、公開可用的爬蟲數(shù)據(jù)、知識(shí)圖譜以及后訓(xùn)練產(chǎn)生的軌跡數(shù)據(jù)和工具調(diào)用返回結(jié)果(例如,搜索結(jié)果和網(wǎng)頁(yè)訪問(wèn)記錄)等,團(tuán)隊(duì)構(gòu)建了一個(gè)以實(shí)體為錨定的開放世界知識(shí)記憶。進(jìn)一步,研究者基于采樣的實(shí)體和相關(guān)知識(shí)構(gòu)造多風(fēng)格的(問(wèn)題,答案)對(duì),以盡可能涵蓋智能體所面臨的真實(shí)場(chǎng)景。
動(dòng)作合成?基于多風(fēng)格問(wèn)題和歷史軌跡數(shù)據(jù),團(tuán)隊(duì)分別構(gòu)建了三種類型的動(dòng)作數(shù)據(jù),包含規(guī)劃、推理和決策動(dòng)作。該方法能夠在離線環(huán)境下大規(guī)模、全面地探索潛在的推理 - 動(dòng)作空間,從而消除了對(duì)額外商業(yè)工具 API 調(diào)用的需求。特別地,對(duì)于決策動(dòng)作合成,該研究將軌跡重構(gòu)為多步驟決策過(guò)程,以增強(qiáng)模型的決策能力。
1.2 Post-training 數(shù)據(jù)
通義 DeepRsearch 團(tuán)隊(duì)開發(fā)了一套全自動(dòng)的合成數(shù)據(jù)生成方案,旨在全自動(dòng)化生成超越人工標(biāo)注質(zhì)量的數(shù)據(jù)集,以挑戰(zhàn)模型的能力極限。這個(gè)方案經(jīng)過(guò)了多次迭代,從早期的 WebWalker,到更系統(tǒng)的 WebSailor 和 WebShaper,數(shù)據(jù)質(zhì)量和可擴(kuò)展性都得到了保證。
為了生成能應(yīng)對(duì)復(fù)雜問(wèn)題的問(wèn)答數(shù)據(jù),團(tuán)隊(duì)開創(chuàng)性得設(shè)計(jì)了一個(gè)新流程。首先,通過(guò)知識(shí)圖譜隨機(jī)游走和表格數(shù)據(jù)融合等方式,從真實(shí)網(wǎng)站數(shù)據(jù)中提取信息,保證數(shù)據(jù)結(jié)構(gòu)的真實(shí)性。然后,通過(guò)策略性地模糊或隱藏問(wèn)題中的信息來(lái)增加難度。團(tuán)隊(duì)將問(wèn)答難度建模為一系列可控的 “原子操作”,這樣就可以系統(tǒng)性地提升問(wèn)題的復(fù)雜度。
為了減少推理捷徑,團(tuán)隊(duì)還基于集合論對(duì)信息搜索問(wèn)題進(jìn)行了形式化建模。這幫助他們以可控的方式生成更高質(zhì)量的問(wèn)題,并解決了合成數(shù)據(jù)難以驗(yàn)證正確性的問(wèn)題。
此外,該團(tuán)隊(duì)還開發(fā)了一個(gè)自動(dòng)化數(shù)據(jù)引擎,用于生成需要多學(xué)科知識(shí)和多源推理的 “博士級(jí)” 研究問(wèn)題。它會(huì)讓一個(gè)配備了網(wǎng)絡(luò)搜索、學(xué)術(shù)檢索等工具的代理,在一個(gè)循環(huán)中不斷深化和擴(kuò)展問(wèn)題,使任務(wù)難度可控地升級(jí)。
2 推理模式
Tongyi DeepResearch 既有原生的?ReAct Mode,又有進(jìn)行上下文管理的?Heavy Mode。
2.1 ReAct Mode
模型在標(biāo)準(zhǔn)的 ReAct 模式(思考 - 行動(dòng) - 觀察)下表現(xiàn)出色。128K 的上下文長(zhǎng)度支持大量的交互輪次,團(tuán)隊(duì)遵循大道至簡(jiǎn),認(rèn)為通用的、可擴(kuò)展的方法最終會(huì)更有優(yōu)勢(shì)。
2.2 Heavy Mode
除了 ReAct 模式外,通義 DeepResearch 團(tuán)隊(duì)還開發(fā)了 “深度模式”,用于處理極端復(fù)雜的多步研究任務(wù)。此模式基于該團(tuán)隊(duì)全新的 IterResearch 范式,旨在將 Agent 的能力發(fā)揮到極致。
IterResearch 范式的創(chuàng)建是為了解決 Agent 將所有信息堆積在一個(gè)不斷擴(kuò)展的單一上下文窗口中時(shí)出現(xiàn)的認(rèn)知瓶頸和噪音污染。相反,IterResearch 將一項(xiàng)任務(wù)解構(gòu)為一系列 “研究輪次”。
在每一輪中,Agent 僅使用上一輪中最重要的輸出來(lái)重建一個(gè)精簡(jiǎn)的工作空間。在這個(gè)專注的工作空間中,Agent 會(huì)分析問(wèn)題,將關(guān)鍵發(fā)現(xiàn)整合成一個(gè)不斷演變的核心報(bào)告,然后決定下一步行動(dòng) —— 是收集更多信息還是提供最終答案。這種 “綜合與重構(gòu)” 的迭代過(guò)程使 Agent 能夠在執(zhí)行長(zhǎng)期任務(wù)時(shí)保持清晰的 “認(rèn)知焦點(diǎn)” 和高質(zhì)量的推理能力。
在此基礎(chǔ)上,團(tuán)隊(duì)還提出了 Research-Synthesis 框架:讓多個(gè) IterResearch Agent 并行探索同一個(gè)問(wèn)題,最后整合它們的報(bào)告和結(jié)論,以獲得更準(zhǔn)確的答案。
3 訓(xùn)練
打通整個(gè)鏈路,引領(lǐng)新時(shí)代下 Agent model 訓(xùn)練的新范式
通義 DeepResearch 團(tuán)隊(duì)對(duì) Agent model 訓(xùn)練流程進(jìn)行革新!從 Agentic CPT (contine pre-training) 到 RFT (rejected fine-tuning) 再到 Agentic RL (reinforment learning),打通整個(gè)鏈路,引領(lǐng)新時(shí)代下 Agent model 訓(xùn)練的新范式。
端到端 Agent 訓(xùn)練流程
Tongyi DeepResearch Agent 建立了一套連接 Agentic CPT → Agentic SFT → Agentic RL 的訓(xùn)練范式。下面重點(diǎn)介紹該團(tuán)隊(duì)如何通過(guò)強(qiáng)化學(xué)習(xí)來(lái)完成最后的優(yōu)化。
基于策略的強(qiáng)化學(xué)習(xí)(RL)
通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建高質(zhì)量的 Agent 是一項(xiàng)復(fù)雜的系統(tǒng)工程挑戰(zhàn);如果將整個(gè)開發(fā)過(guò)程視為一個(gè) “強(qiáng)化學(xué)習(xí)” 循環(huán),其組件中的任何不穩(wěn)定或魯棒性不足都可能導(dǎo)致錯(cuò)誤的 “獎(jiǎng)勵(lì)” 信號(hào)。接下來(lái),團(tuán)隊(duì)將分享他們?cè)趶?qiáng)化學(xué)習(xí)方面的實(shí)踐,涵蓋算法和基礎(chǔ)設(shè)施兩個(gè)方面。
在強(qiáng)化學(xué)習(xí)(RL)算法方面,通義 DeepResearch 團(tuán)隊(duì)基于 GRPO 進(jìn)行了定制優(yōu)化。他們嚴(yán)格遵循 on-policy 的訓(xùn)練范式,確保學(xué)習(xí)信號(hào)始終與模型當(dāng)前的能力精準(zhǔn)匹配。同時(shí),團(tuán)隊(duì)采取了一個(gè) token 級(jí)別的策略梯度損失函數(shù)來(lái)優(yōu)化訓(xùn)練目標(biāo)。其次,為了進(jìn)一步降低優(yōu)勢(shì)估計(jì)(advantage estimation)的方差,團(tuán)隊(duì)采用了留一法 (leave-one-out) 策略。此外,團(tuán)隊(duì)發(fā)現(xiàn)未經(jīng)篩選的負(fù)樣本會(huì)嚴(yán)重影響訓(xùn)練的穩(wěn)定性,這種不穩(wěn)定性在長(zhǎng)時(shí)間訓(xùn)練后可能表現(xiàn)為 “格式崩潰”(format collapse)現(xiàn)象。為緩解此問(wèn)題,他們會(huì)選擇性地將某些負(fù)樣本排除在損失計(jì)算之外,例如那些因過(guò)長(zhǎng)而未能生成最終答案的樣本。出于效率考慮,該團(tuán)隊(duì)沒有采用動(dòng)態(tài)采樣,而是通過(guò)增大批次(batch size)和組規(guī)模(group size)的方式,來(lái)維持較小的方差并提供充足的監(jiān)督信號(hào)。
訓(xùn)練過(guò)程的動(dòng)態(tài)指標(biāo)顯示,模型學(xué)習(xí)效果顯著,獎(jiǎng)勵(lì)(reward)呈持續(xù)上升趨勢(shì)。同時(shí),策略熵(policy entropy)始終維持在較高水平,這表明模型在持續(xù)進(jìn)行探索,有效防止了過(guò)早收斂。團(tuán)隊(duì)人員將此歸因于 Web 環(huán)境天然的非平穩(wěn)性,該特性促進(jìn)了穩(wěn)健自適應(yīng)策略的形成,也因此無(wú)需再進(jìn)行顯式的熵正則化。
通義 DeepResearch 團(tuán)隊(duì)認(rèn)為,算法固然重要,但并非 Agentic RL 成功的唯一決定因素。在嘗試了多種算法和優(yōu)化技巧后他們發(fā)現(xiàn),數(shù)據(jù)質(zhì)量和訓(xùn)練環(huán)境的穩(wěn)定性,可能是決定強(qiáng)化學(xué)習(xí)項(xiàng)目成敗的更關(guān)鍵一環(huán)。一個(gè)有趣的現(xiàn)象是,團(tuán)隊(duì)曾嘗試直接在 BrowseComp 測(cè)試集上訓(xùn)練,但其表現(xiàn)遠(yuǎn)不如使用合成數(shù)據(jù)的結(jié)果。研究者推測(cè),這種差異源于合成數(shù)據(jù)提供了一致性更高的分布,使模型能進(jìn)行更有效的學(xué)習(xí)和擬合。相比之下,像 BrowseComp 這樣的人工標(biāo)注數(shù)據(jù),本身就含有更多噪聲,加之其規(guī)模有限,導(dǎo)致模型很難從中提煉出一個(gè)可供學(xué)習(xí)的潛在分布,從而影響了其學(xué)習(xí)和泛化(generalize)能力。這一發(fā)現(xiàn)對(duì)其他智能體的訓(xùn)練同樣具有啟發(fā)意義,為構(gòu)建更多樣、更復(fù)雜的智能體訓(xùn)練方案提供了思路。
在基礎(chǔ)設(shè)施方面,使用工具訓(xùn)練智能體需要一個(gè)高度穩(wěn)定高效的環(huán)境:
仿真訓(xùn)練環(huán)境:依賴實(shí)時(shí) Web API 進(jìn)行開發(fā)成本高昂、速度慢且不一致。團(tuán)隊(duì)利用離線維基百科數(shù)據(jù)庫(kù)和自定義工具套件創(chuàng)建了一個(gè)模擬訓(xùn)練環(huán)境來(lái)解決這一問(wèn)題。并且通過(guò) SailorFog-QA-V2 的流程,為該環(huán)境生成專屬的高質(zhì)量數(shù)據(jù),創(chuàng)建了一個(gè)經(jīng)濟(jì)高效、快速可控的平臺(tái),顯著加快了研究和迭代速度。
穩(wěn)定高效的工具沙盒:為了確保在智能體訓(xùn)練和評(píng)估期間對(duì)工具的穩(wěn)定調(diào)用,團(tuán)隊(duì)開發(fā)了一個(gè)統(tǒng)一的沙盒。該沙盒通過(guò)緩存結(jié)果、重試失敗的調(diào)用以及飽和式響應(yīng)等改進(jìn)來(lái)高效地處理并發(fā)和故障。這為智能體提供了快速且魯棒的交互環(huán)境,可以有效防止工具的錯(cuò)誤響應(yīng)破壞其學(xué)習(xí)軌跡。
自動(dòng)數(shù)據(jù)管理:數(shù)據(jù)是提升模型能力的核心驅(qū)動(dòng)力,其重要性甚至超過(guò)了算法。數(shù)據(jù)質(zhì)量直接決定了模型是否能通過(guò)自我探索提升分布外泛化能力。因此,團(tuán)隊(duì)在訓(xùn)練動(dòng)態(tài)的指導(dǎo)下實(shí)時(shí)優(yōu)化數(shù)據(jù),通過(guò)全自動(dòng)數(shù)據(jù)合成和數(shù)據(jù)漏斗動(dòng)態(tài)調(diào)整訓(xùn)練集。通過(guò)數(shù)據(jù)生成和模型訓(xùn)練之間的正向循環(huán),這種方法不僅確保了訓(xùn)練的穩(wěn)定性,還帶來(lái)了顯著的性能提升。
基于策略的異步框架:團(tuán)隊(duì)在 rLLM 之上實(shí)現(xiàn)了異步強(qiáng)化學(xué)習(xí)訓(xùn)練推理框架,多個(gè)智能體實(shí)例并行與(模擬或真實(shí))環(huán)境交互,獨(dú)立生成軌跡。
通過(guò)這些措施,通義 DeepResearch 團(tuán)隊(duì)實(shí)現(xiàn)了智能體強(qiáng)化訓(xùn)練的 “閉環(huán)”。從基座模型開始,團(tuán)隊(duì)進(jìn)行了 Agentic 持續(xù)預(yù)訓(xùn)練以初始化工具使用技能,然后使用類似專家的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)以實(shí)現(xiàn)冷啟動(dòng),最后進(jìn)在 on-policy 的強(qiáng)化學(xué)習(xí),使模型進(jìn)行自我進(jìn)化。這種全棧方法為訓(xùn)練能夠在動(dòng)態(tài)環(huán)境中穩(wěn)健地解決復(fù)雜任務(wù)的 AI 代理提供了一種全新的范例。
4 應(yīng)用落地
目前通義 DeepResearch 已賦能多個(gè)阿里巴巴內(nèi)部應(yīng)用,包括:
高德出行 Agent:
高德 App 作為通義在集團(tuán)內(nèi)長(zhǎng)期共建的重點(diǎn)客戶,其 “地圖導(dǎo)航 + 本地生活” 的業(yè)務(wù)場(chǎng)景,以及高德內(nèi)部豐富的專用工具,具備構(gòu)建這類 Agent 的土壤,高德也將這類 Agent 能力作為 25 年暑期大版本 V16 的一個(gè)亮點(diǎn)功能。通義團(tuán)隊(duì)近期在地圖 + 本地生活場(chǎng)景,基于純 agentic+ReAct 執(zhí)行復(fù)雜推理的垂類 agent 技術(shù)建設(shè),可以為高德提供更好效果的模型。因此,雙方團(tuán)隊(duì)共建合作,“通義團(tuán)隊(duì)提供模型 + 高德團(tuán)隊(duì)提供工具和 Agent 鏈路”,打造了高德 App 中助手高德小德的復(fù)雜查詢體驗(yàn),在地圖行業(yè)內(nèi)打出影響力。
通義法睿:
通義法睿,作為大模型原生的 “法律智能體”,致力于為大眾及法律從業(yè)者提供專業(yè)、便捷的法律智能服務(wù)。集法律問(wèn)答、案例法條檢索、合同審查、文書閱讀、文書起草等功能于一體,全面滿足法律用戶需求。依托創(chuàng)新的 Agentic 架構(gòu)與迭代式規(guī)劃(Iterative Planning)技術(shù),通義法睿全新升級(jí)司法 DeepResearch 能力,可高效執(zhí)行多步查詢與復(fù)雜推理,實(shí)現(xiàn)權(quán)威類案精準(zhǔn)檢索、法條智能匹配與專業(yè)觀點(diǎn)深度融合。我們以真實(shí)判例、官方法規(guī)和權(quán)威解讀為基礎(chǔ),打造可追溯、高可信的法律分析服務(wù),在法律問(wèn)答的深度研究三大核心維度 —— 答案要點(diǎn)質(zhì)量、案例引用質(zhì)量、法條引用質(zhì)量上領(lǐng)先行業(yè)。
通義 DeepResearch 也擁有豐富的 Deep Research Agent 家族。您可以在以下論文中找到更多信息:
[1] WebWalker: Benchmarking LLMs in Web Traversal
[2] WebDancer: Towards Autonomous Information Seeking Agency
[3] WebSailor: Navigating Super-human Reasoning for Web Agent
[4] WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
[5] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
[6] WebResearch: Unleashing reasoning capability in Long-Horizon Agents
[7] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
[8] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
[9] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
[10] Scaling Agents via Continual Pre-training
[11] Towards General Agentic Intelligence via Environment Scaling
通義 DeepResearch 團(tuán)隊(duì)長(zhǎng)期致力于 Deep Research 的研發(fā)。過(guò)去六個(gè)月,以每月持續(xù)發(fā)布一篇技術(shù)報(bào)告,迄今為止已發(fā)布五篇。今天,同時(shí)發(fā)布六篇新報(bào)告,并在開源社區(qū)發(fā)布了通義 DeepResearch-30B-A3B 模型。
? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:liyazhou@jiqizhixin.com