激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

開源Agent模型榜第一名,現(xiàn)在是阿里通義DeepResearch
2025-09-18 12:56來源:量子位

通義DeepResearch團(tuán)隊(duì) 投稿

量子位 | 公眾號(hào) QbitAI

阿里開源旗下首個(gè)深度研究Agent模型通義DeepResearch!

相比于基于基礎(chǔ)模型的ReAct Agent和閉源Deep Research Agent,這個(gè)30B-A3B輕量級(jí)模型Tongyi DeepResearch在HLE、BrowseComp-zh、GAIA等多個(gè)權(quán)威評(píng)測(cè)集上取得SOTA成績(jī),超越了OpenAI Deep Research、DeepSeek-V3.1等Agent模型。

目前,通義DeepResearch的模型、框架和方案均已全面開源,感興趣的朋友可以在Github、Hugging Face和魔搭社區(qū)社區(qū)下載模型和代碼~

下面來看模型具體情況。

數(shù)據(jù)策略:基于全合成數(shù)據(jù)的增量預(yù)訓(xùn)練和后訓(xùn)練

模型能力的提升,主要得益于團(tuán)隊(duì)設(shè)計(jì)的一套多階段數(shù)據(jù)策略。

這個(gè)策略的核心目標(biāo)是,不依賴昂貴的人工標(biāo)注,也能大規(guī)模地生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。

增量預(yù)訓(xùn)練數(shù)據(jù)

團(tuán)隊(duì)引入了Agentic CPT(增量預(yù)訓(xùn)練)來為模型打下堅(jiān)實(shí)的Agent基礎(chǔ)。

為此,開發(fā)了一個(gè)系統(tǒng)化、可擴(kuò)展的數(shù)據(jù)合成方案。它能利用后續(xù)訓(xùn)練流程產(chǎn)生的數(shù)據(jù),形成一個(gè)數(shù)據(jù)生成的正向循環(huán)。

數(shù)據(jù)重組和問題構(gòu)建

基于廣泛收集和增量更新的知識(shí)文檔、公開可用的爬蟲數(shù)據(jù)、知識(shí)圖譜以及后訓(xùn)練產(chǎn)生的軌跡數(shù)據(jù)和工具調(diào)用返回結(jié)果(例如,搜索結(jié)果和網(wǎng)頁(yè)訪問記錄)等,我們構(gòu)建了一個(gè)以實(shí)體為錨定的開放世界知識(shí)記憶。進(jìn)一步,我們基于采樣的實(shí)體和相關(guān)知識(shí)構(gòu)造多風(fēng)格的(問題,答案)對(duì),以盡可能涵蓋智能體所面臨的真實(shí)場(chǎng)景。

動(dòng)作合成

基于多風(fēng)格問題和歷史軌跡數(shù)據(jù),我們分別構(gòu)建了三種類型的動(dòng)作數(shù)據(jù),包含規(guī)劃、推理和決策動(dòng)作。我們的方法能夠在離線環(huán)境下大規(guī)模、全面地探索潛在的推理-動(dòng)作空間,從而消除了對(duì)額外商業(yè)工具 API 調(diào)用的需求。特別地,對(duì)于決策動(dòng)作合成,我們將軌跡重構(gòu)為多步驟決策過程,以增強(qiáng)模型的決策能力。

Post-training數(shù)據(jù)

通義DeepRsearch團(tuán)隊(duì)開發(fā)了一套全自動(dòng)的合成數(shù)據(jù)生成方案,旨在全自動(dòng)化生成超越人工標(biāo)注質(zhì)量的數(shù)據(jù)集,以挑戰(zhàn)模型的能力極限。

這個(gè)方案經(jīng)過了多次迭代,從早期的WebWalker,到更系統(tǒng)的WebSailor和WebShaper,數(shù)據(jù)質(zhì)量和可擴(kuò)展性都得到了保證。

為了生成能應(yīng)對(duì)復(fù)雜問題的問答數(shù)據(jù),團(tuán)隊(duì)開創(chuàng)性得設(shè)計(jì)了一個(gè)新流程。

首先,通過知識(shí)圖譜隨機(jī)游走和表格數(shù)據(jù)融合等方式,從真實(shí)網(wǎng)站數(shù)據(jù)中提取信息,保證數(shù)據(jù)結(jié)構(gòu)的真實(shí)性。

然后,通過策略性地模糊或隱藏問題中的信息來增加難度。團(tuán)隊(duì)將問答難度建模為一系列可控的“原子操作”,這樣就可以系統(tǒng)性地提升問題的復(fù)雜度。

為了減少推理捷徑,團(tuán)隊(duì)還基于集合論對(duì)信息搜索問題進(jìn)行了形式化建模。這幫助他們以可控的方式生成更高質(zhì)量的問題,并解決了合成數(shù)據(jù)難以驗(yàn)證正確性的問題。

此外,該團(tuán)隊(duì)還開發(fā)了一個(gè)自動(dòng)化數(shù)據(jù)引擎,用于生成需要多學(xué)科知識(shí)和多源推理的“博士級(jí)”研究問題。它會(huì)讓一個(gè)配備了網(wǎng)絡(luò)搜索、學(xué)術(shù)檢索等工具的代理,在一個(gè)循環(huán)中不斷深化和擴(kuò)展問題,使任務(wù)難度可控地升級(jí)。

推理模式

Tongyi DeepResearch既有原生的ReAct Mode,又有進(jìn)行上下文管理的Heavy Mode。

ReAct Mode

模型在標(biāo)準(zhǔn)的ReAct模式(思考-行動(dòng)-觀察)下表現(xiàn)出色。128K的上下文長(zhǎng)度支持大量的交互輪次,團(tuán)隊(duì)遵循大道至簡(jiǎn),認(rèn)為通用的、可擴(kuò)展的方法最終會(huì)更有優(yōu)勢(shì)。

Heavy Mode

除了ReAct模式外,團(tuán)隊(duì)還開發(fā)了“深度模式”,用于處理極端復(fù)雜的多步研究任務(wù)。此模式基于全新的IterResearch范式,旨在將Agent的能力發(fā)揮到極致。

IterResearch范式的創(chuàng)建是為了解決Agent將所有信息堆積在一個(gè)不斷擴(kuò)展的單一上下文窗口中時(shí)出現(xiàn)的認(rèn)知瓶頸和噪音污染。相反,IterResearch 將一項(xiàng)任務(wù)解構(gòu)為一系列“研究輪次”。

在每一輪中,Agent僅使用上一輪中最重要的輸出來重建一個(gè)精簡(jiǎn)的工作空間。

在這個(gè)專注的工作空間中,Agent會(huì)分析問題,將關(guān)鍵發(fā)現(xiàn)整合成一個(gè)不斷演變的核心報(bào)告,然后決定下一步行動(dòng)——是收集更多信息還是提供最終答案。

這種“綜合與重構(gòu)”的迭代過程使Agent能夠在執(zhí)行長(zhǎng)期任務(wù)時(shí)保持清晰的“認(rèn)知焦點(diǎn)”和高質(zhì)量的推理能力。

在此基礎(chǔ)上,團(tuán)隊(duì)還提出了Research-Synthesis框架:讓多個(gè)IterResearch Agent并行探索同一個(gè)問題,最后整合它們的報(bào)告和結(jié)論,以獲得更準(zhǔn)確的答案。

訓(xùn)練

打通整個(gè)鏈路,引領(lǐng)新時(shí)代下Agent model訓(xùn)練的新范式。

團(tuán)隊(duì)對(duì)Agent model訓(xùn)練流程進(jìn)行了革新。從Agentic CPT(contine pre-training)到RFT(rejected fine-tuning)再到Agentic RL(reinforment learning),打通整個(gè)鏈路,引領(lǐng)新時(shí)代下Agent model訓(xùn)練的新范式。

△端到端Agent訓(xùn)練流程

Tongyi DeepResearch Agent建立了一套連接Agentic CPT→Agentic SFT→Agentic RL的訓(xùn)練范式。下面重點(diǎn)介紹該團(tuán)隊(duì)如何通過強(qiáng)化學(xué)習(xí)來完成最后的優(yōu)化。

基于策略的強(qiáng)化學(xué)習(xí)(RL)

通過強(qiáng)化學(xué)習(xí)構(gòu)建高質(zhì)量的Agent是一項(xiàng)復(fù)雜的系統(tǒng)工程挑戰(zhàn);如果將整個(gè)開發(fā)過程視為一個(gè)“強(qiáng)化學(xué)習(xí)”循環(huán),其組件中的任何不穩(wěn)定或魯棒性不足都可能導(dǎo)致錯(cuò)誤的“獎(jiǎng)勵(lì)”信號(hào)。

接下來,詳細(xì)說明團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)方面的實(shí)踐,涵蓋算法和基礎(chǔ)設(shè)施兩個(gè)方面。

在強(qiáng)化學(xué)習(xí)(RL)算法方面,基于GRPO進(jìn)行了定制優(yōu)化。嚴(yán)格遵循on-policy的訓(xùn)練范式,確保學(xué)習(xí)信號(hào)始終與模型當(dāng)前的能力精準(zhǔn)匹配。

同時(shí),采取了一個(gè)token級(jí)別的策略梯度損失函數(shù)來優(yōu)化訓(xùn)練目標(biāo)。其次,為了進(jìn)一步降低優(yōu)勢(shì)估計(jì)(advantage estimation)的方差,采用了留一法 (leave-one-out) 策略。

此外,團(tuán)隊(duì)發(fā)現(xiàn)未經(jīng)篩選的負(fù)樣本會(huì)嚴(yán)重影響訓(xùn)練的穩(wěn)定性,這種不穩(wěn)定性在長(zhǎng)時(shí)間訓(xùn)練后可能表現(xiàn)為“格式崩潰”(format collapse)現(xiàn)象。

為緩解此問題,團(tuán)隊(duì)會(huì)選擇性地將某些負(fù)樣本排除在損失計(jì)算之外,例如那些因過長(zhǎng)而未能生成最終答案的樣本。

出于效率考慮,并沒有采用動(dòng)態(tài)采樣,而是通過增大批次(batch size)和組規(guī)模(group size)的方式,來維持較小的方差并提供充足的監(jiān)督信號(hào)。

訓(xùn)練過程的動(dòng)態(tài)指標(biāo)顯示,模型學(xué)習(xí)效果顯著,獎(jiǎng)勵(lì)(reward)呈持續(xù)上升趨勢(shì)。同時(shí),策略熵(policy entropy)始終維持在較高水平,這表明模型在持續(xù)進(jìn)行探索,有效防止了過早收斂。

團(tuán)隊(duì)將此歸因于Web環(huán)境天然的非平穩(wěn)性,該特性促進(jìn)了穩(wěn)健自適應(yīng)策略的形成,也因此無需再進(jìn)行顯式的熵正則化。

團(tuán)隊(duì)認(rèn)為,算法固然重要,但并非Agentic RL成功的唯一決定因素。

在嘗試了多種算法和優(yōu)化技巧后我們發(fā)現(xiàn),數(shù)據(jù)質(zhì)量和訓(xùn)練環(huán)境的穩(wěn)定性,可能是決定強(qiáng)化學(xué)習(xí)項(xiàng)目成敗的更關(guān)鍵一環(huán)。

一個(gè)有趣的現(xiàn)象是,團(tuán)隊(duì)曾嘗試直接在BrowseComp測(cè)試集上訓(xùn)練,但其表現(xiàn)遠(yuǎn)不如使用合成數(shù)據(jù)的結(jié)果。

他們推測(cè),這種差異源于合成數(shù)據(jù)提供了一致性更高的分布,使模型能進(jìn)行更有效的學(xué)習(xí)和擬合。

相比之下,像BrowseComp這樣的人工標(biāo)注數(shù)據(jù),本身就含有更多噪聲,加之其規(guī)模有限,導(dǎo)致模型很難從中提煉出一個(gè)可供學(xué)習(xí)的潛在分布,從而影響了其學(xué)習(xí)和泛化(generalize)能力。

這一發(fā)現(xiàn)對(duì)其他智能體的訓(xùn)練同樣具有啟發(fā)意義,為構(gòu)建更多樣、更復(fù)雜的智能體訓(xùn)練方案提供了思路。

在基礎(chǔ)設(shè)施方面,使用工具訓(xùn)練智能體需要一個(gè)高度穩(wěn)定高效的環(huán)境:

仿真訓(xùn)練環(huán)境:依賴實(shí)時(shí)Web API進(jìn)行開發(fā)成本高昂、速度慢且不一致。我們利用離線維基百科數(shù)據(jù)庫(kù)和自定義工具套件創(chuàng)建了一個(gè)模擬訓(xùn)練環(huán)境來解決這一問題。并且通過SailorFog-QA-V2的流程,為該環(huán)境生成專屬的高質(zhì)量數(shù)據(jù),創(chuàng)建了一個(gè)經(jīng)濟(jì)高效、快速可控的平臺(tái),顯著加快了我們的研究和迭代速度。

穩(wěn)定高效的工具沙盒:為了確保在智能體訓(xùn)練和評(píng)估期間對(duì)工具的穩(wěn)定調(diào)用,我們開發(fā)了一個(gè)統(tǒng)一的沙盒。該沙盒通過緩存結(jié)果、重試失敗的調(diào)用以及飽和式響應(yīng)等改進(jìn)來高效地處理并發(fā)和故障。這為智能體提供了快速且魯棒的交互環(huán)境,可以有效防止工具的錯(cuò)誤響應(yīng)破壞其學(xué)習(xí)軌跡。

自動(dòng)數(shù)據(jù)管理:數(shù)據(jù)是提升模型能力的核心驅(qū)動(dòng)力,其重要性甚至超過了算法。數(shù)據(jù)質(zhì)量直接決定了模型是否能通過自我探索提升分布外泛化能力。因此,我們?cè)谟?xùn)練動(dòng)態(tài)的指導(dǎo)下實(shí)時(shí)優(yōu)化數(shù)據(jù),通過全自動(dòng)數(shù)據(jù)合成和數(shù)據(jù)漏斗動(dòng)態(tài)調(diào)整訓(xùn)練集。通過數(shù)據(jù)生成和模型訓(xùn)練之間的正向循環(huán),這種方法不僅確保了訓(xùn)練的穩(wěn)定性,還帶來了顯著的性能提升。

基于策略的異步框架:我們?cè)趓LLM之上實(shí)現(xiàn)了異步強(qiáng)化學(xué)習(xí)訓(xùn)練推理框架,多個(gè)智能體實(shí)例并行與(模擬或真實(shí))環(huán)境交互,獨(dú)立生成軌跡。

通過這些措施,實(shí)現(xiàn)了智能體強(qiáng)化訓(xùn)練的“閉環(huán)”。

從基座模型開始,進(jìn)行了Agentic持續(xù)預(yù)訓(xùn)練以初始化工具使用技能,然后使用類似專家的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)以實(shí)現(xiàn)冷啟動(dòng),最后進(jìn)在on-policy的強(qiáng)化學(xué)習(xí),使模型進(jìn)行自我進(jìn)化。

這種全棧方法為訓(xùn)練能夠在動(dòng)態(tài)環(huán)境中穩(wěn)健地解決復(fù)雜任務(wù)的 AI 代理提供了一種全新的范例。(受到Agentica過去研究的啟發(fā)。基于rLLM框架進(jìn)行開發(fā)和擴(kuò)展,實(shí)現(xiàn)高效訓(xùn)練)

應(yīng)用落地

目前通義Deep Research已賦能多個(gè)阿里巴巴內(nèi)部應(yīng)用,包括:

高德出行Agent

高德App作為通義在集團(tuán)內(nèi)長(zhǎng)期共建的重點(diǎn)客戶,其“地圖導(dǎo)航+本地生活”的業(yè)務(wù)場(chǎng)景,以及高德內(nèi)部豐富的專用工具,具備構(gòu)建這類Agent的土壤,高德也將這類Agent能力作為25年暑期大版本V16的一個(gè)亮點(diǎn)功能。

通義團(tuán)隊(duì)近期在地圖+本地生活場(chǎng)景,基于純agentic+ReAct執(zhí)行復(fù)雜推理的垂類agent技術(shù)建設(shè),可以為高德提供更好效果的模型。

因此,雙方團(tuán)隊(duì)共建合作,“通義團(tuán)隊(duì)提供模型 + 高德團(tuán)隊(duì)提供工具和 Agent 鏈路”,打造了高德App中助手高德小德的復(fù)雜查詢體驗(yàn),在地圖行業(yè)內(nèi)打出影響力。

通義法睿

通義法睿,作為大模型原生的“法律智能體”,致力于為大眾及法律從業(yè)者提供專業(yè)、便捷的法律智能服務(wù)。集法律問答、案例法條檢索、合同審查、文書閱讀、文書起草等功能于一體,全面滿足法律用戶需求。

依托創(chuàng)新的Agentic架構(gòu)與迭代式規(guī)劃(Iterative Planning)技術(shù),通義法睿全新升級(jí)司法DeepResearch能力,可高效執(zhí)行多步查詢與復(fù)雜推理,實(shí)現(xiàn)權(quán)威類案精準(zhǔn)檢索、法條智能匹配與專業(yè)觀點(diǎn)深度融合。

以真實(shí)判例、官方法規(guī)和權(quán)威解讀為基礎(chǔ),打造可追溯、高可信的法律分析服務(wù),在法律問答的深度研究三大核心維度——答案要點(diǎn)質(zhì)量、案例引用質(zhì)量、法條引用質(zhì)量上領(lǐng)先行業(yè)。

通義DeepResearch團(tuán)隊(duì)也在Blog和Github分享可落地的DeepResearch Agent構(gòu)建方法論。

感興趣的朋友可戳下方鏈接了解更多內(nèi)容~

項(xiàng)目主頁(yè): https://tongyi-agent.github.io/

博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Github地址: https://github.com/Alibaba-NLP/DeepResearch

Hugging Face地址: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

Model Scope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法!

—?完?—

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見