不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
網(wǎng)絡(luò)搜索Agent效果不好,猛猛投喂一波數(shù)據(jù),表現(xiàn)還那樣,咋回事?
港科大&MiniMax團隊指出問題核心:不是模型參數(shù)不夠多,而是缺乏足夠有挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)。
換句話說,別死記硬背了,來做點“真題”吧。
他們提出了一種構(gòu)建高質(zhì)量QA對的方法WebExplorer。
用該方法構(gòu)建的數(shù)據(jù)集去訓(xùn)練,即使是較小的模型,也可以在復(fù)雜、長程的搜索任務(wù)上超越更大的模型。
訓(xùn)練后的8B模型支持高達128K的上下文長度和100次工具調(diào)用輪次的長期推理,能在參數(shù)量低于10B的模型中取得頂尖結(jié)果。
網(wǎng)友評價:用模型驅(qū)動的方式做探索,確實比傳統(tǒng)圖譜方法更能讓智能體的瀏覽行為變靈活。
模型及數(shù)據(jù)集均已開源,鏈接可見文末。
優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)稀缺
隨著大語言模型(LLM)的快速發(fā)展,智能體的能力邊界不斷擴展。
網(wǎng)絡(luò)搜索智能體作為這一發(fā)展的重要組成部分,能夠自主地從廣泛的在線資源中檢索信息;長視野(Long-Horizon)網(wǎng)絡(luò)智能體更是需要在多個網(wǎng)站間進行復(fù)雜的推理和搜索。
可是呢,現(xiàn)有的開源網(wǎng)絡(luò)智能體在處理復(fù)雜搜索任務(wù)時往往表現(xiàn)有限,更強大的商業(yè)模型又缺乏透明的訓(xùn)練細節(jié)。
港科大聯(lián)合MiniMax團隊提出,開發(fā)高能力網(wǎng)絡(luò)搜索智能體,根本在于提升訓(xùn)練數(shù)據(jù)的質(zhì)量。
當(dāng)前的評測基準(zhǔn)已經(jīng)發(fā)展到了極其困難的程度:例如,在BrowseComp-en基準(zhǔn)測試中,超過一半的問題連人類標(biāo)注者都無法在兩小時內(nèi)解決。雖然這樣的難題在典型用例中很少見,但構(gòu)建高質(zhì)量、困難的QA對,對于開發(fā)能夠?qū)崿F(xiàn)超人性能的信息搜索智能體至關(guān)重要。
不過目前的常見方法都有局限性,可能帶來不自然的查詢表達和有限的合成靈活性。
針對上述問題呢,研究團隊提出了一個新穎的兩階段方法WebExplorer——
使用創(chuàng)新的探索-演化框架,就能創(chuàng)建出需要多步推理和復(fù)雜網(wǎng)絡(luò)導(dǎo)航的高難度QA對。
該框架的第一階段是模型驅(qū)動的探索(Model-Based Exploration),讓模型更自主靈活地探索信息空間。
具體來說,從一個種子實體開始,系統(tǒng)利用強大的LLM,通過迭代搜索和瀏覽操作來模擬圖構(gòu)建過程。
這種方法能夠靈活、動態(tài)地探索與種子實體相關(guān)的信息空間。然后,基于這個初始的信息空間,模型再來構(gòu)建初步QA對。
初步QA對相對簡單,于是WebExplorer引入了第二階段的迭代查詢演化(Iterative Query Evolution)過程。
這一階段通過系統(tǒng)地移除明確線索和引入戰(zhàn)略性模糊,來提高查詢難度。
簡單地說,這種方法采用”從長到短”的演化策略,通過以下三個戰(zhàn)略方向改進查詢:
1、移除顯著信息:去掉過于明顯的提示
2、引入戰(zhàn)略性模糊化:對日期、地點和專有名詞等具體細節(jié)進行模糊處理
3、尋找替代描述:用模糊的描述符替換原始的明確引用
例如,一個初始查詢可能包含“這位球員44歲時去世”這樣的明確信息,經(jīng)過演化后變成模糊的描述如“這位球員于中年去世”,需要更多探索性搜索嘗試才能到達正確答案。
通過這個探索-演化過程,研究團隊構(gòu)建了WebExplorer-QA數(shù)據(jù)集,包含大約4萬個演化后的最終問答對。
為了驗證數(shù)據(jù)質(zhì)量,他們使用Claude-4-Sonnet模型進行了全面的比較分析。上圖為工具調(diào)用次數(shù)分布的比較,左邊顯示初始問答對vs演化問答對,右邊顯示演化問答對vs BrowseComp-en。
可以看到,演化過程有效增加了解決問題所需的工具調(diào)用次數(shù)。
演化過程的效果顯著:強性能商業(yè)模型的準(zhǔn)確率從86.6%大幅下降到67.1%,而解決問題的平均工具調(diào)用次數(shù)從7.9次顯著增加到9.9次。這表明演化過程成功創(chuàng)建了需要廣泛多步推理和探索的復(fù)雜查詢。
研究團隊使用得到的WebExplorer-QA,用監(jiān)督微調(diào)+強化學(xué)習(xí)兩段式的經(jīng)典訓(xùn)練法,訓(xùn)練出8B大小的WebExplorer-8B。該模型在多個信息搜索基準(zhǔn)測試中取得了同等規(guī)模下的最先進性能。
數(shù)據(jù)質(zhì)量比模型規(guī)模更重要
WebExplorer-8B基于Qwen3-8B模型訓(xùn)練,實現(xiàn)了支持128K上下文長度和100次工具調(diào)用的長視野推理。
盡管只有8B參數(shù),WebExplorer-8B在多個基準(zhǔn)測試中持續(xù)超越了更大的開源模型。
WebExplorer-8B在強化學(xué)習(xí)訓(xùn)練后能夠平均高效搜索16輪,在BrowseComp-en/zh上實現(xiàn)了比WebSailor-72B更高的準(zhǔn)確率,并在WebWalkerQA和FRAMES數(shù)據(jù)集上取得了小于100B參數(shù)模型中的最佳性能。
此外,盡管WebExplorer的問答對合成方法受到BrowseComp-en的啟發(fā),但該模型在不同基準(zhǔn)測試和領(lǐng)域中都表現(xiàn)出了有效的泛化能力。
哪怕訓(xùn)練數(shù)據(jù)并非專注于STEM領(lǐng)域,該模型在學(xué)術(shù)前沿基準(zhǔn)HLE上也取得了17.3%的成績,超越了之前的32B模型,進一步驗證了這種方法的穩(wěn)健性和可轉(zhuǎn)移性。
研究團隊表示,WebExplorer方法為訓(xùn)練高級網(wǎng)絡(luò)智能體提供了一條實用的路徑。證明了通過精心設(shè)計的數(shù)據(jù)合成方法和訓(xùn)練策略,較小的模型可以在復(fù)雜任務(wù)上超越更大的模型。
這種參數(shù)效率對于AI技術(shù)在資源受限環(huán)境中的應(yīng)用和部署具有重要意義。
也有網(wǎng)友表示:這種方法看起來很有前景。
你怎么看?
參考鏈接:https://x.com/WenhuChen/status/1965537550937792934
論文地址:https://arxiv.org/abs/2509.06501
Github:https://github.com/hkust-nlp/WebExplorer
模型:https://huggingface.co/hkust-nlp/WebExplorer-8B
數(shù)據(jù)集:https://huggingface.co/datasets/hkust-nlp/WebExplorer-QA
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
—?完?—
年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評選報名開啟啦!我們正在尋找AI+時代領(lǐng)航者?點擊了解詳情
????企業(yè)、產(chǎn)品、人物3大維度,共設(shè)立了5類獎項,歡迎企業(yè)報名參與
一鍵關(guān)注 點亮星標(biāo)
科技前沿進展每日見