激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

100輪工具調(diào)用,8B小模型也能做復(fù)雜長搜索!MiniMax&港科大最新開源
2025-09-12 18:11來源:量子位

不圓 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

網(wǎng)絡(luò)搜索Agent效果不好,猛猛投喂一波數(shù)據(jù),表現(xiàn)還那樣,咋回事?

港科大&MiniMax團隊指出問題核心:不是模型參數(shù)不夠多,而是缺乏足夠有挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)。

換句話說,別死記硬背了,來做點“真題”吧。

他們提出了一種構(gòu)建高質(zhì)量QA對的方法WebExplorer。

用該方法構(gòu)建的數(shù)據(jù)集去訓(xùn)練,即使是較小的模型,也可以在復(fù)雜、長程的搜索任務(wù)上超越更大的模型。

訓(xùn)練后的8B模型支持高達128K的上下文長度和100次工具調(diào)用輪次的長期推理,能在參數(shù)量低于10B的模型中取得頂尖結(jié)果。

網(wǎng)友評價:用模型驅(qū)動的方式做探索,確實比傳統(tǒng)圖譜方法更能讓智能體的瀏覽行為變靈活。

模型及數(shù)據(jù)集均已開源,鏈接可見文末。

優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)稀缺

隨著大語言模型(LLM)的快速發(fā)展,智能體的能力邊界不斷擴展。

網(wǎng)絡(luò)搜索智能體作為這一發(fā)展的重要組成部分,能夠自主地從廣泛的在線資源中檢索信息;長視野(Long-Horizon)網(wǎng)絡(luò)智能體更是需要在多個網(wǎng)站間進行復(fù)雜的推理和搜索。

可是呢,現(xiàn)有的開源網(wǎng)絡(luò)智能體在處理復(fù)雜搜索任務(wù)時往往表現(xiàn)有限,更強大的商業(yè)模型又缺乏透明的訓(xùn)練細節(jié)。

港科大聯(lián)合MiniMax團隊提出,開發(fā)高能力網(wǎng)絡(luò)搜索智能體,根本在于提升訓(xùn)練數(shù)據(jù)的質(zhì)量。

當(dāng)前的評測基準(zhǔn)已經(jīng)發(fā)展到了極其困難的程度:例如,在BrowseComp-en基準(zhǔn)測試中,超過一半的問題連人類標(biāo)注者都無法在兩小時內(nèi)解決。雖然這樣的難題在典型用例中很少見,但構(gòu)建高質(zhì)量、困難的QA對,對于開發(fā)能夠?qū)崿F(xiàn)超人性能的信息搜索智能體至關(guān)重要。

不過目前的常見方法都有局限性,可能帶來不自然的查詢表達和有限的合成靈活性。

針對上述問題呢,研究團隊提出了一個新穎的兩階段方法WebExplorer——

使用創(chuàng)新的探索-演化框架,就能創(chuàng)建出需要多步推理和復(fù)雜網(wǎng)絡(luò)導(dǎo)航的高難度QA對。

該框架的第一階段是模型驅(qū)動的探索(Model-Based Exploration),讓模型更自主靈活地探索信息空間。

具體來說,從一個種子實體開始,系統(tǒng)利用強大的LLM,通過迭代搜索和瀏覽操作來模擬圖構(gòu)建過程。

這種方法能夠靈活、動態(tài)地探索與種子實體相關(guān)的信息空間。然后,基于這個初始的信息空間,模型再來構(gòu)建初步QA對。

初步QA對相對簡單,于是WebExplorer引入了第二階段的迭代查詢演化(Iterative Query Evolution)過程。

這一階段通過系統(tǒng)地移除明確線索和引入戰(zhàn)略性模糊,來提高查詢難度。

簡單地說,這種方法采用”從長到短”的演化策略,通過以下三個戰(zhàn)略方向改進查詢:

1、移除顯著信息:去掉過于明顯的提示

2、引入戰(zhàn)略性模糊化:對日期、地點和專有名詞等具體細節(jié)進行模糊處理

3、尋找替代描述:用模糊的描述符替換原始的明確引用

例如,一個初始查詢可能包含“這位球員44歲時去世”這樣的明確信息,經(jīng)過演化后變成模糊的描述如“這位球員于中年去世”,需要更多探索性搜索嘗試才能到達正確答案。

通過這個探索-演化過程,研究團隊構(gòu)建了WebExplorer-QA數(shù)據(jù)集,包含大約4萬個演化后的最終問答對。

為了驗證數(shù)據(jù)質(zhì)量,他們使用Claude-4-Sonnet模型進行了全面的比較分析。上圖為工具調(diào)用次數(shù)分布的比較,左邊顯示初始問答對vs演化問答對,右邊顯示演化問答對vs BrowseComp-en。

可以看到,演化過程有效增加了解決問題所需的工具調(diào)用次數(shù)。

演化過程的效果顯著:強性能商業(yè)模型的準(zhǔn)確率從86.6%大幅下降到67.1%,而解決問題的平均工具調(diào)用次數(shù)從7.9次顯著增加到9.9次。這表明演化過程成功創(chuàng)建了需要廣泛多步推理和探索的復(fù)雜查詢。

研究團隊使用得到的WebExplorer-QA,用監(jiān)督微調(diào)+強化學(xué)習(xí)兩段式的經(jīng)典訓(xùn)練法,訓(xùn)練出8B大小的WebExplorer-8B。該模型在多個信息搜索基準(zhǔn)測試中取得了同等規(guī)模下的最先進性能。

數(shù)據(jù)質(zhì)量比模型規(guī)模更重要

WebExplorer-8B基于Qwen3-8B模型訓(xùn)練,實現(xiàn)了支持128K上下文長度和100次工具調(diào)用的長視野推理。

盡管只有8B參數(shù),WebExplorer-8B在多個基準(zhǔn)測試中持續(xù)超越了更大的開源模型。

WebExplorer-8B在強化學(xué)習(xí)訓(xùn)練后能夠平均高效搜索16輪,在BrowseComp-en/zh上實現(xiàn)了比WebSailor-72B更高的準(zhǔn)確率,并在WebWalkerQA和FRAMES數(shù)據(jù)集上取得了小于100B參數(shù)模型中的最佳性能。

此外,盡管WebExplorer的問答對合成方法受到BrowseComp-en的啟發(fā),但該模型在不同基準(zhǔn)測試和領(lǐng)域中都表現(xiàn)出了有效的泛化能力。

哪怕訓(xùn)練數(shù)據(jù)并非專注于STEM領(lǐng)域,該模型在學(xué)術(shù)前沿基準(zhǔn)HLE上也取得了17.3%的成績,超越了之前的32B模型,進一步驗證了這種方法的穩(wěn)健性和可轉(zhuǎn)移性。

研究團隊表示,WebExplorer方法為訓(xùn)練高級網(wǎng)絡(luò)智能體提供了一條實用的路徑。證明了通過精心設(shè)計的數(shù)據(jù)合成方法和訓(xùn)練策略,較小的模型可以在復(fù)雜任務(wù)上超越更大的模型。

這種參數(shù)效率對于AI技術(shù)在資源受限環(huán)境中的應(yīng)用和部署具有重要意義。

也有網(wǎng)友表示:這種方法看起來很有前景。

你怎么看?

參考鏈接:https://x.com/WenhuChen/status/1965537550937792934

論文地址:https://arxiv.org/abs/2509.06501

Github:https://github.com/hkust-nlp/WebExplorer

模型:https://huggingface.co/hkust-nlp/WebExplorer-8B

數(shù)據(jù)集:https://huggingface.co/datasets/hkust-nlp/WebExplorer-QA

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法!

—?完?—

年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評選報名開啟啦!我們正在尋找AI+時代領(lǐng)航者?點擊了解詳情

????企業(yè)、產(chǎn)品、人物3大維度,共設(shè)立了5類獎項,歡迎企業(yè)報名參與

一鍵關(guān)注 點亮星標(biāo)

科技前沿進展每日見