少妇精品无码一区二区三区大长今,天堂AⅤ一区二区三区,日本热久久小视频

不圓發(fā)自凹非寺

量子位 | 公眾號 QbitAI

網(wǎng)絡(luò)搜索Agent效果不好，猛猛投喂一波數(shù)據(jù)，表現(xiàn)還那樣，咋回事？

港科大&MiniMax團隊指出問題核心：不是模型參數(shù)不夠多，而是缺乏足夠有挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)。

換句話說，別死記硬背了，來做點“真題”吧。

他們提出了一種構(gòu)建高質(zhì)量QA對的方法WebExplorer。

用該方法構(gòu)建的數(shù)據(jù)集去訓(xùn)練，即使是較小的模型，也可以在復(fù)雜、長程的搜索任務(wù)上超越更大的模型。

訓(xùn)練后的8B模型支持高達128K的上下文長度和100次工具調(diào)用輪次的長期推理，能在參數(shù)量低于10B的模型中取得頂尖結(jié)果。

網(wǎng)友評價：用模型驅(qū)動的方式做探索，確實比傳統(tǒng)圖譜方法更能讓智能體的瀏覽行為變靈活。

模型及數(shù)據(jù)集均已開源，鏈接可見文末。

優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)稀缺

隨著大語言模型（LLM）的快速發(fā)展，智能體的能力邊界不斷擴展。

網(wǎng)絡(luò)搜索智能體作為這一發(fā)展的重要組成部分，能夠自主地從廣泛的在線資源中檢索信息；長視野（Long-Horizon）網(wǎng)絡(luò)智能體更是需要在多個網(wǎng)站間進行復(fù)雜的推理和搜索。

可是呢，現(xiàn)有的開源網(wǎng)絡(luò)智能體在處理復(fù)雜搜索任務(wù)時往往表現(xiàn)有限，更強大的商業(yè)模型又缺乏透明的訓(xùn)練細節(jié)。

港科大聯(lián)合MiniMax團隊提出，開發(fā)高能力網(wǎng)絡(luò)搜索智能體，根本在于提升訓(xùn)練數(shù)據(jù)的質(zhì)量。

當(dāng)前的評測基準(zhǔn)已經(jīng)發(fā)展到了極其困難的程度：例如，在BrowseComp-en基準(zhǔn)測試中，超過一半的問題連人類標(biāo)注者都無法在兩小時內(nèi)解決。雖然這樣的難題在典型用例中很少見，但構(gòu)建高質(zhì)量、困難的QA對，對于開發(fā)能夠?qū)崿F(xiàn)超人性能的信息搜索智能體至關(guān)重要。

不過目前的常見方法都有局限性，可能帶來不自然的查詢表達和有限的合成靈活性。

針對上述問題呢，研究團隊提出了一個新穎的兩階段方法WebExplorer——

使用創(chuàng)新的探索-演化框架，就能創(chuàng)建出需要多步推理和復(fù)雜網(wǎng)絡(luò)導(dǎo)航的高難度QA對。

該框架的第一階段是模型驅(qū)動的探索(Model-Based Exploration)，讓模型更自主靈活地探索信息空間。

具體來說，從一個種子實體開始，系統(tǒng)利用強大的LLM，通過迭代搜索和瀏覽操作來模擬圖構(gòu)建過程。

這種方法能夠靈活、動態(tài)地探索與種子實體相關(guān)的信息空間。然后，基于這個初始的信息空間，模型再來構(gòu)建初步QA對。

初步QA對相對簡單，于是WebExplorer引入了第二階段的迭代查詢演化(Iterative Query Evolution)過程。

這一階段通過系統(tǒng)地移除明確線索和引入戰(zhàn)略性模糊，來提高查詢難度。

簡單地說，這種方法采用”從長到短”的演化策略，通過以下三個戰(zhàn)略方向改進查詢：

1、移除顯著信息：去掉過于明顯的提示

2、引入戰(zhàn)略性模糊化：對日期、地點和專有名詞等具體細節(jié)進行模糊處理

3、尋找替代描述：用模糊的描述符替換原始的明確引用

例如，一個初始查詢可能包含“這位球員44歲時去世”這樣的明確信息，經(jīng)過演化后變成模糊的描述如“這位球員于中年去世”，需要更多探索性搜索嘗試才能到達正確答案。

通過這個探索-演化過程，研究團隊構(gòu)建了WebExplorer-QA數(shù)據(jù)集，包含大約4萬個演化后的最終問答對。

為了驗證數(shù)據(jù)質(zhì)量，他們使用Claude-4-Sonnet模型進行了全面的比較分析。上圖為工具調(diào)用次數(shù)分布的比較，左邊顯示初始問答對vs演化問答對，右邊顯示演化問答對vs BrowseComp-en。

可以看到，演化過程有效增加了解決問題所需的工具調(diào)用次數(shù)。

演化過程的效果顯著：強性能商業(yè)模型的準(zhǔn)確率從86.6%大幅下降到67.1%，而解決問題的平均工具調(diào)用次數(shù)從7.9次顯著增加到9.9次。這表明演化過程成功創(chuàng)建了需要廣泛多步推理和探索的復(fù)雜查詢。

研究團隊使用得到的WebExplorer-QA，用監(jiān)督微調(diào)+強化學(xué)習(xí)兩段式的經(jīng)典訓(xùn)練法，訓(xùn)練出8B大小的WebExplorer-8B。該模型在多個信息搜索基準(zhǔn)測試中取得了同等規(guī)模下的最先進性能。

數(shù)據(jù)質(zhì)量比模型規(guī)模更重要

WebExplorer-8B基于Qwen3-8B模型訓(xùn)練，實現(xiàn)了支持128K上下文長度和100次工具調(diào)用的長視野推理。

盡管只有8B參數(shù)，WebExplorer-8B在多個基準(zhǔn)測試中持續(xù)超越了更大的開源模型。

WebExplorer-8B在強化學(xué)習(xí)訓(xùn)練后能夠平均高效搜索16輪，在BrowseComp-en/zh上實現(xiàn)了比WebSailor-72B更高的準(zhǔn)確率，并在WebWalkerQA和FRAMES數(shù)據(jù)集上取得了小于100B參數(shù)模型中的最佳性能。

此外，盡管WebExplorer的問答對合成方法受到BrowseComp-en的啟發(fā)，但該模型在不同基準(zhǔn)測試和領(lǐng)域中都表現(xiàn)出了有效的泛化能力。

哪怕訓(xùn)練數(shù)據(jù)并非專注于STEM領(lǐng)域，該模型在學(xué)術(shù)前沿基準(zhǔn)HLE上也取得了17.3%的成績，超越了之前的32B模型，進一步驗證了這種方法的穩(wěn)健性和可轉(zhuǎn)移性。

研究團隊表示，WebExplorer方法為訓(xùn)練高級網(wǎng)絡(luò)智能體提供了一條實用的路徑。證明了通過精心設(shè)計的數(shù)據(jù)合成方法和訓(xùn)練策略，較小的模型可以在復(fù)雜任務(wù)上超越更大的模型。

這種參數(shù)效率對于AI技術(shù)在資源受限環(huán)境中的應(yīng)用和部署具有重要意義。

也有網(wǎng)友表示：這種方法看起來很有前景。

你怎么看？

參考鏈接：https://x.com/WenhuChen/status/1965537550937792934

論文地址：https://arxiv.org/abs/2509.06501

Github：https://github.com/hkust-nlp/WebExplorer

模型：https://huggingface.co/hkust-nlp/WebExplorer-8B

數(shù)據(jù)集：https://huggingface.co/datasets/hkust-nlp/WebExplorer-QA

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

—?完?—

年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評選報名開啟啦！我們正在尋找AI+時代領(lǐng)航者?點擊了解詳情

????企業(yè)、產(chǎn)品、人物3大維度，共設(shè)立了5類獎項，歡迎企業(yè)報名參與

一鍵關(guān)注點亮星標(biāo)

科技前沿進展每日見

激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

激情亚洲五月aV|www91com|性导航日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频