采用Planner+Executors協(xié)同架構(gòu)+文件系統(tǒng)通信,專攻復(fù)雜信息檢索與長(zhǎng)文調(diào)研報(bào)告生成。 在主流DeepResearch Agent榜單上成績(jī)亮眼:1. BrowseComp-zh:38B模型達(dá)到34.6分,超越WebSailor-72B(30.1)2. BrowseComp-en:13.4分,同規(guī)模開源模型中最高3. 長(zhǎng)文生成:總體水平第一梯隊(duì),平均報(bào)告24.6K tokens(是 o3 DeepResearch 的 2×+),在信息豐富度、事實(shí)性和多樣性上都表現(xiàn)亮眼。? 訓(xùn)練范式:冷啟動(dòng)SFT → 迭代式RFT- 軌跡級(jí)正確性過濾+步驟級(jí)打分過濾;- Planner-centric 的Credit Assignemnt,將Planner評(píng)分傳遞 Executors;- 完全依托依托1000+Ascend NPU集群(8 NPU/節(jié)點(diǎn),HCCS + RoCE 200Gbps),配合Agent Factory與StaleSync提升訓(xùn)練效率,在線RFT用dynamic batching+partial rollout穩(wěn)定長(zhǎng)軌跡優(yōu)化。 有趣發(fā)現(xiàn):- 性能瓶頸在Executors而非Planner;- Planner “夠用就好”,升級(jí)Executors帶來更大收益;- 經(jīng)協(xié)作訓(xùn)練的子智能體單獨(dú)使用時(shí)同樣強(qiáng)大:38B的Information Seeker單獨(dú)測(cè)試BrowseComp-zh就能跑贏WebSailor。[機(jī)智]嘗試了幾個(gè)問題。比如深度調(diào)研一下中國(guó)藍(lán)牙耳機(jī)細(xì)分市場(chǎng)。DeepDiver-V2給出了詳盡的長(zhǎng)文調(diào)研:從品類分析、競(jìng)爭(zhēng)格局,到消費(fèi)者洞察以及技術(shù)的發(fā)展,都講得條理清晰、細(xì)節(jié)豐富。[哇]DeepDiver-V2 已開源,感興趣的伙伴可以使用開源代碼倉(cāng)體驗(yàn)。 模型:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver 報(bào)告:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver/blob/main/docs/openpangu-deepdiver-v2-tech-report.pdf