超碰1991成人网,99在线免费视频

不圓發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

OpenAI o3的多輪視覺推理，有開源平替版了。

并且，與先前局限于1-2輪對(duì)話的視覺語言模型（VLM）不同，它在訓(xùn)練限制輪數(shù)只有6輪的情況下，測(cè)試階段能將思考輪數(shù)擴(kuò)展到數(shù)十輪。

這個(gè)模型叫Mini-o3，它無需消耗大量訓(xùn)練周期資源，通過恰當(dāng)?shù)臄?shù)據(jù)、初始化方法和強(qiáng)化學(xué)習(xí)微調(diào)，即可實(shí)現(xiàn)長周期視覺搜索能力。由字節(jié)、香港大學(xué)團(tuán)隊(duì)聯(lián)合開發(fā)。

跨越數(shù)十個(gè)步驟的深度推理

最近的多模態(tài)大模型雖然能通過”圖像工具+強(qiáng)化學(xué)習(xí)”處理視覺問題，但現(xiàn)有開源方案存在很大的短板：

比如推理方式單調(diào)、交互輪次受限、遇到需要反復(fù)試錯(cuò)的復(fù)雜任務(wù)就束手無策。

而Mini-o3突破了上述局限——它能夠進(jìn)行長達(dá)數(shù)十個(gè)步驟的深度多輪推理，在高難度視覺搜索任務(wù)中達(dá)到了當(dāng)前最佳水平。

這得益于它的三個(gè)關(guān)鍵設(shè)計(jì)：

第一，研究團(tuán)隊(duì)構(gòu)建了視覺探測(cè)數(shù)據(jù)集VisualProbe，包含數(shù)千個(gè)專為探索式推理設(shè)計(jì)的視覺搜索難題；

第二，開發(fā)了迭代式數(shù)據(jù)收集流程，讓模型能學(xué)會(huì)深度優(yōu)先搜索、試錯(cuò)探索、目標(biāo)維持等多樣化推理策略；

第三，提出超輪次掩碼策略，在強(qiáng)化學(xué)習(xí)中避免對(duì)達(dá)到最大交互輪次的響應(yīng)進(jìn)行懲罰，從而平衡訓(xùn)練效率與測(cè)試時(shí)的擴(kuò)展性。

訓(xùn)練Mini-o3包括以下兩個(gè)階段：

階段一：冷啟動(dòng)監(jiān)督微調(diào) （SFT）

為了處理復(fù)雜的探索性任務(wù)，研究團(tuán)隊(duì)采用冷啟動(dòng)SFT來激活多輪工具使用能力。

冷啟動(dòng)數(shù)據(jù)收集流程如下圖所示。

為生成高質(zhì)量、多樣化的多輪推理軌跡，研究團(tuán)隊(duì)選取少量人工構(gòu)建的示范樣本，通過上下文學(xué)習(xí)方式提示現(xiàn)有VLM進(jìn)行模仿。

該模型被要求逐輪迭代生成“思考-行動(dòng)”對(duì)，直到輸出最終答案或達(dá)到預(yù)設(shè)輪次上限。

研究團(tuán)隊(duì)僅保留最終答案正確的軌跡，通過這套流程從6個(gè)示范樣本中收集了約6000條冷啟動(dòng)推理軌跡。

階段二：強(qiáng)化學(xué)習(xí) （RL）

首先，降低最大像素限制?；A(chǔ)模型的上下文長度被限制在3.2萬token，當(dāng)默認(rèn)圖像預(yù)算約為1200萬像素時(shí)，可允許的交互輪次會(huì)因上下文限制而大幅減少，這阻礙了模型在困難任務(wù)上進(jìn)行試錯(cuò)探索。

為提高單次任務(wù)中的可行交互輪次，研究團(tuán)隊(duì)將每張圖像的最大像素限制降至200萬（必要時(shí)可進(jìn)一步降低）。

這一簡單調(diào)整使得相同上下文容量內(nèi)可容納更多交互輪次，從而提升長周期問題的解決率。

其次，加入超輪次掩碼機(jī)制。

在原始GRPO設(shè)置中，每個(gè)問題【q】會(huì)被輸入策略模型以生成一組輸出

。系統(tǒng)隨后根據(jù)回答正確性計(jì)算獎(jiǎng)勵(lì)值【r】。

研究團(tuán)隊(duì)通過獎(jiǎng)勵(lì)歸一化計(jì)算優(yōu)勢(shì)值【A】，并在小批量數(shù)據(jù)上使用GRPO優(yōu)化目標(biāo)更新策略。

在該策略的實(shí)現(xiàn)中，未加入KL散度或熵正則化項(xiàng)。形式化優(yōu)化目標(biāo)表示為：

需要注意的是，當(dāng)響應(yīng)達(dá)到最大交互輪次或超出上下文長度限制時(shí)，獎(jiǎng)勵(lì)值會(huì)被設(shè)為【0】，此類情況下無法產(chǎn)生有效答案，會(huì)導(dǎo)致歸一化后產(chǎn)生負(fù)優(yōu)勢(shì)值。

這類響應(yīng)在整個(gè)訓(xùn)練過程中應(yīng)該受到懲罰和抑制，但又存在兩個(gè)明顯問題：

首先，超長響應(yīng)的正確性本質(zhì)上是未知的——直接的懲罰會(huì)給回報(bào)信號(hào)注入標(biāo)簽噪聲，可能導(dǎo)致訓(xùn)練過程不穩(wěn)定；

其次，為了控制訓(xùn)練成本，訓(xùn)練時(shí)的輪次限制必須保持在較低水平（通常不到10輪），這就導(dǎo)致超長回答頻繁出現(xiàn)（訓(xùn)練初期甚至超過20%）。

在這種情況下，簡單粗暴的懲罰會(huì)使模型過早給出答案，大幅減少交互回合數(shù)。使得高難度任務(wù)難以處理，并嚴(yán)重限制了測(cè)試時(shí)擴(kuò)展的潛力。

為了防止模型陷入“盡早給出答案”的策略，研究團(tuán)隊(duì)提出了一種超輪次掩碼技術(shù)，目標(biāo)是不懲罰超長回復(fù)。整體流程如上圖所示。

具體來說，除了在標(biāo)準(zhǔn)GRPO中定義的獎(jiǎng)勵(lì)【r】和優(yōu)勢(shì)【A】之外，研究團(tuán)隊(duì)引入了一個(gè)完成掩碼【M】，用于指示回復(fù)是否成功終止。然后計(jì)算掩碼后的優(yōu)勢(shì)

，使得超長軌跡不會(huì)貢獻(xiàn)負(fù)向?qū)W習(xí)信號(hào)。

基于標(biāo)準(zhǔn)GRPO的改進(jìn)目標(biāo)總結(jié)如下，公式中的變化用紅色標(biāo)出。

由于某些響應(yīng)不完整，研究團(tuán)隊(duì)通過完成的生成數(shù)

來歸一化目標(biāo)，而不是通過總生成數(shù)【G】。

值得注意的是，盡管訓(xùn)練時(shí)設(shè)置了較小的輪次上限，但測(cè)試時(shí)的推理軌跡能延伸至數(shù)十輪，且準(zhǔn)確率持續(xù)提升。

超輪次掩碼技術(shù)對(duì)于實(shí)現(xiàn)測(cè)試時(shí)交互輪次擴(kuò)展的優(yōu)勢(shì)至關(guān)重要。

此外，由于構(gòu)建高難度實(shí)例對(duì)促進(jìn)RL中的反思性試錯(cuò)推理至關(guān)重要，研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)具有挑戰(zhàn)性的視覺搜索數(shù)據(jù)集——VisualProbe。

該數(shù)據(jù)集包含4,000個(gè)訓(xùn)練用視覺問答對(duì)和500個(gè)測(cè)試用問答對(duì)，涵蓋簡單、中等、困難三個(gè)難度級(jí)別。

與現(xiàn)有視覺搜索基準(zhǔn)相比，VisualProbe的突出特點(diǎn)是：

小目標(biāo)

眾多干擾物體

高分辨率圖像

這些特性使得任務(wù)大大更具挑戰(zhàn)性，并自然地要求迭代探索和試錯(cuò)。

無需消耗大量訓(xùn)練周期資源

上表為現(xiàn)有模型和Mini-o3在視覺搜索任務(wù)上的性能比較，所有列出的模型大小均為7B。

為確保評(píng)估的穩(wěn)健性和說服力，研究團(tuán)隊(duì)在VisualProbe、V*Bench和HR-Bench上評(píng)估所有模型。在所有數(shù)據(jù)集上，Mini-o3均實(shí)現(xiàn)了最先進(jìn)的性能，顯著優(yōu)于其他開源基線。

研究團(tuán)隊(duì)將這些提升歸因于Mini-o3能夠維持更復(fù)雜和更深的推理軌跡。

在消融實(shí)驗(yàn)中，上表的實(shí)驗(yàn)1和實(shí)驗(yàn)4顯示，移除RL數(shù)據(jù)導(dǎo)致模型在VisualProbe-Hard上的性能下降約8.6分，表明具有挑戰(zhàn)性的RL樣本對(duì)于鼓勵(lì)復(fù)雜的推理軌跡至關(guān)重要。

上表的實(shí)驗(yàn)2和實(shí)驗(yàn)4表明，冷啟動(dòng)SFT對(duì)于多輪工具使用至關(guān)重要：沒有它，性能會(huì)崩潰。

研究團(tuán)隊(duì)認(rèn)為，基礎(chǔ)模型在預(yù)訓(xùn)練或指令微調(diào)階段缺乏多輪自主推理軌跡的學(xué)習(xí)，而冷啟動(dòng)SFT為此提供了關(guān)鍵的基礎(chǔ)能力初始化。

上表的實(shí)驗(yàn)3和實(shí)驗(yàn)4表明，超輪次掩碼技術(shù)能有效提升RL效果，尤其在多輪交互場景中優(yōu)勢(shì)顯著。

超輪次掩碼技術(shù)的核心價(jià)值體現(xiàn)在兩方面：首先，通過避免對(duì)正確性未知的截?cái)囗憫?yīng)進(jìn)行錯(cuò)誤懲罰，有效穩(wěn)定了訓(xùn)練過程；其次，該技術(shù)實(shí)現(xiàn)了測(cè)試時(shí)的輪次擴(kuò)展能力，使模型能夠解決那些所需輪次遠(yuǎn)超訓(xùn)練上限的高難度任務(wù)，從而釋放出強(qiáng)勁性能。

上表評(píng)估了不同最大像素預(yù)算的效果。結(jié)果顯示，預(yù)算值過大或過小都會(huì)導(dǎo)致性能下降：過大的預(yù)算會(huì)引發(fā)提前終止現(xiàn)象，減少交互輪次并限制迭代優(yōu)化；而過小的預(yù)算則會(huì)增加感知幻覺。

研究團(tuán)隊(duì)在同表中記錄了平均交互輪次數(shù)值，這揭示了感知精度與交互深度之間的權(quán)衡關(guān)系。通過合理調(diào)整最大像素預(yù)算，才能實(shí)現(xiàn)最佳的整體性能。

為了直觀展示增加訓(xùn)練輪次的效果，研究團(tuán)隊(duì)對(duì)比了6輪交互上限和12輪交互上限在VisualProbe-Hard數(shù)據(jù)集上的準(zhǔn)確率。結(jié)果顯示：較低輪次上限（6輪）在初期進(jìn)步更快，但訓(xùn)練約150步后就會(huì)停滯不前；而較高輪次上限（12輪）雖然前期學(xué)習(xí)速度較慢，最終卻能達(dá)到更優(yōu)異的性能水平。

簡單地說，Mini-o3能夠生成多樣化的推理模式與深度思維鏈，其推理軌跡可擴(kuò)展至數(shù)十個(gè)交互輪次，且準(zhǔn)確率隨輪次增加持續(xù)提升，在多個(gè)視覺搜索基準(zhǔn)測(cè)試中顯著超越現(xiàn)有模型。

研究人員表示，Mini-o3的技術(shù)方案能為多輪交互式多模態(tài)模型的開發(fā)與強(qiáng)化學(xué)習(xí)應(yīng)用提供實(shí)用指導(dǎo)。

相關(guān)代碼已全部開源。

作者團(tuán)隊(duì)

本次研究團(tuán)隊(duì)作者一共6人。

分別是：賴昕（Xin Lai）、Junyi Li、Wei Li、Tao Liu、Tianjian Li、趙恒爽（Hengshuang Zhao，通訊作者）。

其中賴昕和Junyi Li是Mini-o3項(xiàng)目的共同一作。

賴昕是字節(jié)跳動(dòng)的研究員，研究方向?yàn)榇笮投嗄B(tài)模型。他本科就讀于哈爾濱工業(yè)大學(xué)，后于2024年在香港中文大學(xué)獲得博士學(xué)位。

博士期間，他作為第一作者參與的Step-DPO項(xiàng)目在MATH和GSM8K分別獲得了70.8%和94.0%的準(zhǔn)確率；LISA項(xiàng)目在GitHub上得到超過1.5k（現(xiàn)2.4k）星標(biāo)。

另一位作者，Junyi Li公開資料不多，目前是香港大學(xué)的博士，參與字節(jié)研究工作，曾就讀于華中科技大學(xué)。

公開資料顯示，他作為第一作者的PartGLEE項(xiàng)目被ECCV2024接收。

參考鏈接：https://x.com/gm8xx8/status/1965616579024228527

權(quán)重/設(shè)置： https://huggingface.co/Mini-o3

倉庫：https://github.com/Mini-o3/Mini-o3

論文： https://arxiv.org/abs/2509.07969

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

—?完?—

年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評(píng)選報(bào)名開啟啦！我們正在尋找AI+時(shí)代領(lǐng)航者?點(diǎn)擊了解詳情

????企業(yè)、產(chǎn)品、人物3大維度，共設(shè)立了5類獎(jiǎng)項(xiàng)，歡迎企業(yè)報(bào)名參與

一鍵關(guān)注點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見

激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

激情亚洲五月aV|www91com|性导航日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频