激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

騰訊混元升級(jí)AI繪畫(huà)微調(diào)范式,在整個(gè)擴(kuò)散軌跡上優(yōu)化,人工評(píng)估分?jǐn)?shù)提升300%
2025-09-15 13:35來(lái)源:量子位

夢(mèng)晨 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

讓AI生成的圖像更符合人類精細(xì)偏好,在32塊H20上訓(xùn)練10分鐘就能收斂。

騰訊混元新方法讓微調(diào)的FLUX1.dev模型人工評(píng)估的真實(shí)感和美學(xué)評(píng)分提高3倍以上。

當(dāng)前的擴(kuò)散模型雖然能通過(guò)獎(jiǎng)勵(lì)機(jī)制來(lái)貼合人類喜好,但存在兩個(gè)問(wèn)題:一是優(yōu)化步驟少,容易出現(xiàn) “獎(jiǎng)勵(lì)作弊”,也就是模型為了拿高分生成質(zhì)量差的圖;二是需要離線調(diào)整獎(jiǎng)勵(lì)模型才能達(dá)到好的美學(xué)效果,不夠靈活。

為此,團(tuán)隊(duì)提出兩個(gè)關(guān)鍵方法:

一個(gè)是Direct-Align,通過(guò)預(yù)先注入噪聲,能從任意時(shí)間步恢復(fù)原圖,避免了只在后期步驟優(yōu)化的局限,減少了 “獎(jiǎng)勵(lì)作弊”。

另一個(gè)是語(yǔ)義相對(duì)偏好優(yōu)化(SRPO),它把獎(jiǎng)勵(lì)變成受文本控制的信號(hào),通過(guò)添加正面和負(fù)面提示詞,能在線調(diào)整獎(jiǎng)勵(lì),不用額外數(shù)據(jù)就能靈活適配需求。

論文公開(kāi)后,有開(kāi)發(fā)者評(píng)價(jià)SRPO看起來(lái)就像下一代RLHF。

在整個(gè)擴(kuò)散軌跡上進(jìn)行優(yōu)化

研究團(tuán)隊(duì)首先指出了現(xiàn)有方法的兩個(gè)核心痛點(diǎn):第一,多步去噪過(guò)程中的梯度計(jì)算成本極高,導(dǎo)致優(yōu)化只能局限在擴(kuò)散過(guò)程的最后幾步;第二,為了達(dá)到理想的美學(xué)效果,往往需要不斷地離線調(diào)整獎(jiǎng)勵(lì)模型。

為了解決第一個(gè)問(wèn)題,團(tuán)隊(duì)提出了Direct-Align方法。

首先預(yù)定義一個(gè)噪聲先驗(yàn),通過(guò)插值直接從任意時(shí)間步恢復(fù)原始圖像。團(tuán)隊(duì)發(fā)現(xiàn),擴(kuò)散狀態(tài)實(shí)際上就是噪聲和目標(biāo)圖像之間的插值。

這個(gè)方法讓模型能夠從高噪聲狀態(tài)直接恢復(fù)出清晰圖像,避免了傳統(tǒng)方法在早期時(shí)間步反向傳播時(shí)的梯度爆炸問(wèn)題。實(shí)驗(yàn)表明,即使在只有5%去噪進(jìn)度的極早期階段,Direct-Align也能恢復(fù)出圖像的粗略結(jié)構(gòu)。

更重要的是,這種方法支持在整個(gè)擴(kuò)散軌跡上進(jìn)行優(yōu)化,而不是像ReFL、DRaFT等方法那樣只能在后期步驟訓(xùn)練。

實(shí)驗(yàn)發(fā)現(xiàn),僅在后25%時(shí)間步訓(xùn)練會(huì)導(dǎo)致嚴(yán)重的獎(jiǎng)勵(lì)黑客問(wèn)題,模型會(huì)過(guò)度擬合獎(jiǎng)勵(lì)函數(shù)的偏好,比如HPSv2偏好紅色調(diào)、PickScore偏好紫色圖像等。

SRPO讓獎(jiǎng)勵(lì)信號(hào)更聰明

第二個(gè)創(chuàng)新是語(yǔ)義相對(duì)偏好優(yōu)化(SRPO)。傳統(tǒng)方法通常需要多個(gè)獎(jiǎng)勵(lì)模型來(lái)平衡不同的偏好,但團(tuán)隊(duì)發(fā)現(xiàn)這只是調(diào)整了獎(jiǎng)勵(lì)的規(guī)模,并沒(méi)有真正對(duì)齊優(yōu)化方向。

SRPO的核心思想是將獎(jiǎng)勵(lì)重新定義為文本條件信號(hào)。具體來(lái)說(shuō),對(duì)于同一張圖像,模型會(huì)使用正面和負(fù)面提示詞分別計(jì)算獎(jiǎng)勵(lì),然后取其相對(duì)差值作為優(yōu)化目標(biāo)。

在實(shí)際應(yīng)用中,團(tuán)隊(duì)只需在原始提示詞前添加控制短語(yǔ)(如”. “)就能實(shí)現(xiàn)在線調(diào)整。實(shí)驗(yàn)顯示,通過(guò)添加”Realistic photo”等控制詞,模型生成圖像的真實(shí)感提升了約3.7倍,美學(xué)質(zhì)量提升了3.1倍。

SRPO能夠通過(guò)簡(jiǎn)單的提示詞控制實(shí)現(xiàn)多種風(fēng)格調(diào)整,包括亮度調(diào)節(jié)、漫畫(huà)風(fēng)格轉(zhuǎn)換等。有趣的是,控制效果的強(qiáng)弱與控制詞在獎(jiǎng)勵(lì)模型訓(xùn)練集中的出現(xiàn)頻率相關(guān)——高頻詞如”painting”效果最好,而低頻詞如”Cyberpunk”則需要與其他高頻詞組合使用。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在FLUX.1-dev模型上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。與ReFL、DRaFT、DanceGRPO等最新方法相比,SRPO在多個(gè)評(píng)估指標(biāo)上都取得了最佳成績(jī)。

在HPDv2基準(zhǔn)測(cè)試的3200個(gè)提示詞上,SRPO不僅在自動(dòng)評(píng)估指標(biāo)(Aesthetic Score v2.5、PickScore、ImageReward等)上領(lǐng)先,更重要的是在人工評(píng)估中表現(xiàn)出色。團(tuán)隊(duì)組織了10名訓(xùn)練有素的標(biāo)注員和3名領(lǐng)域?qū)<?,?duì)500個(gè)提示詞生成的圖像進(jìn)行了全面評(píng)估。

結(jié)果顯示,在真實(shí)感維度上,原始FLUX模型的優(yōu)秀率僅為8.2%,而經(jīng)過(guò)SRPO訓(xùn)練后飆升至38.9%。在美學(xué)質(zhì)量上,優(yōu)秀率從9.8%提升到40.5%,總體偏好度更是達(dá)到了29.4%的優(yōu)秀率。

值得一提的是,DanceGRPO雖然也能提升美學(xué)質(zhì)量,但經(jīng)常引入不良偽影,如過(guò)度的光澤感和明顯的邊緣高光。相比之下,SRPO生成的圖像在保持高美學(xué)質(zhì)量的同時(shí),紋理細(xì)節(jié)更加自然真實(shí)。

團(tuán)隊(duì)還進(jìn)行了一項(xiàng)有趣的對(duì)比實(shí)驗(yàn):他們發(fā)現(xiàn)經(jīng)過(guò)短短10分鐘SRPO訓(xùn)練的FLUX.1-dev,在HPDv2基準(zhǔn)上的表現(xiàn)已經(jīng)超越了最新的開(kāi)源版本FLUX.1.Krea。

論文地址:

https://arxiv.org/abs/2509.06942

參考鏈接:

[1]https://x.com/_akhaliq/status/1966911634657390890

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法!

—?完?—

年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評(píng)選報(bào)名開(kāi)啟啦!我們正在尋找AI+時(shí)代領(lǐng)航者?點(diǎn)擊了解詳情

????企業(yè)、產(chǎn)品、人物3大維度,共設(shè)立了5類獎(jiǎng)項(xiàng),歡迎企業(yè)報(bào)名參與

一鍵關(guān)注 點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見(jiàn)