97国产四虎人人影院,欧美精品一区二区观看视频在钱,Chinese国产91在线

夢(mèng)晨發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

讓AI生成的圖像更符合人類精細(xì)偏好，在32塊H20上訓(xùn)練10分鐘就能收斂。

騰訊混元新方法讓微調(diào)的FLUX1.dev模型人工評(píng)估的真實(shí)感和美學(xué)評(píng)分提高3倍以上。

當(dāng)前的擴(kuò)散模型雖然能通過(guò)獎(jiǎng)勵(lì)機(jī)制來(lái)貼合人類喜好，但存在兩個(gè)問(wèn)題：一是優(yōu)化步驟少，容易出現(xiàn) “獎(jiǎng)勵(lì)作弊”，也就是模型為了拿高分生成質(zhì)量差的圖；二是需要離線調(diào)整獎(jiǎng)勵(lì)模型才能達(dá)到好的美學(xué)效果，不夠靈活。

為此，團(tuán)隊(duì)提出兩個(gè)關(guān)鍵方法：

一個(gè)是Direct-Align，通過(guò)預(yù)先注入噪聲，能從任意時(shí)間步恢復(fù)原圖，避免了只在后期步驟優(yōu)化的局限，減少了 “獎(jiǎng)勵(lì)作弊”。

另一個(gè)是語(yǔ)義相對(duì)偏好優(yōu)化（SRPO），它把獎(jiǎng)勵(lì)變成受文本控制的信號(hào)，通過(guò)添加正面和負(fù)面提示詞，能在線調(diào)整獎(jiǎng)勵(lì)，不用額外數(shù)據(jù)就能靈活適配需求。

論文公開(kāi)后，有開(kāi)發(fā)者評(píng)價(jià)SRPO看起來(lái)就像下一代RLHF。

在整個(gè)擴(kuò)散軌跡上進(jìn)行優(yōu)化

研究團(tuán)隊(duì)首先指出了現(xiàn)有方法的兩個(gè)核心痛點(diǎn)：第一，多步去噪過(guò)程中的梯度計(jì)算成本極高，導(dǎo)致優(yōu)化只能局限在擴(kuò)散過(guò)程的最后幾步；第二，為了達(dá)到理想的美學(xué)效果，往往需要不斷地離線調(diào)整獎(jiǎng)勵(lì)模型。

為了解決第一個(gè)問(wèn)題，團(tuán)隊(duì)提出了Direct-Align方法。

首先預(yù)定義一個(gè)噪聲先驗(yàn)，通過(guò)插值直接從任意時(shí)間步恢復(fù)原始圖像。團(tuán)隊(duì)發(fā)現(xiàn)，擴(kuò)散狀態(tài)實(shí)際上就是噪聲和目標(biāo)圖像之間的插值。

這個(gè)方法讓模型能夠從高噪聲狀態(tài)直接恢復(fù)出清晰圖像，避免了傳統(tǒng)方法在早期時(shí)間步反向傳播時(shí)的梯度爆炸問(wèn)題。實(shí)驗(yàn)表明，即使在只有5%去噪進(jìn)度的極早期階段，Direct-Align也能恢復(fù)出圖像的粗略結(jié)構(gòu)。

更重要的是，這種方法支持在整個(gè)擴(kuò)散軌跡上進(jìn)行優(yōu)化，而不是像ReFL、DRaFT等方法那樣只能在后期步驟訓(xùn)練。

實(shí)驗(yàn)發(fā)現(xiàn)，僅在后25%時(shí)間步訓(xùn)練會(huì)導(dǎo)致嚴(yán)重的獎(jiǎng)勵(lì)黑客問(wèn)題，模型會(huì)過(guò)度擬合獎(jiǎng)勵(lì)函數(shù)的偏好，比如HPSv2偏好紅色調(diào)、PickScore偏好紫色圖像等。

SRPO讓獎(jiǎng)勵(lì)信號(hào)更聰明

第二個(gè)創(chuàng)新是語(yǔ)義相對(duì)偏好優(yōu)化（SRPO）。傳統(tǒng)方法通常需要多個(gè)獎(jiǎng)勵(lì)模型來(lái)平衡不同的偏好，但團(tuán)隊(duì)發(fā)現(xiàn)這只是調(diào)整了獎(jiǎng)勵(lì)的規(guī)模，并沒(méi)有真正對(duì)齊優(yōu)化方向。

SRPO的核心思想是將獎(jiǎng)勵(lì)重新定義為文本條件信號(hào)。具體來(lái)說(shuō)，對(duì)于同一張圖像，模型會(huì)使用正面和負(fù)面提示詞分別計(jì)算獎(jiǎng)勵(lì)，然后取其相對(duì)差值作為優(yōu)化目標(biāo)。

在實(shí)際應(yīng)用中，團(tuán)隊(duì)只需在原始提示詞前添加控制短語(yǔ)（如”. “）就能實(shí)現(xiàn)在線調(diào)整。實(shí)驗(yàn)顯示，通過(guò)添加”Realistic photo”等控制詞，模型生成圖像的真實(shí)感提升了約3.7倍，美學(xué)質(zhì)量提升了3.1倍。

SRPO能夠通過(guò)簡(jiǎn)單的提示詞控制實(shí)現(xiàn)多種風(fēng)格調(diào)整，包括亮度調(diào)節(jié)、漫畫(huà)風(fēng)格轉(zhuǎn)換等。有趣的是，控制效果的強(qiáng)弱與控制詞在獎(jiǎng)勵(lì)模型訓(xùn)練集中的出現(xiàn)頻率相關(guān)——高頻詞如”painting”效果最好，而低頻詞如”Cyberpunk”則需要與其他高頻詞組合使用。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在FLUX.1-dev模型上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。與ReFL、DRaFT、DanceGRPO等最新方法相比，SRPO在多個(gè)評(píng)估指標(biāo)上都取得了最佳成績(jī)。

在HPDv2基準(zhǔn)測(cè)試的3200個(gè)提示詞上，SRPO不僅在自動(dòng)評(píng)估指標(biāo)（Aesthetic Score v2.5、PickScore、ImageReward等）上領(lǐng)先，更重要的是在人工評(píng)估中表現(xiàn)出色。團(tuán)隊(duì)組織了10名訓(xùn)練有素的標(biāo)注員和3名領(lǐng)域?qū)＜?，?duì)500個(gè)提示詞生成的圖像進(jìn)行了全面評(píng)估。

結(jié)果顯示，在真實(shí)感維度上，原始FLUX模型的優(yōu)秀率僅為8.2%，而經(jīng)過(guò)SRPO訓(xùn)練后飆升至38.9%。在美學(xué)質(zhì)量上，優(yōu)秀率從9.8%提升到40.5%，總體偏好度更是達(dá)到了29.4%的優(yōu)秀率。

值得一提的是，DanceGRPO雖然也能提升美學(xué)質(zhì)量，但經(jīng)常引入不良偽影，如過(guò)度的光澤感和明顯的邊緣高光。相比之下，SRPO生成的圖像在保持高美學(xué)質(zhì)量的同時(shí)，紋理細(xì)節(jié)更加自然真實(shí)。

團(tuán)隊(duì)還進(jìn)行了一項(xiàng)有趣的對(duì)比實(shí)驗(yàn)：他們發(fā)現(xiàn)經(jīng)過(guò)短短10分鐘SRPO訓(xùn)練的FLUX.1-dev，在HPDv2基準(zhǔn)上的表現(xiàn)已經(jīng)超越了最新的開(kāi)源版本FLUX.1.Krea。

論文地址：

https://arxiv.org/abs/2509.06942

參考鏈接：

[1]https://x.com/_akhaliq/status/1966911634657390890

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

—?完?—

年度科技風(fēng)向標(biāo)「2025人工智能年度榜單」評(píng)選報(bào)名開(kāi)啟啦！我們正在尋找AI+時(shí)代領(lǐng)航者?點(diǎn)擊了解詳情

????企業(yè)、產(chǎn)品、人物3大維度，共設(shè)立了5類獎(jiǎng)項(xiàng)，歡迎企業(yè)報(bào)名參與

一鍵關(guān)注點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見(jiàn)

激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

激情亚洲五月aV|www91com|性导航日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频