激情亚洲五月aV|www91com|性导航 日韩无码|夫妻单男一区二区|AV成人日韩极品|国产精品1区2区|激情五月天综合国产色播AV在线|69.com日本|欧洲精品免费观看|伊人中文字幕在线视频

擴散語言模型也有MoE版本了!螞蟻&人大從頭訓練LLaDA-MoE,即將完全開源
2025-09-12 21:28來源:機器之心

編輯:張倩

挑戰(zhàn)自回歸的擴散語言模型剛剛迎來了一個新里程碑:螞蟻集團和人大聯(lián)合團隊用 20T 數(shù)據(jù),從零訓練出了業(yè)界首個原生 MoE 架構(gòu)擴散語言模型 LLaDA-MoE。該模型雖然激活參數(shù)僅 1.4B,但性能可以比肩參數(shù)更多的自回歸稠密模型 Qwen2.5-3B,而且推理速度更快。這為擴散語言模型的技術(shù)可行性提供了關(guān)鍵驗證。

萬萬沒想到,做奧數(shù)題都能拿金牌的模型,卻不會「倒著背詩」。

說完全不會,倒也不嚴謹。因為如果允許模型「深度思考」,給詩的每個字都編上號,然后倒著排一下,這詩也能背出來。然而,這與人類倒背文本的方式并不一樣 —— 人類記憶詩詞時,往往不是逐字死記,而是以句子、意境、節(jié)奏為單位,而倒背時則是在腦中「反向調(diào)用」這些單元。

研究者們在 2023 年的一篇論文中就提到了這個現(xiàn)象,并將其命名為「Reversal Curse(反轉(zhuǎn)詛咒)」。類似的表現(xiàn)還包括模型學習了「A is B(如巴黎是法國的首都)」之后,卻無法自然地推出「B is A(如法國的首都是哪里)」。

這個問題之所以被拎出來討論,是因為它會在一些需要模型同時理解前后文或逆向推理的場景中影響性能。

兩年過去,AI 大模型能力突飛猛進,但這一問題始終沒有得到本質(zhì)上的解決。究其原因,這是當前大模型普遍采用的自回歸(AR)生成范式所造成的 —— 模型天然是單向建模的,從前往后依次生成下一個 token。這導致它們難以捕捉 token 之間的雙向依賴關(guān)系。

而且,自回歸的天然缺陷還不止這一個 —— 長文本的計算成本高、生成速度慢是常被詬病的問題,而且它缺乏直接修正錯誤的能力,還會導致錯誤產(chǎn)生連鎖反應。

面對這些問題,大量研究者選擇繼續(xù)改進自回歸,但也有人另辟蹊徑,嘗試新的建模范式。

螞蟻集團和中國人民大學高瓴人工智能學院組成的聯(lián)合研究團隊選擇的就是后者,他們探索的語言建模方向是「擴散(diffusion)」。

在他們之前,也有不少研究者在這一方向發(fā)力。但今年 2 月份,他們首次將擴散語言模型(dLLM)擴展至 8B 參數(shù)規(guī)模,推出了性能對標 LLaMA 3 的 LLaDA 模型。

自回歸模型的生成方式。

LLaDA 模型的生成方式。

LLaDA?一經(jīng)發(fā)布就引起了廣泛關(guān)注,因為它通過非自回歸的掩碼擴散機制,首次在大規(guī)模語言模型中實現(xiàn)了與自回歸模型相當?shù)恼Z言智能(如上下文學習、指令遵循、多輪對話等),挑戰(zhàn)了「語言模型必須自回歸」的主流認知。

在過去的幾個月里,LLaDA 系列一直在快速迭代,衍生出了對齊能力更強的?LLaDA1.5、多模態(tài)版本的?LLaDA-V,以及剛剛在外灘大會上亮相的?LLaDA-MoE。

其中,LLaDA-MoE 尤為引人注目。它由螞蟻集團通用人工智能研究中心和人民大學聯(lián)合研發(fā),是業(yè)界首個從零訓練的原生 MoE 架構(gòu)擴散語言模型,在 20T 的數(shù)據(jù)上完成了訓練,驗證了此類模型大規(guī)模訓練的可擴展性和穩(wěn)定性。

在效果上,它不僅超過了此前發(fā)布的稠密擴散語言模型 LLaDA1.0/1.5 和 Dream-7B,更是以 1.4B 激活參數(shù)比肩稠密自回歸模型 Qwen2.5-3B,并保有數(shù)倍的推理速度優(yōu)勢。

可以說,LLaDA-MoE 是 dLLM 發(fā)展歷程中的又一個重要里程碑。

據(jù)悉,該模型將在近期完全開源,以推動全球 AI 社區(qū)在擴散語言模型上的技術(shù)發(fā)展。

這個模型具體表現(xiàn)如何?背后有哪些技術(shù)?為什么這類模型能 work?在發(fā)布會之后的一次訪談中,螞蟻通用人工智能研究中心主任藍振忠、中國人民大學高瓴人工智能學院副教授李崇軒透露了很多細節(jié),我們將在本文中一一介紹。

左:李崇軒;右:藍振忠。

LLaDA-MoE

業(yè)界首個從零訓練的原生 MoE 架構(gòu)擴散語言模型

經(jīng)過 3 年多的迭代,dLLM 的發(fā)展已經(jīng)進入成熟期。尤其在 LLaDA 模型發(fā)布之后,大家真正看到了這一類模型的可用性。很多研究已經(jīng)把 LLaDA 作為基礎(chǔ)或主干模型來進行進一步微調(diào)或擴展。

不過,要想提升模型能力上限,dLLM 同樣必須進一步 scaling。而從自回歸的發(fā)展路徑來看,這一目標可以借助 MoE 來實現(xiàn)。

對于螞蟻和人大的聯(lián)合團隊來說,這又是一條未知的路,因為現(xiàn)有的擴散語言模型探索都是基于稠密架構(gòu),與 MoE 相關(guān)的預訓練、后訓練甚至推理都存在大量未知的難題。而且 MoE 本身就比較難訓練,在擴散這個新架構(gòu)上做 MoE 則更加困難。

不過,藍振忠表示,真正去做了之后,他們發(fā)現(xiàn)這些「風險」其實都是可管理的。這很大程度上是因為,他們有一些關(guān)鍵的工程、資源積累可以依托:

首先是一些已經(jīng)在自回歸模型上驗證過的 MoE 訓練經(jīng)驗和技術(shù)積累 —— 無論是業(yè)界開源的還是螞蟻自身的經(jīng)驗,其實很多都可以拿來復用,這幫助他們解決了一些諸如負載均衡、噪聲采樣 shift 之類的問題。

其次是高質(zhì)量的數(shù)據(jù)基礎(chǔ)。團隊直接復用了螞蟻百靈大模型積累的 20T 數(shù)據(jù),節(jié)省了大量人力物力。

最后是完善的工程基礎(chǔ)設(shè)施。螞蟻自研的 ATorch 訓練框架已經(jīng)具備專家并行(EP)等一系列并行加速技術(shù),能夠為大規(guī)模 MoE 訓練提供強有力的技術(shù)支撐。同時,螞蟻算力集群的穩(wěn)定性確保了 20T 數(shù)據(jù)量級別的工業(yè)級訓練能夠高效穩(wěn)定完成。

正是基于這些關(guān)鍵積累,團隊最終成功打造出了 LLaDA-MoE。這是一個總參數(shù)量為 7B 的模型,激活參數(shù)量為 1.4B。目前,LLaDA-MoE 有兩個版本:基礎(chǔ)模型版 LLaDA-MoE-7B-A1B-Base 和指令微調(diào)版 LLaDA-MoE-7B-A1B-Instruct。

HuggingFace 鏈接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub 鏈接:https://github.com/ML-GSAI/LLaDA

在各項 benchmark 測試中,LLaDA-MoE 超越了現(xiàn)有的開源稠密 dLLM 模型,如 LLaDA1.0/1.5 和 Dream-7B,在代碼、數(shù)學、Agent 這類相對結(jié)構(gòu)化的任務上優(yōu)勢明顯。此外,模型效果也追平了 Qwen2.5-3B 這個用同樣數(shù)據(jù)量訓練的稠密自回歸模型,由此實現(xiàn)了 1.4B 激活參數(shù),達到 2 倍多參數(shù)稠密模型的等效比。這說明 MoE 架構(gòu)性能放大器的作用在 dLLM 上也成立。團隊表示,他們后續(xù)將繼續(xù)挖掘等效比這個 scaling law,探索更高稀疏比、更大尺寸的 MoE 擴散語言模型,以進一步釋放 LLaDA-MoE 的規(guī)?;瘽摿?。

同時,他們還在 dLLM 推理加速方面持續(xù)投入,針對 dLLM 的并行特性,從算子融合、計算圖優(yōu)化、并行加速、緩存管理、并行解碼等多個方面進行了全面優(yōu)化,相比開源 SOTA 的 NVIDIA fast-dLLM 推理引擎實現(xiàn)了顯著加速。相關(guān)代碼與技術(shù)報告也將于近期開源、公布,以助力 dLLM 技術(shù)的快速發(fā)展。

擴散語言模型

為什么能 work?

在藍振忠、李崇軒看來,dLLM 能走到今天,有一定的必然性,因為無論從底層理論還是實踐經(jīng)驗來看,這個方向都有著巨大的潛力。

首先,從理論上來看,李崇軒指出:從概率建模的角度來看,大語言模型的關(guān)鍵并不是必須依賴自回歸展開,而是能否有效地表示和學習高維復雜的聯(lián)合概率分布,即通過最大似然估計或最小化 KL 散度來逼近真實語言分布。

自回歸的優(yōu)勢在于通過鏈式法則把難以直接建模的聯(lián)合概率分解為逐步的條件概率,從而簡化了訓練和優(yōu)化過程,但這種方式并不是唯一的。擴散模型提供了另一條路徑:它不依賴固定的從左到右生成順序,而是通過迭代的去噪過程逐漸逼近數(shù)據(jù)分布,這種過程同樣能夠刻畫高維概率,只是采取了「由粗到細」的動態(tài)修正方式。

李崇軒特別指出,很多人們認為是自回歸獨有的性質(zhì),比如指令跟隨、In-context Learning、壓縮能力和可擴展性,其實更深層次上都源于最大似然估計這一共同的學習準則,而不是自回歸本身。

例如,條件概率建模賦予模型指令跟隨和對話能力,信息論意義上的最大似然保證了壓縮特性,而優(yōu)化的簡潔性和與 Transformer 架構(gòu)的兼容性則保證了可擴展性。這些性質(zhì)同樣可以在擴散模型里出現(xiàn)。

與此同時,自回歸范式也存在固有局限:完成時間與輸出長度成正比、只能單向展開、缺乏直接修正錯誤的能力。而擴散模型在這些方面提供了潛在優(yōu)勢,它天然支持并行解碼、雙向建模和迭代修正:

并行解碼意味著生成過程不必逐 token rollout,而是可以在有限步數(shù)內(nèi)同時更新多個位置,使得推理迭代次數(shù)與輸出長度不再嚴格掛鉤,在長文本場景下更具效率潛力。此外,這種并行性還有望帶來算力利用率的提升。傳統(tǒng)自回歸推理由于串行瓶頸,往往導致 GPU 大量算力處于空閑狀態(tài);而擴散模型的并行更新方式則能夠在每一次迭代中充分調(diào)動大規(guī)模矩陣運算,更好地發(fā)揮硬件性能,從而在單用戶使用時也能保持較快的響應速度,避免了自回歸推理那種因為缺乏并發(fā)而浪費算力的情況。

雙向建模讓模型能夠同時利用前后文信息來重構(gòu)序列,從而提升全局一致性和邏輯連貫性,在圖文并茂等沒有嚴格從前到后順序的多模態(tài)場景中也更加自然。

迭代修正則帶來靈活的交互方式:當輸出中某一部分有錯誤或需要修改時,擴散模型可以只針對局部片段重新采樣,而不必推倒重來。這種能力尤其適合代碼生成、文檔編輯等需要頻繁調(diào)整的場景。

此外,有證據(jù)表明,在同樣的數(shù)據(jù)量下,擴散語言模型的學習效果比自回歸模型更好。具體表現(xiàn)為,在有限數(shù)據(jù)場景中,自回歸模型往往在幾輪數(shù)據(jù)復用之后便迅速進入收益遞減階段,而擴散模型則能夠持續(xù)從重復數(shù)據(jù)中榨取增量信息(dLLM 的數(shù)據(jù)利用效率可以達到 AR 的 3 倍以上);即便在極端重復的條件下,dLLM 依然能夠不斷提升在下游任務中的能力。

這種「榨干」數(shù)據(jù)的能力和 dLLM 的雙向建模機制密切相關(guān)。傳統(tǒng)的自回歸模型采用嚴格的因果性建模方式,每個 token 的預測只能基于前面的 token,這種單向的信息流限制了模型對數(shù)據(jù)中復雜依賴關(guān)系的捕獲。而 dLLM 通過掩碼機制實現(xiàn)了真正的雙向建模,允許模型在任意順序下理解和生成文本。

從技術(shù)層面看,擴散模型的訓練目標本身就要求對每個數(shù)據(jù)點進行多種不同的掩碼配置和比例的處理。這意味著每次重復同一份數(shù)據(jù)時,模型實際上是在學習該數(shù)據(jù)的不同「視角」—— 不同的掩碼模式暴露了數(shù)據(jù)中不同的上下文依賴關(guān)系。相比之下,自回歸模型在重復訓練時只是在強化相同的從前到后的預測模式。

這種數(shù)據(jù)效率優(yōu)勢在當前 AI 發(fā)展階段具有特殊意義。隨著高質(zhì)量預訓練數(shù)據(jù)逐漸稀缺,而計算資源變得相對充裕,用更多計算換取更好的數(shù)據(jù)利用率成為了一個合理的權(quán)衡。擴散語言模型雖然在訓練和推理時需要消耗更多 FLOPs,但這種「超密度計算」帶來的智能提升可能是值得的。

在 LLaDA 系列模型的研究中,螞蟻和人大的聯(lián)合團隊已經(jīng)驗證了擴散語言模型的一些理論優(yōu)勢和工程可行性,讓這個充滿「不確定」的方向逐漸變得清晰、明朗起來。但要想充分兌現(xiàn)這一方向的潛力,他們還有很多問題需要克服,比如如何把理論上的速度優(yōu)勢在工程中真正實現(xiàn),如何把模型 scale 到更大規(guī)模,如何設(shè)計類似 KV cache 的緩存機制,如何解決可變長度問題等。隨著 LLaDA 系列模型的開源,這些問題有望借助社區(qū)的力量來共同解決。

「這個方向需要更多聰明的人參與進來,就像自回歸模型的發(fā)展依靠了全世界的貢獻,擴散語言模型的發(fā)展同樣需要借助社區(qū)的力量。」藍振忠在采訪中說到。

跳出常規(guī)思維

探索智能上限

在談到打造 LLaDA-MoE 的難點時,李崇軒提到:其實最難的一點是「下決心」,因為這件事沒有人做過,「大家不知道能不能成」。

談到這個「下決心」的過程,藍振忠表示:「如果你不去探索那些在別人眼中可能充滿風險的領(lǐng)域,我們就只能永遠跟隨他人已經(jīng)確定的路徑前行。我們要提升智能的上限,就不能一直 follow?!?

當然,這種冒險是建立在理性判斷的基礎(chǔ)上。正如前文所言,在理論研究和實踐的過程中,團隊逐漸確信:擴散語言模型是一個有希望落地且風險可控的方向,而且在提升智能上限方面非常有潛力。因此,當他們真正決定投入資源去構(gòu)建 LLaDA-MoE 時,這不僅是一次技術(shù)上的嘗試,更是一次主動打破路徑依賴、以不確定性換取未來上限的戰(zhàn)略性選擇。

能做出這種戰(zhàn)略選擇,對螞蟻來說不是偶然。對這種前瞻性方向的判斷和大力投入,在螞蟻也有先例,比如百靈大模型的開源,推理框架 AReaL、多智能體框架 AWorld 的布局等等。

此外,藍振忠所領(lǐng)導的通用人工智能研究中心還在向其他前沿方向發(fā)力,比如動態(tài) MoE 架構(gòu)的創(chuàng)新、混合線性架構(gòu)的探索等。

這些方向全都圍繞一個「北極星」指標 —— 通用人工智能(AGI)。他們希望通過不斷的創(chuàng)新,把智能推到一個新高度。

我們也希望看到他們在這一方向取得更多進展。

參考鏈接

https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac#244d8f03a866808fb358d7a97bbd26f2

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃簂iyazhou@jiqizhixin.com