9月11日,在2025外灘大會(huì)上,螞蟻集團(tuán)與中國(guó)人民大學(xué)聯(lián)合發(fā)布業(yè)界首個(gè)原生MoE架構(gòu)的擴(kuò)散語(yǔ)言模型(dLLM)“LLaDA-MoE”。實(shí)驗(yàn)數(shù)據(jù)顯示,LLaDA-MoE模型性能效果在代碼、數(shù)學(xué)、Agent等任務(wù)上領(lǐng)先于LLaDA1.0/1.5和Dream-7B等擴(kuò)散語(yǔ)言模型,接近或超越了自回歸模型Qwen2.5-3B-Instruct,僅激活1.4B參數(shù)即可實(shí)現(xiàn)等效3B稠密模型的性能。(大象新聞)