編輯:張倩、陳陳
見過省電的模型,但這么省電的,還是第一次見。
在 《自然》 雜志發(fā)表的一篇論文中,加州大學(xué)洛杉磯分校 Shiqi Chen 等人描述了一種幾乎不消耗電量的 AI 圖像生成器的開發(fā)。
該生成器是一種受擴(kuò)散模型啟發(fā)的光學(xué)生成模型。其工作原理如下:首先通過數(shù)字編碼器(使用公開數(shù)據(jù)集訓(xùn)練)生成最終構(gòu)成圖像的靜態(tài)噪聲,這一過程僅需消耗極少能量。隨后,一種被稱為空間光調(diào)制器(SLM)的液晶屏幕會將這種噪聲模式刻印到激光束上。該激光束再通過第二臺解碼 SLM 裝置,將光束中的噪聲模式轉(zhuǎn)化為最終圖像。
與傳統(tǒng) AI 依賴數(shù)百萬次計算機(jī)運(yùn)算不同,該系統(tǒng)利用光完成所有核心工作,因此幾乎不消耗電能。論文第一作者 Shiqi Chen 表示:「我們的光學(xué)生成模型幾乎無需算力就能合成海量圖像,為數(shù)字 AI 模型提供了可擴(kuò)展且高能效的替代方案?!?
研究人員采用多種 AI 訓(xùn)練圖像對系統(tǒng)進(jìn)行測試,包括名人肖像、蝴蝶圖像以及梵高風(fēng)格的全彩畫作。結(jié)果顯示,光學(xué)系統(tǒng)生成的圖像效果與傳統(tǒng)圖像生成器相當(dāng),但能耗顯著降低。
該技術(shù)還具有廣泛的應(yīng)用前景。憑借其超高速和超低能耗特性,該系統(tǒng)可用于生成 VR、AR 顯示的圖像視頻,也適用于智能手機(jī)、AI 眼鏡等可穿戴電子設(shè)備的小型化終端。
論文標(biāo)題:Optical generative models
論文地址:https://www.nature.com/articles/s41586-025-09446-5#MOESM1
不過,該模型目前仍處于物理實驗階段,離實用還有一段距離。
方法概覽
本文提出的光學(xué)生成模型,能夠根據(jù)目標(biāo)數(shù)據(jù)分布合成單色或彩色圖像 —— 即通過光學(xué)方法生成特定數(shù)據(jù)分布中前所未見的新圖像。受擴(kuò)散模型啟發(fā),該方案采用淺層數(shù)字編碼器將隨機(jī)二維高斯噪聲模式快速轉(zhuǎn)換為代表光學(xué)生成種子的二維相位結(jié)構(gòu)。這種光學(xué)種子的產(chǎn)生是一次性的,它涉及一個作用于隨機(jī)二維噪聲模式的淺而快速的相位空間編碼器。
根據(jù)目標(biāo)分布即時生成圖像或輸出數(shù)據(jù)的過程,可通過隨機(jī)調(diào)用這些預(yù)先計算好的光學(xué)生成種子按需實現(xiàn)。這一廣義概念可通過不同光學(xué)硬件實現(xiàn),集成光子學(xué)或基于自由空間的實現(xiàn)。
即時圖像生成
圖 1 展示了作者研發(fā)的單色圖像即時生成模型的原理示意圖。如圖 1a 所示,遵循正態(tài)分布的隨機(jī)二維輸入首先通過數(shù)字編碼器轉(zhuǎn)換為二維相位模式,該編碼器可快速提取潛在特征并將其編碼至相位通道以供后續(xù)模擬處理。這些由隨機(jī)噪聲生成的相位編碼輸入作為光學(xué)生成種子,被加載到 SLM 中,為衍射光學(xué)生成模型提供信息輸入。在相干光照下,攜帶編碼相位模式的光場繼續(xù)傳播并通過為特定目標(biāo)數(shù)據(jù)分布優(yōu)化的衍射解碼器進(jìn)行處理。最終,生成的圖像由圖像傳感器捕獲,這些圖像符合目標(biāo)數(shù)據(jù)分布特征。
圖 1b 展示了訓(xùn)練流程:作者首先基于去噪擴(kuò)散概率模型(DDPM)訓(xùn)練教師數(shù)字生成模型以學(xué)習(xí)目標(biāo)數(shù)據(jù)分布。完成訓(xùn)練后,凍結(jié)該 DDPM 模型并持續(xù)生成用于訓(xùn)練即時光學(xué)生成模型的噪聲 - 圖像數(shù)據(jù)對。淺層數(shù)字相位編碼器與光學(xué)生成模型通過聯(lián)合訓(xùn)練,使模型能夠以簡潔可重構(gòu)的架構(gòu)高效學(xué)習(xí)目標(biāo)分布。
圖 1c 呈現(xiàn)了盲推理過程:由數(shù)字編碼器從隨機(jī)噪聲模式產(chǎn)生的編碼相位模式(即光學(xué)種子)是預(yù)先計算的,光學(xué)生成模型則使用固定的靜態(tài)解碼器在自由空間中對這些生成相位種子進(jìn)行解碼。為實現(xiàn)從隨機(jī)高斯噪聲快速合成光學(xué)生成相位種子,數(shù)字編碼器包含三個全連接層,其中前兩層采用非線性激活函數(shù)(詳見方法部分)。可重構(gòu)衍射解碼器通過 400?×?400 個可調(diào)相位特征(每個特征覆蓋 0-2π 范圍)進(jìn)行優(yōu)化,完成優(yōu)化后針對每個目標(biāo)數(shù)據(jù)分布保持靜態(tài)。
圖 1
迭代式光學(xué)生成模型
作者還設(shè)計了一種迭代式光學(xué)通用模型,可從高斯噪聲中遞歸重建目標(biāo)數(shù)據(jù)分布。如圖 2a 所示,該迭代光學(xué)生成模型同樣工作在三個照明波長下,通過淺層數(shù)字相位編碼器編碼的多通道相位圖案被順序加載到同一 SLM 上。
為展示這種迭代光學(xué)模型的生成能力,作者采用 L?=5 個聯(lián)合優(yōu)化并固定的解碼層來處理目標(biāo)數(shù)據(jù)分布。與前述即時光學(xué)生成模型的不同之處在于:當(dāng)圖像傳感器平面記錄初始強(qiáng)度圖像后,測量結(jié)果會按設(shè)計方差添加高斯噪聲,該噪聲擾動結(jié)果將作為下一時間步的迭代光學(xué)輸入。
圖 2b 展示了這種迭代光學(xué)生成模型的訓(xùn)練過程:采樣一批時間步并相應(yīng)地向原始數(shù)據(jù)添加噪聲,獲得噪聲樣本。這些噪聲樣本經(jīng)過淺層數(shù)字編碼器和迭代光學(xué)生成模型處理,得到連續(xù)輸出。與標(biāo)準(zhǔn) DDPM 實現(xiàn)不同,該迭代光學(xué)生成模型直接預(yù)測去噪樣本,其損失函數(shù)根據(jù)原始數(shù)據(jù)計算。
圖 2c 概述了迭代式光學(xué)生成模型的盲推理過程:已訓(xùn)練的光學(xué)模型對從最終時間步到初始時間步的擾動樣本遞歸執(zhí)行去噪操作,最終生成的圖像在傳感器平面捕獲(詳見方法部分)。
圖 2
實驗及結(jié)果
在初步實驗中,研究者分別基于 MNIST 和 Fashion-MNIST 數(shù)據(jù)集訓(xùn)練了兩個不同的模型,用于生成手寫數(shù)字和時尚商品圖像。
圖 3c 為兩個模型的結(jié)果,生成的圖片在 MNIST 和 Fashion-MNIST 數(shù)據(jù)集上分別達(dá)到了 131.08 和 180.57 的 FID 實驗評分。這表明生成的圖片符合這兩個數(shù)據(jù)集的目標(biāo)分布,充分體現(xiàn)了所設(shè)計系統(tǒng)的多樣性,進(jìn)一步驗證了快照式光學(xué)生成模型的可行性。
生成手寫數(shù)字
生成時尚商品
研究者進(jìn)一步將實驗結(jié)果拓展至更高分辨率的梵高風(fēng)格藝術(shù)作品生成。
圖 4 與圖 5 分別展示了使用 5.8 億參數(shù)數(shù)字編碼器實現(xiàn)的高分辨率單色及彩色(RGB)圖像生成實驗結(jié)果。其中梵高風(fēng)格單色圖像采用 520 納米波長照明生成,而彩色圖像則依次使用 {450, 520, 638} 納米波長分別對應(yīng)藍(lán)、綠、紅三通道。
在多色梵高風(fēng)格藝術(shù)圖像生成實驗中,研究者為每個波長通道生成了相應(yīng)的相位編碼生成種子圖案,并依次加載到空間光調(diào)制器(SLM)上。在對應(yīng)波長的照明下,利用固定或靜態(tài)的衍射解碼器生成多彩圖像,并通過數(shù)字方式進(jìn)行融合。換言之,在所有波長照明下的圖像生成過程中,系統(tǒng)共享同一個解碼器狀態(tài)。
圖 5 展示了多色梵高風(fēng)格藝術(shù)作品的生成結(jié)果,其中既包含與教師數(shù)字?jǐn)U散模型輸出高度吻合的案例,也包含具有差異性輸出的示例(該教師模型需使用 10.7 億可訓(xùn)練參數(shù)并通過 1000 次迭代步驟生成單幅圖像)。盡管觀察到輕微的色差現(xiàn)象,生成的高分辨率彩色圖像仍保持了優(yōu)異的質(zhì)量。
作者介紹
Shiqi Chen,加州大學(xué)洛杉磯分校(UCLA)博士后研究員,導(dǎo)師為 Aydogan Ozcan 教授。此前,他在浙江大學(xué)獲得博士學(xué)位,師從馮華君教授和徐之海教授。
Shiqi Chen 在博士期間主要研究重點是應(yīng)用光學(xué)和計算機(jī)視覺,以實現(xiàn)更清晰的計算成像,其中部分研究成果已應(yīng)用于最新的移動終端設(shè)備。
個人主頁:https://tangeego.github.io/
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃簂iyazhou@jiqizhixin.com