散文網(wǎng) » 科技 »學習 » 谷歌推出MobileDiffusion：0.2秒就可以在iphone文生圖

谷歌推出MobileDiffusion：0.2秒就可以在iphone文生圖

2023-12-05 14:12 作者:ReadPaper論文閱讀 0人讀過 | 我要投稿

"MobileDiffusion:?Subsecond?Text-to-Image?Generation?on?Mobile?Devices"?這篇論文介紹了一種新型的文本到圖像擴散模型——MobileDiffusion。該模型通過在架構和采樣技術上的大量優(yōu)化，實現(xiàn)了在移動設備上生成高質(zhì)量圖像的高效性。它通過減少冗余、提高計算效率，并最小化模型參數(shù)數(shù)量，同時保持圖像生成質(zhì)量。

此外，通過蒸餾和擴散-GAN微調(diào)技術（之前我們提到的UFOGan），MobileDiffusion實現(xiàn)了8步和1步推理。實證研究表明，該技術在生成512x512像素圖像時，能在移動設備上實現(xiàn)令人矚目的亞秒級推理速度，樹立了新的行業(yè)標準。

論文：https://arxiv.org/pdf/2311.16567.pdf

Readpaper：https://readpaper.com/paper/4827443622626459649

?詳細介紹

1?模型結(jié)構

UNet是diffusion的主要結(jié)構，由Transformer?block和convolution?block組成。所以優(yōu)化也是針對這兩個主要模塊進行。首先是降低他們的層數(shù)，然后讓self-attention只在低分辨率的圖片上計算，而cross-attention只保留一個在中間層。而且還提出可以用sperable?convolution代替現(xiàn)在的卷積層。

在采樣上，參考了目前最流行的兩種加速方法：Progressive?Distillation?和?UFOGen。

2?實驗

量化評估如上圖。首先，通過使用cfg-aware蒸餾和UFOGen微調(diào)技術，重點提高了樣本效率，并展示了這些技術的數(shù)值結(jié)果。在評估中，通過調(diào)整cfg比例，DDIM和蒸餾模型實現(xiàn)了較低的FID分數(shù)。同時，為了公平比較，復制了SD的訓練設置以匹配MD。在比較中，MD?DDIM模型在體積和速度上均有顯著提升，接近SD復制基線模型的性能。此外，蒸餾的8步模型和UFOGen微調(diào)的1步模型在FID分數(shù)上表現(xiàn)相當。最后，通過計算CLIP-ViT-g/14分數(shù)，進一步證明了這些方法在提高樣本效率方面的有效性。

定性分析如上圖。比較了?SD-XL、MD（一種模型）、經(jīng)過不同步驟優(yōu)化處理的?MD，以及微調(diào)后的?UFOGen。重點在于展示?MD?模型在多種采樣器中能夠產(chǎn)生高質(zhì)量結(jié)果的能力，甚至能夠與SD-XL這樣的強基準模型相媲美。這一發(fā)現(xiàn)對于在設備端（如智能手機、嵌入式系統(tǒng)等）應用這類模型具有重要意義。

觀點

學術上，它展示了通過架構和算法優(yōu)化實現(xiàn)高效AI模型的可能性，把目前的幾個有效的加速方法都整合在了一起看能不能一起加速，是一個很有益的嘗試。

商業(yè)上，這種快速、高效的圖像生成技術將極大地推動移動設備上的創(chuàng)意內(nèi)容生產(chǎn)，為廣告、社交媒體和游戲行業(yè)帶來革命性的變化。此外，它還可能為低功耗設備上的實時圖像處理開辟新的應用場景，如增強現(xiàn)實和虛擬現(xiàn)實。

特邀作者：日本早稻田大學計算機系博士生? 王軍杰

標簽：