无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

AIGC: MaskGIT (Masked Generative Image Transformer) 筆記

2023-06-27 14:31 作者:剎那-Ksana-  | 我要投稿

論文詳情

MaskGIT: Masked Generative Image Transformer

Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, William T. Freeman


官方的 Colab Demo: https://colab.research.google.com/github/google-research/maskgit/blob/main/MaskGIT_demo.ipynb

ImageGPT 工作機(jī)制

先簡單介紹一下 ImageGPT (Generative Pretraining From Pixels) 的工作機(jī)制。ImageGPT 工作機(jī)制分為兩步——

  1. 將圖像轉(zhuǎn)換為一系列的 Token

  2. 根據(jù)之前的 Token,迭代生成新的 Token (利用?Maximum?Likelihood Estimation /?Negative?Log-likelihood?Minimization)

工作機(jī)制的簡單示意圖

Autoregressive 時,目標(biāo)為?

L_%7BAR%7D%3D%5Cmathbb%7BE%7D_%7Bx%20%5Csim%20X%7D%20%20%5B-%5Clog%20p(x)%5D%5C%5C%0Ap(x)%3D%5Cprod_%7Bi%3D1%7D%5E%7Bn%7Dp(x_i%7Cx_1%2C...%2Cx_%7Bi-1%7D%2C%20%5Ctheta%20)

Bert 時,目標(biāo)為

L_%7BBERT%7D%3D%5Cmathbb%7BE%7D_%7Bx%20%5Csim%20X%7D%20%5Cmathbb%7BE%7D_%7BM%7D%20%5Csum_%7Bi%20%5Cin%20M%7D%5B-%5Clog%20p(x_i%7Cx_%7B%5B1%2Cn%5D%5Cbackslash%20M%7D)%5D

以上流程的弊端:

  1. 不符合人類繪圖的邏輯

  2. 序列長度增長迅速,很容易形成一個特別長的序列

  3. 生成時間慢

  4. 長期的關(guān)聯(lián)性弱

  5. 難以完成一些特定的任務(wù)(如 impainting)

MaskGIT 工作機(jī)制

先利用 VQ-encoder 將圖像轉(zhuǎn)化為 token 序列?%5Ctextbf%7BY%7D%20%3D%5By_i%5D_%7Bi%3D1%7D%5EN, N 代表了序列長度。

創(chuàng)建一個二元遮罩 %5Ctextbf%7BM%7D%3D%5Bm_i%5D_%7Bi%3D1%7D%5E%7Bn%7D.

被遮罩的地方,使用一個特殊的 [MASK] Token,并且被遮罩的序列用 Y_%7B%5Cbar%20M%7D 表示。

目標(biāo)依舊是 negative log-likelihood minimization,即:

L_%7Bmask%7D%3D-%5Cmathbb%7BE%7D_%7BY%5Cin%20D%7D%5B%5Csum_%7B%5Cforall%20i%5Cin%20%5B1%2CN%5D%2C%20m_i%3D1%7D%20%5Clog%20p(y_i%7CY_%7B%5Cbar%20M%7D)%5D

生成圖像的步驟如下:

  1. 輸入遮罩后的序列?Y_%7BM%7D%5E%7B(t)%7D, 模型輸出一個概率?p%5E%7B(t)%7D%5Cin%20%5Cmathbb%7BR%7D%5E%7BN%5Ctimes%20K%7D, K 為 codebook 的大小

  2. 根據(jù)第 i 個被遮罩的"像素"的概率?p_i%5E%7B(t)%7D%5Cin%20%5Cmathbb%7BR%7D%5E%7BK%7D, 從 codebook 中采樣一個 token, 記錄其 condifence score, 未被遮罩的地方分?jǐn)?shù)為 1.0

  3. 根據(jù)一個?mask scheduling function γ,計算下一步的序列中要被遮罩的 token 的總數(shù) n

  4. 根據(jù)第二步的 condifence score, 遮罩 n 個 token

  5. 迭代執(zhí)行以上步驟

工作機(jī)制的簡單示意圖

一些細(xì)節(jié)性的東西省去不寫了,效果圖和更多細(xì)節(jié)參見原論文


AIGC: MaskGIT (Masked Generative Image Transformer) 筆記的評論 (共 條)

分享到微博請遵守國家法律
焦作市| 南安市| 乌审旗| 英山县| 绩溪县| 漯河市| 太谷县| 邢台市| 德阳市| 吴忠市| 修文县| 淳化县| 鄂托克旗| 镇安县| 隆化县| 陆丰市| 陈巴尔虎旗| 九龙坡区| 易门县| 永吉县| 汝南县| 交口县| 通许县| 伊通| 县级市| 霞浦县| 乌拉特前旗| 六枝特区| 镇雄县| 灵山县| 山阳县| 灌云县| 洪洞县| 灵川县| 华蓥市| 黄山市| 新宾| 新野县| 赤水市| 红河县| 濮阳市|