无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

都2022年了你還不知道多模態(tài)在研究什么?

2022-02-28 18:28 作者:深度之眼官方賬號(hào)  | 我要投稿

來(lái)源:投稿?作者:宋岳庭

編輯:學(xué)姐

標(biāo)題看起來(lái)是不是很囂張?其實(shí)大部分人也是知道多模態(tài),但是你真的很了解嘛?也不一定吧?今天給你一五一十的說(shuō)明白!認(rèn)真看~覺(jué)得好了給個(gè)贊!





什么是多模態(tài)?


多模態(tài)指的是多種模態(tài)的信息,包括:文本、圖像、視頻、音頻等。


顧名思義,多模態(tài)研究的就是這些不同類型的數(shù)據(jù)的融合的問(wèn)題。



目前大多數(shù)工作中,只處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式。


這就涉及到圖像和文本領(lǐng)域的內(nèi)容。



多模態(tài)的任務(wù)和數(shù)據(jù)集有哪些?


多模態(tài)研究的是視覺(jué)語(yǔ)言問(wèn)題,其任務(wù)是關(guān)于圖像和文字的分類、問(wèn)答、匹配、排序、定位等問(wèn)題。



例如給定一張圖片,可以完成以下任務(wù):


一、VQA(Visual Question Answering)視覺(jué)問(wèn)答


輸入:一張圖片、一個(gè)自然語(yǔ)言描述的問(wèn)題

輸出:答案(單詞或短語(yǔ))


二、Image Caption 圖像字幕


輸入:一張圖片

輸出:圖片的自然語(yǔ)言描述(一個(gè)句子)


三、Referring Expression Comprehension 指代表達(dá)


輸入:一張圖片、一個(gè)自然語(yǔ)言描述的句子

輸出:判斷句子描述的內(nèi)容(正確或錯(cuò)誤)


四、Visual Dialogue 視覺(jué)對(duì)話


輸入:一張圖片

輸出:兩個(gè)角色進(jìn)行多次交互、對(duì)話


五、VCR (Visual Commonsense Reasoning) 視覺(jué)常識(shí)推理


輸入:1個(gè)問(wèn)題,4個(gè)備選答案,4個(gè)理由

輸出:正確答案,和理由



六、NLVR(Natural Language for Visual Reasoning)自然語(yǔ)言視覺(jué)推理


輸入:2張圖片,一個(gè)分布

輸出:true或false



七、Visual Entailment 視覺(jué)蘊(yùn)含


輸入:圖像、文本

輸出:3種label的概率。(entailment、neutral、contradiction)蘊(yùn)含、中性、矛盾



八、Image-Text Retrieval 圖文檢索


有3種方式。

1)以圖搜文。輸入圖片,輸出文本

2)以文搜圖。輸入文本,輸出圖片

3)以圖搜圖,輸入圖片,輸出圖片





多種模態(tài)融合的方式有哪些?


通過(guò)NLP的預(yù)訓(xùn)練模型,可以得到文本的嵌入表示;

再結(jié)合圖像和視覺(jué)領(lǐng)域的預(yù)訓(xùn)練模型,可以得到圖像的嵌入表示;


那么,如何將兩者融合起來(lái),來(lái)完成以上的各種任務(wù)呢?

常用的多模態(tài)交叉的方式有兩種。


【1】點(diǎn)乘或者直接追加。


此種方式將文本和圖像分別進(jìn)行Embedding,之后將各自的向量進(jìn)行追加或者點(diǎn)乘。


好處是簡(jiǎn)單方便,計(jì)算成本也比較低。



【2】另外一種模態(tài)交叉的方式是最近用得比較多的Transformer。


其好處是利用了Transformer架構(gòu),能夠更好地進(jìn)行圖像特征和文本特征的表示。


缺點(diǎn)是占用空間大,計(jì)算成本較高。



參考:

https://lil.nlp.cornell.edu/nlvr/

http://arxiv.org/abs/1909.11740

https://arxiv.org/abs/2103.06561v6

http://arxiv.org/abs/2103.00020

http://arxiv.org/abs/2201.12086

http://arxiv.org/abs/2102.05918


深入了解多模態(tài)找不到人指導(dǎo)?

來(lái)找明鏡小享,帶你開(kāi)啟多模態(tài)研究!



都2022年了你還不知道多模態(tài)在研究什么?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
阿合奇县| 老河口市| 四平市| 大名县| 瑞丽市| 新源县| 西和县| 疏附县| 林口县| 秦皇岛市| 正定县| 策勒县| 黄龙县| 林周县| 错那县| 新化县| 新郑市| 山西省| 黄冈市| 五常市| 格尔木市| 长沙县| 新巴尔虎左旗| 霍州市| 大英县| 福建省| 灵台县| 通道| 通许县| 连山| 孟津县| 衡山县| 青龙| 晋江市| 神木县| 平阳县| 华蓥市| 松桃| 治县。| 安福县| 普定县|