无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網 會員登陸 & 注冊

TimeSformer 自用筆記

2023-03-23 21:43 作者:flow___  | 我要投稿

Timesformer

Is Space-Time Attention All You Need for Video Understanding?? - 2021

Video Transformer還未遍地開花時的早些時候的文章,做的實驗比較詳盡。r2+1d的原班人馬,把ViT向視頻領域(Video Transformer)遷移的初步嘗試,且逐漸可以用于處理視頻長度超過1分鐘的視頻,作者做了下述5種嘗試。

和下圖一一對應的5種自注意力計算方法
此圖畫的非常形象
  1. 最左邊一列起,只在當前幀內自己做,與時間維度無關。

  2. 和相鄰的所有幀都做自注意力,很明顯這是不可行的,需要的顯存和計算量都太大。

  3. 先在在幀內做全局的自注意力,然后維度降下去后幀間再做時序上的自注意力操作,有點類似于CNN+LSTM做視頻的感覺,把問題變成2+1維的模式,計算復雜度應該是從H^2*W^2*D^2?減到?H^2*W^2 +?D^2。

  4. 這里和SwinTransformer很像,分patch做子注意力操作,減少的是幀內的自注意力計算的復雜度。

  5. 這里也是減少的幀內的自注意力計算的復雜度,類似于分成3個1*1卷積在做計算,這樣的復雜度將會變得很低很低

上述五種模型的效果表現(xiàn),注意參數(shù)來不等于計算量的增長和內存消耗

作者對比效果較好的2,3模型,其中2的計算代價太大

最后文章選用的第三種方案。


小結:?Transformer在視覺視頻領域的擴展性和穩(wěn)健性都是極佳的,而且視頻本身就是一個多模態(tài)的信號,其中可以提取深度圖,光流圖,音頻信號等等,部分互聯(lián)網視頻甚至也會有字幕,可以可以設計成各種各樣的自監(jiān)督信號,如果使用恰當,就能獲得不錯的成果。


TimeSformer 自用筆記的評論 (共 條)

分享到微博請遵守國家法律
新乡市| 运城市| 九台市| 合山市| 察隅县| 北安市| 诏安县| 清水县| 即墨市| 连云港市| 喀喇| 宣城市| 手游| 咸宁市| 灵川县| 虎林市| 尖扎县| 莆田市| 德钦县| 黑龙江省| 改则县| 崇阳县| 仪陇县| 宁蒗| 沧州市| 新巴尔虎左旗| 宣威市| 皮山县| 洱源县| 泰安市| 高清| 罗甸县| 托克逊县| 孝昌县| 专栏| 永德县| 栖霞市| 招远市| 灵台县| 稻城县| 自治县|