《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 其他 > CVPR 2018 | UNC&Adobe提出模塊化注意力模型MAttNet,解決指示表達的理解問題

CVPR 2018 | UNC&Adobe提出模塊化注意力模型MAttNet,解決指示表達的理解問題

2018-03-08
關鍵詞: UNC CVPR2018 自然語句

北卡教堂山分校 (UNC) 虞立成等人近日發表的 CVPR 2018 論文提出了模塊化注意力模型 MAttNet,將 Referring Expression(指示表達)分解為三個模塊:主語、位置和關系,并基于句子和圖片的聯合注意力解析,解決基于指示表達的目標定位問題。實驗表明 MAttNet 在基于自然語句的目標檢測和分割兩種任務上都大幅優于前文的方法。該論文已被 CVPR 2018 錄取,并提供了代碼以及 demo。


  • 代碼鏈接:https://github.com/lichengunc/MAttNet

  • Demo 鏈接:http://vision2.cs.unc.edu/refer/comprehension


任務


Referring Expression(指示表達)指描述圖片中某一特定物體的一句自然語句。與 Image Captioning 任務不同的是 Referring Expression 具有唯一性和區域性,比如「穿紅色毛衣的女人」或「右邊的男孩」。在日常生活中,無論人與人之間的交流或是人機交互,都會涉及這種指示性的短語表達。所以理解它們并準確定位所描述的物體成為自然交互的必要條件。


指示表達理解的問題可以被定義成:從圖片 I 里的各個物體〖O={o_i }〗_(i=1)^N 中選出那個「最」能被指示表達 r 貼切描述的物體 o^*。過往在此問題上的研究可以分為兩類:基于 CNN-LSTM 的框架建模的 P(r|o),以及基于聯合概率框架建模的 P(r, o)。本文使用后者。


模型與方法


文章對數據集進行統計后發現根據目標物體和其他物體的差異性,對它的指示表達可以涉及不同類型的信息。例如,如果目標物體為十個黑球中的一個紅球,那么對它的指示表達可以很簡單得說「紅球」。如果相同的紅球被放在其他三個紅球中,那么基于位置的信息可能變得更加重要,例如「右邊的紅球」。或者,如果在場景中有 100 個紅球,那么球與其他物體之間的關系可能是最明顯的信息,例如「貓旁邊的紅球」。因此,將指示語句的理解模型進行模塊化分析便顯得非常自然直觀。本文利用主語,位置和關系模塊來解析輸入的指示語句,然后觸發不同的視覺模塊進行處理。


本文提出的模塊化注意力模型 (MAttNet) 如圖 1 所示。模型首先將輸入的指示表達分解成三個短語表征,作為三個視覺模塊的輸入,這些視覺模塊用不同的注意力模型分別計算與其對應的短語的匹配分數。最后,三個模塊的匹配分數的加權總和成為整體匹配得分。整個模型可以無縫鏈接 Mask R-CNN 框架,因而可以做目標定位和目標分割兩個任務。


具體來分析模型的細節。首先是自然語言的分解模塊,作者提出的 Language Attention Network(語言注意力模型)對輸入的指示表達進行主語,位置和關系的三個模塊的拆解。每個拆解后的成分會有兩個輸出,其一是該模塊的詞向量表征,其二是該模塊占整句句子的權重。然后是三個視覺模塊,給定某個備選物體 (candidate object),我們計算它與三個詞向量表征的匹配分數。其中,主語的視覺模塊抽取物體的 R-CNN 特征,并使用該模塊內部的軟注意力模型抽取與詞向量相關的區域,計算匹配分數;位置的視覺模塊抽取物體的位置特征,將其映射到高維空間后與位置詞向量進行匹配;關系的視覺模塊抽取其周邊其他物體的特征,使用多示例學習 (Multiple Instance Learning) 選取與關系詞向量最相關的周邊物體,計算得分。最后,三個匹配得分會和上述的三個權重進行內積,得到最終匹配得分。


圖 1:模塊化注意網絡 (MAttNet)


實驗結果


實驗中,首先為了和前文進行公平比較,使用了 VGG16 特征,在目標定位上超過前文~2%。配合上 Mask R-CNN 的特征后,優勢擴展為~7%。在目標分割上,基本達到前文最佳精度的兩倍。此外,模型具有很好的解釋性,作者展示了三個模塊各自注意到的相關單詞和視覺區域。如圖 2 所示。


結束語


指示表達的應用很廣,人與人的對話系統和人機交互系統都經常會涉及對圖片或場景里的某個目標物體進行自然語言的描述。從作者提供的 demo 來看,方向性的指示表達和對「人」這一類的指示表達,理解得都還比較準確;但對其他物體的指示理解還有進一步的提升空間。作者在提供的代碼的最后寫了一些 Notes,可以作為后續工作的思考方向。

 

圖 2:MAttNet 在 RefCOCOg 上的結果:第一列為原圖,第二列為輸入的指示表達與其分解結果,第三列為主語模塊的注意區域;第四列為主語模塊的 attribute 輸出;第五列為目標定位(藍筐);第六列為目標分割。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 成年女人18级毛片毛片免费| 熟妇人妻中文字幕| 污污网站免费观看| 国产剧情精品在线| 99rv精品视频在线播放| 日本a级片免费看| 亚洲国产日韩在线成人蜜芽| 糟蹋顶弄挣扎哀求np| 国产欧美一区二区三区在线看| xxxxx做受大片视频免费| 日韩中文字幕在线一区二区三区| 亚洲男人的天堂网站| 美女扒开腿让男人桶免费看| 国产激情无码一区二区app| caoporm在线视频| 把水管开水放b里是什么感觉| 亚洲av福利天堂一区二区三 | 一二三区免费视频| 日本高清视频色wwwwww色| 亚洲日韩精品无码专区网址| 野战爱爱全过程口述| 国产精品成人扳**a毛片| 一个人看的在线免费视频| 日本大乳高潮视频在线观看| 亚洲区精品久久一区二区三区| 男女做性无遮挡免费视频| 国产一级片在线| 欧式午夜理伦三级在线观看| 在线播放亚洲第一字幕| 丁香六月久久久| 欧美精品videosbestsexhd4k| 卡一卡2卡3卡精品网站| 韩国伦理电影我妻子的秘密| 好男人好资源在线| 久久久久无码中| 步兵精品手机在线观看| 再深点灬用力灬太大了| 被合租粗糙室友到哭| 国产欧美va欧美va香蕉在| 91手机在线视频| 天堂√在线中文最新版8|