《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于Transformer殘差網絡的事件重建算法
基于Transformer殘差網絡的事件重建算法
電子技術應用
王立喜1,劉云平1,湯琴琴2,李家豪1
1.南京信息工程大學 自動化學院;2.無錫學院 軌道交通學院
摘要: 目前的人工視覺系統仍然無法處理一些涉及高速運動場景和高動態范圍的真實世界場景。事件相機因其低延遲和高動態范圍捕捉高速運動的優勢具有消除上述問題的能力。然而,由于事件數據的高度稀疏和變化性質,在保證其快速性的同時將事件重建為視頻仍然具有挑戰性。因此提出了一種基于Transformer殘差網絡和光流估計的事件流重建算法,通過光流估計和事件重建的聯合訓練,實現自監督的重建過程,并引入去模糊預處理和亞像素上采樣模塊來提高重建質量。實驗結果表明,在公開數據集上,提出的方法可以有效提高事件流的重建效果。
中圖分類號:TP193.41 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.245292
中文引用格式: 王立喜,劉云平,湯琴琴,等. 基于Transformer殘差網絡的事件重建算法[J]. 電子技術應用,2024,50(11):28-34.
英文引用格式: Wang Lixi,Liu Yunping,Tang Qinqin,et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique,2024,50(11):28-34.
Event reconstruction algorithm based on Transformer residual network
Wang Lixi1,Liu Yunping1,Tang Qinqin2,Li Jiahao1
(1.School of Automation, Nanjing University of Information Science & Technology; 2.School of Rail Transportation, Wuxi University
Abstract: Current artificial visual systems still struggle to handle real-world scenarios involving high-speed motion and high dynamic range scenes. Event cameras have the capability to address these challenges due to their low latency and high dynamic range for capturing fast-moving objects. However, reconstructing events into videos while maintaining their speed presents a challenge due to the highly sparse and dynamic nature of event data. Therefore, this paper proposes an event stream reconstruction algorithm based on Transformer residual networks and optical flow estimation. By jointly training optical flow estimation and event reconstruction, a self-supervised reconstruction process has been achieved. Additionally, deblurring preprocessing and subpixel upsampling modules are introduced to enhance the quality of reconstruction. Experimental results demonstrate that the proposed approach effectively improves the reconstruction quality of event streams on public datasets.
Key words : event camera;video reconstruction;deep learning;optical flow estimation

引言

在過去的十年里,由于現代深度學習方法和神經體系結構優化,計算機視覺領域在許多不同的任務中取得了驚人的進步。但與生物系統相比,目前的人工視覺系統仍然無法處理一些涉及高速運動場景和高動態范圍的真實世界場景。這是因為傳統的基于幀的傳感器存在諸如運動模糊和低動態范圍等問題。事件相機具有消除上述問題的能力。它輸出異步像素且彼此獨立工作[1]。每個像素對局部相對光強度變化很敏感,當這種變化超過閾值時,它們會連續產生稱為事件的信號。因其高動態范圍、高時間分辨率和低延遲的優勢,事件數據已越來越多地被納入各種識別任務中,包括目標檢測[2]、語義分割[3]等。此外,事件數據還被用于需要高速感知的挑戰性機器人應用中,例如能夠捕捉對象的四足機器人[4]和能夠避開動態障礙物的撲翼機器人[5]。

盡管事件相機具有令人滿意的特性,但不能像處理強度圖像那樣直接處理事件流,而高質量的強度圖像是理解視覺數據的最自然的方式。因此,從事件中重建強度圖像一直是基于事件的視覺研究的基石。重建高質量強度圖像的另一個好處是可以立即將成功的基于幀的計算機視覺方法應用于重建結果,以解決各種任務。

目前基于事件相機的圖像重建分為兩類:基于濾波的傳統方法和基于深度學習的方法。基于濾波的方法是通過對事件數據進行濾波處理來還原圖像序列,包括中值濾波和高斯濾波[6],但這些方法在處理復雜或動態場景的圖像時易失效。最近,基于深度學習的方法在基于事件的視頻重建任務中取得了顯著成果,為行人檢測和行人動作識別[7]等工作做出貢獻。Rebecq等[8]提出了一種新穎的遞歸網絡(E2VID)用于從大量事件中重建視頻,這是一種直接處理事件的端到端網絡。Cadena等[9]提出了一種基于條件生成對抗網絡的重建方法,將事件流數據用不同的表達方式來生成不同的灰度圖像。由于僅當像素的強度發生變化時才會異步生成事件,因此生成的事件體素柵格是稀疏張量,僅包含場景中變化部分的信息。這些體素柵格的稀疏性也非常不同。這使得神經網絡很難適應新的數據,并導致包含模糊、低對比度或涂抹偽影的問題。同時這些算法有初始化時間,此過程需要20到30幀,且第一幀的質量很差。

綜上所述,本文提出了一種基于Transformer殘差模塊的自監督重建算法,將光流估計與事件重建結合共同訓練學習實現自監督重建。本文的創新在于使用聯合訓練獲取高質量的初始幀并提高對特征的長期相關性學習能力,有效捕捉視頻上下幀的時空關聯特征。同時設計去噪預處理與亞像素上采樣操作模塊,抑制噪聲,減少信息損失,共同提高重建質量。實驗結果表明,在公開數據集上本文方法可以有效提高事件流的重建效果。


本文詳細內容請下載:

http://www.xxav2194.com/resource/share/2000006206


作者信息:

王立喜1,劉云平1,湯琴琴2,李家豪1

(1.南京信息工程大學 自動化學院,江蘇 南京 210016;

2.無錫學院 軌道交通學院, 江蘇 無錫 214015)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 色欲香天天天综合网站| caopon国产在线视频| 欧美日韩在线电影| 嘟嘟嘟www免费高清在线中文| 3571色影院| 宅男影院在线观看| 久久国产精品99精品国产| 欧美日韩国产成人高清视频| 四虎影视在线影院在线观看| 久久国产精品99精品国产987| 好大好硬好深好爽想要之黄蓉| 久久人人爽人人人人爽av| 欧美日韩国产三级| 免费看美女被靠到爽的视频| 露脸国语对白视频| 国产精品久久久久久一区二区三区 | 亚洲理论电影在线观看| 精品无码AV无码免费专区| 国产六月婷婷爱在线观看| 美腿丝袜亚洲综合| 夜夜高潮夜夜爽夜夜爱爱一区| 中文字幕一区二区三区久久网站 | 女人张腿让男人捅| 中文字幕永久免费| 日韩欧美一区二区三区| 亚洲国产欧洲综合997久久| 熟妇人妻中文字幕| 内射一区二区精品视频在线观看 | 国内精品在线播放| 一本一道波多野结衣一区| 无码日韩精品一区二区免费| 亚洲Av鲁丝一区二区三区| 水蜜桃亚洲一二三四在线| 免费看特级毛片| 老公说我是不是欠g了| 国产凸凹视频一区二区| 久草福利在线观看| 国产精品亚洲а∨无码播放 | 亚洲精品亚洲人成在线播放| 国产麻豆综合视频在线观看| tom39你们会回来感谢我的|