中文引用格式: 萬成凱,李居朋. 基于改進CenterNet的發票檢測算法[J]. 電子技術應用,2025,51(6):71-78.
英文引用格式: Wan Chengkai,Li Jupeng. Detection algorithm for invoice based on improved CenterNet[J]. Application of Electronic Technique,2025,51(6):71-78.
引言
隨著社會的不斷發展,大量發票的錄入和歸檔,對于財務人員是相當繁重的工作。在以往的工作中,財務人員往往采用手工錄入的方式,這種錄入方式不但效率低下,而且常常因為工作人員的疲勞產生錯誤而造成損失。隨著圖像處理與深度學習技術的興起,越來越多的研究人員開始研究基于數字圖像技術的發票自動識別算法[1-2]。
基于數字圖像技術的發票自動識別通常包括發票檢測、發票信息區定位、字符定位、字符識別等步驟。其中首要的步驟就是發票檢測。發票檢測是檢測出一張圖像中是否存在發票,并對每張存在的發票進行精確定位。由于在實際的財務歸檔工作中發票的朝向往往上下左右各不相同,因此發票檢測不但要檢測出發票的類型、位置,還要同時檢測出發票的朝向。
目前基于深度學習的目標檢測方法可以分為one-stage和two-stage方法兩類。two-stage的方法如Faster R-CNN[3]。這類檢測方法整個檢測過程分為兩個階段。在第一個階段,算法需要找到一些可能的目標存在區域;在第二個階段,算法在這可能的區域上進行分類和位置回歸。這類方法檢測精度高,但運行速度通常會比較慢,難以滿足實時檢測的需求。
one-stage的方法如YOLO系列[4-8]、SSD[9]等。這類檢測方法是一個端到端的檢測過程,它可以直接回歸出物體的類別和位置。該類方法過程簡潔、檢測速度快,目前已被廣泛應用于各種目標檢測任務當中,但其準確性仍有待提高。
YOLO系列、SSD等檢測方法均屬于基于錨點(anchor)的方法,需要事先統計anchor尺寸和比例等先驗知識,而且在計算過程中,會計算大量無用的候選框。雖然算法后期可以通過非極大值抑制等方法去除多余的候選框,但會帶來計算開銷的增加。以CenterNet[10]為代表的無anchor檢測方法克服了基于anchor方法的缺點,可以直接對目標中心點和尺寸進行預測。
本文結合YOLOv5的主干網絡和CenterNet各自的優點,提出了一種改進的CenterNet發票檢測算法。算法模型采用參考了CSPDarkNet的主干網絡,引入了注意力機制,并且采用新的輸出結構和損失函數,可以端到端地檢測出發票的分類、位置和朝向。
本文詳細內容請下載:
http://www.xxav2194.com/resource/share/2000006565
作者信息:
萬成凱1,李居朋2
(1.北京世紀瑞爾技術股份有限公司 北京 100085;
2.北京交通大學 電子信息工程學院,北京 100044)