《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 融入翻譯記憶庫的法律領域神經機器翻譯方法*
融入翻譯記憶庫的法律領域神經機器翻譯方法*
電子技術應用
曾文顥1,2,張勇丙1,2,余正濤1,2,賴華1,2
(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500; 2.昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)
摘要: 面向法律領域的神經機器翻譯對于合同文本翻譯等應用場景具有重要價值。由于法律領域雙語對齊語料稀缺,翻譯效果還不理想。針對該問題,目前有效的方法是融入翻譯記憶或翻譯模版等外部信息,但法律領域的文本多具有固定的表達結構且用詞準確規范,在翻譯記憶庫中同時利用翻譯結構信息和語義信息能夠進一步提升法律領域翻譯性能。基于此,提出一種融入翻譯記憶庫的法律領域機器翻譯方法。提出了一種新的法律領域翻譯記憶庫,首先基于語義和結構信息的相似性訓練跨語言檢索模型以充分利用單語數據,然后從翻譯記憶庫中檢索與輸入源句相關的一組翻譯記憶和翻譯模版,進而引導翻譯模型生成目標句子。實驗表明,在MHLAW數據集上,提出的方法可以使譯文較基線模型提升1.28個BLEU點。
中圖分類號:TP391 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.233887
中文引用格式: 曾文顥,張勇丙,余正濤,等. 融入翻譯記憶庫的法律領域神經機器翻譯方法[J]. 電子技術應用,2023,49(9):39-45.
英文引用格式: Zeng Wenhao,Zhang Yongbing,Yu Zhengtao,et al. Legal neural machine translation based on translation memory[J]. Application of Electronic Technique,2023,49(9):39-45.
Legal neural machine translation based on translation memory
Zeng Wenhao1,2,Zhang Yongbing1,2,Yu Zhengtao1,2,Lai Hua1,2
(1.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China; 2.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming 650500,China)
Abstract: Neural machine translation for the legal domain is of great value for application scenarios such as contract text translation. Due to the scarcity of bilingual corpora in the legal domain, the machine translation performance is still not satisfactory. A practical method to address this problem is to integrate prior knowledge such as translation memory(TM) or templates. However, texts in the legal domain mostly have fixed expression structures and precise wording specifications. The performance of translation in the legal field can be further improved by using both sentence structure information and semantic information in the translation memory. Based on this, this paper proposes a new framework that uses monolingual TM and performs learnable memory retrieval in a cross-language manner. Firstly, this monolingual translation memories contain translation memory and translation template, which can provide richer external knowledge to the model. Secondly, the retrieval model and the translation model can be jointly optimized. Experiments on the MHLAW dataset show that this model surpasses baseline models up to 1.28 BLEU points.
Key words : neural machine translation;semantic information;structure information;translation memory;translation template

0 引言

近年來,隨著深度學習的發展,神經機器翻譯(NMT)在大量翻譯任務上取得了巨大成功[1],面向法律領域的機器翻譯也得到了領域內學者的大量關注。法律領域機器翻譯在法律條款、合同文本和涉外公證文書等實際場景中也具有重要的應用價值。

目前融入外部信息是提升特定領域機器翻譯的有效途徑[2-5]。相較于傳統的生成模型,引入外部信息可以讓模型獲得訓練數據中沒有的附加信息,降低文本生成的難度,減少對訓練數據的依賴。現有的融入外部信息的方法主要分為三類:基于雙語詞典、基于翻譯記憶和基于翻譯模版

基于雙語詞典的方法[6]用于解決低頻詞和術語翻譯等問題,利用雙語詞典作為外部資源輸入神經網絡結構。Arthur等人[7]提出一種通過使用離散詞典來增強神經機器翻譯系統的方法,以解決低頻次翻譯錯誤問題,這些詞典可以有效地編碼這些低頻單詞的翻譯。



本文詳細內容請下載:http://www.xxav2194.com/resource/share/2000005635




作者信息:

曾文顥1,2,張勇丙1,2,余正濤1,2,賴華1,2

(1.昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2.昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)


微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 久久精品国1国二国三| 午夜激情福利视频| 97精品人妻系列无码人妻| 无码超乳爆乳中文字幕久久| 国产男女猛烈无遮挡免费网站| 不用付费的黄色软件| 特级毛片视频在线| 国产国产精品人在线观看| 999久久久免费精品国产| 成年在线网站免费观看无广告| 亚洲乱码一二三四区乱码| 男男暴菊gay无套网站| 国产午夜三级一区二区三| 2021果冻传媒剧情在线观看| 少妇高潮太爽了在线视频| 久久婷婷五月综合色奶水99啪| 欧美日韩精品一区二区三区不卡| 动漫人物桶机动漫| 青青青青啪视频在线观看| 国产精品成人无码久久久| jizz18日本人在线播放| 无码人妻H动漫中文字幕| 亚洲av丰满熟妇在线播放| 翁止熄痒禁伦短文合集免费视频| 国产精品12页| 99自拍视频在线观看| 成年免费视频黄网站在线观看| 五月天精品在线| 欧美视频www| 免费高清av一区二区三区| 青青青国产在线| 国产精品一区二区三区久久| 99视频精品全部在线观看| 成人国产精品视频频| 久久婷婷激情综合色综合俺也去 | 日本里番全彩acg里番下拉式| 亚洲欧洲免费无码| 热99re久久精品天堂vr| 国产在线高清精品二区色五郎| 67194成l人在线观看线路无码| 女的扒开尿口让男人桶|