《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于梯度優化的大語言模型后門識別探究
基于梯度優化的大語言模型后門識別探究
網絡安全與數據治理
陳佳華1,陳宇2,曹婍3
1 電子科技大學信息與軟件工程學院,四川成都610066;2 北京郵電大學計算機學院,北京100876; 3 中國科學院計算技術研究所智能算法安全重點實驗室,北京100190
摘要: 隨著大語言模型的流行并且應用在越來越多的領域,大語言模型的安全問題也隨之而來。 通常訓練大語言模型對數據集以及計算資源有著極為苛刻的要求,所以有使用需求的用戶大部分都直接利用網絡上開源的數據集以及模型,這給后門攻擊提供了絕佳的溫室。后門攻擊是指用戶在模型中輸入正常數據時模型表現像沒有注入后門時一樣正常,但當輸入帶有后門觸發器的數據時模型輸出異常。防止后門攻擊的有效方法就是進行后門識別。目前基于梯度的優化方法是比較常用的,但使用這些方法時內部影響因子的設定對識別效果具有一定影響。文章就詞令牌數量、最鄰近數量、噪聲大小進行了實驗測量和作用機制的分析,以便為后續使用這些方法的研究者提供參考。
中圖分類號:TP309文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2023.12.003
引用格式:陳佳華,陳宇,曹婍.基于梯度優化的大語言模型后門識別探究[J].網絡安全與數據治理,2023,42(12):14-19.
Research on gradient optimization based backdoor identification of large language model
Chen Jiahua1,Chen Yu 2,Cao Qi3
1 School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 610066, China; 2 School of Computer Science,Beijing University of Posts and Telecommunications, Beijing 100876, China; 3 CAS Key Laboratory of AI Security, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
Abstract: With the popularity of large language models (LLM) and their application in more fields, the security concerns of large language models also arise. In general, training LLM has extremely demanding requirements for datasets and computing resources, so most users who need to use them directly use opensource datasets and models on the Internet, which provides an excellent greenhouse for backdoor attacks. A backdoor attack is when a user enters normal data into the model as if it were not injected with a backdoor, but the model output is abnormal when data with a backdoor trigger is input. An effective way to prevent backdoor attacks is to perform backdoor identification. At present, gradientbased optimization methods are commonly used, but the setting of internal impact factors has a great impact on the recognition effect when using these methods. In this paper, the word token length, the number of nearest neighbors, and the noise scale are measured experimentally and the mechanism of action is analyzed, so as to provide reference for researchers who use these methods in the future.
Key words : large language models; backdoor attack; gradient based backdoor identification; impact factor

引言

近年來,大語言模型越來越多地運用在了人們的日常生活中,也誕生了很多著名的模型比如ChatGPT、GPT4[1]、LLaMA[2]等。這些模型能夠進行廣泛的任務如文本總結、情感分析等,有研究表明大模型具有小模型沒有的能力[3],如推理能力等。大語言模型也成為現在研究的熱點之一。但任何事物都有它的兩面性。大語言模型的訓練需要有足夠且良好的訓練數據集,且由于其龐大的參數量,對計算資源的需求也極高。例如GPT35具有1 750億的參數量,使用數據集達到了45 TB的大小[4]。在大部分情況下,使用者可能會選擇直接使用網絡上開源的大模型來進行下游任務的完成,或者使用領域特定數據集在開源大模型的基礎上進行微調從而定制化領域特定模型。在這種大環境下,開源大模型如果存在安全問題將造成嚴重的危害。


作者信息

陳佳華1,陳宇2,曹婍3

(1 電子科技大學信息與軟件工程學院,四川成都610066;2 北京郵電大學計算機學院,北京100876;

3 中國科學院計算技術研究所智能算法安全重點實驗室,北京100190)


文章下載地址:http://www.xxav2194.com/resource/share/2000005871



weidian.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 免费A级毛片无码无遮挡| 国产第一页福利| 久久伊人精品热在75| 波多野吉衣一区二区 | 男人j桶进女人p无遮挡在线观看 | 国产一区二区日韩欧美在线| 37大但人文艺术a级| 官场猎艳警花美乳美妇| 久久国产亚洲电影天堂| 欧美日韩精品久久久免费观看| 吃奶摸下激烈免费视频免费| 黑人一个接一个上来糟蹋| 国产黄大片在线观看| 一级毛片直接看| 日韩乱码人妻无码中文视频| 亚洲无成人网77777| 男朋友想吻我腿中间部位| 国产三级在线播放不卡| 人人洗澡人人洗澡人人| 国内自拍青青草| 一区二区三区在线免费看| 日本一区二区三区高清在线观看| 亚洲人在线视频| 永久免费观看的毛片的网站| 公在厨房对我猛烈进出视频| 被男按摩师添的好爽在线直播| 国产激情一区二区三区| 91禁漫免费进入| 奇米影视7777狠狠狠狠色| 中文字幕在线观看日韩| 日韩在线视频精品| 亚洲午夜电影网| 波多野给衣一区二区三区| 全彩口工彩漫画无遮漫画| 老鸭窝二区三区在线播放| 国产在线无码精品电影网| jlzzjlzz亚洲jzjzjz| 国产色a在线观看| a毛片成人免费全部播放| 少妇高潮喷潮久久久影院| 中文字幕精品一区|