《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 基于代碼嵌入的二進(jìn)制代碼相似性分析方法
基于代碼嵌入的二進(jìn)制代碼相似性分析方法
網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2023年3期
熊敏,薛吟興,徐云
(1.中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽合肥230026; 2.安徽省高性能計(jì)算重點(diǎn)實(shí)驗(yàn)室,安徽合肥230026)
摘要: 代碼嵌入利用神經(jīng)網(wǎng)絡(luò)模型將二進(jìn)制函數(shù)的代碼表示轉(zhuǎn)化為向量,在漏洞搜索等應(yīng)用中展現(xiàn)了優(yōu)勢(shì)。現(xiàn)有的方法將函數(shù)表示為匯編指令序列、控制流圖的拓?fù)浣Y(jié)構(gòu)或若干路徑,都沒有克服不同編譯環(huán)境導(dǎo)致控制流圖結(jié)構(gòu)變化的干擾。為此,設(shè)計(jì)了基于基本塊樹(Basic Block Tree, BBT)的代碼表示以及構(gòu)建了對(duì)應(yīng)的代碼嵌入模型BBTree。首先,二進(jìn)制函數(shù)被表示為一系列BBT,每個(gè)BBT被處理為指令序列;其次,BBTree利用LSTM和BiGRU將基于BBT的代碼表示轉(zhuǎn)化為向量;最后,通過計(jì)算向量間的距離去高效衡量對(duì)應(yīng)函數(shù)的相似性。在代碼搜索中,BBTree的平均準(zhǔn)確率比主流工具提升了24.8%;在漏洞搜索中,BBTree的平均召回率比主流工具提升了26.1%。
中圖分類號(hào):TP311.5
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19358/j.issn.2097-1788.2023.03.010
引用格式:熊敏,薛吟興,徐云.基于代碼嵌入的二進(jìn)制代碼相似性分析方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(3):58-67.
A binary code similarity analysis method based on code embedding
Xiong Min1,2,Xue Yinxing1,Xu Yun 1,2
(1. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China; 2. Key Laboratory of High Performance Computing of Anhui Province, Hefei 230026, China)
Abstract: Code embedding utilizes neural network models to convert binary code into a vector, showing advantages in applications such as vulnerability searching. Existing methods represent functions as assembly instruction sequences, topology structures of control flow graphs, or several paths.However, none of them can overcome the interference produced by the structural changes in control flow graphs caused by different compilation environments.To this end, this paper designs a basic block tree (BBT)-based code representation and builds a corresponding code embedding model named BBTree.Firstly, the binary function is represented as a series of BBTs, and each BBT is processed into an instruction sequence Secondly, BBTree utilizes LSTM and Bi.GRU to convert the BBT.based code representation into a numerical vector Last, the distance between vectors is calculated to efficiently measure the similarity of corresponding functions. In code search, BBTree’s average accuracy rate is 24.8% higher than mainstream tools; in vulnerability search, BBTree’s average recall rate is 26.1% higher than mainstream tools.
Key words :

0    引言

由于商業(yè)程序、遺留程序和惡意代碼的源碼不公開, 因此,對(duì)這些程序進(jìn)行二進(jìn)制代碼相似性分析具有很多安全應(yīng)用,比如抄襲檢測(cè)、惡意軟件檢測(cè)、漏洞搜索等。相似性分析旨在根據(jù)已有的二進(jìn)制代碼(如已揭露的漏洞等)在代碼庫(kù)中搜索出語義相似的二進(jìn)制代碼,從而探測(cè)出潛在的漏洞,維護(hù)程序的安全。二進(jìn)制代碼嵌入作為一種新興的相似性分析技術(shù),利用神經(jīng)網(wǎng)絡(luò)模型將二進(jìn)制函數(shù)的代碼表示轉(zhuǎn)化為數(shù)值向量,不僅學(xué)習(xí)了二進(jìn)制代碼的語義,還可以通過計(jì)算向量間的距離去定量分析對(duì)應(yīng)函數(shù)的相似性。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.xxav2194.com/resource/share/2000005257




作者信息:

熊敏1,2,薛吟興1,徐云1,2

(1.中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽合肥230026;2.安徽省高性能計(jì)算重點(diǎn)實(shí)驗(yàn)室,安徽合肥230026)


微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 中国在线观看免费的www| 国产精品视频a| 亚洲av专区无码观看精品天堂| 黑人系列合集h| 好男人资源在线观看好| 亚洲欧美日韩精品久久| 蜜中蜜3在线观看视频| 国产色a在线观看| 亚洲春色第一页| 国产性夜夜夜春夜夜爽| 日日夜夜狠狠操| 亚洲国产精品午夜电影| 精品久久久久久中文字幕无碍| 国产在线观看麻豆91精品免费| 91麻豆久久久| 日韩人妻潮喷中文在线视频| 亚洲综合色7777情网站777| 99任你躁精品视频| 在线观看免费午夜大片| 中文字幕人妻高清乱码| 最近免费中文字幕mv在线电影| 人妻无码一区二区三区| 欧美深夜福利视频| 夜夜偷天天爽夜夜爱| 久久精品欧美日韩精品| 精品国产乱码一区二区三区麻豆| 国产成人精品免费久久久久| 中字幕视频在线永久在线| 最新国产精品精品视频| 动漫乱理伦片在线观看| 高清国产av一区二区三区| 国产精品无码2021在线观看 | 伊人久久五月天| 色一情一乱一伦一视频免费看| 国产成人黄色小说| 67194成l人在线观看线路无码| 日本肉体裸交xxxxbbbb| 亚洲伊人色欲综合网| 翁情难自禁无删减版电影| 国产成人欧美视频在线| jlzz奶水太多奶水太多|