引言
隨著信息化的快速發(fā)展,網(wǎng)絡(luò)流量的安全性備受關(guān)注。近年來,隨著 SSL/TLS 等流量加密算法的普及,加密流量比例已超過 90%。雖然加密技術(shù)提升了信息傳輸?shù)陌踩裕絹碓蕉嗟膼阂廛浖ㄟ^加密技術(shù)隱藏自己,引發(fā)了更多不可控的安全隱患。《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2023年6月,我國互聯(lián)網(wǎng)普及率更是高達76.4%[1],互聯(lián)網(wǎng)企業(yè)對加密流量識別和檢測的不重視給了不法分子更多可乘之機,如何保障安全的網(wǎng)絡(luò)環(huán)境成為了當下的挑戰(zhàn)。SSL/TLS協(xié)議是當下主流的加密算法之一,攻擊者可以通過將惡意行為嵌入被 SSL/TLS 協(xié)議加密的內(nèi)容中,對公眾網(wǎng)絡(luò)安全造成威脅。傳統(tǒng)的基于端口號和深度包檢測的流量分析方法在加密流量面前顯得力不從心。在加密通信時代,學界積極探索新的技術(shù)路徑,如楊旭提出的基于流量統(tǒng)計特征的分類方法,將流量外部統(tǒng)計特征與機器學習相結(jié)合,有效解決了偽裝端口、加密流量等問題,為加密流量分類提供了新思路[2]。仝鑫等人提出的基于機器學習的加密流量分析方法,展示了該領(lǐng)域在特征工程、分類器模型等方面的研究進展,在一定程度上提高了加密流量識別的準確率[3]。此外,朱蓓佳等人提出的基于對比學習的加密流量檢測技術(shù),通過設(shè)計特定的檢測方案來提高檢測準確率和泛化性,但仍需在保障數(shù)據(jù)安全方面進一步探索[4]。在此情形下,迫切需求一種既能有效利用數(shù)據(jù)又能保障數(shù)據(jù)安全的新技術(shù),聯(lián)邦學習等技術(shù)應(yīng)運而生,其核心優(yōu)勢在于可在不匯聚原始數(shù)據(jù)的前提下進行分布式建模,打破數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)隱私保護與高效利用的雙重目標。面對這一問題,本研究認為,根據(jù)SSL/TLS分別在客戶端與服務(wù)端相互認證等技術(shù)特點,使用分布式聯(lián)邦學習進行本地監(jiān)測成為了一種可行的方案。聯(lián)邦學習的核心理念是在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上,利用各個節(jié)點完全掌握的數(shù)據(jù)共同建模,核心優(yōu)勢在于原始數(shù)據(jù)無需匯聚在中央服務(wù)器,在各個終端服務(wù)器即可進行訓練和計算模型梯度信息,只將參數(shù)和梯度等信息上傳至中央服務(wù)器,通過加權(quán)等方式整合最終模型,下發(fā)到各個服務(wù)器終端,從而有效打破數(shù)據(jù)孤島,提升模型的效果。該方法不僅可以有效保護用戶隱私,還可以綜合大量數(shù)據(jù)使得系統(tǒng)對加密流量更加敏感,識別率大大提高。 本文研究了基于聯(lián)邦學習技術(shù)的SSL/TLS加密流量識別,通過預處理網(wǎng)絡(luò)流量數(shù)據(jù),提取關(guān)鍵特征,并利用聯(lián)邦學習框架訓練模型,實現(xiàn)了高效的加密流量分類,同時保護了數(shù)據(jù)安全和用戶隱私。實驗結(jié)果表明,該方法在分類準確率、實時性和隱私保護等方面均優(yōu)于傳統(tǒng)方法。
本文詳細內(nèi)容請下載:
http://www.xxav2194.com/resource/share/2000006295
作者信息:
崔又文1,2,馮千燁1,何云華1,高健桐1,2,單伯瑜1,2,劉馨妍1
(1.北方工業(yè)大學信息學院,北京100144;
2.文脈聯(lián)坊(北京)科技有限責任公司,北京100143)