文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.165055
中文引用格式: 張雪英,張樂,孫穎,等. 基于KELM決策融合的語音情感識別[J].電子技術應用,2017,43(8):123-126,131.
英文引用格式: Zhang Xueying,Zhang Le,Sun Ying,et al. Speech emotion recognition based on decision fusion of KELM[J].Application of Electronic Technique,2017,43(8):123-126,131.
0 引言
人類的情感很難從一個量化的角度定義,其中語音是一種包含說話人信息、語義、情感的復雜信號,是識別情感狀態的有效途徑。語音情感識別是計算機分析語音信號的特征參數并自動判別情感狀態的一門技術,是語音信號處理領域中非常重要的研究方向,廣泛應用于人工服務、精神健康診斷治療、遠程教學、機器人等領域。
目前,國內外學者采用多種分類方法用于語音情感識別,常用的有隱馬爾科夫模型(Hidden Markov model,HMM)、支持向量機(Support Vector Machine,SVM)和人工神經網絡(Artificial Neural Network,ANN)等,NWE T L[1]等人對一個漢語普通話語音庫和一個緬甸語語音庫訓練和測試HMM,對6種情感的平均識別率可以達到75.5%和78.5%,TATO R[2]等人使用SVM對喜、怒、悲、中性4種情感進行識別研究,最終平均識別率達到73%。極限學習機(Extreme Learning Machine,ELM)是由HUANG G B等[3]于2006年提出的一種應用于廣義單隱層前饋神經網絡的學習算法,與常用的ANN、SVM相比極大地提高了網絡的學習速度和泛化性能[4],已經在故障診斷[5]、病理診斷[6]等領域得到應用。文獻[7]中證明ELM與SVM分類精度相似,但學習速度優于SVM、參數選擇更容易,同時文中將Mercer條件用于網絡模型,提出性能更好的核函數極限學習機(Extreme Learning Machine with Kernel,KELM),據此本文采用KELM作為分類器。
傳統的語音情感識別方法均是采用單一特征或多個特征簡單相加來構建單個網絡進行分類識別,這種模式若要達到最佳的識別結果,需選擇最全面的輸入特征以及最優的分類器,但是兩者兼顧最優是很難實現的。近年來提出的融合技術[8]通過制定融合規則在一定程度上實現了兩個“最優”。因此,本文提出融合KELM的方法,該方法不僅繼承了極限學習機分類精度高、學習速度快的性能,還具有融合技術識別率高的優勢。設計實驗將本文方法在柏林語音庫中測試,提取聚合經驗模態分解(Ensemble Empirical Mode Decomposition,EEMD)特征、韻律特征、梅爾倒譜系數特征(Mel-Fregurecy Cepstrum Coefficients,MFCC),通過對基分類器的輸出加權融合,實現語音情感識別。
1 核函數極限學習機
極限學習機的隱層參數均為隨機產生,且無需迭代,因此比傳統方法參數選擇簡單、學習速度快。核函數極限學習機由ELM衍生而來,其解決多分類識別問題的能力更強。對于一個輸入為d維向量xi,輸出標簽為ti(i=1,…,N)的基本極限學習機模型描述為:
KELM模型中,廣義逆矩陣中的參數C與核函數中的參數g的選擇會影響識別性能,需優化求解。
2 融合KELM
基于加權求和的分類器決策融合方法可以分為兩種:基于硬判決輸出和基于軟判決輸出的融合方法。對于前者,每個分類器的輸出是一個標簽,通過計算各分類器輸出的所有類別數量,將得到最大的票數的類別作為最后的輸出;而對于后者,每個分類器的輸出為決策概率,各個分類器按照分配的權重加權求和得到輸出結果。基于軟判決輸出的方法通過輸出一個介于0~1之間的概率相比于輸出0/1的硬判決輸出方法更能準確地分類,故選擇軟判決的融合方法。
這里需要解決兩個問題:(1)將KELM的數值輸出轉化為概率輸出;(2)確定決策策略。
2.1 概率矩陣
基本KELM的輸出為數值輸出,為了將輸出范圍統一,仿照概率支持向量機的研究[10]將KELM的輸出轉化為概率形式:
2.2 決策策略
融合權值的確定是一個關鍵問題,決策權重一般由分類器在訓練數據上的性能決定,決策時會給訓練時性能好的分類器分配較大的權重,但這樣會忽略測試樣本的多樣性和特性,所以計算權重分布時不僅應考慮分類器的性能,還應考慮測試樣本的特性,這是本文制定決策策略的核心思想。融合KELM算法實現框圖如圖1。
該方法的具體實現如下:
(1)訓練階段
訓練樣本經預處理后,分別提取n類特征,記為F1,…,Fn,利用特征分別訓練N個核函數極限學習機,記為KELM i,i=1,…,N。
(2)識別階段
①對于預處理后的測試樣本x,分別提取n類特征F1,…,Fn,將特征向量分別輸入步驟(1)訓練好的KELM i中。
②建立概率矩陣。利用式(1)建立分類器的概率矩陣。
③確定權值。將樣本輸入KELM中,若分類器將某樣本分類至某標簽的概率越大,說明該樣本特征距離判別超平面越遠,則分類器對該樣本的分類越準確,其融合權重相應的應該越大,相當于“放大”準確程度,由式(10)計算第k組分類器各類別概率輸出的最大值,記為:
3 實驗
3.1 實驗數據
實驗選用柏林語音庫為數據庫來源。選擇293句包含4種情感、長度近似相等的語句組成本次實驗數據庫,其中高興71句、悲傷62句、憤怒81句、中性79句,各選擇 2/3作為訓練樣本,1/3作為測試樣本。
3.2 實驗與結果分析
對語音庫中的樣本進行預處理,主要包括端點檢測、預加重和加窗分幀。特征選取前期提取的EEMD特征(提取過程說明:信號經EEMD分解后,選取前七階固有模態分量提取能量特征)、韻律特征(包括基音頻率、語速、短時能量、過零率、共振峰頻率及統計參數)、MFCC 3種特征。
實驗采用網格尋優法選擇正則化系數和核函數參數g,反復試驗對依據特征建立的3 個基分類器分別進行參數尋優,最終確定參數組合如表 1 所示。
表2給出了各基分類器以及本文提出的決策融合方法(簡稱為FKELM)的實驗結果,可以看出本文方法無論在4種情感的識別率還是平均識別率都有很大程度的提高,尤其是在情感“高興”、“悲傷”中的表現,FKELM的識別率比相應識別率最高的基分類器分別提高了20.83%、15%,平均識別率相比于最好的基分類器也提高了11.52%,圖2更直觀地反映了識別性能的提高。
為了說明本文方法的優勢,設計兩組對比實驗,第一組實驗是與常用單分類器比較,將所有特征共1 069維輸入分類器中,結果見表3,單分類器中BP神經網絡的性能最好,但與FKELM相比仍有很大差距;第二組實驗是與常用的融合策略相比,結果見表4,平均決策的平均識別率達到了81.81%,但與融合KELM的平均識別率還有近7%的差距。
從實驗結果與對比實驗結果看,本文提出的方法表現出了很大的優勢,原因有三:(1)在特征方面,特征融合減弱了由于單一特征無法全面描述情感信息而導致的識別率低的缺點,在一定程度上提升了識別結果;(2)識別網絡參數選擇,考慮到特征的差異性,3組KELM的參數均分別尋優,選擇了單個特征識別率最高情況下的參數組合;(3)決策策略的制定,權重依據分類器概率矩陣而定,綜合權衡了分類器的性能和輸入樣本的特性,使得融合KELM方法比單分類器在決策時出錯更少。因此本文提出的融合KELM是一個有效的語音情感識別方法。
4 結論
本文針對單分類器情況下識別性能不理想的問題,提出了融合KELM的方法,并提出一種同時考慮分類器性能和輸入樣本特性的決策策略。首先針對3類語音特征訓練3個KELM,對基分類器分別尋優選擇最佳參數組合,然后采用基于概率矩陣而制定的融合策略對基分類器的判決結果決策融合,在柏林語音庫中進行驗證。結果表明,相比于傳統的單一分類器,本文方法的識別性能有很大程度提高,與經典決策策略相比也有明顯優勢,為語音情感識別提供了一種可靠的方法。
參考文獻
[1] NWE T L,FOO S W,DE S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.
[2] TATO R,SANTOS R,KOMPE R,et al.Emotion space improves emotion recognition[C].Denver,Colorado:CSLP,2002.
[3] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1):489-501.
[4] 鄧萬宇,鄭慶華,陳琳,等.神經網絡極速學習方法研究[J].計算機學報,2010,33(2):279-287.
[5] 陳紹煒,柳光峰,冶帥.基于核極限學習機的模擬電路故障診斷研究[J].西北工業大學學報,2015,33(2):290-294.
[6] 劉小峰,張翔,王雪.基于EEG去趨勢波動分析和極限學習機的癲癇發作自動檢測與分類識別[J].納米技術與精密工程,2015,13(6):397-403.
[7] HUANG G B,ZHOU H,DING X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2012,42(2):513-529.
[8] HALL D L,LLINAS J.An introduction to multisensor data fusion[J].Proceedings of the IEEE,1997,85(1):6-23.
[9] 張文博,姬紅兵.融合極限學習機[J].電子與信息學報,2013,35(11):2828-2732.
[10] PLATT J C.Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[M][S.1.]:Massachusetts Institute of Technology Press,1999.
作者信息:
張雪英,張 樂,孫 穎,張 衛
(太原理工大學 信息工程學院,山西 太原030024)