摘 要: 參照“Mediator/Wrapper”體系結構,利用混合本體的概念設計了基于本體的保險企業數據集成模型,以六元組的方式為例完成了對保險公司新型人壽保險信息的混合本體定義。利用本體技術通過領域建模描述該領域的概念及其相互關系, 可以有效地完成保險公司異構數據的集成和深層的數據共享,提供統一的信息查詢及用戶視圖, 進而提高保險公司管理支持和決策的可靠性和準確性。
關鍵詞: 異構數據;語義異構;數據集成;本體;人壽保險
過去二十多年來中國保險企業的信息化建設大多缺乏統籌規劃,造成了各種不同應用系統盲目上馬的現象。不同的業務系統使用不同的后臺數據庫,不同的系統開發人員對業務術語缺乏統一定義,這些問題引發了現今企業系統管理的巨大問題;同時由于大多數應用系統之間缺乏標準化的數據接口定義,因此不同的應用系統之間必然會成為彼此隔離的信息孤島,信息孤島是當前信息化建設中亟需解決的主要問題[1],徹底消除信息孤島,有效地集成現有及未來的業務應用系統的信息數據已成為當前信息化建設的重點工作。
1 保險公司數據集成研究
數據量大和數據安全要求高是保險業的特點,中國保險業發展到今天,大多數人壽保險公司除具備核心業務系統之外,還建立了辦公自動化系統、財務系統、決策支持系統、數據倉庫以及相關的其他系統,各種類型的數據在成倍增長。目前來看,主流保險公司的數據集中已告一段落,接下來的主要課題是數據的共享及集成利用。
國外許多保險公司早在十幾年前就開始了數據集成技術的研究和運用,多數保險公司已完成了數據集成和整合技術對其個險系統、團險系統、銀行保險系統、年金系統和養老金系統等用戶及保單數據的集成[1]。
在業界,數據集成的概念比較混亂,例如系統整合、應用整合、展現整合、存儲整合、數據庫整合、數據大集中等。這些不同的概念從不同的層次、不同的角度闡述了信息系統整合的內涵和外延。本文主要探討異構平臺下的數據集成。
一般情況下數據的異構包括兩種,即語法異構和語義異構。語法異構包含不同的數據庫系統或不同數據結構,對于此類異構數據主要的集成方法是將異構數據轉換成XML數據模式。對于語義異構的數據集成可以利用本體技術通過領域建模描述該領域的概念及其相互關系。
2 本體的概念及建模
2.1 本體論的概念
起源于哲學的本體論源于對萬物本質的追問,其派生于希臘語onto和logia,是一門研究事物根本的形而上的科學。本體論在哲學外的應用主要集中在信息技術和人工智能領域。伴隨著領域建模、知識工程和數據庫等技術的發展,在各領域中需要一個通用的概念描述,來說明在該領域本質上存在的對象、過程、屬性及相互依存關系等。
1980年McCathy基于前人的理論提出“以邏輯概念為基礎的智能系統必須列出所有存在的事物并構建一個本體來描述我們的世界”,正式提出人工智能領域的本體論概念[2]。1993年Gruber提出第一個被IT領域廣泛接受的本體論正式定義“an ontology is an explicit specification of a conceptualization”[3]。1998年Guarino通過分析本體論與概念化之間的區別對Gruber的定義進行修訂并提出“域空間”的概念,在此基礎上通過在澄清本體、預定模型和概念化的基礎上得到了本體論的定義:“本體論是一個邏輯理論,用來說明一個正規詞匯表的預定含義。”[4]
2.2 本體建模
在設計本體之前,首先要進行本體建模,也就是用形式化方法定義本體的語義,本體的建模是知識工程中實現知識重用和語義共享的基礎,到現在還沒有一種統一的形式化本體定義標準。
研究者們根據研究與應用的不同背景給出了多種形式化的定義方式,六元組定義[5]是比較流行的一種。其形式化定義如下:
定義1 資源庫本體是一個六元組:
O={C,A,R,H,I,X}
其中,C是概念的集合;A是屬性的集合;R是關系的集合;H是概念層次;I是實例的集合;X是本體公理的集合。
3 基于本體的保險公司數據集成實施模型
3.1 基于本體的保險公司數據集成模型
在大多數的大型企業里,異構數據的集成非常復雜且對企業相當重要。來自經濟和法規方面的壓力使得這些企業更多地聚焦于如何獲取和組織這些數據以進行集成,關注集成數據的質量和數據定義的標準。為此,企業開始注重通過數據集成管理來建好企業的數據集成模型,一個典型的基于本體的企業數據集成模型如圖1所示。
上述基于混合本體的保險公司數據集成模型參照“Mediator/Wrapper”[6]體系結構,運用了混合本體的概念設計,將mediator/wrapper虛擬整合機制整合到系統中,通過mediator和wrapper來整合。mediator和wrapper都是軟件組件,位于用戶和數據源之間,mediator服務于處理用戶提問和查詢結果的整合,wrapper則負責對信息源的連接和具體查詢。
遵循mediator/wrapper整合機制可保持各個異構保險數據源的自治性,滿足局部的各種應用,并同時發揮mediator的作用,滿足全局性應用需求。在mediator中引入ontology等語義相關技術后,能夠有效解決知識整合、個性化服務等問題。使用這種機制的整合系統不需要在本地存儲大量資源,因而能夠適應網絡環境下信息源系統高度自治、數量多、更新頻繁等特點。
3.2 混合本體的構建
舉例說明基于混合本體的信息集成技術,對于不同的數據源(如個險系統和銀行保險系統),將新型人壽保險信息按類型和銷售渠道分類存放,構造局部本體OI和OII結構分別如圖2、圖3所示。
通過對數據源進行分析識別,找出兩個不同的數據源中重要的原語來定義本體。
采用前面提到的六元組來完成OI本體的建模,由于系統比較簡單,只需要使用C、A、H三個元素,表示為:
C={新型人壽保險,保險產品,代理人銷售人員,投連險,萬能險,分紅險};
A={包含(代理人銷售,保險產品),歸類于(保險產品,新型人壽保險),銷售渠道(代理人銷售人員,新型人壽保險)};
H={(投連險,保險產品),(萬能險,保險產品),(分紅險,保險產品),保險產品…}
用OWL語言描述本體OI:
<owl: Class rdf:ID =“新型人壽保險”>
<owl: Class rdf:ID =“保險產品”>
<owl: Class rdf:ID =“代理人銷售人員”>
<owl: Class rdf:ID =“投連險”>
- <rdfs: subClassOf>
<owl: Class rdf:about =“#保險產品”/>
</rdfs: subClassOf>
</owl: Class >
<owl: Class rdf:ID =“萬能險”>
- <rdfs:subClassOf >
<owl: Class rdf:about =“#保險產品”/>
</ rdfs:subClassOf>
</owl: Class >
<owl: Class rdf:ID =“分紅險”>
- <rdfs:subClassOf>
<owl: Class rdf:about =“#保險產品”/>
</rdfs:subClassOf>
</owl: Class>
<owl: ObjectProperty rdf:ID =“包含”>
<rdfs: domain rdf:resource =“#代理人銷售人員”/>
<rdfs: range rdf:resource =“#保險產品”/>
</owl: ObjectProperty>
<owl: ObjectProperty rdf:ID =“歸類于”>
<rdfs: domain rdf: resource =“#保險產品”/>
<rdfs: range rdf: resource =“#新型人壽保險”/>
</owl: ObjectProperty>
<owl: ObjectProperty rdf:ID =“銷售渠道”>
<rdfs:domain rdf:resource =“#代理人銷售人員”/>
<rdfs:range rdf:resource =“#新型人壽保險”/>
</owl: ObjectProperty>
參照以上定義可以得到本體OII的描述。分析可得局部本體OI、OII存在以下問題:
(1)使用不同的元語表示同一概念:
保險類型→保險產品;
代理人銷售人員→營銷人員;
投連險→投資聯結保險
(2)OI中包含了OII中不存在的概念“分紅險”。
通過對類、屬性及其類間關系的集成合并局部本體,將OI,OII兩個本體聯系起來建立一個全局本體,然后在全局本體和局部本體之間建立映射,可得到如圖4所示的全局本體OG。
共享詞匯集為:新型人壽保險, 保險產品,營銷人員,投連險,萬能險,分紅險。全局本體OG中的“保險產品”是由OI中的“保險產品”和OII中的“保險類型”間相等的概念合并得到。全局本體OG中的概念“分紅險”是由OI中的“分紅險”直接拷貝得到的。其相應的三元組為:
C={新型人壽保險,保險產品,營銷人員,投連險,萬能險,分紅險};
A={包含(營銷人員,保險產品),歸類于(保險產品,新型人壽保險),銷售渠道(營銷人員,新型人壽保險)};
H={(投連險,保險產品),(萬能險,保險產品),(分紅險,保險產品),保險產品…}。
全局本體在混合本體中的功能為:
(1)在異構數據源和應用界面之間形成一個中介層,由于數據來源的復雜性,這些數據可能存放在不同的地理位置、不同的數據庫和不同的應用之中;
(2)利用共享概念創建全局本體;
(3)提供給用戶界面的綜合查詢一個概念以上的統一視圖,用戶通過提交一個基于全局本體之上的RDF查詢就能獲取所有相關數據源的數據以實現概念上的互操作。
通過參照“Mediator/Wrapper”體系結構,利用混合本體的概念設計基于本體的保險企業數據集成模型,可以有效地完成保險公司數據大集中后的異構數據的集成和深層的數據共享,提供統一的信息查詢及用戶視圖,進而提高保險公司管理支持和決策的可靠性和準確性。可以看到通過成體系的語義分析完成保險公司通用的本體構建并對其進行評價 ,以及對映射規則及其推理引擎的完善等問題還需要進一步研究。
參考文獻
[1] RADCLIFF J.Integrate your data to create a single customer view[OL].Gartner,2004.
[2] CARTHY J M.Circumscription-a form of non-monotonic reasoning[J].Artificial Intelligence,1980,5(13):27-39.
[3] GRUBER T R.Towards principles for the design of ontologies used for knowledge sharing.Stanford University,Tech Rep:KSL-93-04,1993.
[4] 李善平,尹奇韡,胡玉杰,等.本體論研究綜述[J].計算機研究與發展,2004,41(7):1041-1052.
[5] HARRY R L,CHRISTOS H P.Elements of the theory of computation(second edition)[M].Prentice Hall PTR Upper Saddle River,NJ,USA,1997.
[6] 卓國鋒,羅軍.基于Mediator/Wrapper信息集成的查詢優化研究[J].計算機工程與應用,2007,43(12):159-161,242.