史珂,徐建良
?。ㄖ袊Q蟠髮W 信息科學與工程學院,山東 青島 266100)
摘要:在研究敘詞表分類的基礎上,調研了國家海洋局第一海洋研究所海洋科技信息數據。根據這些電子資源的存儲方式與存儲結構,對其進行數據的轉儲,設計了標準的XML文件,以便數據資源的二次使用與共享。
關鍵詞:敘詞表;海洋信息;數據轉儲
0引言
在對現有的海洋科技信息數據的研究中發現,其存儲方式大多數以是Word文件或Excel文件的形式分散在科學家和各個研究部門手中。由于各個科研機構的管理方式和科研工作者的編寫習慣不一致,導致異構數據源在不同文件中的組織結構、語義層次不同,從而使整個海洋科技信息的數據出現雜亂、重復、語義不一致等現象,這就造成了海洋科技信息的數據資源沒有辦法滿足海洋科研工作者的科研成果的共享與二次使用,同時也不能滿足與國際科研機構的數據交換[1]。這種情況對我國海洋科學考察領域的發展產生了嚴重的阻礙。
把這些碎片化的異構數據源進行整合從而達到規范化是目前各個機構和科研工作者的首要任務。通過對海洋科技信息數據格式和內容的研究,本文設計了一種規范、標準的XML文件,把海洋科技信息數據資源轉儲到該自定義的XML文件,使海洋相關數據得到最大化的共享和利用,同時也為我國即將開展的數字海洋計劃提供了一定的數據資源。
1海洋科技信息數據格式
按照Soergel的理論把敘詞表分為兩類,分別為基于術語的敘詞表(termbased thesaurus )和基于概念的敘詞表(conceptbased thesaurus )[1]。其中,前者是一種集合,該集合結構清晰,因為這種類型的敘詞表只包含一種實體類型,這種實體就是術語,而術語與術語之間存在的關系分有3種,分別為層級關系、相關關系、等同關系[2]。而另外一種敘詞表,即基于概念的敘詞表,則由兩種實體類型組成,其中一種是概念,另外一種是術語。概念是一個簡單的結構單一的思想單元[3],概念的基本信息包括優選術語、非優選術語、范圍附注等,概念之間同樣也存在層級關系、相關關系。結合海洋科技信息數據源的存儲結構和存儲類型,可以把這些數據資源簡單分為兩類:
?。?)把以Word文檔作為存儲結構的敘詞看作基于概念的敘詞表,不僅有術語、關鍵詞,還有概念,概念用來對關鍵詞進行進一步解釋。
(2)把以Excel文檔作為存儲結構的敘詞看作基于術語的敘詞表,不僅有術語關鍵詞,還有詞間的層級關系。
其關系結構如圖1所示。
2Word和Excel模板規范
海洋科技信息文檔的格式和組織架構雖然相對比較固定,但仍然存在語義與結構的不一致現象,直接從這樣的Word和Excel文檔中提取關鍵信息,容易導致數據的混亂,同時也對提取的算法要求頗高,這就需要先通過Word的語義模型和Excel的行列關系規范文檔的結構。
通過域的設定,可以把字體、位置、顏色等顯示樣式規范化[4]。域中的數據都是可變的,如果以后用戶自主創建Word文檔,只需更改域中的文字信息即可,不需要再對樣式、排版進行編輯,其中敘詞用加粗字體表示,對應概念用普通字體表示,敘詞與概念之間用空格銜接,如圖2所示。對于這種建立模版方法,在插入每一個域時,都需要輸入相應的提示文本,作為該域的語義信息。
而對于Excel文檔,一般情況下總共4列,同一行上后一個列屬于前一個列的子類,最后一列對應敘詞,除此之外的每一列都對應一個分類,如果以樹狀結構列出表中的層次關系的話,即每個葉子節點為敘詞,每個非葉子節點都為分類,且分類中也可包含其他分類,如圖3所示。
3Word和Excel信息抽取
Microsoft Office 2010提供了通過將自定義XML Schema架構插入工作薄,導出符合結構需求的XML文件的功能。該功能是在Office文檔和XML結構之間創建了一個映射,進行Office文檔中數據的分離。
3.1自定義XML Schema
XML Schema文件的主要定義可擴展標記語言的合法構建結構,它可以定義出現在文檔中的元素、元素的層次結構、子元素的次序、子元素的數目、元素是否為空、文檔中的屬性、元素和屬性的數據類型、元素和屬性的默認值以及固定值等[5]。本文自定義的XML Schema文件結構如下。
<?xml version="1.0"?>
<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<xsd:element name="dump-file">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="username" type="xsd:string"/>
<xsd:element name="security" type="xsd:string"/>
<xsd:element name="category" type="xsd:string"/>
<xsd:element name="page">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="category" type="xsd:string"/>
<xsd:element name="title" type="xsd:string"/> <xsd:element name="text" type="xsd:string" />
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:schema>
3.2Word到標準XML文檔
使用了上文通過域定義的語義模版后的Word文檔如圖4所示。使用XML Schema中定義的元素對Word文檔的關鍵字進行手動映射,這樣就把與邏輯相關的一些標記插入到了Word文檔中,以便根據實際需要通過標識符來方便地對文檔進行處理。具體實現方式如下。
(1)在菜單中選擇“開發工具架構”,在彈出的窗口中選擇“添加架構”,將XML Schema文件附加到Word文檔。
?。?)在添加架構完成后,就可以利用該Schema文件中的元素批注Word文檔。Word文檔右側的“XML結構”窗格可將附加架構中的自定義元素映射到文檔關鍵字。
完成Schema文檔中的元素與Word文檔關鍵字的映射后,需要對剛創建的文檔進行保存,其保存格式為XML文件,保存后的XML文檔結構效果如下。
<?xml version="1.0" encoding="gb2312" standalone="yes"?>
<dump-file>
<username>王一</username>
<security>公開</security>
<category>大洋調查</category>
<page>
<category/>
<title>站位</title>
<text>若在某一海域中需要進行相應的調查目的的采樣,則用站位號來表示這一區域。 </text>
</page>
<page>
<category/>
<title>采樣點</title>
<text>在某一站位進行采樣時,可能需要在不同區域進行多次取樣(儀器入水后在多個區域采樣),對于每個采樣的區域稱為一個采樣點。一個站位可能零到多個采樣點。</text>
</page>
<page>
<category/>
<title>入水經緯度</title>
<text>進行采樣作業時,儀器入水時的經緯度為入水經緯度。一個站位只有一個入水經緯度。</text>
</page>
</dumpfile>
3.3Excel到標準XML文檔
把XML Schema文件添加到Excel文檔中的具體步驟如下。
(1)在菜單中選擇“開發工具源”,在彈出的右側窗口中選擇“XML映射”,將XML Schema文件附加到Excel文檔。
?。?)使用“XML源”將Excel文檔單元格映射到XML架構元素。
Excel會自動創建一個XML映射對象,通過鼠標拖曳XML映射元素到相應關鍵詞上,實現它們之間的映射,這樣就可以將單元格中的數據反映到XML架構的元素上,其顯示效果如圖5所示。
完成Schema文檔中的元素與Excel文檔關鍵字的映射后,Microsoft Excel導出的標準XML文件格式如下。基于這種通用結構,可以方便有效地完成海洋數據向各個應用或者數據庫的轉儲工作。
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<dump-file>
<username>王二</username>
<security>公開</security>
<category>地球科學服務</category>
<page>
<category>數據分析和可視化</category>
<title>校準/檢驗</title>
<text/>
</page>
<page>
<category>數據分析和可視化</category>
<title>地理信息系統</title>
<text>移動地理信息系統</text>
</page>
<page>
<category>數據分析和可視化</category>
<title>地理信息系統</title>
<text>桌面地理信息系統</text>
</page>
<page>
<category>數據管理/數據處理</category>
<title>數據互操作</title>
<text/>
</page>
<page>
<category>數據管理/數據處理</category>
<title>數據互操作</title>
<text>數據格式化</text>
</page>
<page>
<category>數據管理/數據處理</category>
<title>數據挖掘</title>
<text/>
</page>
</dump-file>
4結論
本文研究的資料直接來源于國家海洋局第一海洋研究所,能客觀真實地反映該領域的知識結構框架,概念更專指,能有效克服“嵌入迷失問題”(詞表過大導致用戶迷失了方向)和“藝術博物館現象”(用戶花了很多時間卻沒有找到任何有用信息)[6]。本文通過使用Microsoft Office 2010自帶的映射功能完成標準XML文件的生成,為數據的管理和二次利用提供了有效的途徑。
參考文獻
[1] 傅強. 中國大洋研究成果數據庫平臺系統建設[D]. 青島:國家海洋局第一海洋研究所, 2007.
?。?] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. International Joint Conference on Artificial Intelligence, IJCAI, 2003: 805810.
?。?] BUDANITSKY A, HIRST G. Evaluating wordnetbased measures of lexical semantic relatedness[J]. Computational Linguistics, 2006, 32(1): 1347.
?。?] Chen Zeqiang, Chen Nengcheng. Use of service middleware based on ECHO with CSW for discovery and registry of MODIS data[J].地球空間信息科學學報(英文版), 2010, 13(3):191200.
?。?] LEE D, CHU W W. Comparative analysis of six XML schema languages[J]. ACM Sigmod Record, 2000, 29(3):7687.
?。?] AITCHISON J, CLARKE S D. The thesaurus: a historical viewpoint, with a look to the future[J]. Cataloging & classification quarterly, 2004, 37(34): 521.