《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 香港大學開源圖基礎大模型OpenGraph

香港大學開源圖基礎大模型OpenGraph

強泛化能力,前向傳播預測新數據
2024-05-09
來源:量子位

圖學習領域的數據饑荒問題,又有能緩解的新花活了!

OpenGraph,一個基于圖的基礎模型,專門用于在多種圖數據集上進行零樣本預測。

背后是港大數據智能實驗室的主任Chao Huang團隊,他們還針對圖模型提出了提示調整技術,以提高模型對新任務的適應性。

目前,這項工作已經掛上了GitHub。

據介紹,這項工作主要深入探討增強圖模型泛化能力的策略(特別是在訓練和測試數據存在顯著差異時)。

而OpenGraph旨在通過學習通用的圖結構模式,并僅通過前向傳播進行預測,實現對全新數據的零樣本預測。

1.jpg

為了實現目標,團隊解決了以下3點挑戰:

數據集間的token差異:不同圖數據集常有不同的圖token集,我們需要模型能夠跨數據集進行預測。

節點關系建模:在構建通用圖模型時,有效地建模節點關系至關重要,這關系到模型的擴展性和效率。

數據稀缺:面對數據獲取的難題,我們通過大型語言模型進行數據增強,以模擬復雜的圖結構關系,提升模型訓練質量。

通過一系列創新方法,如拓撲感知的圖Tokenizer和基于錨點的圖Transformer,OpenGraph有效應對上述挑戰,在多個數據集上的測試結果證明了模型的出色泛化能力。

OpenGraph模型


OpenGraph模型架構主要由3個核心部分組成:

1)統一圖Tokenizer;
2)可擴展的圖Transformer;
3)基于大語言模型的知識蒸餾技術。

首先來說說統一圖Tokenizer。

為了適應不同數據集的節點和邊的差異,團隊開發了統一圖Tokenizer,它將圖數據標準化為token序列。

這一過程包括高階鄰接矩陣平滑化和拓撲感知映射。

高階鄰接矩陣平滑化即利用鄰接矩陣的高階冪來解決連接稀疏的問題,而拓撲感知映射則是將鄰接矩陣轉換為節點序列,并使用快速奇異值分解(SVD)最小化信息損失,保留更多的圖結構信息。

其次是可擴展的圖Transformer。

在token化后,OpenGraph使用Transformer架構模擬節點間的依賴,主要采用以下技術優化模型性能和效率:

一來是token序列采樣,通過采樣技術減少模型需要處理的關系數量,從而降低訓練的時間和空間復雜度。

二來是錨點采樣的自注意力機制。此方法進一步降低計算復雜度,通過分階段學習節點間的信息傳遞,有效提高模型的訓練效率和穩定性。

最后是大語言模型知識蒸餾。

為了應對培訓通用圖模型時面臨的數據隱私和種類多樣性問題,團隊從大語言模型(LLM)的知識和理解能力中獲得靈感,使用LLM生成各種圖結構數據。

這一數據增強機制通過模擬真實世界圖的特征,有效提升了數據的質量和實用性。

團隊還首先生成適應特定應用的節點集,每個節點擁有文本描述以便生成邊。

在面對如電子商務平臺這種大規模節點集時,研究人員通過將節點細分為更具體的子類別來處理。

例如,從“電子產品”細化到具體的“移動電話”“筆記本電腦”等,此過程反復進行,直到節點精細到接近真實實例。

提示樹算法則按樹狀結構將節點細分,并生成更細致的實體。

從一般的類別如“產品”開始,逐步細化到具體的子類別,最終形成節點樹。

至于邊的生成,利用吉布斯采樣,研究人員基于已生成的節點集來形成邊。

為了減少計算負擔,我們不直接通過LLM遍歷所有可能的邊,而是先利用LLM計算節點間的文本相似度,再通過簡單的算法判斷節點關系。

在此基礎上,團隊引入了幾種技術調整:


動態概率標準化:通過動態調整,將相似度映射到更適合采樣的概率范圍內。

節點局部性:引入局部性概念,只在節點的局部子集間建立連接,模擬現實世界中的網絡局部性。

圖拓撲模式注入:使用圖卷積網絡修正節點表示,以更好地適應圖結構特征,減少分布偏差。


以上步驟確保了生成的圖數據不僅豐富多樣,而且貼近現實世界的連接模式和結構特性。


實驗驗證與性能分析


需要注意,該實驗專注于使用僅由LLM生成的數據集訓練OpenGraph模型,并在多樣化的真實場景數據集上進行測試,涵蓋節點分類和鏈接預測任務。

實驗設計如下:

零樣本設置。

為了評估OpenGraph在未見過的數據上的表現,我們在生成的訓練集上訓練模型,然后在完全不同的真實測試集上進行評估。確保了訓練和測試數據在節點、邊和特征上均無重合。

少樣本設置。

考慮到許多方法難以有效執行零樣本預測,我們引入少樣本設置,基線模型在預訓練數據上預訓練后,采用k-shot樣本進行微調。

在2個任務和8個測試集上的結果顯示,OpenGraph在零樣本預測中顯著優于現有方法。

此外,現有預訓練模型在跨數據集任務中的表現有時不如從頭訓練的模型。


圖Tokenizer設計影響研究


同時,團隊探索了圖Tokenizer設計如何影響模型性能。

首先,通過實驗發現,不進行鄰接矩陣平滑(平滑階數為0)會顯著降低性能,說明平滑處理的必要性。

然后,研究人員嘗試了幾種簡單的拓撲感知替代方案:跨數據集的獨熱編碼ID、隨機映射和基于節點度數的表示。

實驗結果顯示,這些替代方案性能均不理想。

具體來說,跨數據集的ID表示效果最差,基于度數的表示也表現不佳,而隨機映射雖稍好,但與優化的拓撲感知映射相比,性能差距明顯。

2.jpg1.jpg

數據生成技術的影響


團隊調查了不同預訓練數據集對OpenGraph性能的影響,包括使用基于LLM的知識蒸餾方法生成的數據集,以及幾個真實數據集。

實驗中比較的預訓練數據集包括從團隊生成方法中移除某項技術后的數據集、2個與測試數據集無關的真實數據集(Yelp2018和Gowalla)、1個與測試數據集類似的真實數據集(ML-10M)。

實驗結果顯示,生成數據集在所有測試集上均展示了良好性能;三種生成技術的移除都顯著影響了性能,驗證了這些技術的有效性。

使用與測試集無關的真實數據集(如Yelp和Gowalla)訓練時,性能有時候會下降,這可能是由于不同數據集之間的分布差異。

ML-10M數據集在與之類似的測試數據集(如ML-1M和ML-10M)上取得了最佳性能,突顯了訓練和測試數據集相似性的重要性。

3.jpg

Transformer采樣技術的研究


在這部分實驗中,研究團隊探討了圖Transformer模塊中使用的兩種采樣技術:

token序列采樣(Seq)和錨點采樣(Anc)。

他們對這兩種采樣方法進行了詳細的消融實驗,以評估它們對模型性能的具體影響。

4.jpg

實驗結果表明,無論是token序列采樣還是錨點采樣,兩者都能在訓練和測試階段有效地減少模型的空間和時間復雜度。這對于處理大規模圖數據尤為重要,可以顯著提高效率。

從性能的角度分析,token序列采樣對模型的整體性能產生了正面影響。這種采樣策略通過選取關鍵的token來優化圖的表示,從而提高了模型處理復雜圖結構的能力。

相比之下,在ddi數據集上的實驗顯示,錨點采樣可能對模型性能產生負面影響。錨點采樣通過選擇特定的節點作為錨點來簡化圖結構,但這種方法可能會忽略一些關鍵的圖結構信息,從而影響模型的準確性。

綜上所述,雖然這兩種采樣技術都有其優勢,但在實際應用中需要根據具體的數據集和任務需求仔細選擇合適的采樣策略。


研究結論


本研究旨在開發一個高適應性框架,該框架能夠精確地識別和解析各種圖結構的復雜拓撲模式。

研究人員的目標是通過充分發揮所提出模型的能力,顯著增強模型在零樣本圖學習任務中的泛化能力,包括多種下游應用。

模型是在可擴展的圖Transformer架構和LLM增強的數據增強機制的支持下構建的,以提升OpenGraph的效率和健壯性。

通過在多個標準數據集上進行的廣泛測試,團隊證明了模型的出色泛化性能。

5.jpg

據了解,作為對圖基礎模型構建的初步嘗試,未來,團隊工作將著重于增加框架的自動化能力,包括自動識別噪聲連接和進行反事實學習。

同時,團隊計劃學習和提取各種圖結構的通用且可遷移的模式,進一步推動模型的應用范圍和效果。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 亚洲欧美日韩综合久久久久| 国产成人精品日本亚洲专区61| 久久亚洲精品国产亚洲老地址| 污视频软件大全| 四虎永久成人免费| 欧美h片在线观看| 在线精品91青草国产在线观看 | 中文japanese在线播放| 最近中国日本免费观看| 亚洲精品欧美综合四区| 精品视频在线观看一区二区三区| 国产成人综合久久久久久| 91进入蜜桃臀在线播放| 成人免费观看网站| 久久看免费视频| 欧美性猛交xxxx乱大交高清| 免费1夜情网站| 老子影院午夜伦手机电影| 国产成人精品午夜福利| 97人妻天天爽夜夜爽二区| 怡红院免费手机在线观看| 久久久精品免费| 欧美人善交videosg| 亚洲综合视频在线| 一级性生活视频| 旧里番yy6080| 亚洲日本一区二区一本一道| 福利视频导航网| 国产va免费精品观看精品| 国产高清小视频| 国产精品无码专区在线观看| jizzjizz视频| 成人年无码AV片在线观看| 久久夜色精品国产噜噜| 欧美乱妇高清无乱码在线观看| 亚洲香蕉在线观看| 精品国产一区二区三区av片| 国产丝袜第一页| 麻豆精品视频入口| 国产片免费福利片永久| 8888四色奇米在线观看不卡|