国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

AAAI 25|論文錄用| 通過(guò)噪聲遮掩實(shí)現(xiàn)可擴(kuò)展的深度圖神經(jīng)網(wǎng)絡(luò)
284
2024-12-25 19:27:05(已編輯)
10
3
1
用微信掃描二維碼

通過(guò)噪聲遮掩實(shí)現(xiàn)可擴(kuò)展的深度圖神經(jīng)網(wǎng)絡(luò)

Yuxuan Liang, Wentao Zhang, Zeang Sheng, Ling Yang, Quanqing Xu, Jiawei Jiang, Yunhai Tong, Bin Cui

論文鏈接:https://arxiv.org/abs/2412.14602

 

背景和挑戰(zhàn):

圖神經(jīng)網(wǎng)絡(luò) (GNN) 在圖表示學(xué)習(xí)方面取得了巨大成功,。但由于訓(xùn)練期間重復(fù)特征傳播的計(jì)算和存儲(chǔ)成本很高,,因此將其擴(kuò)展到大型圖具有挑戰(zhàn)性。

為了解決可擴(kuò)展性問(wèn)題,,模型簡(jiǎn)化GNN作為可擴(kuò)展性能的一個(gè)有前途的方向,,最近引起了人們的極大興趣。最具代表性的工作是SGC,,并以此衍生一系列模型簡(jiǎn)化GNN比如SIGN,,S2GC, GBP, GAMLP等。

盡管現(xiàn)有的模型簡(jiǎn)化 GNN 具有較好的可擴(kuò)展性和預(yù)測(cè)性能,,但它們?nèi)匀幻媾R以下兩個(gè)限制:(1)帶有噪聲信息的傳播,;(2)具有高預(yù)處理開(kāi)銷(xiāo)的傳播。這兩個(gè)限制阻礙了模型簡(jiǎn)化 GNN進(jìn)一步加深,。

 

研究動(dòng)機(jī):

在本節(jié)中,,我們將深入分析模型簡(jiǎn)化 GNN 中存在的兩個(gè)局限性,然后提供我們的見(jiàn)解來(lái)幫助我們?cè)O(shè)計(jì) RMask 的架構(gòu),。

圖1. 實(shí)驗(yàn)觀察和見(jiàn)解

(1)帶有噪聲信息的傳播:

我們?cè)贑ora數(shù)據(jù)集上隨機(jī)選擇 10 個(gè)節(jié)點(diǎn),,并通過(guò) L2 歸一化P傳播觀察每跳的平均權(quán)重。

如圖1a所示,,權(quán)重較高的節(jié)點(diǎn)經(jīng)常在較低的跳數(shù)內(nèi)被捕獲,,而有價(jià)值信息的較高跳數(shù)的節(jié)點(diǎn)表現(xiàn)出相當(dāng)?shù)偷臋?quán)重。這種現(xiàn)象阻礙了對(duì)高跳信息的捕獲。

為了進(jìn)一步解釋?zhuān)覀儚哪繕?biāo)節(jié)點(diǎn)開(kāi)始進(jìn)行 2 跳傳播,。如圖1c所示,,2跳捕獲的信息不僅包括當(dāng)前跳,還包括2跳冗余信息,,由于這些信息在1跳內(nèi)已經(jīng)可以捕獲,,我們將其稱(chēng)為噪聲信息。隨著傳播深度的增加,,高跳捕獲的節(jié)點(diǎn)包含大量低跳噪聲信息,,難以區(qū)分高跳和低跳信息,加劇了過(guò)平滑問(wèn)題,。為了進(jìn)一步研究噪聲信息對(duì)過(guò)平滑的影響,我們?cè)黾犹鴶?shù),,并使用SIGN模型測(cè)量噪聲信息和圖平滑度GSL的比例,。如圖1b所示,隨著跳數(shù)的增加,,GSL呈爆炸式增長(zhǎng),,噪聲信息也不斷增長(zhǎng)。7跳后捕獲的信息完全是冗余的,。

基于此,,我們重新實(shí)現(xiàn)了帶噪聲掩蔽的SIGN。如圖1d所示,,節(jié)點(diǎn)不僅可以捕獲高跳的有效信息,,還可以消除過(guò)度平滑問(wèn)題,如圖1e所示,。隨著跳數(shù)的增加,,準(zhǔn)確率和平滑度趨于平穩(wěn)。

(2) 具有高預(yù)處理開(kāi)銷(xiāo)的傳播:

此外,,這種傳播方法會(huì)導(dǎo)致顯著的預(yù)處理開(kāi)銷(xiāo),。圖1f 的上部說(shuō)明了當(dāng)前模型簡(jiǎn)化 GNN 采用的統(tǒng)一預(yù)處理過(guò)程。首先,,預(yù)處理的時(shí)間復(fù)雜度與邊的數(shù)量線性相關(guān),。每一跳都會(huì)從所有先前的跳數(shù)中捕獲大量的圖結(jié)構(gòu)信息,從而產(chǎn)生高密集計(jì)算開(kāi)銷(xiāo),。其次,,這種方法依賴(lài)于不同跳躍之間信息的相互依賴(lài)性,只能串行執(zhí)行,。與昂貴的預(yù)處理開(kāi)銷(xiāo)相比,,模型簡(jiǎn)化 GNN 通常使用簡(jiǎn)單的模型進(jìn)行快速訓(xùn)練。由于上述原因,,預(yù)處理開(kāi)銷(xiāo)構(gòu)成了端到端訓(xùn)練時(shí)間的大部分,。如圖1f下半部分所示,,為了減少預(yù)處理的高開(kāi)銷(xiāo),我們需要一種稀疏和并行的方法來(lái)有效地捕獲每一跳的重要信息,。

 

方法:

圖2. Rmask架構(gòu)

RMask執(zhí)行流程:

給定指定的跳躍數(shù)和圖結(jié)構(gòu),,我們首先根據(jù)圖結(jié)構(gòu)對(duì)每個(gè)節(jié)點(diǎn)執(zhí)行帶有屏蔽機(jī)制的隨機(jī)游走。然后聚合捕獲的圖結(jié)構(gòu)信息和特征以獲得不同跳躍的結(jié)果,。

此外,,通過(guò)這種方式得到的特征傳播結(jié)果可以直接替代其他模型簡(jiǎn)化GNN(如 S2GC、GBP,、SIGN,、GAMLP 等)中的P操作。同時(shí),,我們保留了現(xiàn)有模型簡(jiǎn)化 GNN 在特征組合和模型選擇方面的優(yōu)勢(shì),。

噪聲掩碼機(jī)制:

噪聲掩碼機(jī)制由兩個(gè)部分組成:噪聲信息識(shí)別和鄰居節(jié)點(diǎn)重要性分配。

第一個(gè)組件識(shí)別每一跳中的噪聲信息,,并使用隨機(jī)游走有效地捕獲非冗余的圖結(jié)構(gòu)信息,。第二個(gè)組件為每個(gè)鄰居節(jié)點(diǎn)分配重要性權(quán)重,以幫助隨機(jī)游走捕獲更重要的信息,。

(1)噪聲信息識(shí)別:

考慮到噪聲的影響,,高跳數(shù)通常包含來(lái)自低跳數(shù)的冗余信息。因此,,我們需要遍歷整個(gè)圖來(lái)識(shí)別每一跳的噪聲信息,。基于對(duì)高h(yuǎn)op噪聲信息的觀察,,我們使用去噪矩陣來(lái)記錄噪聲信息:

采用去噪矩陣使我們能夠在確保低過(guò)平滑度級(jí)別的同時(shí),,從每一跳中提取有用信息。然后,,對(duì)于每一跳,,我們使用隨機(jī)游走函數(shù)(RW)來(lái)捕獲當(dāng)前跳的圖結(jié)構(gòu)信息,然后結(jié)合去噪矩陣從每一跳中提取有用的信息:

其中T是隨機(jī)游走的次數(shù),。通過(guò)控制T,,我們?cè)跍?zhǔn)確性和效率之間取得了良好的平衡,使其可以支持大規(guī)模圖的處理,。

(2)鄰居節(jié)點(diǎn)重要性分配:

為了進(jìn)一步提升預(yù)測(cè)精度,,我們采用基于相鄰節(jié)點(diǎn)重要性的偏置隨機(jī)游走。使用PageRank來(lái)獲取相鄰節(jié)點(diǎn)重要性:

其中S是重要性矩陣,。通過(guò)為圖中的每個(gè)邊分配重要性權(quán)重,,可以引導(dǎo)隨機(jī)游動(dòng)的方向,從而捕獲更重要的去噪信息。具體算法如表1所示:

表1. Rmask算法概述

實(shí)驗(yàn)效果:

實(shí)驗(yàn)主要包含以下四個(gè)方面:(1)與最先進(jìn)的模型簡(jiǎn)化方法進(jìn)行端到端比較 ,;(2)分析更深層架構(gòu)的能力 ,;(3)分析效率和準(zhǔn)確性之間的權(quán)衡 ;(4)分析效率,。

(1)與最先進(jìn)的模型簡(jiǎn)化方法進(jìn)行端到端比較:如表2所示,,集成RMask 后,SIGN,、S2GC,、GBP 和 GAMLP 在所有六個(gè)數(shù)據(jù)集上均實(shí)現(xiàn)了比其各自原始版本更好的性能。

表2. 節(jié)點(diǎn)分類(lèi)預(yù)測(cè)任務(wù)的實(shí)驗(yàn)結(jié)果

(2)更深層架構(gòu)的能力:如圖3所示,,集成Rmask的模型簡(jiǎn)化方法可以更有效地利用深層信息,,從而提高準(zhǔn)確性。

圖3. 隨著跳數(shù)增加,,性能變化的趨勢(shì)

(3)分析效率和準(zhǔn)確性之間的權(quán)衡:如圖4(a)所示,,使用 RMaska 插件模塊可以在效率和準(zhǔn)確性之間進(jìn)行良好的權(quán)衡。

(4)效率實(shí)驗(yàn):如圖4(b)(c)所示,,在所有數(shù)據(jù)集中,我們的方法成功地減少了端到端訓(xùn)練中預(yù)處理開(kāi)銷(xiāo)的比例,,并且獲得了2.9X以上的提速,。

圖4. (a)ogbn-product上效率和準(zhǔn)確性之間的權(quán)衡。(b)時(shí)間開(kāi)銷(xiāo)分析,。(c)加速分析,。

 

總結(jié):

本文介紹了 RMask,這是一個(gè)即插即用的模塊,,旨在增強(qiáng)現(xiàn)有的模型簡(jiǎn)化 GNN 在更高速度下探索更深層次的圖形結(jié)構(gòu)的能力,。作為插件方法, RMask可以與大多數(shù)模型簡(jiǎn)化GNN無(wú)縫集成,。實(shí)驗(yàn)結(jié)果表明,,RMask有效地提高了模型簡(jiǎn)化GNN的準(zhǔn)確性和效率。

 

 

實(shí)驗(yàn)室簡(jiǎn)介

 

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),,長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析,、人工智能等領(lǐng)域的前沿研究,,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文100余篇,,發(fā)布多個(gè)開(kāi)源項(xiàng)目,。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博,、微軟學(xué)者,、蘋(píng)果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù),。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開(kāi)卓有成效的合作,,與騰訊、阿里巴巴,、蘋(píng)果,、微軟、百度,、快手,、中興通訊等多家知名企業(yè)開(kāi)展項(xiàng)目合作和前沿探索,解決實(shí)際問(wèn)題,,進(jìn)行科研成果的轉(zhuǎn)化落地,。

 

 

 


周俊銘   2024-12-26 15:06:25
潘志宏   2024-12-25 22:43:14
贊!
袁成哲   2024-12-25 19:33:12
贊,!
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: