該論文發(fā)表于Medical Image Analysis(中科院1區(qū),,IF= 10.7),,題目為《Multi-task learning based structured sparse canonical correlation analysis for brain imaging genetics》。
韓國(guó)加圖立大學(xué)的Mansu Kim為此文第一作者。賓夕法尼亞大學(xué)佩雷爾曼醫(yī)學(xué)院的Li Shen為此文的通訊作者。
論文鏈接:
https://www.sciencedirect.com/science/article/pii/S136184152100342X
腦成像技術(shù)和高通量基因數(shù)據(jù)獲取技術(shù)的進(jìn)步使得研究者可以獲取大量的多模態(tài)數(shù)據(jù)。盡管稀疏典型相關(guān)分析是一種強(qiáng)大的用于特征選擇的雙多變量關(guān)聯(lián)分析技術(shù),,但在實(shí)際研究中整合多模態(tài)成像遺傳數(shù)據(jù)和獲得對(duì)成像遺傳結(jié)果有生物學(xué)意義的解釋方面仍然面臨重大挑戰(zhàn)。在本研究中,,作者提出了一種新的基于多任務(wù)學(xué)習(xí)的結(jié)構(gòu)化稀疏典型相關(guān)分析( MTS2CCA ),,以提供可解釋的結(jié)果,并提高成像遺傳學(xué)研究中的集成,。我們?cè)谀M和真實(shí)的成像基因數(shù)據(jù)上與最先進(jìn)的競(jìng)爭(zhēng)方法進(jìn)行了比較研究在模擬數(shù)據(jù)上,,我們提出的模型在典型相關(guān)系數(shù)、估計(jì)精度和特征選擇精度方面都取得了最好的性能,。在真實(shí)的成像基因數(shù)據(jù)上,,我們提出的模型揭示了與睡眠相關(guān)的單核苷酸多態(tài)性和腦區(qū)的有希望的特征。所識(shí)別的特征可用于使用有前途的影像學(xué)遺傳生物標(biāo)志物來(lái)改善臨床評(píng)分預(yù)測(cè),。作者設(shè)想的未來(lái)方向是將論文方法應(yīng)用到其他的神經(jīng)或精神疾病隊(duì)列中,,例如阿爾茨海默癥或帕金森癥患者,以證明論文方法的可推廣性,。
研究背景
隨著高通量基因測(cè)序和神經(jīng)影像技術(shù)的飛速發(fā)展,,腦成像遺傳學(xué)(Brain Imaging Genetics)已成為連接遺傳變異與腦表型的重要交叉學(xué)科。其核心目標(biāo)是通過(guò)整合基因數(shù)據(jù)(如單核苷酸多態(tài)性,,SNP)和多模態(tài)腦成像數(shù)據(jù)(如功能磁共振成像fMRI,、結(jié)構(gòu)磁共振成像sMRI、擴(kuò)散磁共振成像dMRI),,揭示遺傳因素如何影響大腦結(jié)構(gòu)與功能,,進(jìn)而解析神經(jīng)系統(tǒng)疾病(如阿爾茨海默病,、精神分裂癥)的生物學(xué)機(jī)制,。然而,這一領(lǐng)域面臨以下關(guān)鍵挑戰(zhàn):
1) 現(xiàn)有方法多局限于雙模態(tài)分析,,難以同時(shí)處理多模態(tài)成像數(shù)據(jù),。
2) 傳統(tǒng)模型未充分利用先驗(yàn)生物結(jié)構(gòu)(如基因的連鎖不平衡塊,、腦功能網(wǎng)絡(luò)),導(dǎo)致特征選擇結(jié)果難以解釋,。
3) 在高維小樣本數(shù)據(jù)下,,現(xiàn)有方法易過(guò)擬合,且對(duì)低相關(guān)性信號(hào)的捕捉能力有限,。
4) CCA模型存在由于數(shù)據(jù)的高維性導(dǎo)致過(guò)擬合的風(fēng)險(xiǎn)較高的缺陷,。
方法與結(jié)果分析
針對(duì)上述挑戰(zhàn),論文提出基于多任務(wù)學(xué)習(xí)的結(jié)構(gòu)化稀疏典型相關(guān)分析(MTS2CCA)模型,,通過(guò)多任務(wù)學(xué)習(xí)同時(shí)分析多模態(tài)成像數(shù)據(jù)(如fMRI和dMRI),,并共享遺傳數(shù)據(jù)的特征表示。引入GraphNet懲罰項(xiàng),,利用基因的連鎖不平衡(LD)矩陣和腦網(wǎng)絡(luò)結(jié)構(gòu),,約束權(quán)重矩陣,提升生物學(xué)合理性,。設(shè)計(jì)交替迭代重加權(quán)算法(Alternating Iteratively Reweighted Algorithm),,理論證明其收斂性,并實(shí)現(xiàn)高效計(jì)算,。
MTS2CCA的模型定義如下:
其中,,Ψ和Ω是控制稀疏性和納入有意義的生物結(jié)構(gòu)的懲罰函數(shù)。提出MTS2CCA的原因如下,。首先,,多任務(wù)框架是一種高效和有良好魯棒性的方法,可以將不同的成像模式一起學(xué)習(xí),。通過(guò)對(duì)兩個(gè)典型權(quán)重矩陣(即U和V)施加l2,1范數(shù)正則化,,該模型可以同時(shí)學(xué)習(xí)多個(gè)影像遺傳學(xué)關(guān)聯(lián)對(duì)。這有助于模型識(shí)別與同一腦區(qū)多模態(tài)成像測(cè)量相關(guān)的共同遺傳標(biāo)記,。其次,,圖形傳輸網(wǎng)懲罰基于先驗(yàn)網(wǎng)絡(luò)信息鼓勵(lì)典范加載向量中的相關(guān)元素具有相似性。因此,,我們使用圖形傳輸網(wǎng)懲罰來(lái)融合先驗(yàn)網(wǎng)絡(luò)信息,。
通常,使用公共坐標(biāo)空間和單腦圖譜提取來(lái)自不同模態(tài)的成像測(cè)量,。盡管每種成像模態(tài)可能捕獲不同的大腦表型,,但由于結(jié)構(gòu)-功能的耦合,這些多模態(tài)測(cè)量具有密切的關(guān)系,。例如,,許多研究報(bào)道結(jié)構(gòu)網(wǎng)絡(luò)可以提供功能網(wǎng)絡(luò)的主干,結(jié)構(gòu)-功能網(wǎng)絡(luò)耦合與高階認(rèn)知過(guò)程相關(guān),。因此文章提出了一種算法,,在每個(gè)區(qū)域的所有多模態(tài)測(cè)量上使用l2范數(shù)來(lái)處理共線性,,然后應(yīng)用l1范數(shù)來(lái)選擇相關(guān)的區(qū)域。l2,,1范數(shù)懲罰的形式定義如下:
因此,,在這項(xiàng)工作中,作者對(duì)成像規(guī)范權(quán)重矩陣(即V )施加l2,,1范數(shù)懲罰,,以選擇考慮多模態(tài)成像測(cè)量的共同特征,還對(duì)遺傳正則權(quán)重矩陣(即U )施加懲罰,,以學(xué)習(xí)和選擇每個(gè)成像模態(tài)對(duì)應(yīng)的遺傳成分。
除此之外,,許多研究人員證明,,可以使用大腦和基因組中有意義的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)建模SNPs和腦成像特征。這些全面的網(wǎng)絡(luò)數(shù)據(jù)有助于提高每個(gè)模態(tài)中有意義的生物標(biāo)志物的識(shí)別,。因此,,引入一個(gè)圖形傳輸網(wǎng)懲罰來(lái)包含這些信息,定義如下:
式中,,矩陣Lu和Lvk分別為基因組和多模型腦成像中網(wǎng)絡(luò)結(jié)構(gòu)的圖拉普拉斯算子,。圖的拉普拉斯算子定義為L(zhǎng) = D-A,其中D是網(wǎng)絡(luò)A的度矩陣,。這種正則化鼓勵(lì)當(dāng)網(wǎng)絡(luò)中的節(jié)點(diǎn)具有高連通性時(shí),,其權(quán)重或系數(shù)是相等或相似的。
論文提出了一種交替迭代重加權(quán)的方法來(lái)獲得方程中的U和V,。MTS2CCA的優(yōu)化算法如下:
算法1 MTS2CCA優(yōu)化算法
(1)仿真實(shí)驗(yàn)結(jié)果:
研究人員應(yīng)用嵌套五折交叉驗(yàn)證策略來(lái)檢驗(yàn)?zāi)P偷男阅?。?中比較了典型相關(guān)系數(shù)(CCC)的訓(xùn)練和測(cè)試性能。當(dāng)真實(shí)CCC為高(X vs. Y1)時(shí),,所有方法普遍表現(xiàn)良好,。當(dāng)真實(shí)CCC為中等(X vs. Y2)時(shí),多任務(wù)CCA模型(MTS2CCA,、MTGSCCA,、MTSCCA和JCBSCCA)優(yōu)于單任務(wù)CCA模型。當(dāng)真實(shí)CCC極低(X vs. Y3)時(shí),,所提出的模型優(yōu)于所有競(jìng)爭(zhēng)方法,。
表1 典型相關(guān)系數(shù)(CCC)的訓(xùn)練和測(cè)試性能
論文比較了模型的參數(shù)敏感性。通過(guò)改變參數(shù)從0.01到100來(lái)測(cè)量CCC,,比例因子為10,,將其余參數(shù)固定1。如圖1所示,,對(duì)于除TCCA外的所有方法,,CCC曲線穩(wěn)定且對(duì)β1不敏感,,這控制了數(shù)據(jù)集X的稀疏性。然而,,對(duì)于β2,,CCC曲線從100或更高下降,這控制了數(shù)據(jù)集Y的稀疏性,。在TCCA中,,CCC曲線穩(wěn)定且對(duì)β1和β2都不敏感。對(duì)于MTS2CCA和JCBSCCA,,CCC曲線看起來(lái)是穩(wěn)定的,,并且對(duì)λ1和λ2不敏感,其中它控制了數(shù)據(jù)集X和Y的網(wǎng)絡(luò)信息融合水平,。對(duì)于MTGSCCA,,CCC曲線隨著λ的增加而下降;Λ控制了數(shù)據(jù)集X的合并組結(jié)構(gòu)的水平,。這些發(fā)現(xiàn)表明,,與GroupLasso相比,具有圖形傳輸網(wǎng)懲罰的CCA在合并先驗(yàn)知識(shí)方面更穩(wěn)定,。帶有l(wèi)2,,1正則項(xiàng)的CCA和Fused Lasso對(duì)多模態(tài)數(shù)據(jù)集成設(shè)置都比較敏感。
圖1 CCA模型的參數(shù)敏感性
作者通過(guò)計(jì)算曲線下面積( AUC )來(lái)評(píng)估各種CCA模型的特征選擇精度,。結(jié)果表明,,多任務(wù)CCA模型對(duì)信號(hào)的檢測(cè)性能優(yōu)于單任務(wù)CCA模型,如表2所示,。具體來(lái)說(shuō),,多任務(wù)CCA模型對(duì)低相關(guān)水平具有魯棒性,而SCCA和TCCA則不具有魯棒性,。
表2 特征選擇準(zhǔn)確性
圖3顯示出,,除TCCA外,其他方法之間在運(yùn)行時(shí)間上無(wú)顯著性差異,。除TCCA和SCCA外,,各方法在內(nèi)存使用上無(wú)顯著性差異,驗(yàn)證了所提算法的有效性和高效性,。
表3 預(yù)測(cè)性能的比較
(2)真實(shí)影像遺傳學(xué)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果:
在真實(shí)數(shù)據(jù)實(shí)驗(yàn)中,,作者收集了神經(jīng)影像學(xué)數(shù)據(jù),包括靜息態(tài)功能磁共振成像(rs-fMRI)和擴(kuò)散加權(quán)磁共振成像(dMRI),,以及來(lái)自HCP數(shù)據(jù)庫(kù)的291名參與者的基因分型數(shù)據(jù),。
作者評(píng)估了所提出的基于典型相關(guān)系數(shù)(CCC)的多任務(wù)成像遺傳學(xué)關(guān)聯(lián)模型,包括SNPs與fMRI之間的關(guān)聯(lián)( SNP-fMRI )和SNPs與dMRI之間的關(guān)聯(lián)( SNP-dMRI )。表4和表5展示了各種最先進(jìn)的CCA模型計(jì)算的多任務(wù)成像遺傳關(guān)聯(lián)的訓(xùn)練和測(cè)試CCC,。對(duì)于SNP - fMRI關(guān)聯(lián),,與TCCA和SCCA相比,MTS2CCA,、MTGSCCA,、MTSCCA和JCBSCCA得到最優(yōu)異的訓(xùn)練CCC和相對(duì)良好的測(cè)試CCC。MTS2CCA在SNP - dMRI和SNP - fMRI任務(wù)(上都表現(xiàn)出最高的測(cè)試CCC,。
表4 fMRI與SNP的典型相關(guān)系數(shù)
表5 dMRI與SNP的典型相關(guān)系數(shù)
如表6所示,,MTS2CCA在RMSE和CC方面優(yōu)于三個(gè)多任務(wù)CCA模型以及單任務(wù)CCA模型,具有更高的典型相關(guān)系數(shù)和更好的預(yù)測(cè)性能估計(jì)PSQI評(píng)分,。
表6 預(yù)測(cè)性能的比較
實(shí)驗(yàn)結(jié)果表明,,使用來(lái)自真實(shí)影像遺傳學(xué)數(shù)據(jù)證明了所提模型的臨床益處。確定的MTS2CCA的影像學(xué)標(biāo)志物與認(rèn)知功能,、抑郁和睡眠剝奪相關(guān),。此外,鑒定到的MTS2CCA的遺傳標(biāo)記與睡眠質(zhì)量和睡眠時(shí)間相關(guān),。這些結(jié)果表明,所提出的基于多任務(wù)學(xué)習(xí)的SCCA框架可以為分析腦成像遺傳學(xué)數(shù)據(jù)并產(chǎn)生具有生物學(xué)意義的發(fā)現(xiàn)提供強(qiáng)有力的工具,。
結(jié)論
在這項(xiàng)研究中,,研究人員提出了一種新的基于多任務(wù)學(xué)習(xí)的結(jié)構(gòu)化稀疏典型相關(guān)分析( MTS2CCA ),以提供可解釋的結(jié)果,,并提高影像遺傳學(xué)研究的集成度,。我們?cè)谀M和真實(shí)的成像遺傳學(xué)數(shù)據(jù)上測(cè)試了論文的算法。對(duì)于模擬數(shù)據(jù),,論文證明了所提出的模型在識(shí)別更強(qiáng)的典型相關(guān)性,、估計(jì)精度和特征選擇精度方面優(yōu)于幾種最先進(jìn)的競(jìng)爭(zhēng)方法。此外,,MTS2CCA成功地識(shí)別了由預(yù)定義的網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生的關(guān)聯(lián)模式,。論文的研究使用來(lái)自真實(shí)影像遺傳學(xué)隊(duì)列的SNP、dMRI和fMRI數(shù)據(jù)證明了所提模型的臨床益處,。MTS2CCA優(yōu)于所有對(duì)比模型,,具有更高的典型相關(guān)系數(shù)和更好的預(yù)測(cè)性能估計(jì)PSQI評(píng)分。論文也確定的MTS2CCA的影像學(xué)標(biāo)志物與認(rèn)知功能,、抑郁和睡眠剝奪有關(guān),。此外,鑒定到的MTS2CCA遺傳標(biāo)記與睡眠質(zhì)量和睡眠時(shí)間相關(guān),。這些實(shí)驗(yàn)結(jié)果表明,,所提出的基于多任務(wù)學(xué)習(xí)的SCCA框架可以為分析腦成像遺傳學(xué)數(shù)據(jù)并產(chǎn)生具有生物學(xué)意義的發(fā)現(xiàn)提供強(qiáng)有力的工具。
撰稿人:張睿文
審稿人:梁瑾