該論文的標題為《EEGPT: Unleashing the Potential of EEG Generalist Foundation Model by Autoregressive Pre-training》,,雖然作者信息未提及,,但它被提交至ICLR 2025 Conference(2025年國際學習表征會議),。盡管在雙盲評審過程中沒有獲得認可,,這篇論文仍然展示了預訓練大型模型在腦電圖(EEG)處理領域的應用潛力,。
論文鏈接:https://openreview.net/forum?id=wJ6Bx1IYrQ
腦電圖(EEG)信號在揭示自發(fā)性大腦活動方面至關重要,,對神經科學研究具有顯著的重要性,。然而,,由于數據格式的多樣性,、預訓練范式的過時以及遷移學習方法的局限性,,通用EEG模型的發(fā)展受到了限制,目前僅存在針對單一數據集的專用模型,。本研究提出了首個通用EEG基礎模型EEGPT,,旨在解決這些挑戰(zhàn)。
首先,,本研究提出了一種電極式建模策略,,將每個電極作為基本處理單元,從而成功整合源自多達 138 個電極的不同 EEG 數據集,,為模型預訓練積累了 3750 萬樣本,。其次,本研究開創(chuàng)性地引入首個自回歸EEG 預訓練模型,,能夠更有效地捕捉數據中的時序依賴關系,。此外,本研究提出一種多任務遷移學習范式,,構建跨任務共享的可學習電極圖網絡,,且證實了多任務間的兼容性和協(xié)同增效作用,。
EEGPT 具備廣泛的兼容性,可適配各種信號采集設備,、不同受試者及多種任務,,支持多達 138 個電極及其任意組合作為輸入。在性能表現上,,如圖1所示,,通過在 12 個基準的數據集上的 5 個下游任務中進行同步評估,EEGPT 在所有任務中的準確率均超越現有專用模型,。
圖1
研究背景
EEG被視為大腦的 “語言”,,被廣泛應用于情緒識別、運動想象分類等多個神經科學研究領域,。然而,,當前 EEG 研究存在諸多局限。
在數據層面,,不同的研究和數據采集使用了不同的系統(tǒng)和設備進行數據采集,,使用的電極數量和組合也不盡相同,導致數據格式多樣,。當前研究中常采用針對特定任務或數據集設計的數據格式和手工特征提取技術,,通用性差,難以推廣到其他任務或數據集,。
在模型層面,,目前大多數 EEG 研究在模型設計和訓練上高度專業(yè)化,現有模型多針對特定任務,、數據集或個體設計,,缺乏通用性和跨任務能力。
在預訓練與遷移學習層面,,當前的研究中,,自監(jiān)督預訓練主要采用掩碼自編碼器(MAE)技術,難以捕捉 EEG 數據的時序依賴,。且 EEG 領域的遷移學習方法發(fā)展不足,,當前預訓練模型多只能在特定數據集微調,難以實現跨任務的通用與協(xié)同,。
研究方法
1. 自回歸時間序列建模(Autoregressive Time Series Modeling)
這一階段的目的是開發(fā)一個全面而詳細的自監(jiān)督學習范式,,能夠準確、高效地捕獲EEG信號中的內在時間變化,。
在數據處理方面,,本研究采用了電極建模策略(Electrode - wise Modeling Strategy)。S首先,,研究人員從多個來源收集 EEG 數據,,每個樣本xi∈?Ei×T×C對應一個包含Ei個電極的集合?i,,具有在電極Ei、T個時間間隔和C個采樣點三個維度上的信息,。然后,,為了深入挖掘 每個電極所特有的信息,引入了結構化重組函數?(·)按電極分割每個樣本xi為x?i∈?T×C,,使來自不同數據源但具有相同電極的數據記錄分組在一起,,具體而言:
其中De={x?i |e∈?i , i=1,2,··· ,N}。 最后為了在模型中區(qū)分不同的電極,,進一步引入了可訓練的電極詞匯表vE,在每個分組De中的所有元素都共享一個電極嵌入veE,,這個電極嵌入作為一種條件信息,,通過連接操作(用||表示)與分組De中的所有數據在序列維度上進行合并,得到新的序列,,具體而言:
這使得來自各種不同源和電極的信號被轉換為高度統(tǒng)一且可擴展的標準化格式,,包含T+1 個EEG “標記”的數據x?i(連接前是T個標記)成為后續(xù)自回歸重構的基本處理單元。
數據被輸入到共享的電極時間編碼器( Electrode Temporal Encoder,,ETE )中進行自回歸重建,。ETE 由多個相同結構的層組成,每層有兩個子層:一是多頭因果注意力機制子層,,該子層的輸出經過歸一化處理后,,再通過殘差連接與輸入相加,有助于信息有效傳遞和穩(wěn)定訓練,。二是位置全連接前饋網絡子層,,采用 SwiGLU 激活函數,為網絡引入非線性,,增強模型表達能力,,進一步處理數據以提取更復雜的特征。ETE 的輸出通過一個簡單多層感知機(MLP)轉換為下一個標記的預測,。這個預測過程是自回歸模型的核心,,它基于之前的輸入信號來預測下一個時刻的信號值,從而逐步構建出整個時間序列的預測結果,。
2. 任務共享電極圖(Task-shared Electrode Graph)
這一階段,,提出了一個任務共享的電極圖(TEG)網絡。該網絡自適應地激活各個電極之間的相互作用,,以同時支持多個任務,。
首先進行電極表征提取,對于多任務數據集中的每個樣本yj,,引入一個可學習的特殊標記,,這個特殊標記被廣播到所有電極并添加到時間序列末尾,。這樣的操作使得特殊標記能夠在自回歸模型的單向注意力機制的幫助下,整合來自各個電極的局部信息,,合成更具全局代表性的表示,。經過特殊標記處理后的數據被輸入到先前訓練好的電極時間編碼器(ETE)中,此時 ETE 的參數不再更新,,僅作為特征提取的骨干網絡,。每個樣本yj生成了捕獲了全面時間信息的電極表征zj。
然后構建以預訓練階段使用的電極為節(jié)點的全連通圖網絡G,,結點總數為|?(X)|, 涵蓋多任務數據集中幾乎所有可能使用到的電極,。當zj被引入到網絡中時,它所包含電極對應G中的節(jié)點才會被激活,。激活更新后的圖G通過圖注意力機制促進電極間空間信息的流動和交互:
其中αmn為節(jié)點m和n間的注意力系數,,W和α是可學習的映射權重,hm是節(jié)點m在圖中的表示,,N(m)表示節(jié)點m的鄰居,。對于每個電極表征zj,引入一個掩蔽系數β,,如果m和n都在其中,,則βmn等于1,否則為0,?;诘玫降淖⒁饬ο禂担?jié)點之間的交互關系如下:
最終,,EEGPT的整體架構如圖2所示:
圖2
左側:預訓練目標的目標是進行自回歸重建,,每個信號標記通過電極時序編碼器(ETE )逐一預測下一個標記。右側:多任務中數據集的電極通過預訓練的ETE進行處理,,提取最終的電極表示,,然后將其輸入到任務共享電極圖(TEG )網絡中,以整合多個電極之間的空間信息,。ETE和TEG共同構成了漸進的時空解耦,。
實驗設計
本研究開發(fā)了EEGPT的4種架構配置:EEGPT - Base、EEGPT - Large,、EEGPT - Huge和EEGPT - Giant,。為了更詳細地分析標度律,請參見表1:
表1 EEGPT模型的配置
本研究選取的比較基準模型分為兩類:第一類模型在各自的數據集上從頭開始訓練,,不需要任何預訓練,;第二類在各自的數據集上使用繼承的預訓練參數進行微調。如表2所示,,作者在5個不同的任務(情感識別ER,、運動想象分類MI,、腦力負荷檢測MW、睡眠分期SS,,跨模態(tài)任務CM)中使用12個數據集來評估EEGPT,。
表2 不同任務中使用到的數據集
實驗采用了跨被試范式,將每個數據集按照8:1:1的比例劃分為訓練集,、驗證集和測試集,,并且確保這些劃分間沒有受試者的重疊。
結果分析
實驗數據顯示,,EEGPT - Giant在ER,、MI、MW,、SS,、CM任務上分別取得了5.07 %、 6.05 %,、 8.50 %,、 11.20 %,、 5.10 %的平均準確率提升,,表明EEGPT雖然是一個通用模型,但始終優(yōu)于針對特定任務進行微調的專用模型,。表3給出了12個數據集的性能比較:
表3 12個數據集的性能比較
列" One Model ? "表示這些基準的結果是否來自同一模型,。實驗結果表明,隨著模型規(guī)模的擴大,,性能存在明顯且一致的上升趨勢,。有趣的是,經過預訓練的專用模型似乎比從零開始訓練的專業(yè)模型表現略差,,可能是由于預訓練采用的數據和下游任務采用的數據存在較大領域差異,,妨礙了遷移學習的效果。
在消融實驗部分,,得到結論:隨著模型參數增加,,對預訓練數據的擬合更好,性能提升,;增加預訓練數據量可提升性能,,但提升幅度逐漸減小,;聯(lián)合多任務訓練優(yōu)于單獨訓練,,共享節(jié)點(電極)提供了數據增強;在未見過的 DREAMER 數據集上,,EEGPT 的表現出強可轉移性,,能有效聚類不同模式的信號,,具有較強的泛化能力。
結論
本文提出了首個通用EEG基礎模型EEGPT,。通過引入電極建模策略,、開發(fā)自回歸預訓練方法以及實施帶有可學習電極圖網絡的多任務遷移學習范式,EEGPT統(tǒng)一了多樣的EEG數據集,,并捕捉了EEG信號中固有的順序和時間依賴關系,。模型在基準測試中表現出色,展示了其多功能性和可擴展性,。EEGPT將激發(fā)通用型EEG模型的進一步研究和開發(fā),。
附錄:近2年腦電信號大模型的相關論文對比
《Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI》:受大語言模型的啟發(fā),提出了一個名為大腦大模型(LaBraM)的統(tǒng)一 EEG 基礎模型 ,。模型通過分割 EEG 信號為通道補丁和向量量化神經頻譜預測,,在來自約 20 個數據集的大約 2500 小時的各種類型的 EEG 信號上進行預訓練,能處理不同電極配置和長度的 EEG 數據,。
《NEUROLM: A UNIVERSAL MULTI-TASK FOUNDATION MODEL FOR BRIDGING THE GAP BETWEEN LANGUAGE AND EEG SIGNALS》:提出多任務基礎模型NeuroLM ,,將 EEG 信號視為外語,融入大語言模型框架,。通過文本對齊的神經標記器編碼EEG信號,、多通道自回歸預訓練和多任務指令調整,實現多任務學習和推理,。
《FoME: A Foundation Model for EEG using Adaptive Temporal-Lateral Attention Scaling》:提出 FoME (腦電圖基礎模型),,開創(chuàng)性地采用時間 - 頻率融合嵌入技術和自適應時間 - 橫向注意力縮放(ATLAS)機制處理EEG信號,捕捉其復雜的時空動態(tài),,適應不同數據集,,促進穩(wěn)健的多通道建模。
《Brant - X: A Unified Physiological Signal Alignment Framework》:提出 Brant - X 模型,,用于對 EEG 與其他生理信號之間的相關性進行建模,。利用 EEG 基礎模型,通過兩級對齊策略(補丁級和序列級),,有效對齊 EEG 與其他信號(EOG,、ECG、EMG)的語義,。
《EEGPT: Pretrained Transformer for Universal and Reliable Representation of EEG Signals》:提出用于通用 EEG 特征提取的EEGPT 模型,,設計了雙自監(jiān)督學習方法,結合時空表示對齊和掩碼重建,,提高特征質量和模型收斂性,,為 EEG 信號處理提供有效的創(chuàng)新解決方案。
撰稿人:陳浩
審稿人:李景聰