国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

1
點(diǎn)贊
0
評論
0
轉(zhuǎn)載
我要入駐

ACL 2025 | 基于知識驅(qū)動與高斯衰減對比學(xué)習(xí)的無監(jiān)督句子嵌入增強(qiáng)方法

 

作者:Peichao Lai, Zhengfeng Zhang, Wentao Zhang, Fangcheng Fu, Bin Cui

Github鏈接:https://github.com/aleversn/GCSE

 

ACL ( The Annual Meeting of the Association for Computational Linguistics )是自然語言處理(NLP)與計(jì)算語言學(xué)領(lǐng)域最具影響力的國際學(xué)術(shù)會議之一,,被中國計(jì)算機(jī)學(xué)會(CCF)推薦為 A類會議,。ACL 2025 將于7月27日—8月1日在奧地利維也納舉行。

PKU-DAIR實(shí)驗(yàn)室論文《 Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning》被ACL 2025 錄用,。

 

一,、問題背景與動機(jī)

句子表示學(xué)習(xí)作為自然語言處理的基礎(chǔ)任務(wù),旨在生成準(zhǔn)確的句子嵌入以提升語義推理,、檢索和問答等下游任務(wù)的性能,?;趯Ρ葘W(xué)習(xí)的無監(jiān)督句子嵌入方法因計(jì)算效率高且無需人工標(biāo)注數(shù)據(jù),成為當(dāng)前的研究熱點(diǎn),。該類方法的核心思想是通過對比損失函數(shù),,拉近語義相似句子的嵌入距離并推遠(yuǎn)不相似句子的距離。然而,,其性能高度依賴訓(xùn)練樣本的數(shù)量與質(zhì)量,,在數(shù)據(jù)增強(qiáng)過程中,如何有效提升樣本的多樣性和純凈度,,成為無監(jiān)督對比學(xué)習(xí)的關(guān)鍵挑戰(zhàn),。

核心挑戰(zhàn):數(shù)據(jù)多樣性與噪聲問題

現(xiàn)有方法主要面臨兩大瓶頸:
其一,數(shù)據(jù)多樣性不足?,F(xiàn)有數(shù)據(jù)增強(qiáng)方法常忽略實(shí)體,、數(shù)量等細(xì)粒度知識,導(dǎo)致生成樣本的語義變體有限,。傳統(tǒng)規(guī)則化方法依賴固定模板修改句子(如簡單詞替換),,而基于大語言模型(LLM)的方法(如 SynCSE、MultiCSR)雖通過提示引導(dǎo)生成多樣化樣本,,但缺乏對知識的顯式控制,,樣本多樣性受限于 LLM 的概率分布,難以覆蓋同一知識的多維度表達(dá)(如實(shí)體類型,、數(shù)量級變化),。
其二,數(shù)據(jù)噪聲過高,。無監(jiān)督場景下,,負(fù)樣本易包含表面語義相似但實(shí)際語義無關(guān)的 “假負(fù)例樣本”,而 LLM 生成的合成樣本可能因語義分布偏差引入額外噪聲?,F(xiàn)有去噪方法(如 MultiCSR 的線性規(guī)劃過濾)可能誤刪有價(jià)值樣本,,導(dǎo)致數(shù)據(jù)多樣性進(jìn)一步下降。如圖 1 所示,,在 STS-Benchmark 驗(yàn)證集上,現(xiàn)有方法普遍存在假正例(FP)和假負(fù)例(FN)樣本比例失衡的問題,,表明假負(fù)樣例噪聲已成為影響模型判別能力的關(guān)鍵因素,。

圖1. 不同方法在驗(yàn)證集上假正例(FP)和假負(fù)例(FN)對比

為解決上述問題,本研究提出結(jié)合知識圖譜與 LLM 的流水線式結(jié)構(gòu)的數(shù)據(jù)增強(qiáng)方法,,并引入高斯衰減對比學(xué)習(xí)模型(GCSE),。具體動機(jī)包括:

  1. 顯式建模細(xì)粒度知識:通過知識圖譜提取句子中的實(shí)體、數(shù)量及其關(guān)系,,引導(dǎo) LLM 生成包含結(jié)構(gòu)化語義變體的樣本(如實(shí)體替換,、數(shù)量調(diào)整),,突破傳統(tǒng)方法對全局語義的粗粒度控制,提升樣本多樣性,。
  2. 動態(tài)抑制噪聲影響:設(shè)計(jì)高斯衰減函數(shù)調(diào)整假負(fù)例樣本的梯度權(quán)重,,在訓(xùn)練初期降低其對語義空間的扭曲,隨著模型收斂逐步恢復(fù)權(quán)重,,實(shí)現(xiàn)噪聲樣本的有效利用而非直接丟棄,。
  3. 提升數(shù)據(jù)利用效率:在少樣本和輕量級 LLM 場景下實(shí)現(xiàn)較高性能,證明了方法對低資源場景的適應(yīng)性,。通過上述創(chuàng)新,,本研究旨在為無監(jiān)督句子嵌入提供一種兼顧多樣性與噪聲影響的解決方案,推動其在實(shí)際場景中的應(yīng)用,。

 

二,、數(shù)據(jù)增強(qiáng)和模型訓(xùn)練流程

圖2. 數(shù)據(jù)增強(qiáng)和句子表示訓(xùn)練工作流

如圖2所示,本方法通過LLM進(jìn)行數(shù)據(jù)增強(qiáng),,從源數(shù)據(jù)中合成新樣本,,然后使用經(jīng)過初始過濾的合成數(shù)據(jù)訓(xùn)練GCSE模型。

圖3. 基于知識抽取構(gòu)建實(shí)體知識圖譜的數(shù)據(jù)生成框架

1. 數(shù)據(jù)增強(qiáng):知識驅(qū)動的樣本合成流程

數(shù)據(jù)增強(qiáng)模塊旨在通過LLM生成高質(zhì)量,、多樣化的訓(xùn)練樣本,,平衡領(lǐng)域特異性與通用語義空間的適配性。該流程分為知識提取與整合基于 LLM 的正負(fù)樣本合成兩個核心環(huán)節(jié),,如圖 3 所示,。首先,從源數(shù)據(jù)中提取實(shí)體,、數(shù)量等細(xì)粒度知識,,構(gòu)建實(shí)體知識圖譜(KG),其中節(jié)點(diǎn)包含實(shí)體文本,、類型及數(shù)量(如 “孩子 - 人物 - 兩個”),,邊分為硬邊(實(shí)體與類型 / 數(shù)量的固定關(guān)系)和軟邊(同一句子內(nèi)實(shí)體間的關(guān)聯(lián))。通過知識圖譜,,可系統(tǒng)地捕捉樣本中的結(jié)構(gòu)化信息,,為后續(xù)合成提供語義約束。

知識提取與圖譜構(gòu)建

具體而言,,通過設(shè)計(jì)提取提示詞,,利用 LLM 從每個樣本中解析出知識集合,每個知識單元包含實(shí)體文本,、類型和數(shù)量,。將所有樣本的知識單元整合為實(shí)體知識圖譜,其中節(jié)點(diǎn)包含所有提取的三元組,,通過構(gòu)建實(shí)體和對應(yīng)實(shí)體類型的硬邊(如 “狗 - 動物”)和實(shí)體與上下文其他實(shí)體的軟邊(如 “狗 - 公園” 的共現(xiàn)關(guān)系)連接節(jié)點(diǎn),。這種結(jié)構(gòu)化表示允許模型高效識別可替換的實(shí)體節(jié)點(diǎn)(如同一類型的 “貓”“狗”),,確保合成樣本與源樣本的語義關(guān)聯(lián)性。

基于 LLM 的正負(fù)樣本合成

在樣本合成階段,,通過三類提示詞引導(dǎo) LLM 生成多樣化樣本:

  1. 改寫提示詞:生成正樣本,,如通過 “重寫句子但保留原意” 指令生成語義等價(jià)變體(如 “兩個孩子和狗玩耍”→“孩童與犬類嬉戲”)。
  2. 語法反義提示詞:生成語法層面矛盾的負(fù)樣本,,如通過否定詞或情感反轉(zhuǎn)構(gòu)造語義對立句(如 “孩子沒有和狗玩耍”),。
  3. 實(shí)體 / 數(shù)量修訂提示詞:基于知識圖譜搜索相鄰節(jié)點(diǎn)(如替換 “狗” 為同類型實(shí)體 “貓”,或調(diào)整數(shù)量 “兩個”→“一個”),,生成細(xì)粒度差異的負(fù)樣本,。 通過知識圖譜約束實(shí)體替換范圍(如僅選擇同類型實(shí)體或關(guān)聯(lián)實(shí)體),確保負(fù)樣本在表面特征上接近源樣本,,但在細(xì)粒度語義上存在明確差異,,從而提升對比學(xué)習(xí)的有效性。生成樣本經(jīng)評估模型初步過濾后,,形成最終的訓(xùn)練數(shù)據(jù)集,。

2. 模型訓(xùn)練:兩階段對比學(xué)習(xí)框架

模型訓(xùn)練過程分為通用對比學(xué)習(xí)預(yù)訓(xùn)練帶噪聲抑制的對比學(xué)習(xí)微調(diào)兩個階段,旨在通過漸進(jìn)式訓(xùn)練提升模型對語義空間的建模能力,。首先,,利用通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù)預(yù)訓(xùn)練一個評估模型,學(xué)習(xí)通用語義分布,;隨后,,將評估模型的結(jié)構(gòu)和參數(shù)遷移至 GCSE 模型,并通過高斯衰減函數(shù)動態(tài)調(diào)整難負(fù)樣本的影響,,實(shí)現(xiàn)對合成數(shù)據(jù)中噪聲的有效抑制,。

圖4. 基于高斯衰減的GCSE模型批次訓(xùn)練示例圖

 

第一階段:通用對比學(xué)習(xí)預(yù)訓(xùn)練

在預(yù)訓(xùn)練階段,采用標(biāo)準(zhǔn)對比學(xué)習(xí)框架SimCSE訓(xùn)練評估模型,。對于每個無標(biāo)簽句子,,將其自身通過隨機(jī) dropout 生成兩個不同視圖作為正樣本對,同批次其他句子作為負(fù)樣本,。損失函數(shù)采用 InfoNCE 形式,,計(jì)算正樣本對的余弦相似度并拉遠(yuǎn)與負(fù)樣本的距離。此階段通過通用數(shù)據(jù)(如 Wikipedia)和領(lǐng)域數(shù)據(jù)的混合訓(xùn)練,,使評估模型學(xué)習(xí)到均勻的語義分布,,為后續(xù)噪聲過濾和特征提取提供相對可靠基準(zhǔn)。預(yù)訓(xùn)練完成后,,評估模型參數(shù)被凍結(jié),用于合成數(shù)據(jù)的質(zhì)量評估,。

 

第二階段:帶高斯衰減的對比學(xué)習(xí)微調(diào)

在微調(diào)階段,,GCSE 模型以評估模型為骨干網(wǎng)絡(luò),,接收由數(shù)據(jù)增強(qiáng)流程生成的三元組樣本 。首先通過評估模型過濾合成樣本:

 

  • 正樣本篩選:采用較高閾值保留與源樣本相似度高(如 0.9)的合成句,;
  • 負(fù)樣本篩選:選擇與源樣本相似度相對較高的合成句或隨機(jī)批次內(nèi)負(fù)樣本來保留文本多樣性以及易混淆負(fù)樣例,。對于過濾后的負(fù)樣本,引入高斯衰減函數(shù)動態(tài)調(diào)整其梯度權(quán)重,。該函數(shù)根據(jù) GCSE 模型與評估模型對負(fù)樣本的相似度預(yù)測差異的自動衰減梯度:

  • 在訓(xùn)練初期,,若負(fù)樣本被誤判為相似(假負(fù)例),期望GCSE對齊評估模型的相似度分?jǐn)?shù),,利用高斯函數(shù)抑制其梯度,,避免語義空間因假負(fù)樣例而發(fā)生錯誤變化;隨著訓(xùn)練推進(jìn),,若真負(fù)樣本的相似度分?jǐn)?shù)與評估模型逐漸加大,,其梯度權(quán)重將逐步恢復(fù),確保模型最終學(xué)會區(qū)分細(xì)粒度語義差異,。此機(jī)制在保留樣本多樣性的同時(shí),,有效緩解了噪聲對訓(xùn)練的干擾。

 

三,、實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)與場景配置

實(shí)驗(yàn)在兩類場景下展開:一是基于 Wikipedia 文本的默認(rèn)設(shè)置,,遵循經(jīng)典方法合成樣本;二是模擬低資源場景,,采用 STS-12(2.2k),、PAWS(3.5k)、SICK(4.5k)等領(lǐng)域無標(biāo)簽數(shù)據(jù)與 NLI 通用數(shù)據(jù)(比例 1:3),,驗(yàn)證模型在有限數(shù)據(jù)下的性能,。數(shù)據(jù)增強(qiáng)環(huán)節(jié)利用 ChatGLM3-6B、GPT-3.5 Turbo,、Deepseek-V3-0324 等多個參數(shù)規(guī)模 LLM 生成樣本,,覆蓋從 6B 到 32B 參數(shù)的本地模型,以測試方法對不同 LLM 的適配性,。

 

模型架構(gòu)與訓(xùn)練流程

主干網(wǎng)絡(luò)采用 BERT 和 RoBERTa(base/large 版本),,訓(xùn)練分為兩階段:首先通過標(biāo)準(zhǔn)對比學(xué)習(xí)在混合數(shù)據(jù)上預(yù)訓(xùn)練評估模型,學(xué)習(xí)通用語義分布,,其參數(shù)后續(xù)凍結(jié)用于合成數(shù)據(jù)過濾,;然后以評估模型為骨干初始化 GCSE,輸入經(jīng)知識圖譜引導(dǎo)生成的三元組樣本(源句,、正樣本,、負(fù)樣本),通過設(shè)定閾值初始過濾高噪聲樣本,,并利用高斯衰減函數(shù)動態(tài)調(diào)整難負(fù)樣本的梯度權(quán)重,,平衡噪聲抑制與樣本多樣性,。

 

評估指標(biāo)與基線對比

核心評估聚焦語義文本相似性(STS)任務(wù),覆蓋 7 個標(biāo)準(zhǔn)子集,,以 Spearman 相關(guān)系數(shù)為指標(biāo),,并通過 SentEval工具對比包括傳統(tǒng)無監(jiān)督方法(如 SimCSE、RankCSE)和 LLM 增強(qiáng)方法(SynCSE,、MultiCSR),。實(shí)驗(yàn)在 NVIDIA A800 GPU 上完成數(shù)據(jù)合成,于 8 塊 NVIDIA TITAN RTX GPU 進(jìn)行模型訓(xùn)練,,確保效率與穩(wěn)定性,。

 

主要實(shí)驗(yàn)結(jié)果

在語義文本相似性(STS)任務(wù)上,本文方法展現(xiàn)出顯著的性能優(yōu)勢,。表1結(jié)果顯示,,基于不同大語言模型(LLM)合成數(shù)據(jù)的 GCSE 模型在所有主干網(wǎng)絡(luò)(BERT、RoBERTa)上均優(yōu)于現(xiàn)有無監(jiān)督基線方法,。例如,,使用 Deepseek-V3-0324 和 GPT-3.5 Turbo 合成樣本的 GCSE 模型在 STS 任務(wù)平均得分中表現(xiàn)最佳;即使采用輕量級 LLM(如 ChatGLM3-6B),,GCSE 仍能超越 SynCSE,、MultiCSR 等先進(jìn)方法。具體而言,,與標(biāo)準(zhǔn)無監(jiān)督 SimCSE 相比,,GCSE(ChatGLM3-6B)在 Base 模型上平均提升 5.40%,在 Large 模型上提升 3.95%,;在強(qiáng)基線 RankCSE 基礎(chǔ)上,,平均提升 1.90%,驗(yàn)證了 LLM 數(shù)據(jù)合成流程的有效性,。

表1: 默認(rèn)設(shè)置下的實(shí)驗(yàn)結(jié)果

 

在模擬低資源,、高質(zhì)量領(lǐng)域數(shù)據(jù)的場景下(表 1),GCSE 使用僅為 SynCSE 和 MultiCSR 14% 的樣本量,,仍實(shí)現(xiàn)了更高的平均 Spearman 相關(guān)系數(shù),。例如,在 BERT-base 模型上,,GCSE(GPT-3.5 Turbo)平均得分達(dá) 81.92,,顯著優(yōu)于依賴全量 NLI 數(shù)據(jù)的基線方法,表明本文提出的數(shù)據(jù)合成策略和領(lǐng)域樣本選擇方法能高效利用有限數(shù)據(jù),,提升模型對目標(biāo)領(lǐng)域的語義建模能力,。

手機(jī)屏幕的截圖

AI 生成的內(nèi)容可能不正確。

表2: 模擬低資源場景下的實(shí)驗(yàn)結(jié)果

此外,GCSE 在不同規(guī)模的 LLM 下均表現(xiàn)出魯棒性:從 6B 參數(shù)的 ChatGLM3 到 32B 參數(shù)的 Qwen2.5,,模型性能隨 LLM 規(guī)模增長呈上升趨勢,,但即使使用較小 LLM,GCSE 仍能通過知識驅(qū)動的數(shù)據(jù)增強(qiáng)彌補(bǔ)模型能力的不足,,在 STS 任務(wù)中保持領(lǐng)先。實(shí)驗(yàn)結(jié)果表明,,本文方法在數(shù)據(jù)效率和模型泛化性上實(shí)現(xiàn)了雙重突破,,為無監(jiān)督句子嵌入提供了新的性能基準(zhǔn)。

 

四,、總 結(jié)

本研究提出知識驅(qū)動的數(shù)據(jù)增強(qiáng)框架與高斯衰減對比學(xué)習(xí)模型(GCSE),,通過提取實(shí)體、數(shù)量等細(xì)粒度知識構(gòu)建知識圖譜來指導(dǎo)LLM生成多樣化樣本,,并創(chuàng)新性地采用高斯衰減梯度調(diào)節(jié)機(jī)制:在訓(xùn)練初期降低困難負(fù)樣本的梯度權(quán)重,,根據(jù)其與評估模型的分布偏差動態(tài)調(diào)整梯度影響,從而在提升數(shù)據(jù)多樣性的同時(shí)有效抑制噪聲干擾,。實(shí)驗(yàn)表明,,GCSE在STS任務(wù)上能夠以更少數(shù)據(jù)量和較小模型參數(shù)規(guī)模實(shí)現(xiàn)顯著的性能提升,實(shí)驗(yàn)在BERT和RoBERTa系列模型上取得了優(yōu)于現(xiàn)有方法的平均性能,,為細(xì)粒度句子表示學(xué)習(xí)提供了兼顧語義多樣性與噪聲控制能力的新范式,。

 

 

實(shí)驗(yàn)室簡介

 

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),,長期從事數(shù)據(jù)庫系統(tǒng),、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,,已在國際頂級學(xué)術(shù)會議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個開源項(xiàng)目,。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博,、ACM中國優(yōu)博、北大優(yōu)博,、微軟學(xué)者,、蘋果獎學(xué)金、谷歌獎學(xué)金等榮譽(yù),。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作,,與騰訊、阿里巴巴,、蘋果,、微軟、百度、快手,、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索,,解決實(shí)際問題,進(jìn)行科研成果的轉(zhuǎn)化落地,。


北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室,,PKU-DAIR,Peking University Data And Intelligence Research Lab,,負(fù)責(zé)人為北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授,。
返回頂部