今日,,第十三屆國(guó)際學(xué)習(xí)表征會(huì)議(International Conference on Learning Representations,ICLR 2025)正式公布錄用論文名單,,PKU-DAIR實(shí)驗(yàn)室論文7篇論文被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議ICLR 2025錄用,。
ICLR 2025將于2025年4月24日至28日在新加坡博覽中心(Singapore EXPO)舉行,展示人工智能與深度學(xué)習(xí)領(lǐng)域的最新進(jìn)展和突破性研究,。
1. NetMoE: Accelerating MoE Training through Dynamic Sample Placement
作者:Xinyi Liu, Yujie Wang, Fangcheng Fu, Xupeng Miao, Shenhan Zhu, Xiaonan Nie, Bin CUI
論文鏈接:https://openreview.net/forum?id=1qP3lsatCR
Mixture of Experts (MoE) 是一種常用技術(shù),,用于在保持計(jì)算成本不變的情況下擴(kuò)展模型規(guī)模以提高模型質(zhì)量。MoE 模型的每一層包含多個(gè)專家,并將訓(xùn)練數(shù)據(jù)僅路由到固定數(shù)量的專家,,而不是全部,。在分布式訓(xùn)練中,由于專家分布在不同的 GPU 上,,因此需要進(jìn)行 All-to-All 通信,,以便在每次專家路由后在 GPU 之間交換訓(xùn)練數(shù)據(jù)。由于頻繁且大量的數(shù)據(jù)交換,,All-to-All 通信已成為訓(xùn)練效率的一個(gè)顯著挑戰(zhàn),。在本文中,我們從訓(xùn)練樣本的角度加速 MoE 模型中的 All-to-All 通信,,這是一個(gè)尚未被探索的領(lǐng)域,。具體而言,我們發(fā)現(xiàn)同一訓(xùn)練樣本中的數(shù)據(jù)在專家路由中具有一定程度的局部性,。受此啟發(fā),,我們開發(fā)了 NetMoE,它考慮到這種局部性并動(dòng)態(tài)重新排列訓(xùn)練樣本的放置,,以最小化 All-to-All 通信成本,。我們對(duì)樣本放置進(jìn)行了建模,并通過整數(shù)規(guī)劃問題在多項(xiàng)式時(shí)間內(nèi)推導(dǎo)出最佳放置方案,。實(shí)驗(yàn)結(jié)果表明,, NetMoE 相較于現(xiàn)有 MoE 訓(xùn)練框架實(shí)現(xiàn)了顯著效率的提升。
2. SysBench: Can Large Language Models Follow System Messages?
作者:Yanzhao Qin, Tao Zhang, Tao Zhang,, Yanjun Shen, Wenjing Luo, Haoze Sun, Yan Zhang, Yujing Qiao, Weipeng Chen, Zenan Zhou, Wentao Zhang, Bin Cui
論文鏈接:https://arxiv.org/pdf/2408.10943v1
代碼鏈接:https://github.com/PKU-BaichuanMLSystemLab/SysBench
合作單位:百川智能
大型語言模型(LLMs)在各種應(yīng)用場(chǎng)景中發(fā)揮著重要作用,,因此通過定制化模型以適應(yīng)特定場(chǎng)景的需求變得愈加重要。System Message(系統(tǒng)消息)是LLMs用于引導(dǎo)模型的行為以實(shí)現(xiàn)預(yù)期目標(biāo)的一個(gè)關(guān)鍵組成部分,,由精心設(shè)計(jì)的指令組成,。盡管系統(tǒng)消息實(shí)際場(chǎng)景中被廣泛應(yīng)用,但目前仍然缺少一個(gè)全面的基準(zhǔn)來評(píng)估不同LLMs對(duì)系統(tǒng)消息的實(shí)際遵循能力,。為填補(bǔ)這一空白,,我們提出了SysBench,一個(gè)分析模型對(duì)系統(tǒng)消息遵循能力的基準(zhǔn)測(cè)試,,重點(diǎn)分析了該場(chǎng)景中以下三個(gè)具有挑戰(zhàn)性的問題:約束復(fù)雜性,、指令對(duì)齊性和多輪交互穩(wěn)定性。為了實(shí)現(xiàn)有效評(píng)估,,SysBench覆蓋了現(xiàn)實(shí)場(chǎng)景系統(tǒng)消息六種常見的約束類型,,并包含各種指令對(duì)齊關(guān)系,組成多輪交互用戶對(duì)話,。具體而言,,我們的數(shù)據(jù)集包含來自多個(gè)領(lǐng)域的500條系統(tǒng)消息,,每條系統(tǒng)消息與5輪用戶對(duì)話相關(guān)聯(lián),經(jīng)過人工精心編寫和審核以確保數(shù)據(jù)質(zhì)量,,在實(shí)驗(yàn)中表現(xiàn)出了良好的評(píng)估一致性,。我們基于SysBench對(duì)多個(gè)LLMs進(jìn)行了廣泛評(píng)估,評(píng)估結(jié)果解釋了現(xiàn)有模型在系統(tǒng)消息遵循方面的優(yōu)勢(shì)與不足,,且為未來研究提供了關(guān)鍵見解和方向,。
3. IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
作者:Xinchen Zhang*, Ling Yang* (co-first), Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui
論文鏈接:https://arxiv.org/abs/2410.07171
代碼鏈接:https://github.com/YangLing0818/IterComp
合作單位:清華大學(xué),,牛津大學(xué),,普林斯頓大學(xué)
先進(jìn)的擴(kuò)散模型,如RPG,、Stable Diffusion 3和FLUX,,在組合文本到圖像生成方面取得了顯著進(jìn)展。然而,,這些方法通常在組合生成方面表現(xiàn)出不同的優(yōu)勢(shì),,有些在處理屬性綁定方面表現(xiàn)出色,而另一些則在空間關(guān)系上更為突出,。這種差異突顯了需要一種方法,,能夠利用各種模型的互補(bǔ)優(yōu)勢(shì),以全面提升組合能力,。為此,,我們提出了IterComp,這是一種新穎的框架,,聚合來自多個(gè)模型的組合感知模型偏好,,并采用迭代反饋學(xué)習(xí)方法來增強(qiáng)組合生成。具體而言,,我們整理了六個(gè)強(qiáng)大的開源擴(kuò)散模型的庫,,并評(píng)估它們的三個(gè)關(guān)鍵組合指標(biāo):屬性綁定、空間關(guān)系和非空間關(guān)系,?;谶@些指標(biāo),我們開發(fā)了一個(gè)組合感知模型偏好數(shù)據(jù)集,,包含大量圖像排名對(duì),,以訓(xùn)練組合感知獎(jiǎng)勵(lì)模型。然后,,我們提出了一種迭代反饋學(xué)習(xí)方法,,以閉環(huán)方式增強(qiáng)組合性,使基礎(chǔ)擴(kuò)散模型和獎(jiǎng)勵(lì)模型在多個(gè)迭代中逐步自我優(yōu)化,。理論證明表明了其有效性,,廣泛的實(shí)驗(yàn)結(jié)果顯示我們?cè)诙囝悇e物體組合和復(fù)雜語義對(duì)齊方面相比之前的最先進(jìn)方法(如Omost和FLUX)具有顯著優(yōu)勢(shì),。IterComp為擴(kuò)散模型和組合生成的獎(jiǎng)勵(lì)反饋學(xué)習(xí)開辟了新的研究方向。
4. SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights
作者:Ling Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan
論文鏈接:https://arxiv.org/abs/2410.09008
代碼鏈接:https://github.com/YangLing0818/SuperCorrect-llm
合作單位:斯坦福大學(xué),, 伯克利大學(xué)
大型語言模型(LLMs),,如GPT-4、PaLM和LLaMA,,在各種推理任務(wù)中表現(xiàn)出顯著改善,。然而,較小的模型如Llama-3-8B和DeepSeekMath-Base在復(fù)雜數(shù)學(xué)推理方面仍然存在困難,,因?yàn)樗鼈儫o法有效識(shí)別和糾正推理錯(cuò)誤,。最近的基于反思的方法旨在通過實(shí)現(xiàn)自我反思和自我糾正來解決這些問題,但在獨(dú)立檢測(cè)推理步驟中的錯(cuò)誤方面仍面臨挑戰(zhàn),。為克服這些局限性,,我們提出了SuperCorrect,這是一種新穎的兩階段框架,,利用大型教師模型來監(jiān)督和糾正較小學(xué)生模型的推理和反思過程,。在第一階段,我們從教師模型中提取層次化的高層和詳細(xì)思維模板,,以指導(dǎo)學(xué)生模型引出更細(xì)致的推理思維,。在第二階段,我們引入跨模型協(xié)作直接偏好優(yōu)化(DPO),,通過在訓(xùn)練過程中遵循教師的糾正軌跡來增強(qiáng)學(xué)生模型的自我糾正能力,。這種跨模型DPO方法教會(huì)學(xué)生模型有效定位和解決錯(cuò)誤思維,并借助教師模型的改錯(cuò)思路,,打破其思維瓶頸,,獲取應(yīng)對(duì)挑戰(zhàn)性問題的新技能和知識(shí)。大量實(shí)驗(yàn)結(jié)果一致表明我們優(yōu)于之前的方法,。值得注意的是,,我們的SuperCorrect-7B模型在MATH/GSM8K基準(zhǔn)測(cè)試中分別比強(qiáng)大的DeepSeekMath-7B超出7.8%/5.3%和比Qwen2.5-Math-7B超出15.1%/6.3%,在所有7B模型中實(shí)現(xiàn)了新的最先進(jìn)性能,。
5. SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget
作者: Zihao Wang, Bin CUI, Shaoduo Gan
論文鏈接:https://openreview.net/forum?id=9HK2rHNAhd
代碼鏈接:https://github.com/hetailang/SqueezeAttention
合作單位:明之幾何
優(yōu)化LLM的KV-cache被廣泛認(rèn)為是降低推理成本的關(guān)鍵,。大多數(shù)現(xiàn)有的KV-cache壓縮算法依據(jù)句子中不同token的重要性的差異,在token sequence維度上進(jìn)行稀疏化壓縮,。然而,,這些方法大多對(duì)所有模型層一視同仁,即為每一層分配相同的KV cache budget,。而我們發(fā)現(xiàn),,通過識(shí)別attention layer的重要性,可以從兩個(gè)維度聯(lián)合優(yōu)化KV-cache,?;谖覀?cè)谕评磉^程中對(duì)各層重要性的觀察分析,,我們提出了一種名為 SQUEEZEATTENTION 的方法,能夠動(dòng)態(tài)調(diào)整各層KV-cache budget的分配,,而后每層再根據(jù)所分配的cache budget進(jìn)行sequence維度的壓縮,。通過從sequence和layer兩個(gè)維度共同優(yōu)化KV-cache,SQUEEZEATTENTION 在各種LLM和基準(zhǔn)測(cè)試中能夠節(jié)省約30%至70%的推理內(nèi)存,,并將推理吞吐率提高了最多2.2倍,。
6. Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning
作者:Mingyang Chen, Haoze Sun, Tianpeng Li, Fan Yang, Hao Liang, Keer Lu, Bin Cui, Wentao Zhang, Zenan Zhou, Weipeng Chen
論文鏈接:https://arxiv.org/pdf/2410.12952
代碼鏈接:https://github.com/PKU-Baichuan-MLSystemLab/BUTTON
合作單位:百川智能
大型語言模型 (LLM) 在執(zhí)行各種任務(wù)方面表現(xiàn)出巨大的潛力,包括調(diào)用函數(shù)或使用外部工具來增強(qiáng)其性能的能力,。雖然目前對(duì) LLM 函數(shù)調(diào)用的研究主要集中在單輪交互上,,但本文討論了 LLM 參與多輪函數(shù)調(diào)用的被忽視的必要性——這對(duì)于處理需要使用函數(shù)進(jìn)行規(guī)劃但不僅僅是使用函數(shù)的組合、現(xiàn)實(shí)世界查詢至關(guān)重要,。為了促進(jìn)這一點(diǎn),,我們引入了一種方法,,BUTTON,,它通過自下而上的指令構(gòu)造和自上而下的軌跡生成來生成合成組合指令調(diào)整數(shù)據(jù)。在自下而上的階段,,我們根據(jù)現(xiàn)實(shí)世界場(chǎng)景生成簡(jiǎn)單的原子任務(wù),,并使用基于原子任務(wù)的啟發(fā)式策略構(gòu)建組合任務(wù)。然后為這些組合任務(wù)開發(fā)相應(yīng)的功能,。自上而下的階段以多智能體環(huán)境為特色,,其中利用模擬人、助手和工具之間的交互來收集多輪函數(shù)調(diào)用軌跡,。這種方法確保了任務(wù)的組合性,,并通過檢查組合任務(wù)中的原子任務(wù)來實(shí)現(xiàn)有效的功能和軌跡生成。我們生成了一個(gè)包含 8k 個(gè)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集 BUTTONInstruct,,并通過在各種 LLM1 中進(jìn)行的大量實(shí)驗(yàn)證明了其有效性,。
7. GlycanML: A Multi-Task and Multi-Structure Benchmark for Glycan Machine Learning
作者:Minghao Xu, Yunteng Geng, Yihang Zhang, Ling Yang, Jian Tang, Wentao Zhang
論文鏈接:https://arxiv.org/abs/2405.16206
代碼鏈接:https://github.com/GlycanML/GlycanML
項(xiàng)目主頁:https://glycanml.github.io/project
合作單位:Mila 魁北克人工智能
在這個(gè)項(xiàng)目中,我們推出了國(guó)際上第一個(gè)針對(duì)多糖化合物的機(jī)器學(xué)習(xí)基準(zhǔn)GlycanML,。GlycanML包含了各種類型的多糖功能理解任務(wù),,包括多糖分類學(xué)預(yù)測(cè)、多糖免疫原性預(yù)測(cè),、糖基化類型預(yù)測(cè)和蛋白質(zhì)-多糖相互作用預(yù)測(cè),。在GlycanML上我們?cè)u(píng)估了各種類型機(jī)器學(xué)習(xí)模型的綜合表現(xiàn),包括序列編碼模型,、圖神經(jīng)網(wǎng)絡(luò),、小分子預(yù)訓(xùn)練編碼器等,最終我們驗(yàn)證了基于多關(guān)系建模的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)在各項(xiàng)任務(wù)上獲得了普遍最優(yōu)的性能,,這為設(shè)計(jì)更強(qiáng)大的多糖模型提供了技術(shù)路線,。此外,,在8個(gè)不同尺度的多糖分類學(xué)任務(wù)上,我們建立了多任務(wù)學(xué)習(xí)基準(zhǔn)GlycanML-MTL,,旨在評(píng)估各種多任務(wù)學(xué)習(xí)算法在多糖表征學(xué)習(xí)上的有效性,。通過評(píng)估代表性的多任務(wù)學(xué)習(xí)算法,我們發(fā)現(xiàn)基于自適應(yīng)溫度放縮(Temperature Scaling)的算法能夠最有效地進(jìn)行多尺度多糖分類學(xué)預(yù)測(cè),。
北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長(zhǎng)期從事數(shù)據(jù)庫系統(tǒng),、大數(shù)據(jù)管理與分析,、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,,發(fā)布多個(gè)開源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博,、ACM中國(guó)優(yōu)博,、北大優(yōu)博、微軟學(xué)者,、蘋果獎(jiǎng)學(xué)金,、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作,,與騰訊,、阿里巴巴、蘋果,、微軟,、百度、快手,、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索,,解決實(shí)際問題,進(jìn)行科研成果的轉(zhuǎn)化落地,。