国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

7
點(diǎn)贊
0
評(píng)論
0
轉(zhuǎn)載
我要入駐

VLDB 2025 | 多任務(wù)異構(gòu)數(shù)據(jù)感知的LoRA微調(diào)系統(tǒng)

VLDB 2025 | 多任務(wù)異構(gòu)數(shù)據(jù)感知的LoRA微調(diào)系統(tǒng)

VLDB(International Conference on Very Large Data Bases)是數(shù)據(jù)庫(kù)領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一,與SIGMOD,、ICDE并稱為數(shù)據(jù)庫(kù)領(lǐng)域的三大頂會(huì),。第51屆VLDB將于2025年9月1日至5日在英國(guó)倫敦召開。PKU-DAIR實(shí)驗(yàn)室論文《LobRA: Multi-tenant Fine-tuning over Heterogeneous Data》被VLDB 2025錄用,,系PKU-DAIR實(shí)驗(yàn)室自研分布式深度學(xué)習(xí)系統(tǒng)河圖Hetu圍繞大模型訓(xùn)練的新成果,。

LobRA: Multi-tenant Fine-tuning over Heterogeneous Data

作者:Sheng Lin, Fangcheng Fu, Haoyang Li, Hao Ge, Xuanyu Wang, Jiawen Niu, Yaofeng Tu, Bin Cui

代碼鏈接:https://github.com/PKU-DAIR/Hetu

PKU-DAIR實(shí)驗(yàn)室近期針對(duì)異構(gòu)模型和數(shù)據(jù)負(fù)載的優(yōu)化已開展了一系列相關(guān)工作:

  • HotSPa [SOSP’24]: https://dl.acm.org/doi/10.1145/3694715.3695969
  • Malleus [SIGMOD’25]: https://arxiv.org/abs/2410.13333
  • FlexSP [ASPLOS’25]: https://arxiv.org/abs/2412.01523
  • Hydraulis: https://arxiv.org/abs/2412.07894
  • ByteScale: ?https://arxiv.org/abs/2502.21231

 

1. 背景與挑戰(zhàn)

隨著基于Transformer的預(yù)訓(xùn)練模型發(fā)展,模型尺寸不斷擴(kuò)大,,下游應(yīng)用對(duì)微調(diào)的需求不斷增長(zhǎng),。云廠商通常提供“模型即服務(wù)”(Model as a Service, MaaS)的架構(gòu),允許用戶上傳數(shù)據(jù)集完成個(gè)性化的微調(diào)請(qǐng)求,。為了減小多微調(diào)任務(wù)的執(zhí)行開銷,,LoRA[1] 作為一種參數(shù)高效微調(diào)技術(shù)被廣泛應(yīng)用,,減小模型微調(diào)所需的顯存并提高效率,。鑒于租戶的微調(diào)請(qǐng)求通?;谕粋€(gè)預(yù)訓(xùn)練模型,同時(shí)服務(wù)多租戶的微調(diào)請(qǐng)求成為提高服務(wù)效率的關(guān)鍵,。然而,,現(xiàn)有的微調(diào)框架如NeMo 和 mLoRA[2] 都假設(shè)訓(xùn)練負(fù)載是同構(gòu)的(即所有序列長(zhǎng)度一致),并根據(jù)數(shù)據(jù)集內(nèi)的最長(zhǎng)序列進(jìn)行資源配置和并行策略選擇,,在實(shí)踐中無(wú)法達(dá)到整體訓(xùn)練效率最優(yōu),。

圖1:多租戶任務(wù)數(shù)據(jù)集中序列長(zhǎng)度的長(zhǎng)尾分布

具體而言,在實(shí)際的多租戶微調(diào)請(qǐng)求服務(wù)中,,不同租戶的微調(diào)數(shù)據(jù)集之間具有異構(gòu)性,。如圖1所示,一方面,,不同任務(wù)類型的數(shù)據(jù)集的序列長(zhǎng)度不同,,例如常見的對(duì)話數(shù)據(jù)集以短序列為主,而總結(jié)類數(shù)據(jù)集則以長(zhǎng)序列為主,;另一方面,,在同時(shí)服務(wù)多個(gè)微調(diào)請(qǐng)求時(shí),多任務(wù)數(shù)據(jù)集整體服從長(zhǎng)尾分布,,即存在大量短序列和少量長(zhǎng)序列,。

圖2:多任務(wù)微調(diào)下不同執(zhí)行方案及相應(yīng)卡時(shí)的示例

在分布式微調(diào)時(shí),對(duì)數(shù)據(jù)并行,、模型并行等并行策略的選擇會(huì)導(dǎo)致不同的內(nèi)存消耗,、通信開銷和執(zhí)行效率。如圖2(a)和圖2(b)所示,,在同時(shí)服務(wù)多租戶微調(diào)任務(wù)時(shí),,如果簡(jiǎn)單地將所有數(shù)據(jù)合并且采用同構(gòu)策略,需要的卡時(shí)反而比順序跑要更長(zhǎng),,而在圖2(c)和圖2(d)中,,利用同時(shí)存在不同模型并行度的異構(gòu)策略,能更高效地處理異構(gòu)數(shù)據(jù)負(fù)載,。

2. 方法

以此為出發(fā)點(diǎn),,我們提出了異構(gòu)微調(diào)系統(tǒng)LobRA,通過異構(gòu)的并行策略部署來(lái)處理不同租戶任務(wù)之間的異構(gòu)數(shù)據(jù)負(fù)載,。圖2(d)展示了一個(gè)簡(jiǎn)單的例子,,我們的系統(tǒng)會(huì)在微調(diào)開始前根據(jù)多任務(wù)的數(shù)據(jù)分布情況確定靜態(tài)的并行策略方案,并在每輪訓(xùn)練迭代中根據(jù)工作負(fù)載的異構(gòu)特征進(jìn)行負(fù)載均衡的數(shù)據(jù)分發(fā),,以減少模型等待梯度同步的資源浪費(fèi),。這種基于異構(gòu)理念設(shè)計(jì)的訓(xùn)練范式能夠讓異構(gòu)負(fù)載在各自的顯存約束內(nèi)選擇合適的模型并行方案,從而達(dá)到整體的高效訓(xùn)練,。

圖3:LobRA系統(tǒng)架構(gòu)圖

圖3展示了LobRA的系統(tǒng)架構(gòu)圖,,其由求解器和異構(gòu)訓(xùn)練模塊組成,。我們將求解器分為兩個(gè)階段:靜態(tài)的并行策略部署求解(Model Deployment Planning)和動(dòng)態(tài)的數(shù)據(jù)分發(fā)求解(Data Dispatching Planning)。

靜態(tài)階段根據(jù)多租戶任務(wù)的數(shù)據(jù)集分布將策略求解建模為一個(gè)混合整數(shù)非線性規(guī)劃(MINLP)問題,,并通過策略剪枝(Configuration Pruning)加速求解過程,,最終得到并行策略部署方案。

動(dòng)態(tài)階段則首先對(duì)每輪迭代的訓(xùn)練數(shù)據(jù)進(jìn)行動(dòng)態(tài)分桶(Dynamic Bucketing),,通過動(dòng)態(tài)規(guī)劃算法減少padding,,并將分桶結(jié)果交付給求解器給出在不同模型并行組上實(shí)現(xiàn)負(fù)載均衡的數(shù)據(jù)分發(fā)策略(Workload-Balanced Data Dispatching)。動(dòng)態(tài)階段的求解器將數(shù)據(jù)分發(fā)建模為線性規(guī)劃問題,,從而能夠在運(yùn)行時(shí)快速求解,。值得一提的是,LobRA 將數(shù)據(jù)分發(fā)求解與訓(xùn)練過程解耦并行,,從而隱藏求解器的時(shí)間開銷,。

3. 實(shí) 驗(yàn)

圖4:LobRA與其他執(zhí)行方案的端到端性能實(shí)驗(yàn)對(duì)比

我們構(gòu)建了面向多租戶LoRA微調(diào)任務(wù)的訓(xùn)練框架LobRA,通過高效的多租戶異構(gòu)數(shù)據(jù)處理,,支持在70B的大模型上同時(shí)服務(wù)10個(gè)以上的多租戶微調(diào)請(qǐng)求,,并在多個(gè)數(shù)據(jù)集、多種大小模型上進(jìn)行實(shí)驗(yàn),。圖4展示了 LobRA 與不同的執(zhí)行方案的性能對(duì)比,,實(shí)驗(yàn)結(jié)果表明,我們的系統(tǒng)相比于同構(gòu)混合執(zhí)行(Task-Fused)減少了最多60.67%的卡時(shí),,且與同構(gòu)順序執(zhí)行(Task-Sequential)和異構(gòu)順序執(zhí)行(LobRA-Sequential)等方案相比有更高的訓(xùn)練效率,。

4. 總 結(jié)

在本研究中,我們提出了面向多租戶LoRA微調(diào)任務(wù)的訓(xùn)練系統(tǒng)LobRA,,該系統(tǒng)通過靜態(tài)的異構(gòu)并行策略部署和動(dòng)態(tài)的負(fù)載均衡數(shù)據(jù)分發(fā)方法實(shí)現(xiàn)了多任務(wù)異構(gòu)數(shù)據(jù)負(fù)載的高效微調(diào),。實(shí)驗(yàn)表明,LobRA能更好地節(jié)省多任務(wù)服務(wù)的卡時(shí),,優(yōu)于現(xiàn)有的執(zhí)行方案,。

 

參考文獻(xiàn):

[1] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen. LoRA: Low-Rank Adaptation of Large Language Models. ICML, 2022.

[2] Zhengmao Ye, Dengchun Li, Zetao Hu, Tingfeng Lan, Jian Sha, Sicong Zhang, Lei Duan, Jie Zuo, Hui Lu, Yuanchun Zhou, Mingjie Tang. mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs. VLDB, 2025.

 

 

實(shí)驗(yàn)室簡(jiǎn)介

 

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),,長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng),、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開源項(xiàng)目,。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博,、ACM中國(guó)優(yōu)博、北大優(yōu)博,、微軟學(xué)者,、蘋果獎(jiǎng)學(xué)金,、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作,,與騰訊、阿里巴巴,、蘋果,、微軟、百度,、快手,、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索,解決實(shí)際問題,,進(jìn)行科研成果的轉(zhuǎn)化落地,。


北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室,PKU-DAIR,,Peking University Data And Intelligence Research Lab,,負(fù)責(zé)人為北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授。
返回頂部