国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(PKU-DAIR)2022年度總結(jié)
8222
2023-03-27 16:16:24(已編輯)
25
0
4
用微信掃描二維碼

北京大學(xué)

    數(shù)據(jù)與智能實(shí)驗(yàn)室(PKU-DAIR)

2022年度總結(jié)

再見2022   你好2023

2022年,,實(shí)驗(yàn)室繼續(xù)在科研探索、師生成長(zhǎng),、項(xiàng)目合作等各方面取得長(zhǎng)足的進(jìn)步,。在這里,我們對(duì)過去一年實(shí)驗(yàn)室所取得的成果進(jìn)行總結(jié)和回顧,,迎接走出疫情,、充滿希望的2023年!

 

2022年01月回顧

【新聞動(dòng)態(tài)】

崔斌教授于2022年01月01日起擔(dān)任Data Science and Engineering(DSE)期刊主編,。

Data Science and Engineering(DSE)是由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,、數(shù)據(jù)庫專業(yè)委員會(huì)承辦、施普林格自然(Springer Nature)出版的Open Access期刊,。為了迎合相關(guān)領(lǐng)域的快速發(fā)展需求,,DSE致力于出版所有和數(shù)據(jù)科學(xué)與工程領(lǐng)域相關(guān)的關(guān)鍵科學(xué)問題與前沿研究熱點(diǎn),以大數(shù)據(jù)作為研究重點(diǎn),,征稿范疇主要包括4方面: (1)數(shù)據(jù)本身,;(2)數(shù)據(jù)信息提取方法;(3)數(shù)據(jù)計(jì)算理論;(4)用來分析與管理數(shù)據(jù)的技術(shù)和系統(tǒng),。

目前期刊已被EI,、ESCI與SCOPUS收錄,CiteScore 2021為6.4,,在Computational Mechanics領(lǐng)域排名#8/78(位列前10%),,在Computer Science Applications領(lǐng)域排名#157/747(位列前21%) 。

Data Science and Engineering期刊鏈接: https://www.springer.com/journal/41019 

【論文錄用】

2022年01月,,實(shí)驗(yàn)室共有4篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:

① 我組博士生苗旭鵬,、碩士生石屹寧等同學(xué)合作的一篇論文被SIGMOD 2022錄用;

② 我組博士生黎洋,、沈彧等同學(xué)合作的一篇論文被VLDB 2022錄用,;

③ 我組博士生張文濤、碩士生王業(yè)鑫等同學(xué)合作的一篇論文被ICLR 2022錄用,;

④ 我組碩士生蔣悅紫晗,、程羽等同學(xué)合作的一篇論文被ICDE 2022 (Industry Track)錄用。

【論文簡(jiǎn)介】

  1. Xupeng Miao, Yining Shi, Hailin Zhang, Xin Zhang, Xiaonan Nie, Zhi Yang, Bin Cui:  HET-GMP: A Graph-based System Approach to Scaling Large Embedding Model Training,SIGMOD 2022 論文提出了一個(gè)面向多GPU的大規(guī)模稀疏嵌入模型訓(xùn)練框架HET-GMP,,通過圖局部性感知的模型并行方法顯著降低了通信代價(jià),,大幅提高了分布式訓(xùn)練效率。
  2. Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Jixiang Li, Ji Liu, Ce Zhang, Bin Cui:  Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale,VLDB 2022論文提出了一種并行的針對(duì)大規(guī)模調(diào)參場(chǎng)景的優(yōu)化框架HyperTune,,通過引入等級(jí)選擇等策略,,提升了并行場(chǎng)景下的超參數(shù)優(yōu)化效率。
  3. Wentao Zhang, Yexin Wang, Zhenbang You, Meng Cao, Ping Huang, Jiulong Shan, Zhi Yang, Bin Cui:  Information Gain Propagation: a New Way to Graph Active Learning with Soft Labels,ICLR 2022 針對(duì)專家知識(shí)領(lǐng)域的圖主動(dòng)學(xué)習(xí)場(chǎng)景,,和此前大多數(shù)相關(guān)工作把專家當(dāng)作黑盒,、專注于樣本選擇不同,本工作創(chuàng)新性地提出了對(duì)專家做松弛化query的嘗試,,并以此為基礎(chǔ)提出了樣本選擇和打標(biāo)簽的一套全新的完整方法,IGP,。實(shí)驗(yàn)結(jié)果顯示IGP在下游任務(wù)的預(yù)測(cè)準(zhǔn)確性和打標(biāo)簽的成本兩方面都取得了SOTA的表現(xiàn),,為圖主動(dòng)學(xué)習(xí)這一問題提供了新的研究方向。
  4. Yuezihan Jiang, Yu Cheng, Hanyu Zhao, Wentao Zhang, Xupeng Miao, Yu He, Liang Wang, Zhi Yang, Bin Cui:  ZOOMER: Boosting Retrieval on Web-scale Graphs by Regions of Interest,ICDE 2022 (Industry Track)雖然基于圖神經(jīng)網(wǎng)絡(luò)的推薦已經(jīng)被證明其有效性,,但是基于圖神經(jīng)網(wǎng)絡(luò)的推薦面臨著圖龐大導(dǎo)致推薦效率低,、缺乏在用戶興趣明確的情況下對(duì)信息的過濾導(dǎo)致信息過載的問題。針對(duì)以上兩個(gè)挑戰(zhàn),,該論文提出圖網(wǎng)絡(luò)中的興趣區(qū)域概念,。基于這個(gè)概念,,該論文裁剪與興趣無關(guān)圖部分并集中處理興趣區(qū)域部分,,以此降低圖規(guī)模并強(qiáng)化用戶興趣以緩解信息過載。此外,該文章在公開數(shù)據(jù)集和淘寶的真實(shí)工業(yè)數(shù)據(jù)集上都充分驗(yàn)證了其有效性,。相較于基線模型,,該方法可以在取得可觀加速比的同時(shí)達(dá)到更好性能。

【項(xiàng)目信息】

2022年01月,,實(shí)驗(yàn)室開展與北京字跳網(wǎng)絡(luò)技術(shù)有限公司的研究合作,,研究方向?yàn)樨惾~斯優(yōu)化及其應(yīng)用。

 

2022年02月回顧

【論文錄用】

2022年02月,,實(shí)驗(yàn)室博士生張文濤,、沈彧等同學(xué)合作的一篇論文被WWW 2022錄用。

【論文簡(jiǎn)介】

Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang,Yangyu Tao, Zhi Yang, Bin Cui:  PaSca: A Graph Neural Architecture Search System under the Scalable Paradigm,Web Conference 2022針對(duì)大規(guī)模圖學(xué)習(xí)過程中面臨的可擴(kuò)展性低及建模門檻高兩個(gè)問題,,本工作提出了一套擁有自動(dòng)化建模超大規(guī)模圖網(wǎng)絡(luò)能力的高可擴(kuò)展性圖學(xué)習(xí)系統(tǒng),,PaSca。具體來說,,本工作提出了一個(gè)新穎的圖神經(jīng)網(wǎng)絡(luò)建模范式,,并基于此設(shè)計(jì)了一個(gè)包含超過15萬種網(wǎng)絡(luò)結(jié)構(gòu)的可擴(kuò)展圖神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)空間。此外,,本工作還實(shí)現(xiàn)并開源了一套多目標(biāo)的自動(dòng)化神經(jīng)網(wǎng)絡(luò)搜索系統(tǒng),,來支持更簡(jiǎn)單和高效的大規(guī)模圖學(xué)習(xí)。

 

2022年03月回顧

【論文錄用】

2022年03月,,實(shí)驗(yàn)室共有4篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:

① 我組博士生張心怡,、黎洋等同學(xué)合作的一篇論文被SIGMOD 2022錄用;

② 我組博士生符芳誠的一篇論文被SIGMOD 2022錄用,;

③ 我組碩士生吳史文,、博士生張文濤等同學(xué)合作的一篇論文被ACM Computing Surveys錄用;

④ 我組博士生聶小楠,、苗旭鵬等同學(xué)合作的一篇論文被ICDE 2022錄用,。

【論文簡(jiǎn)介】

  1. Xinyi Zhang, Hong Wu, Yang Li, Jian Tan, Feifei Li, and Bin Cui:  Towards Dynamic and Safe Configuration Tuning for Cloud Databases,SIGMOD 2022 現(xiàn)有數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)落地于生產(chǎn)環(huán)節(jié)仍存在一定困難:它們假定云環(huán)境中的工作負(fù)載是一成不變的,不考慮數(shù)據(jù)庫的可用性,、安全性,。為了解決這些問題,我們提出在線的安全調(diào)優(yōu)系統(tǒng)OnlineTune,。OnlineTune將環(huán)境因素特征化,,應(yīng)用考慮環(huán)境因素的貝葉斯優(yōu)化自適應(yīng)地優(yōu)化數(shù)據(jù)庫參數(shù)。為了保證調(diào)參時(shí)的安全,,我們提出了子空間自適應(yīng)的安全探索策略,,大大降低了應(yīng)用不良配置參數(shù)的風(fēng)險(xiǎn)。
  2. Fangcheng Fu, Huanran Xue, Yong Cheng, Yangyu Tao, and Bin Cui:  BlindFL: Vertical Federated Machine Learning without Peeking into Your Data,SIGMOD 2022 隨著數(shù)據(jù)隱私安全顧慮的日益增強(qiáng),,如何使用縱向聯(lián)邦學(xué)習(xí)技術(shù),,安全地聯(lián)合多方數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)建模,,逐漸成為了一個(gè)熱門的話題。然而,,現(xiàn)有的縱向聯(lián)邦學(xué)習(xí)技術(shù)方案,,要么只能支持有限的特征數(shù)據(jù)類型,要么存在嚴(yán)重的數(shù)據(jù)泄漏隱患,。如何打造靈活,、通用、安全的縱向聯(lián)邦學(xué)習(xí)是一個(gè)亟需解決的問題,。這篇論文提出了BlindFL,,一個(gè)新的縱向聯(lián)邦學(xué)習(xí)范式。BlindFL可以支持多種特征數(shù)據(jù)類型,,包括稠密或稀疏數(shù)據(jù),、連續(xù)型或離散型數(shù)據(jù),并且可以在半誠實(shí)安全假設(shè)下證明其安全性,。團(tuán)隊(duì)在多種數(shù)據(jù)和模型上運(yùn)行了大量的實(shí)驗(yàn),,實(shí)驗(yàn)結(jié)果表明,BlindFL可有效保護(hù)參與方的隱私數(shù)據(jù),,并具有更高的運(yùn)行效率,。
  3. Shiwen Wu, Fei Sun, Wentao Zhang, Xu Xie, and Bin Cui:  Graph Neural Networks in Recommender Systems: A Survey,ACM Computing Surveys 近幾年,圖神經(jīng)網(wǎng)絡(luò)(GNN)技術(shù)在推薦系統(tǒng)中得到了廣泛的應(yīng)用,,因?yàn)橥扑]系統(tǒng)中的大部分信息本質(zhì)上都具有圖結(jié)構(gòu),,而 GNN 在圖表示學(xué)習(xí)方面具有優(yōu)勢(shì)。該綜述旨在梳理,、總結(jié)并討論關(guān)于基于 GNN 的推薦系統(tǒng)的研究工作,,便于對(duì)此領(lǐng)域感興趣的研究者或者工業(yè)界人士快速了解這一領(lǐng)域。具體來說,,該綜述基于推薦過程中使用的信息類型和推薦任務(wù)對(duì)現(xiàn)有工作進(jìn)行分類,。此外,我們分析了將 GNN 應(yīng)用于不同類型數(shù)據(jù)和推薦任務(wù)面臨的挑戰(zhàn),,總結(jié)了現(xiàn)有工作如何應(yīng)對(duì)這些挑戰(zhàn),,并討論了現(xiàn)有工作的優(yōu)點(diǎn)和局限性。此外,,我們闡述了9個(gè)該領(lǐng)域有待進(jìn)一步研究的方向。
  4. Xiaonan Nie, Xupeng Miao, Zhi Yang, and Bin Cui:  TSplit: Fine-grained GPU Memory Management for Efficient DNN Training via Tensor Splitting,ICDE 2022 現(xiàn)有的GPU內(nèi)存管理系統(tǒng)通過卸載Tensor和重計(jì)算Tensor來減少GPU顯存的占用,。然而,,這種粗粒度的內(nèi)存管理通常會(huì)引起GPU顯存峰值,并且不能充分利用可用的硬件資源(例如 PCIe),。該論文提出了一種細(xì)粒度的 DNN 內(nèi)存管理系統(tǒng)(TSPLIT),,提出了可拆分張量抽象(Tensor Splitting)來優(yōu)化系統(tǒng)的支持能力在打破內(nèi)存瓶頸的同時(shí)保持模型訓(xùn)練的效率,。

【項(xiàng)目信息】

  1. 2022年03月,實(shí)驗(yàn)室開展與中興通訊的研究合作,,針對(duì)數(shù)據(jù)庫SQL優(yōu)化當(dāng)前業(yè)界存在的問題,,研究并輸出業(yè)界領(lǐng)先的數(shù)據(jù)庫SQL優(yōu)化技術(shù)。
  2. 2022年03月,,實(shí)驗(yàn)室開展與中興通訊的研究合作,,實(shí)現(xiàn)AI模型的自動(dòng)機(jī)器學(xué)習(xí)加速能力,包括自動(dòng)化超參調(diào)優(yōu)加速,,自動(dòng)化網(wǎng)絡(luò)架構(gòu)搜索加速,。

 

2022年04月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

04月29日晚,國際萬維網(wǎng)頂級(jí)會(huì)議WWW 2022(The Web Conference,,簡(jiǎn)稱WWW)公布了本屆會(huì)議的最佳論文,。以北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授博士生張文濤為第一作者的論文“可擴(kuò)展的圖神經(jīng)結(jié)構(gòu)搜索系統(tǒng) (PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm)”斬獲大會(huì)唯一的最佳學(xué)生論文獎(jiǎng)(Best Student Paper Award)。崔斌教授受邀發(fā)表獲獎(jiǎng)致謝,,博士生張文濤,、沈彧共同為獲獎(jiǎng)?wù)撐倪M(jìn)行了學(xué)術(shù)報(bào)告。

國際萬維網(wǎng)頂級(jí)會(huì)議WWW 2022最佳論文獲獎(jiǎng)證書

【論文錄用】

2022年04月,,實(shí)驗(yàn)室博士生張心怡,、常卓等同學(xué)合作的一篇論文被VLDB 2022錄用。

【論文簡(jiǎn)介】

Xinyi Zhang, Zhuo Chang, Yang Li, Hong Wu, Jian Tan, Feifei Li, Bin Cui:  Facilitating Database Tuning with Hyper-Parameter Optimization: A Comprehensive Experimental Evaluation,VLDB 2022 近年來,,數(shù)據(jù)庫參數(shù)優(yōu)化問題收到學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注,。面對(duì)大量的可用算法與各自場(chǎng)景,如何為數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)選擇最佳設(shè)計(jì)仍然十分困難,。為此,,我們對(duì)數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)進(jìn)行了綜合評(píng)價(jià):我們把現(xiàn)有系統(tǒng)分解為三個(gè)模塊,得出了在不同的場(chǎng)景下的最優(yōu)設(shè)計(jì),。此外,,我們提出了一種數(shù)據(jù)庫參數(shù)優(yōu)化技術(shù)的測(cè)試基準(zhǔn),其大大減少了評(píng)估的成本與時(shí)間開銷,。

 

2022年05月回顧

【論文錄用】

2022年05月,,實(shí)驗(yàn)室共有8篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:

① 我組博士生張文濤、盛則昂,、沈彧等同學(xué)合作的兩篇論文被ICML 2022錄用,;

② 我組博士生符芳誠、苗旭鵬的一篇論文被VLDB 2022錄用,;

③ 我組博士生黎洋,、沈彧等同學(xué)合作的兩篇論文被KDD 2022錄用;

④ 我組博士生張文濤,、盛則昂,、黎洋等同學(xué)合作的兩篇論文被KDD 2022錄用,;

⑤ 我組博士生黎洋、沈彧等同學(xué)合作的一篇論文被VLDB Journal錄用,。

【論文簡(jiǎn)介】

  1. Wentao Zhang, Zeang Sheng, Mingyu Yang, Yang Li, Yu Shen, Zhi Yang, Bin Cui:  NAFS: A Simple yet Tough-to-beat Baseline for Graph Representation Learning,ICML 2022針對(duì)圖上的表示學(xué)習(xí)這一問題,,本工作提出了一種不包含可學(xué)習(xí)參數(shù)的基線方法,NAFS,。具體來說,,通過驗(yàn)證性實(shí)驗(yàn)和理論分析,本工作提出在進(jìn)行特征傳播時(shí)根據(jù)圖中各結(jié)點(diǎn)的不同擴(kuò)散速度相對(duì)應(yīng)地賦予不同的聚合權(quán)重,。實(shí)驗(yàn)結(jié)果顯示該基線方法在多個(gè)圖表示學(xué)習(xí)任務(wù)上都取得了接近SOTA的效果,,并擁有相比SOTA方法顯著更高的運(yùn)行效率和可擴(kuò)展性。
  2. Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Zhi Yang, Bin Cui:  Deep and Flexible Graph Neural Architecture Search,ICML 2022針對(duì)圖學(xué)習(xí)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索問題,,和此前大多相關(guān)工作固定網(wǎng)絡(luò)結(jié)構(gòu)的整體框架不同,,本工作研究如何組合圖神經(jīng)網(wǎng)絡(luò)中的兩個(gè)基本算子P和T以探索更廣闊的模型設(shè)計(jì)空間。此外,,本工作基于遺傳算法設(shè)計(jì)的新的搜索算法能夠得到兼顧網(wǎng)絡(luò)結(jié)構(gòu)的模式和深度的搜索結(jié)果,。實(shí)驗(yàn)結(jié)果顯示本工作搜索得到的網(wǎng)絡(luò)結(jié)構(gòu)能夠取得比目前人工設(shè)計(jì)的SOTA方法更好的效果,而且相比現(xiàn)有相關(guān)工作有超過一個(gè)數(shù)量級(jí)的加速比,。
  3. Fangcheng Fu, Xupeng Miao, Jiawei Jiang, Huanran Xue, Bin Cui:  Towards Communication-efficient Vertical Federated Learning Training via Cache-enabled Local Update,VLDB 2022本工作針對(duì)縱向聯(lián)邦學(xué)習(xí)中的網(wǎng)絡(luò)通信瓶頸進(jìn)行研究,,提出了一種基于數(shù)據(jù)緩存的縱向神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架,該訓(xùn)練框架可借助歷史數(shù)據(jù)進(jìn)行近似計(jì)算,,大幅降低網(wǎng)絡(luò)通信量,,從而提高訓(xùn)練效率。此外,,根據(jù)近似計(jì)算的特性,,本工作提出了兩種加快模型收斂的優(yōu)化算法,并通過理論分析證明其有效性,。
  4. Yang Li, Yu Shen, Huaijun Jiang, Tianyi Bai, Wentao Zhang, Ce Zhang, Bin Cui:  Transfer Learning based Search Space Design for Hyperparameter Tuning,KDD 2022Space提出從搜索空間的角度進(jìn)行遷移學(xué)習(xí),,通過裁剪歷史任務(wù)上表現(xiàn)良好的空間,降低在完整空間搜索的代價(jià),,從而提升遷移學(xué)習(xí)的收斂速率,。
  5. Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Zhi Yang, Ce Zhang, Bin Cui: "TransBO: Hyperparameter Optimization via Two-Phase Transfer Learning",KDD 2022 TransBO提出建立規(guī)范的遷移學(xué)習(xí)流程,通過優(yōu)化的方式融合源任務(wù)與歷史任務(wù),,從而提升遷移學(xué)習(xí)的效果,。
  6. Wentao Zhang, Zeang Sheng, Ziqi Yin, Yuezihan Jiang, Yikuan Xia, Jun Gao, Zhi Yang, Bin Cui:  Model Degradation Hinders Deep Graph Neural Networks,KDD 2022 針對(duì)圖神經(jīng)網(wǎng)絡(luò)無法做深這一問題,本工作把圖神經(jīng)網(wǎng)絡(luò)的深度分離成傳播深度和非線性變換深度兩部分,,并通過詳盡的實(shí)驗(yàn)探究發(fā)現(xiàn)非線性變換深度在該問題中有著更大的影響,。基于該發(fā)現(xiàn),,本工作針對(duì)性地提出了一個(gè)即插即用的通用且高效的模塊,,AIR。實(shí)驗(yàn)結(jié)果顯示AIR能夠幫助現(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)同時(shí)擁有較大的傳播深度和非線性變換深度,,為圖神經(jīng)網(wǎng)絡(luò)無法做深這一問題提供了新的研究思路,。
  7. Wentao Zhang, Ziqi Yin, Zeang Sheng, Yang Li, wen ouyang, Xiaosen Li, Yangyu Tao, Zhi Yang, Bin Cui:  Graph Attention Multi-Layer Perceptron,KDD 2022針對(duì)大規(guī)模圖學(xué)習(xí)這一問題,本工作提出了一個(gè)全新的具有高可擴(kuò)展性,、高效的深層圖神經(jīng)網(wǎng)絡(luò)模型GAMLP,。基于解耦的圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),,GAMLP同時(shí)對(duì)結(jié)點(diǎn)特征和標(biāo)簽信息進(jìn)行傳播,,并提出了兩類高效的注意力機(jī)制來可適應(yīng)地聚合不同深度的聚合信息。實(shí)驗(yàn)結(jié)果顯示GAMLP在多個(gè)公開的大規(guī)模圖數(shù)據(jù)集上都取得了SOTA的效果,。目前GAMLP已在騰訊的機(jī)器學(xué)習(xí)平臺(tái)Angel部署并被廣泛使用,。
  8. Yang Li, Yu Shen, Wentao Zhang, Ce Zhang, Bin Cui:  VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space Decomposition,VLDB Journal 該論文拓展自VLDB 2021會(huì)議論文,通過對(duì)搜索空間進(jìn)行切分,,提高自動(dòng)化機(jī)器學(xué)習(xí)的搜索效率,。

【學(xué)術(shù)活動(dòng)】

  1. 2022年05月09日至12日,國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級(jí)會(huì)議ICDE 2022召開,,我組博士生謝旭,、聶小楠、碩士生蔣悅紫晗在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。
  2. 2022年05月31日至06月02日,,北京智源大會(huì)召開,我組博士生苗旭鵬受邀在大會(huì)上進(jìn)行題為“河圖:面向超大模型的分布式深度學(xué)習(xí)框架/Hetu:A distributed deep learning system towards large-scale models”的演講報(bào)告,。

我組博士生苗旭鵬進(jìn)行演講報(bào)告

【智源大會(huì)報(bào)告簡(jiǎn)介】

河圖:面向超大模型的分布式深度學(xué)習(xí)框架/Hetu:A distributed deep learning system towards large-scale models

議題簡(jiǎn)介:機(jī)器學(xué)習(xí)系統(tǒng)是人工智能應(yīng)用的重要基礎(chǔ),,也是近些年學(xué)術(shù)界以及工業(yè)界的研究熱點(diǎn)。作為機(jī)器學(xué)習(xí)與系統(tǒng)的交叉領(lǐng)域,,既需要需要關(guān)注機(jī)器學(xué)習(xí)本身的數(shù)據(jù)特性,、模型結(jié)構(gòu)、訓(xùn)練方法,、優(yōu)化算法,,又需要考慮系統(tǒng)在計(jì)算、存儲(chǔ),、通信,、調(diào)度、硬件上存在的問題,。最終,,在保證機(jī)器學(xué)習(xí)效果的前提下,提高系統(tǒng)性能,。日益增長(zhǎng)的模型和數(shù)據(jù)規(guī)模對(duì)現(xiàn)有系統(tǒng)帶來了嚴(yán)峻的挑戰(zhàn),。本次報(bào)告介紹了課題組自主研發(fā)的面向超大模型的分布式深度學(xué)習(xí)框架--河圖,。報(bào)告首先介紹了河圖的特性和設(shè)計(jì)理念,剖析了目前“大模型”發(fā)展情況,,然后重點(diǎn)介紹了河圖面向復(fù)雜模型和硬件環(huán)境的優(yōu)化進(jìn)展以及在自動(dòng)化并行訓(xùn)練上的探索,。最后,對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的發(fā)展進(jìn)行了展望,。

【項(xiàng)目信息】

  1. 2022年05月,,實(shí)驗(yàn)室開展與華為技術(shù)有限公司的研究合作,挑戰(zhàn)面向在線應(yīng)用的智能參數(shù)調(diào)優(yōu)這一項(xiàng)任務(wù),。
  2. 2022年05月,,實(shí)驗(yàn)室開展與浙江天貓技術(shù)有限公司的研究合作,將多國家的多個(gè)模型合成一個(gè)模型,,最后實(shí)現(xiàn)降本提效的目的,。
  3. 2022年05月,實(shí)驗(yàn)室開展與深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司的研究合作,,繼續(xù)開展“北大-騰訊協(xié)同創(chuàng)新實(shí)驗(yàn)室”的研究工作,。

 

2022年06月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

  1. 實(shí)驗(yàn)室博士生黎洋被評(píng)為北京大學(xué)優(yōu)秀畢業(yè)生
  2. 實(shí)驗(yàn)室博士生張文濤博士論文被評(píng)為北京大學(xué)優(yōu)秀博士論文,;
  3. 實(shí)驗(yàn)室博士生苗旭鵬,、張文濤被評(píng)為北京市優(yōu)秀畢業(yè)生

【學(xué)術(shù)活動(dòng)】

2022年06月12日至17日,,國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級(jí)會(huì)議SIGMOD 2022召開,,我組博士生苗旭鵬、符芳誠,、張心怡在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。

【新聞動(dòng)態(tài)】

實(shí)驗(yàn)室河圖團(tuán)隊(duì)將大規(guī)模預(yù)訓(xùn)練模型系統(tǒng)優(yōu)化方面的技術(shù)成果應(yīng)用到騰訊,合作設(shè)計(jì)并研發(fā)了預(yù)訓(xùn)練框架AngelPTM,,積極推動(dòng)創(chuàng)新成果在騰訊廣告內(nèi)容理解,、行業(yè)特征挖掘、文案創(chuàng)意生成等實(shí)際業(yè)務(wù)中的應(yīng)用落地,,促進(jìn)產(chǎn)學(xué)研合作,。此外,河圖團(tuán)隊(duì)的多項(xiàng)技術(shù)成果持續(xù)助力騰訊“混元”AI大模型,,后者在CLUE(中文語言理解評(píng)測(cè)集合)榜單登頂,,一舉超越人類水平。

更多相關(guān)閱讀:

https://mp.weixin.qq.com/s/J34tWjuI7s0Jqn8GO37WFQ

https://mp.weixin.qq.com/s/zk0dG2yB3iRBWEBMLMoWmw

 

2022年07月回顧

【學(xué)術(shù)活動(dòng)】

     1. 2022年07月17日至23日,,國際機(jī)器學(xué)習(xí)與人工智能頂級(jí)會(huì)議ICML 2022召開,,我組博士生張文濤在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告。

我組博士生張文濤進(jìn)行學(xué)術(shù)報(bào)告

      2. 2022年07月28日,課題組承擔(dān)的重點(diǎn)研發(fā)項(xiàng)目“高時(shí)效,、可擴(kuò)展的大數(shù)據(jù)計(jì)算模型,、優(yōu)化技術(shù)與系統(tǒng)”中的“高維大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)” 課題完成了  課題績(jī)效評(píng)價(jià)。課題完成了高效,、可擴(kuò)展,、可兼容的高維大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)的研制,該系統(tǒng)具備通用的編程模型和接口,,支持常見的機(jī)器學(xué)習(xí)模型的高效并行化求解,其中深度學(xué)習(xí)模型實(shí)現(xiàn)了百億級(jí)參數(shù)的學(xué)習(xí)能力,。經(jīng)第三方測(cè)試,,系統(tǒng)支持的常用模型在達(dá)到相當(dāng)?shù)木惹闆r下,平均訓(xùn)練性能比TensorFlow1.15.0高30%,。系統(tǒng)和項(xiàng)目整體進(jìn)行了集成,,高效支撐了雙十一和城市大腦示范應(yīng)用。課題發(fā)表論文24篇,,申請(qǐng)專利7項(xiàng),,獲得軟件著作權(quán)2項(xiàng),主要系統(tǒng)在中國木蘭開源社區(qū)開放,,并獲得了較好的影響力,,顯示了良好的應(yīng)用前景。  

 

2022年08月回顧

【學(xué)術(shù)活動(dòng)】

     1. 2022年08月14日至18日,,國際數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘頂級(jí)會(huì)議KDD 2022召開,,我組博士生黎洋、張文濤在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。

     2. 2022年08月19日至21日,,實(shí)驗(yàn)室多位學(xué)生赴威海參加CCF中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議NDBC 2022,并與海內(nèi)外學(xué)者進(jìn)行了學(xué)術(shù)交流,。

威海-CCF中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議合影留念

【論文錄用】

2022年08月,,實(shí)驗(yàn)室共有2篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:

① 我組博士生黃世悅、碩士生覃彥釗等同學(xué)合作的一篇論文被SCIS錄用,;

② 我組博士生苗旭鵬,、聶小楠等同學(xué)合作的一篇論文被SCIS錄用。

【論文簡(jiǎn)介】

  1. Shiyue Huang, Yanzhao Qin, Xinyi Zhang, Yaofeng Tu, Zhongliang Lo, and Bin Cui:  A Survey on Performance Optimization for Database Systems,SCIS 近年來,,數(shù)據(jù)庫性能優(yōu)化問題受到工業(yè)界與學(xué)術(shù)界的廣泛關(guān)注,。我們根據(jù)數(shù)據(jù)庫運(yùn)維環(huán)節(jié),圍繞性能預(yù)測(cè),、異常診斷,、調(diào)優(yōu)等三個(gè)主題撰寫了綜述論文,總結(jié)了各優(yōu)化主題的目標(biāo)與挑戰(zhàn),梳理了現(xiàn)有研究工作及其優(yōu)缺點(diǎn),,分析了未來值得探索的研究方向,。
  2. Xupeng Miao, Xiaonan Nie, Hailin Zhang, Tong Zhao, and Bin Cui:  Hetu: A highly efficient automatic parallel distributed deep learning system,SCIS我組河圖團(tuán)隊(duì)關(guān)于河圖系統(tǒng)的簡(jiǎn)介論文被SCIS接收,論文介紹了河圖的基本設(shè)計(jì)理念,、系統(tǒng)功能特性,、研發(fā)背景、開發(fā)過程和在工業(yè)界的落地應(yīng)用情況等內(nèi)容,。

 

2022年09月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

  1. 2022年09月03日,,我組博士生苗旭鵬、張文濤獲得2022年度WAIC云帆獎(jiǎng)·明日之星獎(jiǎng)項(xiàng),;
  2. 2022年09月29日,,我組博士生苗旭鵬獲得2022年度ACM SIGMOD中國“優(yōu)博獎(jiǎng)”
  3. 2022年09月07日,,在悉尼舉辦的國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級(jí)會(huì)議VLDB 2022(International Conference on Very Large Databases,,簡(jiǎn)稱VLDB)上,北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授課題組的論文“基于分布式緩存的大規(guī)??蓴U(kuò)展嵌入模型訓(xùn)練框架(HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework)”獲得大會(huì)可擴(kuò)展數(shù)據(jù)科學(xué)最佳論文獎(jiǎng)(Best Scalable Data Science Paper),。崔斌教授在此次VLDB大會(huì)上進(jìn)行了題為“面向大模型的分布式機(jī)器學(xué)習(xí)(Distributed Machine Learning for Big Models)”的特邀報(bào)告,介紹了實(shí)驗(yàn)室在大模型訓(xùn)練方面的系統(tǒng)性進(jìn)展,,受到了與會(huì)同行的一致好評(píng),;我組博士生苗旭鵬為獲獎(jiǎng)?wù)撐倪M(jìn)行了學(xué)術(shù)報(bào)告。此外,,我組博士生沈彧,、符芳誠、張心怡也為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。

崔斌教授課題組論文 獲得大會(huì)可擴(kuò)展數(shù)據(jù)科學(xué)最佳論文獎(jiǎng)

 

崔斌教授進(jìn)行特邀報(bào)告

【論文錄用】

2022年09月,,我組博士生沈彧、本科生陸宇鵬等同學(xué)合作的一篇論文被NeurIPS 2022錄用,。

【論文簡(jiǎn)介】

Yu Shen, Yupeng Lu, Yang Li, Yaofeng Tu, Wentao Zhang, and Bin Cui:  DivBO: Diversity-aware CASH for Ensemble Learning,NeurIPS 2022DivBO提出了在自動(dòng)化機(jī)器學(xué)習(xí)搜索流程中引入對(duì)配置多樣性的考量,,并在搜索結(jié)束后通過構(gòu)建多樣化的集成模型,進(jìn)一步提升了自動(dòng)化機(jī)器學(xué)習(xí)的搜索精度,。

 

2022年10月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2022年10月05日,,我組博士生張心怡獲得2022年度微軟學(xué)者(MSRA Fellowship)提名

【學(xué)術(shù)活動(dòng)】

2022年10月11日至12日,,Google舉辦了首屆關(guān)于Sparsity and Adaptive Computation的Workshop,,我組博士生聶小楠受邀參會(huì)并進(jìn)行了題為“EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate”的學(xué)術(shù)報(bào)告,并與Dave Patterson, Jeff Dean等與會(huì)知名學(xué)者進(jìn)行交流 ,。

【論文錄用】

2022年10月,,實(shí)驗(yàn)室共有2篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:

① 我組博士生苗旭鵬、王馭捷等同學(xué)合作的一篇論文被VLDB 2023錄用;

② 我組博士生苗旭鵬,、張文濤等同學(xué)合作的一篇論文被VLDB Journal錄用,。

【論文簡(jiǎn)介】

  1. Xupeng Miao, Yujie Wang, Youhe Jiang, Chunan Shi, Xiaonan Nie, Hailin Zhang, and Bin Cui: Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism,VLDB 2023.論文提出了一個(gè)面向超大模型的自動(dòng)并行分布式訓(xùn)練系統(tǒng)Galvatron,相比于現(xiàn)有工作在多樣性,、復(fù)雜性,、實(shí)用性方面均具有顯著優(yōu)勢(shì),性能顯著優(yōu)于現(xiàn)有解決方案,。
  2. Xupeng Miao, Wentao Zhang, Yuezihan Jiang, Fangcheng Fu, Yingxia Shao, Lei Chen, Yangyu Tao, Gang Cao, and Bin Cui:  P2CG: A Privacy Preserving Collaborative Graph Neural Network Training Framework,VLDB Journal.論文提出了一個(gè)面向縱向聯(lián)邦學(xué)習(xí)場(chǎng)景的圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架P2CG ,,能夠在保護(hù)圖數(shù)據(jù)隱私的前提下高質(zhì)量地完成多方聯(lián)合的圖學(xué)習(xí)任務(wù)。

 

2022年11月回顧

【學(xué)術(shù)活動(dòng)】

     1. 崔斌教授在第七屆數(shù)據(jù)挖掘與大數(shù)據(jù)國際會(huì)議(The Seventh International Conference on Data Mining and Big Data)上進(jìn)行了題為“面向大模型的分布式機(jī)器學(xué)習(xí)(Distributed Machine Learning for Big Models)”的特邀報(bào)告,,介紹了實(shí)驗(yàn)室在大模型訓(xùn)練方面的系統(tǒng)性進(jìn)展,,包括系統(tǒng)優(yōu)化,自動(dòng)并行等技術(shù)進(jìn)展,,并介紹了實(shí)驗(yàn)室的開源分布式深度學(xué)習(xí)系統(tǒng)Hetu。報(bào)告獲得了與會(huì)同行的好評(píng)和關(guān)注,。

崔斌教授特邀報(bào)告鏈接:https://iasei.org/dmbd2022/speakers.html 

     2. 2022年11月28日至12月9日,,國際機(jī)器學(xué)習(xí)與人工智能頂級(jí)會(huì)議NeurIPS 2022召開,我組博士生沈彧在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。 

【論文錄用】

2022年11月,,實(shí)驗(yàn)室共有3篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:

① 我組博士生黃世悅、碩士生王子威等同學(xué)合作的一篇論文被SIGMOD 2023錄用,;

② 我組博士生沈彧,、黎洋等同學(xué)合作的一篇論文被AAAI 2023錄用;

③ 我組碩士生郭子瑜,、博士生苗旭鵬等合作的一篇論文被AAAI 2023錄用,。

【論文簡(jiǎn)介】

  1. Shiyue Huang, Ziwei Wang, Xinyi Zhang, Yaofeng Tu, Zhongliang Li and Bin Cui:  DBPA: A Benchmark for Transactional Database Performance Anomalies,SIGMOD 2023. 針對(duì)OLTP數(shù)據(jù)庫性能異常診斷問題,當(dāng)下流行的機(jī)器學(xué)習(xí)算法具備天然優(yōu)勢(shì),,然而訓(xùn)練數(shù)據(jù)的缺失成為阻礙其應(yīng)用的關(guān)鍵問題,。為此,我們提出了DBPA,,一套關(guān)系型數(shù)據(jù)庫性能異常的benchmark,。它包括多種常見異常的復(fù)現(xiàn)方式與一個(gè)規(guī)模較大的數(shù)據(jù)集,支持多樣場(chǎng)景數(shù)據(jù)采集與復(fù)合異常數(shù)據(jù)生成,。用戶可使用DBPA采集目標(biāo)數(shù)據(jù)庫環(huán)境下的性能異常數(shù)據(jù),,以訓(xùn)練機(jī)器學(xué)習(xí)模型用于診斷任務(wù);也可使用DBPA自帶的數(shù)據(jù)集進(jìn)行異常檢測(cè)與異常診斷算法評(píng)測(cè),。
  2. Yu Shen, Yang Li, Jian Zheng, Wentao Zhang, Peng Yao, Jixiang Li, Sen Yang, Ji Liu, and Bin Cui:  ProxyBO: Accelerating Neural Architecture Search via Bayesian Optimization with Zero-cost Proxies,AAAI 2023. ProxyBO論文提出將無需訓(xùn)練即可獲得的指標(biāo)融入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索中,,從而加快搜索算法的收斂,并大幅提升搜索初期的精度。
  3. Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzheng Ma, Xupeng Miao, Xuming He, and Bin Cui:  CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention,AAAI 2023. CLIP 在零發(fā)學(xué)習(xí)上取得了非常好的效果?,F(xiàn)有的很多方法嘗試在 Few-shot 的設(shè)定下提升 CLIP 的性能,,但它們均引入了可學(xué)習(xí)參數(shù),也需要額外的訓(xùn)練過程,,產(chǎn)生較大的資源消耗,。目前仍然沒有方法能夠在提升 CLIP 效果的同時(shí),不引入額外的訓(xùn)練參數(shù),。因此,,我們提出了第一個(gè)在 CLIP 上做 Zero-shot 增強(qiáng)的工作 CALIP,我們的方法無需額外的數(shù)據(jù)和訓(xùn)練過程,,是十分高效的,。在 CALIP 中,我們?cè)O(shè)計(jì)了一個(gè)無參數(shù)注意力模塊,,來加強(qiáng)文本和視覺兩個(gè)模態(tài)間的信息交互,,使得模型在 Zero-shot 上的效果有了很大的提升。另外,,我們的模型的有參數(shù)版本 CALIP-FS 也在現(xiàn)有的 Few-shot 方法中取得了最佳效果,。

 

2022年12月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2022年12月,我組碩士生趙鵬昊在英特爾“創(chuàng)新大師杯”全球AI極客挑戰(zhàn)賽“DeepRec CTR模型性能優(yōu)化”賽題中榮獲創(chuàng)新獎(jiǎng),。 

【論文錄用】

2022年12月,,實(shí)驗(yàn)室共有2篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:

① 我組博士生聶小楠、苗旭鵬等同學(xué)合作的一篇論文被SIGMOD 2023錄用,;

② 我組博士生謝旭同學(xué)的一篇論文被ICDE 2023 (Industry Track)錄用,。

【論文簡(jiǎn)介】

  1. Xiaonan Nie, Xupeng Miao, Zilong Wang, Jilong Xue, Lingxiao Ma, Zichao Yang, Gang Cao, and Bin Cui:  FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement,SIGMOD 2023. 大規(guī)模混合專家模型訓(xùn)練過程中專家的負(fù)載是不均衡的和動(dòng)態(tài)的,,這降低了現(xiàn)有系統(tǒng)的效率,。我們深入分析了模型訓(xùn)練時(shí)的特性,并提出了動(dòng)態(tài)的專家管理和設(shè)備放置的機(jī)制,,根據(jù)負(fù)載實(shí)時(shí)調(diào)整專家擺放來提高訓(xùn)練的效率,。
  2. Xu Xie, Jin Niu, Lifang Deng, Dan Wang, Jiandong Zhang, Zhihua Wu, Kaigui Bian, Gang Cao, and Bin Cui:  Hierarchical Interest Modeling of Long-tailed Users for Click-Through Rate Prediction,ICDE 2023 (Industry Track). 點(diǎn)擊率(CTR)預(yù)測(cè),其目的是預(yù)測(cè)用戶點(diǎn)擊某個(gè)項(xiàng)目的概率,,在推薦系統(tǒng)中起著舉足輕重的作用,。從用戶的歷史交互(如點(diǎn)擊)中準(zhǔn)確地捕捉用戶的偏好是處理這一任務(wù)的必要步驟,并引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,。然而,,以往的方法大多針對(duì)點(diǎn)擊量大的用戶,它們對(duì)很少點(diǎn)擊或購買商品的用戶服務(wù)不佳,。雖然在亞馬遜,、淘寶等熱門平臺(tái)上,,這些長(zhǎng)尾用戶的比例可能很小,但在來贊噠這樣的新生電商平臺(tái)上,,他們卻占了大多數(shù),。為了提取長(zhǎng)尾用戶的興趣,一些工作試圖整合輔助信息,,例如用戶元特征,。然而,這些特征通常不容易獲取,,甚至可能導(dǎo)致隱私問題,。因此,如何利用嘈雜和有限的點(diǎn)擊行為成為關(guān)鍵挑戰(zhàn),。我們提出了一種稱為分層興趣建模(HIM)的新模型,。它分層利用長(zhǎng)尾用戶的有限行為,并從個(gè)性化和群體角度捕捉他們的偏好,。HIM 由兩個(gè)主要組件組成,,包括用戶行為金字塔~(UBP) 和用戶行為聚類~(UBC)。UBP 模塊利用額外的負(fù)反饋來減少正反饋中的噪聲,,從而獲得可靠的用戶個(gè)性化表示,。然后,UBC 模塊自動(dòng)發(fā)現(xiàn)具有自監(jiān)督重建損失的潛在用戶組,,并在組方面為每個(gè)用戶學(xué)習(xí)另一種興趣表示,。在公開和工業(yè)數(shù)據(jù)集的廣泛實(shí)驗(yàn)驗(yàn)證了 HIM 與最先進(jìn)的基線相比的優(yōu)越性,。此外,,HIM已經(jīng)部署在Lazada推薦場(chǎng)景,在線A/B測(cè)試CTR預(yù)測(cè)平均提升3.38%,。

 

結(jié)束語

2022年以來,,我們?cè)赟IGMOD、VLDB,、ICLR,、ICDE、ICML,、WWW,、KDD等國際頂級(jí)學(xué)術(shù)會(huì)議和期刊如上發(fā)表論文20余篇,并獲得了VLDB和WWW的最佳論文,,多個(gè)開源系統(tǒng)的影響力進(jìn)一步提高,,與包括字節(jié)跳動(dòng)、中興通訊,、騰訊,、阿里巴巴,、華為等多家知名企業(yè)開展了卓有成效的合作,進(jìn)行科研成果的轉(zhuǎn)化落地,。多名博士畢業(yè)生獲得了優(yōu)秀畢業(yè)生的榮譽(yù),。

2023年充滿了希望,工作和生活將恢復(fù)常態(tài),。我們將繼續(xù)奮進(jìn),,與學(xué)術(shù)同行和業(yè)界同仁們一起為推動(dòng)數(shù)據(jù)庫、人工智能系統(tǒng)與大數(shù)據(jù)領(lǐng)域的發(fā)展貢獻(xiàn)力量,!

 

  

 

 

標(biāo)簽: pkudair 總結(jié)

SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: