国产毛多水多做爰爽爽爽,桃色成人精品网站

北京大學(xué)

數(shù)據(jù)與智能實驗室(PKU-DAIR)

2022年度總結(jié)

再見2022 你好2023

2022年，實驗室繼續(xù)在科研探索、師生成長,、項目合作等各方面取得長足的進(jìn)步,。在這里，我們對過去一年實驗室所取得的成果進(jìn)行總結(jié)和回顧,，迎接走出疫情,、充滿希望的2023年！

2022年01月回顧

【新聞動態(tài)】

崔斌教授于2022年01月01日起擔(dān)任Data Science and Engineering（DSE）期刊主編,。

Data Science and Engineering（DSE）是由中國計算機(jī)學(xué)會（CCF）主辦,、數(shù)據(jù)庫專業(yè)委員會承辦、施普林格自然（Springer Nature）出版的Open Access期刊,。為了迎合相關(guān)領(lǐng)域的快速發(fā)展需求，DSE致力于出版所有和數(shù)據(jù)科學(xué)與工程領(lǐng)域相關(guān)的關(guān)鍵科學(xué)問題與前沿研究熱點,，以大數(shù)據(jù)作為研究重點,，征稿范疇主要包括4方面：（1）數(shù)據(jù)本身；（2）數(shù)據(jù)信息提取方法,；（3）數(shù)據(jù)計算理論,；（4）用來分析與管理數(shù)據(jù)的技術(shù)和系統(tǒng)。

目前期刊已被EI,、ESCI與SCOPUS收錄,，CiteScore 2021為6.4，在Computational Mechanics領(lǐng)域排名#8/78（位列前10%）,，在Computer Science Applications領(lǐng)域排名#157/747（位列前21%） ,。

Data Science and Engineering期刊鏈接： https://www.springer.com/journal/41019

【論文錄用】

2022年01月，實驗室共有4篇論文被國際頂級學(xué)術(shù)會議或期刊錄用：

① 我組博士生苗旭鵬,、碩士生石屹寧等同學(xué)合作的一篇論文被SIGMOD 2022錄用,；

② 我組博士生黎洋、沈彧等同學(xué)合作的一篇論文被VLDB 2022錄用,；

③ 我組博士生張文濤,、碩士生王業(yè)鑫等同學(xué)合作的一篇論文被ICLR 2022錄用；

④ 我組碩士生蔣悅紫晗,、程羽等同學(xué)合作的一篇論文被ICDE 2022 (Industry Track)錄用,。

【論文簡介】

Xupeng Miao, Yining Shi, Hailin Zhang, Xin Zhang, Xiaonan Nie, Zhi Yang, Bin Cui: HET-GMP: A Graph-based System Approach to Scaling Large Embedding Model Training,SIGMOD 2022. 論文提出了一個面向多GPU的大規(guī)模稀疏嵌入模型訓(xùn)練框架HET-GMP，通過圖局部性感知的模型并行方法顯著降低了通信代價,，大幅提高了分布式訓(xùn)練效率,。
Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Jixiang Li, Ji Liu, Ce Zhang, Bin Cui: Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale,VLDB 2022. 論文提出了一種并行的針對大規(guī)模調(diào)參場景的優(yōu)化框架HyperTune，通過引入等級選擇等策略,，提升了并行場景下的超參數(shù)優(yōu)化效率,。
Wentao Zhang, Yexin Wang, Zhenbang You, Meng Cao, Ping Huang, Jiulong Shan, Zhi Yang, Bin Cui: Information Gain Propagation: a New Way to Graph Active Learning with Soft Labels,ICLR 2022. 針對專家知識領(lǐng)域的圖主動學(xué)習(xí)場景，和此前大多數(shù)相關(guān)工作把專家當(dāng)作黑盒、專注于樣本選擇不同,，本工作創(chuàng)新性地提出了對專家做松弛化query的嘗試,，并以此為基礎(chǔ)提出了樣本選擇和打標(biāo)簽的一套全新的完整方法，IGP,。實驗結(jié)果顯示IGP在下游任務(wù)的預(yù)測準(zhǔn)確性和打標(biāo)簽的成本兩方面都取得了SOTA的表現(xiàn),，為圖主動學(xué)習(xí)這一問題提供了新的研究方向。
Yuezihan Jiang, Yu Cheng, Hanyu Zhao, Wentao Zhang, Xupeng Miao, Yu He, Liang Wang, Zhi Yang, Bin Cui: ZOOMER: Boosting Retrieval on Web-scale Graphs by Regions of Interest,ICDE 2022 (Industry Track). 雖然基于圖神經(jīng)網(wǎng)絡(luò)的推薦已經(jīng)被證明其有效性,，但是基于圖神經(jīng)網(wǎng)絡(luò)的推薦面臨著圖龐大導(dǎo)致推薦效率低,、缺乏在用戶興趣明確的情況下對信息的過濾導(dǎo)致信息過載的問題。針對以上兩個挑戰(zhàn),，該論文提出圖網(wǎng)絡(luò)中的興趣區(qū)域概念,。基于這個概念,，該論文裁剪與興趣無關(guān)圖部分并集中處理興趣區(qū)域部分,，以此降低圖規(guī)模并強(qiáng)化用戶興趣以緩解信息過載。此外,，該文章在公開數(shù)據(jù)集和淘寶的真實工業(yè)數(shù)據(jù)集上都充分驗證了其有效性,。相較于基線模型，該方法可以在取得可觀加速比的同時達(dá)到更好性能,。

【項目信息】

2022年01月,，實驗室開展與北京字跳網(wǎng)絡(luò)技術(shù)有限公司的研究合作，研究方向為貝葉斯優(yōu)化及其應(yīng)用,。

2022年02月回顧

【論文錄用】

2022年02月,，實驗室博士生張文濤、沈彧等同學(xué)合作的一篇論文被WWW 2022錄用,。

【論文簡介】

Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang,Yangyu Tao, Zhi Yang, Bin Cui: PaSca: A Graph Neural Architecture Search System under the Scalable Paradigm,Web Conference 2022. 針對大規(guī)模圖學(xué)習(xí)過程中面臨的可擴(kuò)展性低及建模門檻高兩個問題,，本工作提出了一套擁有自動化建模超大規(guī)模圖網(wǎng)絡(luò)能力的高可擴(kuò)展性圖學(xué)習(xí)系統(tǒng)，PaSca,。具體來說,，本工作提出了一個新穎的圖神經(jīng)網(wǎng)絡(luò)建模范式，并基于此設(shè)計了一個包含超過15萬種網(wǎng)絡(luò)結(jié)構(gòu)的可擴(kuò)展圖神經(jīng)網(wǎng)絡(luò)設(shè)計空間,。此外,，本工作還實現(xiàn)并開源了一套多目標(biāo)的自動化神經(jīng)網(wǎng)絡(luò)搜索系統(tǒng)，來支持更簡單和高效的大規(guī)模圖學(xué)習(xí),。

2022年03月回顧

【論文錄用】

2022年03月,，實驗室共有4篇論文被國際頂級學(xué)術(shù)會議或期刊錄用：

① 我組博士生張心怡、黎洋等同學(xué)合作的一篇論文被SIGMOD 2022錄用,；

② 我組博士生符芳誠的一篇論文被SIGMOD 2022錄用,；

③ 我組碩士生吳史文,、博士生張文濤等同學(xué)合作的一篇論文被ACM Computing Surveys錄用；

④ 我組博士生聶小楠,、苗旭鵬等同學(xué)合作的一篇論文被ICDE 2022錄用,。

【論文簡介】

Xinyi Zhang, Hong Wu, Yang Li, Jian Tan, Feifei Li, and Bin Cui: Towards Dynamic and Safe Configuration Tuning for Cloud Databases,SIGMOD 2022. 現(xiàn)有數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)落地于生產(chǎn)環(huán)節(jié)仍存在一定困難：它們假定云環(huán)境中的工作負(fù)載是一成不變的，不考慮數(shù)據(jù)庫的可用性,、安全性,。為了解決這些問題，我們提出在線的安全調(diào)優(yōu)系統(tǒng)OnlineTune,。OnlineTune將環(huán)境因素特征化,，應(yīng)用考慮環(huán)境因素的貝葉斯優(yōu)化自適應(yīng)地優(yōu)化數(shù)據(jù)庫參數(shù)。為了保證調(diào)參時的安全,，我們提出了子空間自適應(yīng)的安全探索策略,，大大降低了應(yīng)用不良配置參數(shù)的風(fēng)險。
Fangcheng Fu, Huanran Xue, Yong Cheng, Yangyu Tao, and Bin Cui: BlindFL: Vertical Federated Machine Learning without Peeking into Your Data,SIGMOD 2022. 隨著數(shù)據(jù)隱私安全顧慮的日益增強(qiáng),，如何使用縱向聯(lián)邦學(xué)習(xí)技術(shù),，安全地聯(lián)合多方數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)建模，逐漸成為了一個熱門的話題,。然而，現(xiàn)有的縱向聯(lián)邦學(xué)習(xí)技術(shù)方案,，要么只能支持有限的特征數(shù)據(jù)類型,，要么存在嚴(yán)重的數(shù)據(jù)泄漏隱患。如何打造靈活,、通用,、安全的縱向聯(lián)邦學(xué)習(xí)是一個亟需解決的問題。這篇論文提出了BlindFL,，一個新的縱向聯(lián)邦學(xué)習(xí)范式,。BlindFL可以支持多種特征數(shù)據(jù)類型，包括稠密或稀疏數(shù)據(jù),、連續(xù)型或離散型數(shù)據(jù),，并且可以在半誠實安全假設(shè)下證明其安全性。團(tuán)隊在多種數(shù)據(jù)和模型上運行了大量的實驗,，實驗結(jié)果表明,，BlindFL可有效保護(hù)參與方的隱私數(shù)據(jù)，并具有更高的運行效率,。
Shiwen Wu, Fei Sun, Wentao Zhang, Xu Xie, and Bin Cui: Graph Neural Networks in Recommender Systems: A Survey,ACM Computing Surveys. 近幾年,，圖神經(jīng)網(wǎng)絡(luò)（GNN）技術(shù)在推薦系統(tǒng)中得到了廣泛的應(yīng)用，因為推薦系統(tǒng)中的大部分信息本質(zhì)上都具有圖結(jié)構(gòu),，而 GNN 在圖表示學(xué)習(xí)方面具有優(yōu)勢,。該綜述旨在梳理,、總結(jié)并討論關(guān)于基于 GNN 的推薦系統(tǒng)的研究工作，便于對此領(lǐng)域感興趣的研究者或者工業(yè)界人士快速了解這一領(lǐng)域,。具體來說,，該綜述基于推薦過程中使用的信息類型和推薦任務(wù)對現(xiàn)有工作進(jìn)行分類。此外,，我們分析了將 GNN 應(yīng)用于不同類型數(shù)據(jù)和推薦任務(wù)面臨的挑戰(zhàn),，總結(jié)了現(xiàn)有工作如何應(yīng)對這些挑戰(zhàn)，并討論了現(xiàn)有工作的優(yōu)點和局限性,。此外,，我們闡述了9個該領(lǐng)域有待進(jìn)一步研究的方向。
Xiaonan Nie, Xupeng Miao, Zhi Yang, and Bin Cui: TSplit: Fine-grained GPU Memory Management for Efficient DNN Training via Tensor Splitting,ICDE 2022. 現(xiàn)有的GPU內(nèi)存管理系統(tǒng)通過卸載Tensor和重計算Tensor來減少GPU顯存的占用,。然而,，這種粗粒度的內(nèi)存管理通常會引起GPU顯存峰值，并且不能充分利用可用的硬件資源（例如 PCIe）,。該論文提出了一種細(xì)粒度的 DNN 內(nèi)存管理系統(tǒng)（TSPLIT）,，提出了可拆分張量抽象（Tensor Splitting）來優(yōu)化系統(tǒng)的支持能力在打破內(nèi)存瓶頸的同時保持模型訓(xùn)練的效率。

【項目信息】

2022年03月,，實驗室開展與中興通訊的研究合作,，針對數(shù)據(jù)庫SQL優(yōu)化當(dāng)前業(yè)界存在的問題，研究并輸出業(yè)界領(lǐng)先的數(shù)據(jù)庫SQL優(yōu)化技術(shù),。
2022年03月,，實驗室開展與中興通訊的研究合作，實現(xiàn)AI模型的自動機(jī)器學(xué)習(xí)加速能力,，包括自動化超參調(diào)優(yōu)加速,，自動化網(wǎng)絡(luò)架構(gòu)搜索加速。

2022年04月回顧

【榮譽(yù)獎項】

04月29日晚,，國際萬維網(wǎng)頂級會議WWW 2022（The Web Conference,，簡稱WWW）公布了本屆會議的最佳論文。以北京大學(xué)計算機(jī)學(xué)院崔斌教授博士生張文濤為第一作者的論文“可擴(kuò)展的圖神經(jīng)結(jié)構(gòu)搜索系統(tǒng) (PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm)”斬獲大會唯一的最佳學(xué)生論文獎（Best Student Paper Award）,。崔斌教授受邀發(fā)表獲獎致謝,，博士生張文濤、沈彧共同為獲獎?wù)撐倪M(jìn)行了學(xué)術(shù)報告,。

國際萬維網(wǎng)頂級會議WWW 2022最佳論文獲獎證書

【論文錄用】

2022年04月,，實驗室博士生張心怡、常卓等同學(xué)合作的一篇論文被VLDB 2022錄用,。

【論文簡介】

Xinyi Zhang, Zhuo Chang, Yang Li, Hong Wu, Jian Tan, Feifei Li, Bin Cui: Facilitating Database Tuning with Hyper-Parameter Optimization: A Comprehensive Experimental Evaluation,VLDB 2022. 近年來,，數(shù)據(jù)庫參數(shù)優(yōu)化問題收到學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。面對大量的可用算法與各自場景,，如何為數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)選擇最佳設(shè)計仍然十分困難,。為此,，我們對數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)進(jìn)行了綜合評價：我們把現(xiàn)有系統(tǒng)分解為三個模塊，得出了在不同的場景下的最優(yōu)設(shè)計,。此外,，我們提出了一種數(shù)據(jù)庫參數(shù)優(yōu)化技術(shù)的測試基準(zhǔn)，其大大減少了評估的成本與時間開銷,。

2022年05月回顧

【論文錄用】

2022年05月,，實驗室共有8篇論文被國際頂級學(xué)術(shù)會議或期刊錄用：

① 我組博士生張文濤、盛則昂,、沈彧等同學(xué)合作的兩篇論文被ICML 2022錄用,；

② 我組博士生符芳誠、苗旭鵬的一篇論文被VLDB 2022錄用,；

③ 我組博士生黎洋,、沈彧等同學(xué)合作的兩篇論文被KDD 2022錄用；

④ 我組博士生張文濤,、盛則昂,、黎洋等同學(xué)合作的兩篇論文被KDD 2022錄用；

⑤ 我組博士生黎洋,、沈彧等同學(xué)合作的一篇論文被VLDB Journal錄用,。

【論文簡介】

Wentao Zhang, Zeang Sheng, Mingyu Yang, Yang Li, Yu Shen, Zhi Yang, Bin Cui: NAFS: A Simple yet Tough-to-beat Baseline for Graph Representation Learning,ICML 2022. 針對圖上的表示學(xué)習(xí)這一問題，本工作提出了一種不包含可學(xué)習(xí)參數(shù)的基線方法,，NAFS,。具體來說，通過驗證性實驗和理論分析,，本工作提出在進(jìn)行特征傳播時根據(jù)圖中各結(jié)點的不同擴(kuò)散速度相對應(yīng)地賦予不同的聚合權(quán)重。實驗結(jié)果顯示該基線方法在多個圖表示學(xué)習(xí)任務(wù)上都取得了接近SOTA的效果,，并擁有相比SOTA方法顯著更高的運行效率和可擴(kuò)展性,。
Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Zhi Yang, Bin Cui: Deep and Flexible Graph Neural Architecture Search,ICML 2022. 針對圖學(xué)習(xí)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索問題，和此前大多相關(guān)工作固定網(wǎng)絡(luò)結(jié)構(gòu)的整體框架不同,，本工作研究如何組合圖神經(jīng)網(wǎng)絡(luò)中的兩個基本算子P和T以探索更廣闊的模型設(shè)計空間,。此外，本工作基于遺傳算法設(shè)計的新的搜索算法能夠得到兼顧網(wǎng)絡(luò)結(jié)構(gòu)的模式和深度的搜索結(jié)果,。實驗結(jié)果顯示本工作搜索得到的網(wǎng)絡(luò)結(jié)構(gòu)能夠取得比目前人工設(shè)計的SOTA方法更好的效果,，而且相比現(xiàn)有相關(guān)工作有超過一個數(shù)量級的加速比。
Fangcheng Fu, Xupeng Miao, Jiawei Jiang, Huanran Xue, Bin Cui: Towards Communication-efficient Vertical Federated Learning Training via Cache-enabled Local Update,VLDB 2022. 本工作針對縱向聯(lián)邦學(xué)習(xí)中的網(wǎng)絡(luò)通信瓶頸進(jìn)行研究,，提出了一種基于數(shù)據(jù)緩存的縱向神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架,，該訓(xùn)練框架可借助歷史數(shù)據(jù)進(jìn)行近似計算，大幅降低網(wǎng)絡(luò)通信量,，從而提高訓(xùn)練效率,。此外,，根據(jù)近似計算的特性，本工作提出了兩種加快模型收斂的優(yōu)化算法,，并通過理論分析證明其有效性,。
Yang Li, Yu Shen, Huaijun Jiang, Tianyi Bai, Wentao Zhang, Ce Zhang, Bin Cui: Transfer Learning based Search Space Design for Hyperparameter Tuning,KDD 2022. Space提出從搜索空間的角度進(jìn)行遷移學(xué)習(xí)，通過裁剪歷史任務(wù)上表現(xiàn)良好的空間,，降低在完整空間搜索的代價,，從而提升遷移學(xué)習(xí)的收斂速率。
Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Zhi Yang, Ce Zhang, Bin Cui: "TransBO: Hyperparameter Optimization via Two-Phase Transfer Learning",KDD 2022. TransBO提出建立規(guī)范的遷移學(xué)習(xí)流程,，通過優(yōu)化的方式融合源任務(wù)與歷史任務(wù),，從而提升遷移學(xué)習(xí)的效果。
Wentao Zhang, Zeang Sheng, Ziqi Yin, Yuezihan Jiang, Yikuan Xia, Jun Gao, Zhi Yang, Bin Cui: Model Degradation Hinders Deep Graph Neural Networks,KDD 2022. 針對圖神經(jīng)網(wǎng)絡(luò)無法做深這一問題,，本工作把圖神經(jīng)網(wǎng)絡(luò)的深度分離成傳播深度和非線性變換深度兩部分,，并通過詳盡的實驗探究發(fā)現(xiàn)非線性變換深度在該問題中有著更大的影響?；谠摪l(fā)現(xiàn),，本工作針對性地提出了一個即插即用的通用且高效的模塊，AIR,。實驗結(jié)果顯示AIR能夠幫助現(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)同時擁有較大的傳播深度和非線性變換深度,，為圖神經(jīng)網(wǎng)絡(luò)無法做深這一問題提供了新的研究思路。
Wentao Zhang, Ziqi Yin, Zeang Sheng, Yang Li, wen ouyang, Xiaosen Li, Yangyu Tao, Zhi Yang, Bin Cui: Graph Attention Multi-Layer Perceptron,KDD 2022. 針對大規(guī)模圖學(xué)習(xí)這一問題,，本工作提出了一個全新的具有高可擴(kuò)展性,、高效的深層圖神經(jīng)網(wǎng)絡(luò)模型GAMLP?；诮怦畹膱D神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),，GAMLP同時對結(jié)點特征和標(biāo)簽信息進(jìn)行傳播，并提出了兩類高效的注意力機(jī)制來可適應(yīng)地聚合不同深度的聚合信息,。實驗結(jié)果顯示GAMLP在多個公開的大規(guī)模圖數(shù)據(jù)集上都取得了SOTA的效果,。目前GAMLP已在騰訊的機(jī)器學(xué)習(xí)平臺Angel部署并被廣泛使用。
Yang Li, Yu Shen, Wentao Zhang, Ce Zhang, Bin Cui: VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space Decomposition,VLDB Journal. 該論文拓展自VLDB 2021會議論文,，通過對搜索空間進(jìn)行切分,，提高自動化機(jī)器學(xué)習(xí)的搜索效率。

【學(xué)術(shù)活動】

2022年05月09日至12日,，國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級會議ICDE 2022召開,，我組博士生謝旭、聶小楠,、碩士生蔣悅紫晗在大會上為錄用論文進(jìn)行了學(xué)術(shù)報告,。
2022年05月31日至06月02日，北京智源大會召開,，我組博士生苗旭鵬受邀在大會上進(jìn)行題為“河圖：面向超大模型的分布式深度學(xué)習(xí)框架/Hetu：A distributed deep learning system towards large-scale models”的演講報告,。

我組博士生苗旭鵬進(jìn)行演講報告

【智源大會報告簡介】

河圖：面向超大模型的分布式深度學(xué)習(xí)框架/Hetu：A distributed deep learning system towards large-scale models

議題簡介：機(jī)器學(xué)習(xí)系統(tǒng)是人工智能應(yīng)用的重要基礎(chǔ),，也是近些年學(xué)術(shù)界以及工業(yè)界的研究熱點。作為機(jī)器學(xué)習(xí)與系統(tǒng)的交叉領(lǐng)域,，既需要需要關(guān)注機(jī)器學(xué)習(xí)本身的數(shù)據(jù)特性,、模型結(jié)構(gòu)、訓(xùn)練方法,、優(yōu)化算法,，又需要考慮系統(tǒng)在計算、存儲,、通信,、調(diào)度、硬件上存在的問題,。最終,，在保證機(jī)器學(xué)習(xí)效果的前提下，提高系統(tǒng)性能,。日益增長的模型和數(shù)據(jù)規(guī)模對現(xiàn)有系統(tǒng)帶來了嚴(yán)峻的挑戰(zhàn),。本次報告介紹了課題組自主研發(fā)的面向超大模型的分布式深度學(xué)習(xí)框架--河圖。報告首先介紹了河圖的特性和設(shè)計理念,，剖析了目前“大模型”發(fā)展情況,，然后重點介紹了河圖面向復(fù)雜模型和硬件環(huán)境的優(yōu)化進(jìn)展以及在自動化并行訓(xùn)練上的探索。最后,，對機(jī)器學(xué)習(xí)系統(tǒng)的發(fā)展進(jìn)行了展望,。

【項目信息】

2022年05月，實驗室開展與華為技術(shù)有限公司的研究合作,，挑戰(zhàn)面向在線應(yīng)用的智能參數(shù)調(diào)優(yōu)這一項任務(wù),。
2022年05月，實驗室開展與浙江天貓技術(shù)有限公司的研究合作,，將多國家的多個模型合成一個模型,，最后實現(xiàn)降本提效的目的。
2022年05月,，實驗室開展與深圳市騰訊計算機(jī)系統(tǒng)有限公司的研究合作，繼續(xù)開展“北大-騰訊協(xié)同創(chuàng)新實驗室”的研究工作,。

2022年06月回顧

【榮譽(yù)獎項】

實驗室博士生黎洋被評為北京大學(xué)優(yōu)秀畢業(yè)生,；
實驗室博士生張文濤博士論文被評為北京大學(xué)優(yōu)秀博士論文；
實驗室博士生苗旭鵬,、張文濤被評為北京市優(yōu)秀畢業(yè)生,。

【學(xué)術(shù)活動】

2022年06月12日至17日，國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級會議SIGMOD 2022召開,，我組博士生苗旭鵬,、符芳誠,、張心怡在大會上為錄用論文進(jìn)行了學(xué)術(shù)報告。

【新聞動態(tài)】

實驗室河圖團(tuán)隊將大規(guī)模預(yù)訓(xùn)練模型系統(tǒng)優(yōu)化方面的技術(shù)成果應(yīng)用到騰訊,，合作設(shè)計并研發(fā)了預(yù)訓(xùn)練框架AngelPTM,，積極推動創(chuàng)新成果在騰訊廣告內(nèi)容理解,、行業(yè)特征挖掘,、文案創(chuàng)意生成等實際業(yè)務(wù)中的應(yīng)用落地，促進(jìn)產(chǎn)學(xué)研合作,。此外,，河圖團(tuán)隊的多項技術(shù)成果持續(xù)助力騰訊“混元”AI大模型,，后者在CLUE（中文語言理解評測集合）榜單登頂，一舉超越人類水平,。

https://mp.weixin.qq.com/s/zk0dG2yB3iRBWEBMLMoWmw

2022年07月回顧

【學(xué)術(shù)活動】

1. 2022年07月17日至23日,，國際機(jī)器學(xué)習(xí)與人工智能頂級會議ICML 2022召開，我組博士生張文濤在大會上為錄用論文進(jìn)行了學(xué)術(shù)報告,。

我組博士生張文濤進(jìn)行學(xué)術(shù)報告

2. 2022年07月28日,，課題組承擔(dān)的重點研發(fā)項目“高時效、可擴(kuò)展的大數(shù)據(jù)計算模型,、優(yōu)化技術(shù)與系統(tǒng)”中的“高維大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)” 課題完成了課題績效評價,。課題完成了高效、可擴(kuò)展,、可兼容的高維大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)的研制,，該系統(tǒng)具備通用的編程模型和接口，支持常見的機(jī)器學(xué)習(xí)模型的高效并行化求解,，其中深度學(xué)習(xí)模型實現(xiàn)了百億級參數(shù)的學(xué)習(xí)能力,。經(jīng)第三方測試，系統(tǒng)支持的常用模型在達(dá)到相當(dāng)?shù)木惹闆r下,，平均訓(xùn)練性能比TensorFlow1.15.0高30%,。系統(tǒng)和項目整體進(jìn)行了集成，高效支撐了雙十一和城市大腦示范應(yīng)用,。課題發(fā)表論文24篇,，申請專利7項，獲得軟件著作權(quán)2項,，主要系統(tǒng)在中國木蘭開源社區(qū)開放,，并獲得了較好的影響力，顯示了良好的應(yīng)用前景,。

2022年08月回顧

【學(xué)術(shù)活動】

1. 2022年08月14日至18日,，國際數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘頂級會議KDD 2022召開，我組博士生黎洋、張文濤在大會上為錄用論文進(jìn)行了學(xué)術(shù)報告,。

2. 2022年08月19日至21日,，實驗室多位學(xué)生赴威海參加CCF中國數(shù)據(jù)庫學(xué)術(shù)會議NDBC 2022，并與海內(nèi)外學(xué)者進(jìn)行了學(xué)術(shù)交流,。

威海-CCF中國數(shù)據(jù)庫學(xué)術(shù)會議合影留念

【論文錄用】

2022年08月,，實驗室共有2篇論文被國際頂級學(xué)術(shù)會議或期刊錄用：

① 我組博士生黃世悅、碩士生覃彥釗等同學(xué)合作的一篇論文被SCIS錄用,；

② 我組博士生苗旭鵬,、聶小楠等同學(xué)合作的一篇論文被SCIS錄用。

【論文簡介】

Shiyue Huang, Yanzhao Qin, Xinyi Zhang, Yaofeng Tu, Zhongliang Lo, and Bin Cui: A Survey on Performance Optimization for Database Systems,SCIS. 近年來,，數(shù)據(jù)庫性能優(yōu)化問題受到工業(yè)界與學(xué)術(shù)界的廣泛關(guān)注,。我們根據(jù)數(shù)據(jù)庫運維環(huán)節(jié)，圍繞性能預(yù)測,、異常診斷,、調(diào)優(yōu)等三個主題撰寫了綜述論文，總結(jié)了各優(yōu)化主題的目標(biāo)與挑戰(zhàn),，梳理了現(xiàn)有研究工作及其優(yōu)缺點,，分析了未來值得探索的研究方向。
Xupeng Miao, Xiaonan Nie, Hailin Zhang, Tong Zhao, and Bin Cui: Hetu: A highly efficient automatic parallel distributed deep learning system,SCIS. 我組河圖團(tuán)隊關(guān)于河圖系統(tǒng)的簡介論文被SCIS接收,，論文介紹了河圖的基本設(shè)計理念,、系統(tǒng)功能特性、研發(fā)背景,、開發(fā)過程和在工業(yè)界的落地應(yīng)用情況等內(nèi)容,。

2022年09月回顧

【榮譽(yù)獎項】

2022年09月03日，我組博士生苗旭鵬,、張文濤獲得2022年度WAIC云帆獎·明日之星獎項,；
2022年09月29日，我組博士生苗旭鵬獲得2022年度ACM SIGMOD中國“優(yōu)博獎”,；
2022年09月07日,，在悉尼舉辦的國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級會議VLDB 2022（International Conference on Very Large Databases，簡稱VLDB）上,，北京大學(xué)計算機(jī)學(xué)院崔斌教授課題組的論文“基于分布式緩存的大規(guī)?？蓴U(kuò)展嵌入模型訓(xùn)練框架（HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework）”獲得大會可擴(kuò)展數(shù)據(jù)科學(xué)最佳論文獎（Best Scalable Data Science Paper）。崔斌教授在此次VLDB大會上進(jìn)行了題為“面向大模型的分布式機(jī)器學(xué)習(xí)（Distributed Machine Learning for Big Models）”的特邀報告,，介紹了實驗室在大模型訓(xùn)練方面的系統(tǒng)性進(jìn)展,，受到了與會同行的一致好評；我組博士生苗旭鵬為獲獎?wù)撐倪M(jìn)行了學(xué)術(shù)報告,。此外，我組博士生沈彧,、符芳誠,、張心怡也為錄用論文進(jìn)行了學(xué)術(shù)報告,。

崔斌教授課題組論文獲得大會可擴(kuò)展數(shù)據(jù)科學(xué)最佳論文獎

崔斌教授進(jìn)行特邀報告

【論文錄用】

2022年09月，我組博士生沈彧,、本科生陸宇鵬等同學(xué)合作的一篇論文被NeurIPS 2022錄用,。

【論文簡介】

Yu Shen, Yupeng Lu, Yang Li, Yaofeng Tu, Wentao Zhang, and Bin Cui: DivBO: Diversity-aware CASH for Ensemble Learning,NeurIPS 2022. DivBO提出了在自動化機(jī)器學(xué)習(xí)搜索流程中引入對配置多樣性的考量，并在搜索結(jié)束后通過構(gòu)建多樣化的集成模型,，進(jìn)一步提升了自動化機(jī)器學(xué)習(xí)的搜索精度,。

2022年10月回顧

【榮譽(yù)獎項】

2022年10月05日，我組博士生張心怡獲得2022年度微軟學(xué)者（MSRA Fellowship）提名,。

【學(xué)術(shù)活動】

2022年10月11日至12日,，Google舉辦了首屆關(guān)于Sparsity and Adaptive Computation的Workshop，我組博士生聶小楠受邀參會并進(jìn)行了題為“EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate”的學(xué)術(shù)報告,，并與Dave Patterson, Jeff Dean等與會知名學(xué)者進(jìn)行交流 ,。

【論文錄用】

2022年10月，實驗室共有2篇論文被國際頂級學(xué)術(shù)會議或期刊錄用：

① 我組博士生苗旭鵬,、王馭捷等同學(xué)合作的一篇論文被VLDB 2023錄用,；

② 我組博士生苗旭鵬、張文濤等同學(xué)合作的一篇論文被VLDB Journal錄用,。

【論文簡介】

Xupeng Miao, Yujie Wang, Youhe Jiang, Chunan Shi, Xiaonan Nie, Hailin Zhang, and Bin Cui: Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism,VLDB 2023.論文提出了一個面向超大模型的自動并行分布式訓(xùn)練系統(tǒng)Galvatron,，相比于現(xiàn)有工作在多樣性、復(fù)雜性,、實用性方面均具有顯著優(yōu)勢,，性能顯著優(yōu)于現(xiàn)有解決方案。
Xupeng Miao, Wentao Zhang, Yuezihan Jiang, Fangcheng Fu, Yingxia Shao, Lei Chen, Yangyu Tao, Gang Cao, and Bin Cui: P2CG: A Privacy Preserving Collaborative Graph Neural Network Training Framework,VLDB Journal.論文提出了一個面向縱向聯(lián)邦學(xué)習(xí)場景的圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架P2CG ,，能夠在保護(hù)圖數(shù)據(jù)隱私的前提下高質(zhì)量地完成多方聯(lián)合的圖學(xué)習(xí)任務(wù),。

2022年11月回顧

【學(xué)術(shù)活動】

1. 崔斌教授在第七屆數(shù)據(jù)挖掘與大數(shù)據(jù)國際會議（The Seventh International Conference on Data Mining and Big Data）上進(jìn)行了題為“面向大模型的分布式機(jī)器學(xué)習(xí)（Distributed Machine Learning for Big Models）”的特邀報告，介紹了實驗室在大模型訓(xùn)練方面的系統(tǒng)性進(jìn)展,，包括系統(tǒng)優(yōu)化,，自動并行等技術(shù)進(jìn)展，并介紹了實驗室的開源分布式深度學(xué)習(xí)系統(tǒng)Hetu,。報告獲得了與會同行的好評和關(guān)注,。

崔斌教授特邀報告鏈接：https://iasei.org/dmbd2022/speakers.html

2. 2022年11月28日至12月9日，國際機(jī)器學(xué)習(xí)與人工智能頂級會議NeurIPS 2022召開,，我組博士生沈彧在大會上為錄用論文進(jìn)行了學(xué)術(shù)報告,。

【論文錄用】

2022年11月，實驗室共有3篇論文被國際頂級學(xué)術(shù)會議或期刊錄用：

① 我組博士生黃世悅,、碩士生王子威等同學(xué)合作的一篇論文被SIGMOD 2023錄用,；

② 我組博士生沈彧、黎洋等同學(xué)合作的一篇論文被AAAI 2023錄用；

③ 我組碩士生郭子瑜,、博士生苗旭鵬等合作的一篇論文被AAAI 2023錄用,。

【論文簡介】

Shiyue Huang, Ziwei Wang, Xinyi Zhang, Yaofeng Tu, Zhongliang Li and Bin Cui: DBPA: A Benchmark for Transactional Database Performance Anomalies,SIGMOD 2023. 針對OLTP數(shù)據(jù)庫性能異常診斷問題，當(dāng)下流行的機(jī)器學(xué)習(xí)算法具備天然優(yōu)勢,，然而訓(xùn)練數(shù)據(jù)的缺失成為阻礙其應(yīng)用的關(guān)鍵問題,。為此，我們提出了DBPA,，一套關(guān)系型數(shù)據(jù)庫性能異常的benchmark,。它包括多種常見異常的復(fù)現(xiàn)方式與一個規(guī)模較大的數(shù)據(jù)集，支持多樣場景數(shù)據(jù)采集與復(fù)合異常數(shù)據(jù)生成,。用戶可使用DBPA采集目標(biāo)數(shù)據(jù)庫環(huán)境下的性能異常數(shù)據(jù),，以訓(xùn)練機(jī)器學(xué)習(xí)模型用于診斷任務(wù)；也可使用DBPA自帶的數(shù)據(jù)集進(jìn)行異常檢測與異常診斷算法評測,。
Yu Shen, Yang Li, Jian Zheng, Wentao Zhang, Peng Yao, Jixiang Li, Sen Yang, Ji Liu, and Bin Cui: ProxyBO: Accelerating Neural Architecture Search via Bayesian Optimization with Zero-cost Proxies,AAAI 2023. ProxyBO論文提出將無需訓(xùn)練即可獲得的指標(biāo)融入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索中,，從而加快搜索算法的收斂，并大幅提升搜索初期的精度,。
Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzheng Ma, Xupeng Miao, Xuming He, and Bin Cui: CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention,AAAI 2023. CLIP 在零發(fā)學(xué)習(xí)上取得了非常好的效果?，F(xiàn)有的很多方法嘗試在 Few-shot 的設(shè)定下提升 CLIP 的性能，但它們均引入了可學(xué)習(xí)參數(shù),，也需要額外的訓(xùn)練過程,，產(chǎn)生較大的資源消耗。目前仍然沒有方法能夠在提升 CLIP 效果的同時,，不引入額外的訓(xùn)練參數(shù),。因此，我們提出了第一個在 CLIP 上做 Zero-shot 增強(qiáng)的工作 CALIP,，我們的方法無需額外的數(shù)據(jù)和訓(xùn)練過程,，是十分高效的。在 CALIP 中,，我們設(shè)計了一個無參數(shù)注意力模塊,，來加強(qiáng)文本和視覺兩個模態(tài)間的信息交互，使得模型在 Zero-shot 上的效果有了很大的提升,。另外,，我們的模型的有參數(shù)版本 CALIP-FS 也在現(xiàn)有的 Few-shot 方法中取得了最佳效果。

2022年12月回顧

【榮譽(yù)獎項】

2022年12月,，我組碩士生趙鵬昊在英特爾“創(chuàng)新大師杯”全球AI極客挑戰(zhàn)賽“DeepRec CTR模型性能優(yōu)化”賽題中榮獲創(chuàng)新獎,。

【論文錄用】

2022年12月，實驗室共有2篇論文被國際頂級學(xué)術(shù)會議或期刊錄用：

① 我組博士生聶小楠,、苗旭鵬等同學(xué)合作的一篇論文被SIGMOD 2023錄用,；

② 我組博士生謝旭同學(xué)的一篇論文被ICDE 2023 (Industry Track)錄用,。

【論文簡介】

Xiaonan Nie, Xupeng Miao, Zilong Wang, Jilong Xue, Lingxiao Ma, Zichao Yang, Gang Cao, and Bin Cui: FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement,SIGMOD 2023. 大規(guī)模混合專家模型訓(xùn)練過程中專家的負(fù)載是不均衡的和動態(tài)的,，這降低了現(xiàn)有系統(tǒng)的效率,。我們深入分析了模型訓(xùn)練時的特性，并提出了動態(tài)的專家管理和設(shè)備放置的機(jī)制,，根據(jù)負(fù)載實時調(diào)整專家擺放來提高訓(xùn)練的效率。
Xu Xie, Jin Niu, Lifang Deng, Dan Wang, Jiandong Zhang, Zhihua Wu, Kaigui Bian, Gang Cao, and Bin Cui: Hierarchical Interest Modeling of Long-tailed Users for Click-Through Rate Prediction,ICDE 2023 (Industry Track). 點擊率（CTR）預(yù)測,，其目的是預(yù)測用戶點擊某個項目的概率,，在推薦系統(tǒng)中起著舉足輕重的作用。從用戶的歷史交互（如點擊）中準(zhǔn)確地捕捉用戶的偏好是處理這一任務(wù)的必要步驟,，并引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,。然而，以往的方法大多針對點擊量大的用戶,，它們對很少點擊或購買商品的用戶服務(wù)不佳,。雖然在亞馬遜、淘寶等熱門平臺上,，這些長尾用戶的比例可能很小,，但在來贊噠這樣的新生電商平臺上，他們卻占了大多數(shù),。為了提取長尾用戶的興趣,，一些工作試圖整合輔助信息，例如用戶元特征,。然而,，這些特征通常不容易獲取，甚至可能導(dǎo)致隱私問題,。因此,，如何利用嘈雜和有限的點擊行為成為關(guān)鍵挑戰(zhàn)。我們提出了一種稱為分層興趣建模（HIM）的新模型,。它分層利用長尾用戶的有限行為,，并從個性化和群體角度捕捉他們的偏好。HIM 由兩個主要組件組成,，包括用戶行為金字塔~(UBP) 和用戶行為聚類~(UBC),。UBP 模塊利用額外的負(fù)反饋來減少正反饋中的噪聲，從而獲得可靠的用戶個性化表示,。然后,，UBC 模塊自動發(fā)現(xiàn)具有自監(jiān)督重建損失的潛在用戶組，并在組方面為每個用戶學(xué)習(xí)另一種興趣表示,。在公開和工業(yè)數(shù)據(jù)集的廣泛實驗驗證了 HIM 與最先進(jìn)的基線相比的優(yōu)越性,。此外,，HIM已經(jīng)部署在Lazada推薦場景，在線A/B測試CTR預(yù)測平均提升3.38%,。

結(jié)束語

2022年以來,，我們在SIGMOD、VLDB,、ICLR,、ICDE、ICML,、WWW,、KDD等國際頂級學(xué)術(shù)會議和期刊如上發(fā)表論文20余篇，并獲得了VLDB和WWW的最佳論文,，多個開源系統(tǒng)的影響力進(jìn)一步提高,，與包括字節(jié)跳動、中興通訊,、騰訊,、阿里巴巴、華為等多家知名企業(yè)開展了卓有成效的合作,，進(jìn)行科研成果的轉(zhuǎn)化落地,。多名博士畢業(yè)生獲得了優(yōu)秀畢業(yè)生的榮譽(yù)。

2023年充滿了希望,，工作和生活將恢復(fù)常態(tài),。我們將繼續(xù)奮進(jìn)，與學(xué)術(shù)同行和業(yè)界同仁們一起為推動數(shù)據(jù)庫,、人工智能系統(tǒng)與大數(shù)據(jù)領(lǐng)域的發(fā)展貢獻(xiàn)力量,！

北京大學(xué)數(shù)據(jù)與智能實驗室(PKU-DAIR)2022年度總結(jié)

評論 0

近期熱門新聞

下一篇