北京大學(xué)
數(shù)據(jù)與智能實(shí)驗(yàn)室(PKU-DAIR)
2022年度總結(jié)
再見2022 你好2023
2022年,,實(shí)驗(yàn)室繼續(xù)在科研探索、師生成長(zhǎng),、項(xiàng)目合作等各方面取得長(zhǎng)足的進(jìn)步,。在這里,我們對(duì)過去一年實(shí)驗(yàn)室所取得的成果進(jìn)行總結(jié)和回顧,,迎接走出疫情,、充滿希望的2023年!
2022年01月回顧
【新聞動(dòng)態(tài)】
崔斌教授于2022年01月01日起擔(dān)任Data Science and Engineering(DSE)期刊主編,。
Data Science and Engineering(DSE)是由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,、數(shù)據(jù)庫專業(yè)委員會(huì)承辦、施普林格自然(Springer Nature)出版的Open Access期刊,。為了迎合相關(guān)領(lǐng)域的快速發(fā)展需求,,DSE致力于出版所有和數(shù)據(jù)科學(xué)與工程領(lǐng)域相關(guān)的關(guān)鍵科學(xué)問題與前沿研究熱點(diǎn),以大數(shù)據(jù)作為研究重點(diǎn),,征稿范疇主要包括4方面: (1)數(shù)據(jù)本身,;(2)數(shù)據(jù)信息提取方法;(3)數(shù)據(jù)計(jì)算理論;(4)用來分析與管理數(shù)據(jù)的技術(shù)和系統(tǒng),。
目前期刊已被EI,、ESCI與SCOPUS收錄,CiteScore 2021為6.4,,在Computational Mechanics領(lǐng)域排名#8/78(位列前10%),,在Computer Science Applications領(lǐng)域排名#157/747(位列前21%) 。
Data Science and Engineering期刊鏈接: https://www.springer.com/journal/41019
【論文錄用】
2022年01月,,實(shí)驗(yàn)室共有4篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:
① 我組博士生苗旭鵬,、碩士生石屹寧等同學(xué)合作的一篇論文被SIGMOD 2022錄用;
② 我組博士生黎洋,、沈彧等同學(xué)合作的一篇論文被VLDB 2022錄用,;
③ 我組博士生張文濤、碩士生王業(yè)鑫等同學(xué)合作的一篇論文被ICLR 2022錄用,;
④ 我組碩士生蔣悅紫晗,、程羽等同學(xué)合作的一篇論文被ICDE 2022 (Industry Track)錄用。
【論文簡(jiǎn)介】
【項(xiàng)目信息】
2022年01月,,實(shí)驗(yàn)室開展與北京字跳網(wǎng)絡(luò)技術(shù)有限公司的研究合作,,研究方向?yàn)樨惾~斯優(yōu)化及其應(yīng)用。
2022年02月回顧
【論文錄用】
2022年02月,,實(shí)驗(yàn)室博士生張文濤,、沈彧等同學(xué)合作的一篇論文被WWW 2022錄用。
【論文簡(jiǎn)介】
Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang,Yangyu Tao, Zhi Yang, Bin Cui: PaSca: A Graph Neural Architecture Search System under the Scalable Paradigm,Web Conference 2022. 針對(duì)大規(guī)模圖學(xué)習(xí)過程中面臨的可擴(kuò)展性低及建模門檻高兩個(gè)問題,,本工作提出了一套擁有自動(dòng)化建模超大規(guī)模圖網(wǎng)絡(luò)能力的高可擴(kuò)展性圖學(xué)習(xí)系統(tǒng),,PaSca。具體來說,,本工作提出了一個(gè)新穎的圖神經(jīng)網(wǎng)絡(luò)建模范式,,并基于此設(shè)計(jì)了一個(gè)包含超過15萬種網(wǎng)絡(luò)結(jié)構(gòu)的可擴(kuò)展圖神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)空間。此外,,本工作還實(shí)現(xiàn)并開源了一套多目標(biāo)的自動(dòng)化神經(jīng)網(wǎng)絡(luò)搜索系統(tǒng),,來支持更簡(jiǎn)單和高效的大規(guī)模圖學(xué)習(xí)。
2022年03月回顧
【論文錄用】
2022年03月,,實(shí)驗(yàn)室共有4篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:
① 我組博士生張心怡,、黎洋等同學(xué)合作的一篇論文被SIGMOD 2022錄用;
② 我組博士生符芳誠的一篇論文被SIGMOD 2022錄用,;
③ 我組碩士生吳史文,、博士生張文濤等同學(xué)合作的一篇論文被ACM Computing Surveys錄用;
④ 我組博士生聶小楠,、苗旭鵬等同學(xué)合作的一篇論文被ICDE 2022錄用,。
【論文簡(jiǎn)介】
【項(xiàng)目信息】
2022年04月回顧
【榮譽(yù)獎(jiǎng)項(xiàng)】
04月29日晚,國際萬維網(wǎng)頂級(jí)會(huì)議WWW 2022(The Web Conference,,簡(jiǎn)稱WWW)公布了本屆會(huì)議的最佳論文,。以北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授博士生張文濤為第一作者的論文“可擴(kuò)展的圖神經(jīng)結(jié)構(gòu)搜索系統(tǒng) (PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm)”斬獲大會(huì)唯一的最佳學(xué)生論文獎(jiǎng)(Best Student Paper Award)。崔斌教授受邀發(fā)表獲獎(jiǎng)致謝,,博士生張文濤,、沈彧共同為獲獎(jiǎng)?wù)撐倪M(jìn)行了學(xué)術(shù)報(bào)告。
國際萬維網(wǎng)頂級(jí)會(huì)議WWW 2022最佳論文獲獎(jiǎng)證書
【論文錄用】
2022年04月,,實(shí)驗(yàn)室博士生張心怡,、常卓等同學(xué)合作的一篇論文被VLDB 2022錄用。
【論文簡(jiǎn)介】
Xinyi Zhang, Zhuo Chang, Yang Li, Hong Wu, Jian Tan, Feifei Li, Bin Cui: Facilitating Database Tuning with Hyper-Parameter Optimization: A Comprehensive Experimental Evaluation,VLDB 2022. 近年來,,數(shù)據(jù)庫參數(shù)優(yōu)化問題收到學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注,。面對(duì)大量的可用算法與各自場(chǎng)景,如何為數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)選擇最佳設(shè)計(jì)仍然十分困難,。為此,,我們對(duì)數(shù)據(jù)庫參數(shù)優(yōu)化系統(tǒng)進(jìn)行了綜合評(píng)價(jià):我們把現(xiàn)有系統(tǒng)分解為三個(gè)模塊,得出了在不同的場(chǎng)景下的最優(yōu)設(shè)計(jì),。此外,,我們提出了一種數(shù)據(jù)庫參數(shù)優(yōu)化技術(shù)的測(cè)試基準(zhǔn),其大大減少了評(píng)估的成本與時(shí)間開銷,。
2022年05月回顧
【論文錄用】
2022年05月,,實(shí)驗(yàn)室共有8篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:
① 我組博士生張文濤、盛則昂,、沈彧等同學(xué)合作的兩篇論文被ICML 2022錄用,;
② 我組博士生符芳誠、苗旭鵬的一篇論文被VLDB 2022錄用,;
③ 我組博士生黎洋,、沈彧等同學(xué)合作的兩篇論文被KDD 2022錄用;
④ 我組博士生張文濤,、盛則昂,、黎洋等同學(xué)合作的兩篇論文被KDD 2022錄用,;
⑤ 我組博士生黎洋、沈彧等同學(xué)合作的一篇論文被VLDB Journal錄用,。
【論文簡(jiǎn)介】
【學(xué)術(shù)活動(dòng)】
我組博士生苗旭鵬進(jìn)行演講報(bào)告
【智源大會(huì)報(bào)告簡(jiǎn)介】
河圖:面向超大模型的分布式深度學(xué)習(xí)框架/Hetu:A distributed deep learning system towards large-scale models
議題簡(jiǎn)介:機(jī)器學(xué)習(xí)系統(tǒng)是人工智能應(yīng)用的重要基礎(chǔ),,也是近些年學(xué)術(shù)界以及工業(yè)界的研究熱點(diǎn)。作為機(jī)器學(xué)習(xí)與系統(tǒng)的交叉領(lǐng)域,,既需要需要關(guān)注機(jī)器學(xué)習(xí)本身的數(shù)據(jù)特性,、模型結(jié)構(gòu)、訓(xùn)練方法,、優(yōu)化算法,,又需要考慮系統(tǒng)在計(jì)算、存儲(chǔ),、通信,、調(diào)度、硬件上存在的問題,。最終,,在保證機(jī)器學(xué)習(xí)效果的前提下,提高系統(tǒng)性能,。日益增長(zhǎng)的模型和數(shù)據(jù)規(guī)模對(duì)現(xiàn)有系統(tǒng)帶來了嚴(yán)峻的挑戰(zhàn),。本次報(bào)告介紹了課題組自主研發(fā)的面向超大模型的分布式深度學(xué)習(xí)框架--河圖,。報(bào)告首先介紹了河圖的特性和設(shè)計(jì)理念,剖析了目前“大模型”發(fā)展情況,,然后重點(diǎn)介紹了河圖面向復(fù)雜模型和硬件環(huán)境的優(yōu)化進(jìn)展以及在自動(dòng)化并行訓(xùn)練上的探索,。最后,對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的發(fā)展進(jìn)行了展望,。
【項(xiàng)目信息】
2022年06月回顧
【榮譽(yù)獎(jiǎng)項(xiàng)】
【學(xué)術(shù)活動(dòng)】
2022年06月12日至17日,,國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級(jí)會(huì)議SIGMOD 2022召開,,我組博士生苗旭鵬、符芳誠,、張心怡在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。
【新聞動(dòng)態(tài)】
實(shí)驗(yàn)室河圖團(tuán)隊(duì)將大規(guī)模預(yù)訓(xùn)練模型系統(tǒng)優(yōu)化方面的技術(shù)成果應(yīng)用到騰訊,合作設(shè)計(jì)并研發(fā)了預(yù)訓(xùn)練框架AngelPTM,,積極推動(dòng)創(chuàng)新成果在騰訊廣告內(nèi)容理解,、行業(yè)特征挖掘、文案創(chuàng)意生成等實(shí)際業(yè)務(wù)中的應(yīng)用落地,,促進(jìn)產(chǎn)學(xué)研合作,。此外,河圖團(tuán)隊(duì)的多項(xiàng)技術(shù)成果持續(xù)助力騰訊“混元”AI大模型,,后者在CLUE(中文語言理解評(píng)測(cè)集合)榜單登頂,,一舉超越人類水平。
更多相關(guān)閱讀:
https://mp.weixin.qq.com/s/J34tWjuI7s0Jqn8GO37WFQ
https://mp.weixin.qq.com/s/zk0dG2yB3iRBWEBMLMoWmw
2022年07月回顧
【學(xué)術(shù)活動(dòng)】
1. 2022年07月17日至23日,,國際機(jī)器學(xué)習(xí)與人工智能頂級(jí)會(huì)議ICML 2022召開,,我組博士生張文濤在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告。
我組博士生張文濤進(jìn)行學(xué)術(shù)報(bào)告
2. 2022年07月28日,課題組承擔(dān)的重點(diǎn)研發(fā)項(xiàng)目“高時(shí)效,、可擴(kuò)展的大數(shù)據(jù)計(jì)算模型,、優(yōu)化技術(shù)與系統(tǒng)”中的“高維大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)” 課題完成了 課題績(jī)效評(píng)價(jià)。課題完成了高效,、可擴(kuò)展,、可兼容的高維大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)的研制,該系統(tǒng)具備通用的編程模型和接口,,支持常見的機(jī)器學(xué)習(xí)模型的高效并行化求解,其中深度學(xué)習(xí)模型實(shí)現(xiàn)了百億級(jí)參數(shù)的學(xué)習(xí)能力,。經(jīng)第三方測(cè)試,,系統(tǒng)支持的常用模型在達(dá)到相當(dāng)?shù)木惹闆r下,平均訓(xùn)練性能比TensorFlow1.15.0高30%,。系統(tǒng)和項(xiàng)目整體進(jìn)行了集成,,高效支撐了雙十一和城市大腦示范應(yīng)用。課題發(fā)表論文24篇,,申請(qǐng)專利7項(xiàng),,獲得軟件著作權(quán)2項(xiàng),主要系統(tǒng)在中國木蘭開源社區(qū)開放,,并獲得了較好的影響力,,顯示了良好的應(yīng)用前景。
2022年08月回顧
【學(xué)術(shù)活動(dòng)】
1. 2022年08月14日至18日,,國際數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘頂級(jí)會(huì)議KDD 2022召開,,我組博士生黎洋、張文濤在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。
2. 2022年08月19日至21日,,實(shí)驗(yàn)室多位學(xué)生赴威海參加CCF中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議NDBC 2022,并與海內(nèi)外學(xué)者進(jìn)行了學(xué)術(shù)交流,。
威海-CCF中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議合影留念
【論文錄用】
2022年08月,,實(shí)驗(yàn)室共有2篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:
① 我組博士生黃世悅、碩士生覃彥釗等同學(xué)合作的一篇論文被SCIS錄用,;
② 我組博士生苗旭鵬,、聶小楠等同學(xué)合作的一篇論文被SCIS錄用。
【論文簡(jiǎn)介】
2022年09月回顧
【榮譽(yù)獎(jiǎng)項(xiàng)】
崔斌教授課題組論文 獲得大會(huì)可擴(kuò)展數(shù)據(jù)科學(xué)最佳論文獎(jiǎng)
崔斌教授進(jìn)行特邀報(bào)告
【論文錄用】
2022年09月,,我組博士生沈彧、本科生陸宇鵬等同學(xué)合作的一篇論文被NeurIPS 2022錄用,。
【論文簡(jiǎn)介】
Yu Shen, Yupeng Lu, Yang Li, Yaofeng Tu, Wentao Zhang, and Bin Cui: DivBO: Diversity-aware CASH for Ensemble Learning,NeurIPS 2022. DivBO提出了在自動(dòng)化機(jī)器學(xué)習(xí)搜索流程中引入對(duì)配置多樣性的考量,,并在搜索結(jié)束后通過構(gòu)建多樣化的集成模型,進(jìn)一步提升了自動(dòng)化機(jī)器學(xué)習(xí)的搜索精度,。
2022年10月回顧
【榮譽(yù)獎(jiǎng)項(xiàng)】
2022年10月05日,,我組博士生張心怡獲得2022年度微軟學(xué)者(MSRA Fellowship)提名。
【學(xué)術(shù)活動(dòng)】
2022年10月11日至12日,,Google舉辦了首屆關(guān)于Sparsity and Adaptive Computation的Workshop,,我組博士生聶小楠受邀參會(huì)并進(jìn)行了題為“EvoMoE: An Evolutional Mixture-of-Experts Training Framework via Dense-To-Sparse Gate”的學(xué)術(shù)報(bào)告,并與Dave Patterson, Jeff Dean等與會(huì)知名學(xué)者進(jìn)行交流 ,。
【論文錄用】
2022年10月,,實(shí)驗(yàn)室共有2篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:
① 我組博士生苗旭鵬、王馭捷等同學(xué)合作的一篇論文被VLDB 2023錄用;
② 我組博士生苗旭鵬,、張文濤等同學(xué)合作的一篇論文被VLDB Journal錄用,。
【論文簡(jiǎn)介】
2022年11月回顧
【學(xué)術(shù)活動(dòng)】
1. 崔斌教授在第七屆數(shù)據(jù)挖掘與大數(shù)據(jù)國際會(huì)議(The Seventh International Conference on Data Mining and Big Data)上進(jìn)行了題為“面向大模型的分布式機(jī)器學(xué)習(xí)(Distributed Machine Learning for Big Models)”的特邀報(bào)告,,介紹了實(shí)驗(yàn)室在大模型訓(xùn)練方面的系統(tǒng)性進(jìn)展,,包括系統(tǒng)優(yōu)化,自動(dòng)并行等技術(shù)進(jìn)展,,并介紹了實(shí)驗(yàn)室的開源分布式深度學(xué)習(xí)系統(tǒng)Hetu。報(bào)告獲得了與會(huì)同行的好評(píng)和關(guān)注,。
崔斌教授特邀報(bào)告鏈接:https://iasei.org/dmbd2022/speakers.html
2. 2022年11月28日至12月9日,,國際機(jī)器學(xué)習(xí)與人工智能頂級(jí)會(huì)議NeurIPS 2022召開,我組博士生沈彧在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。
【論文錄用】
2022年11月,,實(shí)驗(yàn)室共有3篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:
① 我組博士生黃世悅、碩士生王子威等同學(xué)合作的一篇論文被SIGMOD 2023錄用,;
② 我組博士生沈彧,、黎洋等同學(xué)合作的一篇論文被AAAI 2023錄用;
③ 我組碩士生郭子瑜,、博士生苗旭鵬等合作的一篇論文被AAAI 2023錄用,。
【論文簡(jiǎn)介】
2022年12月回顧
【榮譽(yù)獎(jiǎng)項(xiàng)】
2022年12月,我組碩士生趙鵬昊在英特爾“創(chuàng)新大師杯”全球AI極客挑戰(zhàn)賽“DeepRec CTR模型性能優(yōu)化”賽題中榮獲創(chuàng)新獎(jiǎng),。
【論文錄用】
2022年12月,,實(shí)驗(yàn)室共有2篇論文被國際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用:
① 我組博士生聶小楠、苗旭鵬等同學(xué)合作的一篇論文被SIGMOD 2023錄用,;
② 我組博士生謝旭同學(xué)的一篇論文被ICDE 2023 (Industry Track)錄用,。
【論文簡(jiǎn)介】
結(jié)束語
2022年以來,,我們?cè)赟IGMOD、VLDB,、ICLR,、ICDE、ICML,、WWW,、KDD等國際頂級(jí)學(xué)術(shù)會(huì)議和期刊如上發(fā)表論文20余篇,并獲得了VLDB和WWW的最佳論文,,多個(gè)開源系統(tǒng)的影響力進(jìn)一步提高,,與包括字節(jié)跳動(dòng)、中興通訊,、騰訊,、阿里巴巴,、華為等多家知名企業(yè)開展了卓有成效的合作,進(jìn)行科研成果的轉(zhuǎn)化落地,。多名博士畢業(yè)生獲得了優(yōu)秀畢業(yè)生的榮譽(yù),。
2023年充滿了希望,工作和生活將恢復(fù)常態(tài),。我們將繼續(xù)奮進(jìn),,與學(xué)術(shù)同行和業(yè)界同仁們一起為推動(dòng)數(shù)據(jù)庫、人工智能系統(tǒng)與大數(shù)據(jù)領(lǐng)域的發(fā)展貢獻(xiàn)力量,!