北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(PKU-DAIR)2023年度總結(jié)

再見(jiàn)2023,！ 你好2024,！

2023年,，我們共同經(jīng)歷了無(wú)數(shù)挑戰(zhàn)和機(jī)遇，也收獲了無(wú)數(shù)的成功和成長(zhǎng),，實(shí)驗(yàn)室在科研探索,、師生成長(zhǎng)、項(xiàng)目合作等方面都取得了長(zhǎng)足的進(jìn)步,。在這里,，我們對(duì)過(guò)去一年實(shí)驗(yàn)室所取得的成果進(jìn)行總結(jié)和回顧，也為即將到來(lái)的龍年拉開(kāi)帷幕,。感謝每一位關(guān)注我們的朋友,！

2023年1月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2023年1月，我組2017級(jí)博士苗旭鵬獲得2022年度ACM中國(guó)“優(yōu)秀博士論文獎(jiǎng)”,。

ACM中國(guó)“優(yōu)秀博士論文獎(jiǎng)”由ACM中國(guó)理事會(huì)從2014年設(shè)立,，為表彰中國(guó)計(jì)算機(jī)領(lǐng)域的青年學(xué)者和博士生所取得的優(yōu)秀研究成果和高水平博士論文，并進(jìn)一步推動(dòng)青年學(xué)者在科研領(lǐng)域的發(fā)展和進(jìn)步,。2022年全國(guó)共有2位博士榮獲該獎(jiǎng)項(xiàng),。

descript

苗旭鵬獲得2022年度ACM中國(guó)“優(yōu)秀博士論文獎(jiǎng)”

descript

2022年度ACM中國(guó)“優(yōu)秀博士論文獎(jiǎng)獲得者”展覽

2023年2月回顧

【論文錄用】

2023年2月，我組碩士生王子威的一篇論文被ICDE 2023錄用,。

【論文簡(jiǎn)介】

Ziwei Wang, Zheng Zhong, Jiarui Guo, Yuhan Wu, Haoyu Li, Tong Yang, Yaofeng Tu, Huanchen Zhang, Bin Cui. REncoder: A Space-Time Efficient Range Filter with Local Encoder，ICDE 2023.

范圍過(guò)濾器是一種用于回答范圍成員查詢的數(shù)據(jù)結(jié)構(gòu),。范圍查詢?cè)诂F(xiàn)代應(yīng)用程序中很常見(jiàn),，范圍過(guò)濾器可以通過(guò)濾除空范圍查詢來(lái)提高范圍查詢的性能，因此受到越來(lái)越多的關(guān)注,。目前最先進(jìn)的范圍過(guò)濾器,，如SuRF和Rosetta，分別存在高誤報(bào)率和低吞吐量的缺陷,。因此,，論文提出了一種新的范圍濾波器（REncoder）。它將所有鍵的前綴組織成一棵線段樹(shù),，并將線段樹(shù)局部地編碼至布隆過(guò)濾器中以加速查詢,。REncoder可自適應(yīng)地選擇要存儲(chǔ)的線段樹(shù)的層數(shù)來(lái)支持不同的工作負(fù)載。論文從理論上證明了REncoder的誤差是有界的,，并推導(dǎo)出了其在有界誤差下的漸近空間復(fù)雜度,。論文在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，結(jié)果表明,，REncoder優(yōu)于全部現(xiàn)有范圍濾波器,。

2023年4月回顧

【學(xué)術(shù)活動(dòng)】

2023年4月3日至7日，國(guó)際數(shù)據(jù)庫(kù)與數(shù)據(jù)管理頂級(jí)會(huì)議ICDE 2023召開(kāi),，我組博士生謝旭,、碩士生王子威在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。

【論文錄用】

2023年4月，我組科研實(shí)習(xí)生姜友和,、博士生符芳誠(chéng)等同學(xué)合作的一篇論文被IJCAI 2023錄用,。

Youhe Jiang, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Bin Cui. OSDP: Optimal Sharded Data Parallel for Distributed Deep Learning，IJCAI 2023.

大規(guī)模深度學(xué)習(xí)模型在多個(gè)人物場(chǎng)景中展現(xiàn)出了顯著的提升,。數(shù)據(jù)并行和模型并行分別是基于模型的復(fù)制和劃分來(lái)支持超大規(guī)模模型分布式訓(xùn)練的常見(jiàn)范式,。本文提出了最優(yōu)分塊數(shù)據(jù)并行范式（OSDP），一種結(jié)合了數(shù)據(jù)并行和模型并行優(yōu)點(diǎn)的自動(dòng)并行訓(xùn)練框架,。給定模型描述和設(shè)備信息,，OSDP在顯存占用量和計(jì)算利用率之間進(jìn)行權(quán)衡，從而自動(dòng)生成分布式計(jì)算圖,，并最大化整體訓(xùn)練吞吐,。此外，OSDP引入了算子切分技術(shù),，以進(jìn)一步降低訓(xùn)練過(guò)程中的峰值顯存占用,，從而提升可支撐的模型規(guī)模。在多類(lèi)大規(guī)模模型上的實(shí)驗(yàn)表明,，OSDP相比現(xiàn)有方法具有顯著的提升,。

2023年5月回顧

【論文錄用】

2023年5月，實(shí)驗(yàn)室共有5篇論文被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用：

我組博士生沈彧,、碩士生陸宇鵬,、姜淮鈞等同學(xué)合作的一篇論文被KDD 2023錄用；
我組博士生聶小楠,、符芳誠(chéng)等同學(xué)合作的一篇論文被VLDB 2023錄用,；
我組2017級(jí)博士黎洋、碩士生姜淮鈞,、博士生沈彧等同學(xué)合作的一篇論文被VLDB 2023錄用,；
我組2017級(jí)博士苗旭鵬、碩士生石屹寧等同學(xué)合作的一篇論文被VLDB 2023錄用,；
我組博士生楊靈,、2017級(jí)博士張文濤等同學(xué)合作的一篇論文被TKDE 2023錄用。

【論文簡(jiǎn)介】

Yu Shen, Xinyuyang Ren, Yupeng Lu, Huaijun Jiang, Huanyong Xu, Di Peng, Yang Li, Wentao Zhang, Bin Cui. Rover: An online Spark SQL tuning service via generalized transfer learning,，KDD 2023. 該論文提出Rover,，一個(gè)對(duì)實(shí)際產(chǎn)業(yè)負(fù)載進(jìn)行高效且安全的在線Spark SQL調(diào)參服務(wù)。Rover將專(zhuān)家知識(shí)和歷史任務(wù)與BO算法結(jié)合,，提出了專(zhuān)家輔助的貝葉斯優(yōu)化和受控制的歷史遷移兩大算法模塊,，并已在字節(jié)跳動(dòng)的實(shí)際生產(chǎn)中取得了顯著的經(jīng)濟(jì)收益。
Xiaonan Nie, Yi Liu, Fangcheng Fu, Jinbao Xue, Dian Jiao, Xupeng Miao, Yangyu Tao, and Bin Cui. Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent，VLDB 2023 (Industry). 近年來(lái),，大規(guī)模預(yù)訓(xùn)練模型取得了前所未有的成就,。騰訊公司的多款產(chǎn)品和服務(wù)，如微信,、QQ和騰訊廣告,，已經(jīng)廣泛應(yīng)用這些先進(jìn)的預(yù)訓(xùn)練模型以提升用戶體驗(yàn)和服務(wù)質(zhì)量。本文提出了Angel-PTM,，一個(gè)專(zhuān)為大模型預(yù)訓(xùn)練而精心構(gòu)建的工業(yè)級(jí)深度學(xué)習(xí)系統(tǒng),，可以利用GPU服務(wù)器中的多層存儲(chǔ)高效地訓(xùn)練超大規(guī)模的模型。Angel-PTM 的關(guān)鍵設(shè)計(jì)在于其基于Page抽象的細(xì)粒度內(nèi)存管理和一個(gè)統(tǒng)一視角的訓(xùn)練調(diào)度器,，該調(diào)度器高效地協(xié)調(diào)了計(jì)算,、CPU與GPU之間的數(shù)據(jù)傳輸以及GPU間的通信。此外,，Angel-PTM通過(guò)使用SSD存儲(chǔ)來(lái)支持超大規(guī)模模型的訓(xùn)練,，并提出了無(wú)鎖更新機(jī)制以緩解SSD I/O帶寬瓶頸的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,，相比現(xiàn)有系統(tǒng),， Angel-PTM在相同GPU資源下支持更大的模型訓(xùn)練（提升114.8%），且訓(xùn)練吞吐提升了88.9%,。此外,，本文還對(duì)AngelPTM在千卡A100 GPUs訓(xùn)練GPT3-175B和T5-MoE-1.2T模型的性能進(jìn)行了測(cè)試，從而進(jìn)一步驗(yàn)證了其出色的的可擴(kuò)展性,。
Yang Li, Huaijun Jiang, Yu Shen, Yide Fang, Xiaofeng Yang, Danqing Huang, Xinyi Zhang, Wentao Zhang, Ce Zhang, Peng Chen, and Bin Cui. Towards General and Efficient Online Tuning for Spark,，VLDB 2023 (Industry). 該論文提出Online-Tune，一個(gè)針對(duì)工業(yè)場(chǎng)景Spark任務(wù)進(jìn)行通用高效在線調(diào)參的服務(wù),。Online-Tune引入通用調(diào)參目標(biāo)，提出安全采集函數(shù)確保安全性,，提出自適應(yīng)子空間生成,、近似梯度下降、遷移學(xué)習(xí)三種算法加速調(diào)優(yōu),，并已在騰訊的實(shí)際業(yè)務(wù)中取得了顯著的落地效果,。
Xupeng Miao, Yining Shi, Zhi Yang, Bin Cui, and Zhihao Jia. SDPipe: A Semi-Decentralized Framework for Heterogeneity-aware Pipeline-parallel Training，VLDB 2023. 隨著模型規(guī)模和數(shù)據(jù)體量的增長(zhǎng),，流水并行作為一種常見(jiàn)的模型并行方法被廣泛應(yīng)用于各種分布式訓(xùn)練場(chǎng)景,。然而，工業(yè)界的大多數(shù)大模型訓(xùn)練案例都是基于理想的同構(gòu)集群,。實(shí)際上,，真實(shí)的GPU集群環(huán)境往往會(huì)伴隨著動(dòng)態(tài)的異構(gòu)特性，造成大量的模型同步開(kāi)銷(xiāo)?，F(xiàn)有方案中,，無(wú)論是中心化的參數(shù)服務(wù)器,，還是去中心化的集合通信原語(yǔ)，都面臨著一定的性能瓶頸,。本文提出了一種半去中心化的異構(gòu)感知流水并行訓(xùn)練框架SDPipe,。該工作將需要密集通信的模型同步操作以去中心化的方式完成，實(shí)現(xiàn)高效同步,，并且以中心化的方調(diào)度節(jié)點(diǎn)通信組,，靈活動(dòng)態(tài)調(diào)整。SDPipe通過(guò)細(xì)粒度的跨流水線局部同步操作,，替代了傳統(tǒng)去中心化方案中的全局規(guī)約操作,，并且通過(guò)同步圖的全局約束，能夠在保證模型收斂的同時(shí)提高分布式訓(xùn)練的通信效率,。實(shí)驗(yàn)結(jié)果表明,，SDPipe在真實(shí)異構(gòu)集群環(huán)境下，可以顯著超越現(xiàn)有方法的性能,，并且具備較好的自適應(yīng)能力和可擴(kuò)展性,。
Ling Yang, Jiayi Zheng, Heyuan Wang, Zhongyi Liu, Zhilin Huang, Shenda Hong, Wentao Zhang, Bin Cui. Individual and Structural Graph Information Bottlenecks for Out-of-Distribution Generalization, TKDE 2023. 分布外圖神經(jīng)網(wǎng)絡(luò)的泛化對(duì)于許多現(xiàn)實(shí)世界的應(yīng)用至關(guān)重要。現(xiàn)有方法忽視了丟棄輸入中與標(biāo)簽無(wú)關(guān)的虛假或嘈雜特征,。此外,，它們主要進(jìn)行實(shí)例級(jí)別的類(lèi)不變圖學(xué)習(xí)，并未利用圖實(shí)例之間的結(jié)構(gòu)化類(lèi)關(guān)系,。在這項(xiàng)工作中,，我們致力于在一個(gè)統(tǒng)一的框架內(nèi)解決這些問(wèn)題，稱為個(gè)體和結(jié)構(gòu)圖信息瓶頸（IS-GIB）,。為了消除由分布偏移引起的類(lèi)虛假特征,，我們提出了個(gè)體圖信息瓶頸（I-GIB），通過(guò)最小化輸入圖與其嵌入之間的互信息來(lái)丟棄無(wú)關(guān)信息,。為了利用結(jié)構(gòu)內(nèi)部和跨域相關(guān)性,，我們提出了結(jié)構(gòu)圖信息瓶頸（S-GIB）。具體來(lái)說(shuō),，對(duì)于具有多個(gè)域的一批圖,，S-GIB 首先計(jì)算成對(duì)的輸入-輸入、嵌入-嵌入和標(biāo)簽-標(biāo)簽相關(guān)性,。然后,，它最小化輸入圖和嵌入對(duì)之間的互信息，同時(shí)最大化嵌入和標(biāo)簽對(duì)之間的互信息,。S-GIB 的關(guān)鍵見(jiàn)解是通過(guò)在多個(gè)分布偏移下保持類(lèi)關(guān)系來(lái)同時(shí)丟棄虛假特征并從高階視角學(xué)習(xí)不變特征,。值得注意的是，我們將提出的 I-GIB 和 S-GIB 統(tǒng)一起來(lái)形成我們的互補(bǔ)框架 IS-GIB。對(duì)節(jié)點(diǎn)和圖級(jí)任務(wù)進(jìn)行的大量實(shí)驗(yàn)一致表明了 IS-GIB 的卓越泛化能力,。

2023年6月回顧

【學(xué)術(shù)活動(dòng)】

2023年6月18日至23日,，國(guó)際數(shù)據(jù)庫(kù)與數(shù)據(jù)管理頂級(jí)會(huì)議SIGMOD 2023召開(kāi)，我組博士生聶小楠,、黃世悅,、張心怡在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告。

2023年8月回顧

【學(xué)術(shù)活動(dòng)】

2023年8月29日至9月1日,，國(guó)際數(shù)據(jù)庫(kù)與數(shù)據(jù)管理頂級(jí)會(huì)議VLDB 2023召開(kāi),，我組博士生聶小楠、2017級(jí)博士苗旭鵬在大會(huì)上為錄用論文進(jìn)行了學(xué)術(shù)報(bào)告,。

2023年9月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2023年9月,，我組2018級(jí)博士符芳誠(chéng)入選2023年度博士后創(chuàng)新人才支持計(jì)劃。

【論文錄用】

2023年9月,，實(shí)驗(yàn)室共有3篇論文被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用：

我組博士生張海林同學(xué)的一篇論文被NeurIPS 2023錄用,；
我組博士生楊靈同學(xué)的一篇論文被NeurIPS 2023錄用；
我組博士生楊靈同學(xué)的一篇論文被ACM Computing Surveys錄用,。

【論文簡(jiǎn)介】

Hailin Zhang, Yujing Wang, Qi Chen, Ruiheng Chang, Ting Zhang, Ziming Miao, Yingyan Hou, Yang Ding, Xupeng Miao, Haonan Wang, Bochen Pang, Yuefeng Zhan, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Xing Xie, Mao Yang, and Bin Cui. Model-enhanced Vector Index,，NeurIPS 2023. 現(xiàn)有的文檔檢索方法中，基于嵌入的方法將查詢和文檔編碼為嵌入向量,，基于生成的方法用序列到序列的模型直接輸入查詢,、輸出文檔標(biāo)識(shí)符；后者在小語(yǔ)料庫(kù)上表現(xiàn)優(yōu)異,，但由于高延遲很難擴(kuò)展到大語(yǔ)料庫(kù),。我們提出了模型增強(qiáng)的向量索引，構(gòu)建殘差量化（RQ）碼本對(duì)文檔進(jìn)行聚類(lèi),，保留了文檔簇的層次結(jié)構(gòu),；輸入查詢，自回歸模型可以根據(jù)RQ碼本直接生成虛擬集群標(biāo)識(shí)符,，然后用ANN在虛擬集群中搜索相關(guān)文檔,，增強(qiáng)召回性能的同時(shí)保證了低延遲。
Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui. Improving Diffusion-Based Image Synthesis with Context Prediction,，NeurIPS 2023. 擴(kuò)散模型是一種新型的生成模型，極大地推動(dòng)了圖像生成的質(zhì)量和多樣性?，F(xiàn)有的擴(kuò)散模型主要嘗試從一個(gè)受損的圖像中以像素或特征為約束沿空間軸進(jìn)行重構(gòu)輸入圖像,。然而，這種基于點(diǎn)的重構(gòu)可能無(wú)法使每個(gè)預(yù)測(cè)的像素/特征完全保留其鄰域上下文,，從而損害了基于擴(kuò)散的圖像合成,。作為自動(dòng)監(jiān)督信號(hào)的強(qiáng)大來(lái)源，上下文已經(jīng)被廣泛研究用于學(xué)習(xí)表示。受此啟發(fā),，我們首次提出了 ConPreDiff 來(lái)改善基于擴(kuò)散的圖像合成,，通過(guò)上下文預(yù)測(cè)。我們?cè)谟?xùn)練階段在擴(kuò)散去噪塊的末尾使用上下文解碼器明確地加強(qiáng)了每個(gè)點(diǎn)來(lái)預(yù)測(cè)其鄰域上下文（即,，多步特征/令牌/像素）,，并在推斷時(shí)移除解碼器。通過(guò)這種方式,，每個(gè)點(diǎn)可以通過(guò)保留與鄰域上下文的語(yǔ)義連接來(lái)更好地重構(gòu)自身,。ConPreDiff 這種新的范例可以推廣到任意的離散和連續(xù)的擴(kuò)散骨干，而不需要在采樣過(guò)程中引入額外的參數(shù),。在無(wú)條件圖像生成,、文本到圖像生成和圖像修復(fù)任務(wù)上進(jìn)行了大量實(shí)驗(yàn)。我們的 ConPreDiff 始終優(yōu)于先前的方法,，并在 MS-COCO 數(shù)據(jù)集上實(shí)現(xiàn)了新的 SOTA 文本到圖像生成結(jié)果,，零樣本 FID 得分為 6.21。
Ling Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Bin Cui, Ming-Hsuan Yang. Diffusion Models: A Comprehensive Survey of Methods and Applications,，ACM Computing Surveys,2023. 擴(kuò)散模型已成為一種強(qiáng)大的新型深度生成模型家族,，在許多應(yīng)用中取得了創(chuàng)紀(jì)錄的性能，包括圖像合成,、視頻生成和分子設(shè)計(jì),。在本綜述中，我們概述了關(guān)于擴(kuò)散模型的快速擴(kuò)展的研究?jī)?nèi)容,，將研究分為三個(gè)關(guān)鍵領(lǐng)域：高效采樣,、改進(jìn)似然估計(jì)和處理具有特殊結(jié)構(gòu)的數(shù)據(jù)。我們還討論了將擴(kuò)散模型與其他生成模型結(jié)合以獲得增強(qiáng)結(jié)果的潛力,。我們進(jìn)一步回顧了擴(kuò)散模型在涵蓋從計(jì)算機(jī)視覺(jué),、自然語(yǔ)言處理、時(shí)間數(shù)據(jù)建模到其他科學(xué)學(xué)科的跨領(lǐng)域應(yīng)用中的廣泛應(yīng)用,。本綜述旨在提供對(duì)擴(kuò)散模型狀態(tài)的有情境,、深入的了解，確定關(guān)注的關(guān)鍵領(lǐng)域,，并指出進(jìn)一步探索的潛在領(lǐng)域,。

2023年10月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2023年10月，我組2017級(jí)博士黎洋獲得2023年度ACM中國(guó)北京分會(huì)“優(yōu)秀博士論文獎(jiǎng)”,。

【榮譽(yù)獎(jiǎng)項(xiàng)&學(xué)術(shù)活動(dòng)】

2023年10月7日,，在武漢舉辦的國(guó)際數(shù)據(jù)挖掘與數(shù)據(jù)管理會(huì)議APWeb-WAIM 2023（Asia Pacific Web and Web-Age Information Management Joint International Conference on Web and Big Data，簡(jiǎn)稱APWeb-WAIM）上,，北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授課題組的論文“一種基于顯式捕獲多樣圖信息的多任務(wù)屬性圖聚類(lèi)方法（Graph-Enforced Neural Network for Attributed Graph Clustering）”獲得大會(huì)最佳論文提名獎(jiǎng)（Best Paper Runner Up）,。

Zeang Sheng, Wentao Zhang, Wen Ouyang, Yangyu Tao, Zhi Yang and Bin Cui. Graph-Enforced Neural Network for Attributed Graph Clustering,，APWeb-WAIM 2023.

該論文對(duì)現(xiàn)有的基于GAE的屬性圖聚類(lèi)方法做了定量實(shí)驗(yàn)分析，發(fā)現(xiàn)這些方法受三類(lèi)圖信息缺失問(wèn)題的影響,。在此基礎(chǔ)上,，該論文提出了三類(lèi)具有創(chuàng)新性的圖信息維持任務(wù)，包括圖結(jié)構(gòu),、圖中節(jié)點(diǎn)特征以及全局聚類(lèi)結(jié)構(gòu),，并綜合到一個(gè)多任務(wù)學(xué)習(xí)框架中，最終取得了顯著的性能提升,。該論文有助于屬性圖社區(qū)推進(jìn)對(duì)于聚類(lèi)算法的研究,，為新算法的提出提供了新的思考方向。

【論文錄用】

2023年10月,，實(shí)驗(yàn)室共有2篇論文被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用：

我組博士生張心怡的一篇論文被 VLDB 2024錄用,；
我組2017級(jí)博士張文濤的一篇論文被ICDE 2024錄用。

【論文簡(jiǎn)介】

Xinyi Zhang, Hong Wu, Yang Li, Zhengju Tang, Jian Tan, Feifei Li, Bin Cui. An Efficient Transfer Learning Based Configuration Adviser for Database Tuning,，VLDB 2024. 近年來(lái),，自動(dòng)優(yōu)化數(shù)據(jù)庫(kù)性能的多個(gè)系統(tǒng)涌現(xiàn)。然而,，它們通常需要大量的工作負(fù)載運(yùn)行,，耗時(shí)且資源密集。雖然一些先進(jìn)的搜索優(yōu)化器嘗試解決問(wèn)題,，但經(jīng)驗(yàn)研究表明,，沒(méi)有一個(gè)優(yōu)化器能在不同任務(wù)中占主導(dǎo)地位。選擇不合適的優(yōu)化器可能顯著增加成本,。當(dāng)前實(shí)踐通常采用單一優(yōu)化器或簡(jiǎn)單啟發(fā)式,，未能智能選擇最適合的優(yōu)化器。構(gòu)建緊湊的搜索空間可以顯著提高效率,，但目前的做法忽視了為每個(gè)參數(shù)設(shè)置值范圍,，依賴大量工作負(fù)載運(yùn)行選擇關(guān)鍵參數(shù)，導(dǎo)致不必要的探索,。為了高效數(shù)據(jù)庫(kù)調(diào)優(yōu),，本文提出OpAdviser，利用歷史調(diào)優(yōu)任務(wù)指導(dǎo)搜索空間構(gòu)建和優(yōu)化器選擇,。OpAdviser加速調(diào)優(yōu)過(guò)程,，減少工作負(fù)載運(yùn)行次數(shù)。對(duì)于給定任務(wù),，OpAdviser從相關(guān)任務(wù)學(xué)到搜索空間的結(jié)構(gòu),，包括關(guān)鍵參數(shù)及其有效區(qū)域。根據(jù)實(shí)時(shí)任務(wù)相似性構(gòu)建目標(biāo)搜索空間,，實(shí)現(xiàn)自適應(yīng)調(diào)整,。OpAdviser還采用排名模型預(yù)測(cè)最佳優(yōu)化器，通過(guò)廣泛評(píng)估,，在多個(gè)工作負(fù)載上相比最先進(jìn)的系統(tǒng),，實(shí)現(xiàn)了吞吐量提升和顯著減少工作負(fù)載運(yùn)行次數(shù)，平均加速比為3.48×,。
Wentao Zhang, Yexin Wang, Zhenbang You, Yang Li, Gang Cao, Zhi Yang, Bin Cui. NC-ALG: Graph-based Active Learning under Noisy Crowd,，ICDE 2024. 圖模型的性能?chē)?yán)重依賴于大量的已標(biāo)注節(jié)點(diǎn)，而現(xiàn)有的主動(dòng)學(xué)習(xí)標(biāo)注方法往往假設(shè)已標(biāo)注的標(biāo)簽總是正確的,，這與實(shí)際眾包環(huán)境中容易出錯(cuò)的標(biāo)注過(guò)程相矛盾,。此外，由于這個(gè)不切實(shí)際的假設(shè),，現(xiàn)有的工作只關(guān)注于優(yōu)化標(biāo)注中的節(jié)點(diǎn)選擇,，而忽視了優(yōu)化標(biāo)注過(guò)程。因此,，本文提出了 NC-ALG,，它同時(shí)考慮優(yōu)化節(jié)點(diǎn)選擇和標(biāo)注過(guò)程。對(duì)于節(jié)點(diǎn)選擇,，NC-ALG 引入了一種新的度量方法來(lái)模擬影響的可靠性,，并通過(guò)有效的影響最大化目標(biāo)來(lái)選擇節(jié)點(diǎn)。對(duì)于節(jié)點(diǎn)標(biāo)注,，NC-ALG 通過(guò)考慮模型預(yù)測(cè)的標(biāo)簽和鏡像節(jié)點(diǎn)的標(biāo)簽的一致性,，顯著降低了標(biāo)注成本。

【榮譽(yù)獎(jiǎng)項(xiàng)】

2023年10月, 我組博士研究生張心怡通過(guò)層層遴選,，以卓越的學(xué)術(shù)成果,、優(yōu)異的個(gè)人實(shí)踐，榮獲2023年度字節(jié)跳動(dòng)獎(jiǎng)學(xué)金,。

字節(jié)跳動(dòng)獎(jiǎng)學(xué)金計(jì)劃是字節(jié)跳動(dòng)公司發(fā)起的一項(xiàng)年度人才培養(yǎng)項(xiàng)目,。該計(jì)劃面向中國(guó)大陸地區(qū)高等院校的在校生，每年支持10余名學(xué)生,，為每位獲獎(jiǎng)學(xué)生提供10萬(wàn)元人民幣獎(jiǎng)學(xué)金,，旨在幫助具有創(chuàng)新精神的科技人才用專(zhuān)業(yè)知識(shí)解決實(shí)際難題，用技術(shù)回饋社會(huì),，引領(lǐng)未來(lái),。2023年共有13人榮獲該獎(jiǎng)學(xué)金。

descript

2023年度字節(jié)跳動(dòng)獎(jiǎng)學(xué)金頒獎(jiǎng)儀式

2023年11月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2023年11月,，國(guó)際電氣和電子工程師協(xié)會(huì)（IEEE）公布了 2024 年度新晉 Fellow 名單,，由于對(duì)大規(guī)模數(shù)據(jù)管理、處理和分析的貢獻(xiàn),，崔斌教授入選為IEEE Fellow,。

IEEE,，全稱Institute of Electrical and Electronics Engineers，是國(guó)際性的電子技術(shù)與信息科學(xué)工程師的協(xié)會(huì),，在160多個(gè)國(guó)家中,，擁有42萬(wàn)多會(huì)員。IEEE Fellow,，為協(xié)會(huì)最高等級(jí)會(huì)員,，是該組織授予的最高榮譽(yù)，當(dāng)選人需要對(duì)工程科學(xué)技術(shù)的進(jìn)步或應(yīng)用做出重大貢獻(xiàn),，為社會(huì)帶來(lái)重大價(jià)值,。每年由同行專(zhuān)家在有突出貢獻(xiàn)的會(huì)員中評(píng)選，當(dāng)選人數(shù)不超過(guò)IEEE會(huì)員總?cè)藬?shù)的千分之一,。

【新聞動(dòng)態(tài)】

2023年11月,，我組2017級(jí)博士張文濤入職北京大學(xué)國(guó)際機(jī)器學(xué)習(xí)研究中心，擔(dān)任助理教授,、研究員和博士生導(dǎo)師,。

【論文錄用】

2023年11月，實(shí)驗(yàn)室共有4篇論文被國(guó)際頂級(jí)學(xué)術(shù)會(huì)議或期刊錄用：

我組博士生張海林,、碩士生趙鵬昊等同學(xué)合作的一篇論文被VLDB 2024錄用,；
我組博士生張海林、劉子瑞等同學(xué)合作的一篇論文被SIGMOD 2024錄用,；
我組2017級(jí)博士苗旭鵬,、博士生石淳安等同學(xué)合作的一篇論文被ASPLOS 2024錄用;
我組本科生喻梓浩、李昊洋等同學(xué)合作的一篇論文被AAAI 2024錄用,。

【論文簡(jiǎn)介】

Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong Yang, and Bin Cui. Experimental Analysis of Large-scale Learnable Vector Storage Compression,，VLDB 2024. 可學(xué)習(xí)嵌入向量廣泛應(yīng)用于各種數(shù)據(jù)庫(kù)相關(guān)領(lǐng)域，特別是推薦任務(wù)和檢索任務(wù),。然而,，相關(guān)任務(wù)中嵌入表的內(nèi)存占用過(guò)大，對(duì)模型的訓(xùn)練和部署提出了巨大的挑戰(zhàn),。最近很多研究提出了各種壓縮嵌入的方法,，但目前各類(lèi)方法在各個(gè)評(píng)價(jià)指標(biāo)上的相對(duì)效果仍不明確。在這篇論文中,，我們對(duì)嵌入壓縮進(jìn)行了全面的比較分析和實(shí)驗(yàn)評(píng)估,，展示它們?cè)诓煌瑑?nèi)存預(yù)算下的效果，并分析了各個(gè)方法的實(shí)用場(chǎng)景,。
Hailin Zhang, Zirui Liu, Boxuan Chen, Yikai Zhao, Tong Zhao, Tong Yang, and Bin Cui. CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models,，SIGMOD 2024. 深度學(xué)習(xí)推薦模型（DLRM）中嵌入表的內(nèi)存需求不斷增長(zhǎng)，給模型訓(xùn)練和部署帶來(lái)了巨大的挑戰(zhàn),。本文提出了CAFE,，一種緊湊,、自適應(yīng)和低延遲的嵌入壓縮框架，動(dòng)態(tài)地為熱門(mén)的特征分配唯一的嵌入,，讓不熱門(mén)的特征共享部分嵌入,。在CAFE中，我們提出了一種快速且輕量級(jí)的草圖數(shù)據(jù)結(jié)構(gòu)HotSketch,，用于捕獲特征重要性并實(shí)時(shí)識(shí)別熱特征。我們進(jìn)一步提出了多級(jí)哈希嵌入框架來(lái)優(yōu)化非熱門(mén)特征的嵌入表,。
Xupeng Miao, Chunan Shi, Jiangfei Duan, Xiaoli Xi, Dahua Lin, Bin Cui, Zhihao Jia. SpotServe: Serving Generative Large Language Models on Preemptible Instances,，ASPLOS 2024. SpotServe是首個(gè)針對(duì)Preemptible Instance（可搶占實(shí)例）場(chǎng)景下的分布式LLM推理系統(tǒng)，面向動(dòng)態(tài)集群和變化負(fù)載,，自動(dòng)調(diào)整最優(yōu)并行方案,，快速完成細(xì)粒度推理上下文狀態(tài)恢復(fù)，并在優(yōu)化過(guò)程中權(quán)衡了推理延遲,、吞吐和成本三方面的目標(biāo),。我們?cè)贏WS集群上的實(shí)驗(yàn)表明，SpotServe相比于傳統(tǒng)方案可以大幅降低由于實(shí)例搶占導(dǎo)致的LLM推理延遲開(kāi)銷(xiāo),，借助于Spot Instance可以比On-demand Instance節(jié)省54%的金錢(qián)成本,。
Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui. Accelerating Text-to-image Editing via Cache-enabled Sparse Diffusion Inference，AAAI 2024. 本文針對(duì)文生圖場(chǎng)景下的修改需求,，提出了一種帶緩存機(jī)制的高效diffusion推理方法,，不僅可以自動(dòng)識(shí)別出用戶所期望的修改區(qū)域，還可以通過(guò)稀疏計(jì)算技術(shù)加速圖片生成,，相比現(xiàn)有推理方法可以達(dá)到4.4倍的效率提升,。

2023年12月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2023年12月，我組2017級(jí)博士張文濤獲得2023年北京市優(yōu)秀博士學(xué)位論文,。

【學(xué)術(shù)活動(dòng)】

2023年12月10日至12月16日,，國(guó)際機(jī)器學(xué)習(xí)與人工智能頂級(jí)會(huì)議NeurIPS 2023召開(kāi)，我組博士生張海林,、楊靈在大會(huì)上為錄用論文進(jìn)行了講解,。

【學(xué)術(shù)活動(dòng)】

2023年12月3日至6日，2023國(guó)際測(cè)試委員會(huì)智能計(jì)算與芯片聯(lián)邦大會(huì)召開(kāi),，我組開(kāi)源項(xiàng)目河圖（Hetu）被評(píng)為BenchCoucil年度世界開(kāi)源杰出成果之一,，我組2018級(jí)博士符芳誠(chéng)受邀在大會(huì)上進(jìn)行題為“河圖：高效可擴(kuò)展的分布式深度學(xué)習(xí)系統(tǒng)/Hetu: An efficient and scalable distributed deep learning system”的演講報(bào)告。

descript

河圖（Hetu）被評(píng)為BenchCoucil年度世界Top100開(kāi)源成果

2024年1月回顧

【論文錄用】

2024年1月,，我組博士生楊靈共有3篇論文被ICLR 2024錄用,。

【論文簡(jiǎn)介】

Ling Yang, Zhilong Zhang, Zhaochen Yu, Jingwei Liu, Minkai Xu, Stefano Ermon, Bin Cui. Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing, ICLR 2024. 條件擴(kuò)散模型在高保真度的文本引導(dǎo)視覺(jué)生成和編輯方面表現(xiàn)出優(yōu)越的性能。然而,，當(dāng)前的文本引導(dǎo)視覺(jué)擴(kuò)散模型主要專(zhuān)注于將文本-視覺(jué)關(guān)系獨(dú)占地納入到反向過(guò)程中,，往往忽視了它們?cè)谡蜻^(guò)程中的相關(guān)性,。正向和反向過(guò)程之間的這種不一致可能限制了在視覺(jué)合成結(jié)果中準(zhǔn)確傳達(dá)文本語(yǔ)義的能力。為了解決這個(gè)問(wèn)題,，我們提出了一種新穎且通用的上下文化擴(kuò)散模型（ContextDiff）,，通過(guò)將跨模態(tài)上下文納入到文本條件和視覺(jué)樣本之間的交互和對(duì)齊中，將其融入到正向和反向過(guò)程中,。我們將這種上下文傳播到兩個(gè)過(guò)程中的所有時(shí)間步驟,，以調(diào)整它們的軌跡，從而促進(jìn)跨模態(tài)條件建模,。我們通過(guò)理論推導(dǎo)將我們的上下文化擴(kuò)散推廣到了DDPMs和DDIMs,，并通過(guò)兩個(gè)具有挑戰(zhàn)性的任務(wù)進(jìn)行了模型評(píng)估：文本到圖像生成和文本到視頻編輯。在每個(gè)任務(wù)中,，我們的ContextDiff均取得了新的最先進(jìn)性能,，顯著提升了文本條件和生成樣本之間的語(yǔ)義對(duì)齊，這一點(diǎn)在定量和定性實(shí)驗(yàn)中得到了證實(shí),。
Ling Yang, Ye Tian, Minkai Xu, Zhongyi Liu, Shenda Hong, Wei Qu, Wentao Zhang, Bin Cui, Muhan Zhang, Jure Leskovec. VQGraph: Rethinking Graph Representation Space for Bridging GNNs and MLPs,，ICLR 2024. GNN-to-MLP蒸餾旨在利用知識(shí)蒸餾（KD）來(lái)通過(guò)模仿教師GNN的輸出表示，在圖數(shù)據(jù)上學(xué)習(xí)計(jì)算高效的多層感知器（學(xué)生MLP）?，F(xiàn)有方法主要使MLP模仿GNN對(duì)少數(shù)類(lèi)標(biāo)簽的預(yù)測(cè),。然而，類(lèi)空間可能不足以覆蓋眾多不同的局部圖結(jié)構(gòu),，從而限制了從GNN到MLP的知識(shí)轉(zhuǎn)移的性能,。為了解決這個(gè)問(wèn)題，我們提出通過(guò)直接為GNN-to-MLP蒸餾中的節(jié)點(diǎn)的多樣化局部結(jié)構(gòu)進(jìn)行標(biāo)記,，學(xué)習(xí)一個(gè)新的強(qiáng)大的圖表示空間,。具體而言，我們提出了一種VQ-VAE的變體,，用于在圖數(shù)據(jù)上學(xué)習(xí)一個(gè)結(jié)構(gòu)感知的分詞器,，它可以將每個(gè)節(jié)點(diǎn)的局部子結(jié)構(gòu)編碼為離散代碼。離散代碼構(gòu)成一個(gè)代碼簿,，作為一個(gè)新的圖表示空間,，能夠用相應(yīng)的代碼索引識(shí)別節(jié)點(diǎn)的不同局部圖結(jié)構(gòu)。然后,，基于學(xué)習(xí)到的代碼簿,，我們提出了一個(gè)新的蒸餾目標(biāo)，即軟代碼分配,，直接將每個(gè)節(jié)點(diǎn)的結(jié)構(gòu)知識(shí)從GNN轉(zhuǎn)移到MLP,。結(jié)果框架VQGraph在七個(gè)圖數(shù)據(jù)集上的GNN-to-MLP蒸餾中，無(wú)論是在傳導(dǎo)式還是歸納式設(shè)置中，都實(shí)現(xiàn)了新的最先進(jìn)性能,。我們展示了VQGraph的更好性能比GNN快828倍推斷速度,，并且分別在準(zhǔn)確率上比GNN和獨(dú)立MLP平均提高了3.90％和28.05％。
Zhilin Huang*, Ling Yang*, Xiangxin Zhou, Zhilong Zhang, Wentao Zhang, Xiawu Zheng, Jie Chen, Yu Wang, Bin Cui, Wenming Yang. Protein-Ligand Interaction Prior for Binding-aware 3D Molecule Diffusion Models,，ICLR 2024. 通過(guò)擴(kuò)散模型生成與特定蛋白靶點(diǎn)結(jié)合的3D配體分子,，在基于結(jié)構(gòu)的藥物設(shè)計(jì)方面表現(xiàn)出了巨大的潛力。其關(guān)鍵思想是通過(guò)固定的正向過(guò)程將分子分解為噪聲,，并學(xué)習(xí)其逆向過(guò)程以以去噪的方式從噪聲中生成分子,。然而，現(xiàn)有的擴(kuò)散模型主要專(zhuān)注于僅在逆向過(guò)程中納入蛋白質(zhì)-配體相互作用信息,，并忽視了正向過(guò)程中的相互作用,。正向和逆向過(guò)程之間的不一致可能會(huì)損害生成的分子對(duì)目標(biāo)蛋白的結(jié)合親和力。在本文中,，我們提出了一種新穎的基于交互先驗(yàn)的擴(kuò)散模型（IPDiff），通過(guò)將幾何蛋白質(zhì)-配體相互作用引入到擴(kuò)散和采樣過(guò)程中,，實(shí)現(xiàn)了針對(duì)特定蛋白的3D分子生成,。具體而言，我們首先通過(guò)利用結(jié)合親和信號(hào)進(jìn)行監(jiān)督,，對(duì)蛋白質(zhì)-配體相互作用先驗(yàn)網(wǎng)絡(luò)（IPNet）進(jìn)行預(yù)訓(xùn)練,。隨后，我們利用預(yù)訓(xùn)練的先驗(yàn)網(wǎng)絡(luò)來(lái)（1）將目標(biāo)蛋白與分子配體之間的相互作用整合到正向過(guò)程中,，以調(diào)整分子擴(kuò)散軌跡（先驗(yàn)位移）,，以及（2）增強(qiáng)基于結(jié)合的分子采樣過(guò)程（先驗(yàn)條件）。對(duì)CrossDocked2020數(shù)據(jù)集的實(shí)證研究表明,，IPDiff能夠生成具有更真實(shí)的3D結(jié)構(gòu)和最先進(jìn)的對(duì)蛋白靶點(diǎn)的結(jié)合親和力的分子,，平均Vina評(píng)分高達(dá)-6.42，同時(shí)保持適當(dāng)?shù)姆肿犹匦浴?/li>

2024年2月回顧

【榮譽(yù)獎(jiǎng)項(xiàng)】

2024年2月,，我組2017級(jí)博士張文濤獲得2023 年度吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)“優(yōu)秀博士學(xué)位論文獲獎(jiǎng)?wù)撐?/span> ”,。

【論文錄用】

2024年2月，我組2017級(jí)博士張文濤的一篇論文被SIGMOD 2024錄用,。

【論文簡(jiǎn)介】

Wentao Zhang, Guochen Yan, Yu Shen, Yang Ling, Yaoyu Tao, Bin Cui, Jian Tang. NPA: Improving Large-scale Graph Neural Networks with Non-parametric Attention,，SIGMOD 2024 (Industry)

非參數(shù)化的圖神經(jīng)網(wǎng)絡(luò)（GNN）在大規(guī)模圖數(shù)據(jù)上取得了廣泛的使用。例如,，Open Graph Benchmark中大部分排名靠前的方法都是非參數(shù)化GNN,。盡管非參數(shù)GNN具有很高的預(yù)測(cè)性能和可擴(kuò)展性，但仍面臨兩個(gè)限制,。1）由于過(guò)平滑特征的傳播,，它們會(huì)隨著傳播深度而遭受?chē)?yán)重的性能退化。2）忽略了非參數(shù)傳播過(guò)程中的特征影響，導(dǎo)致傳播特征次優(yōu),。本文提出了非參數(shù)注意力插件來(lái)解決這些限制,，取得了ogbn-papers100M的最好性能，在騰訊實(shí)際應(yīng)用中部署實(shí)現(xiàn)并取得良好效果,。

結(jié)語(yǔ)

2023年的征途與榮光已屬于過(guò)去,，2024年的挑戰(zhàn)與機(jī)遇已經(jīng)開(kāi)始。兔去龍來(lái)喜氣濃,，家家戶戶慶豐功,。祝福新老朋友們，龍年行大運(yùn),，龍飛鳳舞生活樂(lè),，魚(yú)躍龍門(mén)事業(yè)興！新春快樂(lè),！

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(PKU-DAIR)2023年度總結(jié)

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(PKU-DAIR)2023年度總結(jié)

2023年1月回顧

2023年2月回顧

2023年4月回顧

2023年5月回顧

2023年6月回顧

2023年8月回顧

2023年9月回顧

2023年10月回顧

2023年11月回顧

2023年12月回顧

2024年1月回顧

2024年2月回顧

結(jié)語(yǔ)

評(píng)論 0

近期熱門(mén)新聞

下一篇