国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

北京大學數(shù)據(jù)與智能實驗室(PKU-DAIR)2023年度總結
3498
2024-10-18 20:54:05(已編輯)
12
0
7
用微信掃描二維碼

北京大學數(shù)據(jù)與智能實驗室(PKU-DAIR)2023年度總結

 

再見2023,! 你好2024,!

 

        2023年,我們共同經(jīng)歷了無數(shù)挑戰(zhàn)和機遇,,也收獲了無數(shù)的成功和成長,,實驗室在科研探索、師生成長,、項目合作等方面都取得了長足的進步,。在這里,我們對過去一年實驗室所取得的成果進行總結和回顧,,也為即將到來的龍年拉開帷幕,。感謝每一位關注我們的朋友,!

 

2023年1月回顧

 

【榮譽獎項】

2023年1月,,我組2017級博士苗旭鵬獲得2022年度ACM中國優(yōu)秀博士論文獎”。

ACM中國“優(yōu)秀博士論文獎”由ACM中國理事會從2014年設立,,為表彰中國計算機領域的青年學者和博士生所取得的優(yōu)秀研究成果和高水平博士論文,,并進一步推動青年學者在科研領域的發(fā)展和進步。2022年全國共有2位博士榮獲該獎項,。

descript

苗旭鵬獲得2022年度ACM中國“優(yōu)秀博士論文獎”

 

descript

                                                   2022年度ACM中國“優(yōu)秀博士論文獎獲得者”展覽

 

2023年2月回顧

 

【論文錄用】

2023年2月,,我組碩士生王子威的一篇論文被ICDE 2023錄用。

【論文簡介】

Ziwei Wang, Zheng Zhong, Jiarui Guo, Yuhan Wu, Haoyu Li, Tong Yang, Yaofeng Tu, Huanchen Zhang, Bin Cui. REncoder: A Space-Time Efficient Range Filter with Local Encoder,ICDE 2023.

范圍過濾器是一種用于回答范圍成員查詢的數(shù)據(jù)結構,。范圍查詢在現(xiàn)代應用程序中很常見,,范圍過濾器可以通過濾除空范圍查詢來提高范圍查詢的性能,因此受到越來越多的關注,。目前最先進的范圍過濾器,,如SuRF和Rosetta,分別存在高誤報率和低吞吐量的缺陷,。因此,,論文提出了一種新的范圍濾波器(REncoder)。它將所有鍵的前綴組織成一棵線段樹,,并將線段樹局部地編碼至布隆過濾器中以加速查詢,。REncoder可自適應地選擇要存儲的線段樹的層數(shù)來支持不同的工作負載。論文從理論上證明了REncoder的誤差是有界的,,并推導出了其在有界誤差下的漸近空間復雜度,。論文在合成數(shù)據(jù)集和真實數(shù)據(jù)集上進行了實驗,結果表明,,REncoder優(yōu)于全部現(xiàn)有范圍濾波器,。

 

2023年4月回顧

 

【學術活動】

2023年4月3日至7日,國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級會議ICDE 2023召開,,我組博士生謝旭,、碩士生王子威在大會上為錄用論文進行了學術報告。

【論文錄用】

2023年4月,,我組科研實習生姜友和,、博士生符芳誠等同學合作的一篇論文被IJCAI 2023錄用。

Youhe Jiang, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Bin Cui. OSDP: Optimal Sharded Data Parallel for Distributed Deep Learning,,IJCAI 2023.

大規(guī)模深度學習模型在多個人物場景中展現(xiàn)出了顯著的提升,。數(shù)據(jù)并行和模型并行分別是基于模型的復制和劃分來支持超大規(guī)模模型分布式訓練的常見范式。本文提出了最優(yōu)分塊數(shù)據(jù)并行范式(OSDP),,一種結合了數(shù)據(jù)并行和模型并行優(yōu)點的自動并行訓練框架,。給定模型描述和設備信息,OSDP在顯存占用量和計算利用率之間進行權衡,,從而自動生成分布式計算圖,,并最大化整體訓練吞吐。此外,,OSDP引入了算子切分技術,,以進一步降低訓練過程中的峰值顯存占用,從而提升可支撐的模型規(guī)模,。在多類大規(guī)模模型上的實驗表明,,OSDP相比現(xiàn)有方法具有顯著的提升。

 

2023年5月回顧

 

【論文錄用】

2023年5月,實驗室共有5篇論文被國際頂級學術會議或期刊錄用:

  1. 我組博士生沈彧,、碩士生陸宇鵬,、姜淮鈞等同學合作的一篇論文被KDD 2023錄用;
  2. 我組博士生聶小楠,、符芳誠等同學合作的一篇論文被VLDB 2023錄用,;
  3. 我組2017級博士黎洋、碩士生姜淮鈞,、博士生沈彧等同學合作的一篇論文被VLDB 2023錄用,;
  4. 我組2017級博士苗旭鵬、碩士生石屹寧等同學合作的一篇論文被VLDB 2023錄用,;
  5. 我組博士生楊靈,、2017級博士張文濤等同學合作的一篇論文被TKDE 2023錄用。

【論文簡介】

  1. Yu Shen, Xinyuyang Ren, Yupeng Lu, Huaijun Jiang, Huanyong Xu, Di Peng, Yang Li, Wentao Zhang, Bin Cui. Rover: An online Spark SQL tuning service via generalized transfer learning,,KDD 2023.  該論文提出Rover,,一個對實際產(chǎn)業(yè)負載進行高效且安全的在線Spark SQL調參服務。Rover將專家知識和歷史任務與BO算法結合,,提出了專家輔助的貝葉斯優(yōu)化和受控制的歷史遷移兩大算法模塊,,并已在字節(jié)跳動的實際生產(chǎn)中取得了顯著的經(jīng)濟收益。
  2. Xiaonan Nie, Yi Liu, Fangcheng Fu, Jinbao Xue, Dian Jiao, Xupeng Miao, Yangyu Tao, and Bin Cui. Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent,,VLDB 2023 (Industry). 近年來,,大規(guī)模預訓練模型取得了前所未有的成就。騰訊公司的多款產(chǎn)品和服務,,如微信,、QQ和騰訊廣告,已經(jīng)廣泛應用這些先進的預訓練模型以提升用戶體驗和服務質量,。本文提出了Angel-PTM,,一個專為大模型預訓練而精心構建的工業(yè)級深度學習系統(tǒng),可以利用GPU服務器中的多層存儲高效地訓練超大規(guī)模的模型,。Angel-PTM 的關鍵設計在于其基于Page抽象的細粒度內存管理和一個統(tǒng)一視角的訓練調度器,,該調度器高效地協(xié)調了計算、CPU與GPU之間的數(shù)據(jù)傳輸以及GPU間的通信,。此外,,Angel-PTM通過使用SSD存儲來支持超大規(guī)模模型的訓練,并提出了無鎖更新機制以緩解SSD I/O帶寬瓶頸的問題,。實驗結果表明,,相比現(xiàn)有系統(tǒng), Angel-PTM在相同GPU資源下支持更大的模型訓練(提升114.8%),,且訓練吞吐提升了88.9%。此外,本文還對AngelPTM在千卡A100 GPUs訓練GPT3-175B和T5-MoE-1.2T模型的性能進行了測試,,從而進一步驗證了其出色的的可擴展性,。
  3. Yang Li, Huaijun Jiang, Yu Shen, Yide Fang, Xiaofeng Yang, Danqing Huang, Xinyi Zhang, Wentao Zhang, Ce Zhang, Peng Chen, and Bin Cui. Towards General and Efficient Online Tuning for Spark,VLDB 2023 (Industry). 該論文提出Online-Tune,,一個針對工業(yè)場景Spark任務進行通用高效在線調參的服務,。Online-Tune引入通用調參目標,提出安全采集函數(shù)確保安全性,,提出自適應子空間生成,、近似梯度下降、遷移學習三種算法加速調優(yōu),,并已在騰訊的實際業(yè)務中取得了顯著的落地效果,。
  4. Xupeng Miao, Yining Shi, Zhi Yang, Bin Cui, and Zhihao Jia. SDPipe: A Semi-Decentralized Framework for Heterogeneity-aware Pipeline-parallel Training,VLDB 2023.  隨著模型規(guī)模和數(shù)據(jù)體量的增長,,流水并行作為一種常見的模型并行方法被廣泛應用于各種分布式訓練場景,。然而,工業(yè)界的大多數(shù)大模型訓練案例都是基于理想的同構集群,。實際上,,真實的GPU集群環(huán)境往往會伴隨著動態(tài)的異構特性,造成大量的模型同步開銷?,F(xiàn)有方案中,,無論是中心化的參數(shù)服務器,還是去中心化的集合通信原語,,都面臨著一定的性能瓶頸,。本文提出了一種半去中心化的異構感知流水并行訓練框架SDPipe。該工作將需要密集通信的模型同步操作以去中心化的方式完成,,實現(xiàn)高效同步,,并且以中心化的方調度節(jié)點通信組,靈活動態(tài)調整,。SDPipe通過細粒度的跨流水線局部同步操作,,替代了傳統(tǒng)去中心化方案中的全局規(guī)約操作,并且通過同步圖的全局約束,,能夠在保證模型收斂的同時提高分布式訓練的通信效率,。實驗結果表明,SDPipe在真實異構集群環(huán)境下,,可以顯著超越現(xiàn)有方法的性能,,并且具備較好的自適應能力和可擴展性。
  5. Ling Yang, Jiayi Zheng, Heyuan Wang, Zhongyi Liu, Zhilin Huang, Shenda Hong, Wentao Zhang, Bin Cui. Individual and Structural Graph Information Bottlenecks for Out-of-Distribution Generalization, TKDE 2023.  分布外圖神經(jīng)網(wǎng)絡的泛化對于許多現(xiàn)實世界的應用至關重要?,F(xiàn)有方法忽視了丟棄輸入中與標簽無關的虛假或嘈雜特征,。此外,,它們主要進行實例級別的類不變圖學習,并未利用圖實例之間的結構化類關系,。在這項工作中,,我們致力于在一個統(tǒng)一的框架內解決這些問題,稱為個體和結構圖信息瓶頸(IS-GIB),。為了消除由分布偏移引起的類虛假特征,,我們提出了個體圖信息瓶頸(I-GIB),通過最小化輸入圖與其嵌入之間的互信息來丟棄無關信息,。為了利用結構內部和跨域相關性,,我們提出了結構圖信息瓶頸(S-GIB)。具體來說,,對于具有多個域的一批圖,,S-GIB 首先計算成對的輸入-輸入、嵌入-嵌入和標簽-標簽相關性,。然后,,它最小化輸入圖和嵌入對之間的互信息,同時最大化嵌入和標簽對之間的互信息,。S-GIB 的關鍵見解是通過在多個分布偏移下保持類關系來同時丟棄虛假特征并從高階視角學習不變特征,。值得注意的是,我們將提出的 I-GIB 和 S-GIB 統(tǒng)一起來形成我們的互補框架 IS-GIB,。對節(jié)點和圖級任務進行的大量實驗一致表明了 IS-GIB 的卓越泛化能力,。

 

2023年6月回顧

 

【學術活動】

2023年6月18日至23日,國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級會議SIGMOD 2023召開,,我組博士生聶小楠,、黃世悅、張心怡在大會上為錄用論文進行了學術報告,。

 

2023年8月回顧

 

【學術活動】

2023年8月29日至9月1日,,國際數(shù)據(jù)庫與數(shù)據(jù)管理頂級會議VLDB 2023召開,我組博士生聶小楠,、2017級博士苗旭鵬在大會上為錄用論文進行了學術報告,。

 

2023年9月回顧

 

【榮譽獎項】

2023年9月,我組2018級博士符芳誠入選2023年度博士后創(chuàng)新人才支持計劃,。

【論文錄用】

2023年9月,,實驗室共有3篇論文被國際頂級學術會議或期刊錄用:

  1. 我組博士生張海林同學的一篇論文被NeurIPS 2023錄用;
  2. 我組博士生楊靈同學的一篇論文被NeurIPS 2023錄用,;
  3. 我組博士生楊靈同學的一篇論文被ACM Computing Surveys錄用,。

【論文簡介】

  1. Hailin Zhang, Yujing Wang, Qi Chen, Ruiheng Chang, Ting Zhang, Ziming Miao, Yingyan Hou, Yang Ding, Xupeng Miao, Haonan Wang, Bochen Pang, Yuefeng Zhan, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Xing Xie, Mao Yang, and Bin Cui. Model-enhanced Vector Index,NeurIPS 2023. 現(xiàn)有的文檔檢索方法中,,基于嵌入的方法將查詢和文檔編碼為嵌入向量,,基于生成的方法用序列到序列的模型直接輸入查詢,、輸出文檔標識符;后者在小語料庫上表現(xiàn)優(yōu)異,,但由于高延遲很難擴展到大語料庫,。我們提出了模型增強的向量索引,,構建殘差量化(RQ)碼本對文檔進行聚類,,保留了文檔簇的層次結構;輸入查詢,,自回歸模型可以根據(jù)RQ碼本直接生成虛擬集群標識符,,然后用ANN在虛擬集群中搜索相關文檔,增強召回性能的同時保證了低延遲,。
  2. Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui. Improving Diffusion-Based Image Synthesis with Context Prediction,,NeurIPS 2023. 擴散模型是一種新型的生成模型,極大地推動了圖像生成的質量和多樣性?,F(xiàn)有的擴散模型主要嘗試從一個受損的圖像中以像素或特征為約束沿空間軸進行重構輸入圖像,。然而,這種基于點的重構可能無法使每個預測的像素/特征完全保留其鄰域上下文,,從而損害了基于擴散的圖像合成,。作為自動監(jiān)督信號的強大來源,上下文已經(jīng)被廣泛研究用于學習表示,。受此啟發(fā),,我們首次提出了 ConPreDiff 來改善基于擴散的圖像合成,通過上下文預測,。我們在訓練階段在擴散去噪塊的末尾使用上下文解碼器明確地加強了每個點來預測其鄰域上下文(即,,多步特征/令牌/像素),并在推斷時移除解碼器,。通過這種方式,,每個點可以通過保留與鄰域上下文的語義連接來更好地重構自身。ConPreDiff 這種新的范例可以推廣到任意的離散和連續(xù)的擴散骨干,,而不需要在采樣過程中引入額外的參數(shù),。在無條件圖像生成、文本到圖像生成和圖像修復任務上進行了大量實驗,。我們的 ConPreDiff 始終優(yōu)于先前的方法,,并在 MS-COCO 數(shù)據(jù)集上實現(xiàn)了新的 SOTA 文本到圖像生成結果,零樣本 FID 得分為 6.21,。
  3. Ling Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Bin Cui, Ming-Hsuan Yang. Diffusion Models: A Comprehensive Survey of Methods and Applications,,ACM Computing Surveys,2023.  擴散模型已成為一種強大的新型深度生成模型家族,在許多應用中取得了創(chuàng)紀錄的性能,,包括圖像合成,、視頻生成和分子設計,。在本綜述中,我們概述了關于擴散模型的快速擴展的研究內容,,將研究分為三個關鍵領域:高效采樣,、改進似然估計和處理具有特殊結構的數(shù)據(jù)。我們還討論了將擴散模型與其他生成模型結合以獲得增強結果的潛力,。我們進一步回顧了擴散模型在涵蓋從計算機視覺,、自然語言處理、時間數(shù)據(jù)建模到其他科學學科的跨領域應用中的廣泛應用,。本綜述旨在提供對擴散模型狀態(tài)的有情境,、深入的了解,確定關注的關鍵領域,,并指出進一步探索的潛在領域,。

 

2023年10月回顧

 

【榮譽獎項】

2023年10月,我組2017級博士黎洋獲得2023年度ACM中國北京分會“優(yōu)秀博士論文獎”,。

【榮譽獎項&學術活動】

2023年10月7日,,在武漢舉辦的國際數(shù)據(jù)挖掘與數(shù)據(jù)管理會議APWeb-WAIM 2023(Asia Pacific Web and Web-Age Information Management Joint International Conference on Web and Big Data,簡稱APWeb-WAIM)上,,北京大學計算機學院崔斌教授課題組的論文“一種基于顯式捕獲多樣圖信息的多任務屬性圖聚類方法(Graph-Enforced Neural Network for Attributed Graph Clustering)”獲得大會最佳論文提名獎(Best Paper Runner Up),。

Zeang Sheng, Wentao Zhang, Wen Ouyang, Yangyu Tao, Zhi Yang and Bin Cui. Graph-Enforced Neural Network for Attributed Graph Clustering,APWeb-WAIM 2023. 

該論文對現(xiàn)有的基于GAE的屬性圖聚類方法做了定量實驗分析,,發(fā)現(xiàn)這些方法受三類圖信息缺失問題的影響,。在此基礎上,該論文提出了三類具有創(chuàng)新性的圖信息維持任務,,包括圖結構,、圖中節(jié)點特征以及全局聚類結構,并綜合到一個多任務學習框架中,,最終取得了顯著的性能提升,。該論文有助于屬性圖社區(qū)推進對于聚類算法的研究,為新算法的提出提供了新的思考方向,。

【論文錄用】

2023年10月,,實驗室共有2篇論文被國際頂級學術會議或期刊錄用:

  1. 我組博士生張心怡的一篇論文被 VLDB 2024錄用;
  2. 我組2017級博士張文濤的一篇論文被ICDE 2024錄用,。

【論文簡介】

  1. Xinyi Zhang, Hong Wu, Yang Li, Zhengju Tang, Jian Tan, Feifei Li, Bin Cui. An Efficient Transfer Learning Based Configuration Adviser for Database Tuning,,VLDB 2024. 近年來,自動優(yōu)化數(shù)據(jù)庫性能的多個系統(tǒng)涌現(xiàn),。然而,,它們通常需要大量的工作負載運行,耗時且資源密集,。雖然一些先進的搜索優(yōu)化器嘗試解決問題,,但經(jīng)驗研究表明,,沒有一個優(yōu)化器能在不同任務中占主導地位。選擇不合適的優(yōu)化器可能顯著增加成本,。當前實踐通常采用單一優(yōu)化器或簡單啟發(fā)式,,未能智能選擇最適合的優(yōu)化器。構建緊湊的搜索空間可以顯著提高效率,,但目前的做法忽視了為每個參數(shù)設置值范圍,,依賴大量工作負載運行選擇關鍵參數(shù),導致不必要的探索,。為了高效數(shù)據(jù)庫調優(yōu),,本文提出OpAdviser,,利用歷史調優(yōu)任務指導搜索空間構建和優(yōu)化器選擇,。OpAdviser加速調優(yōu)過程,減少工作負載運行次數(shù),。對于給定任務,,OpAdviser從相關任務學到搜索空間的結構,包括關鍵參數(shù)及其有效區(qū)域,。根據(jù)實時任務相似性構建目標搜索空間,,實現(xiàn)自適應調整。OpAdviser還采用排名模型預測最佳優(yōu)化器,,通過廣泛評估,,在多個工作負載上相比最先進的系統(tǒng),實現(xiàn)了吞吐量提升和顯著減少工作負載運行次數(shù),,平均加速比為3.48×,。
  2. Wentao Zhang, Yexin Wang, Zhenbang You, Yang Li, Gang Cao, Zhi Yang, Bin Cui. NC-ALG: Graph-based Active Learning under Noisy Crowd,ICDE 2024.  圖模型的性能嚴重依賴于大量的已標注節(jié)點,,而現(xiàn)有的主動學習標注方法往往假設已標注的標簽總是正確的,,這與實際眾包環(huán)境中容易出錯的標注過程相矛盾。此外,,由于這個不切實際的假設,,現(xiàn)有的工作只關注于優(yōu)化標注中的節(jié)點選擇,而忽視了優(yōu)化標注過程,。因此,,本文提出了 NC-ALG,它同時考慮優(yōu)化節(jié)點選擇和標注過程,。對于節(jié)點選擇,,NC-ALG 引入了一種新的度量方法來模擬影響的可靠性,并通過有效的影響最大化目標來選擇節(jié)點,。對于節(jié)點標注,,NC-ALG 通過考慮模型預測的標簽和鏡像節(jié)點的標簽的一致性,,顯著降低了標注成本。

【榮譽獎項】

2023年10月, 我組博士研究生張心怡通過層層遴選,,以卓越的學術成果,、優(yōu)異的個人實踐,榮獲2023年度字節(jié)跳動獎學金,。

字節(jié)跳動獎學金計劃是字節(jié)跳動公司發(fā)起的一項年度人才培養(yǎng)項目,。該計劃面向中國大陸地區(qū)高等院校的在校生,每年支持10余名學生,,為每位獲獎學生提供10萬元人民幣獎學金,,旨在幫助具有創(chuàng)新精神的科技人才用專業(yè)知識解決實際難題,用技術回饋社會,,引領未來,。2023年共有13人榮獲該獎學金。

descript

2023年度字節(jié)跳動獎學金頒獎儀式

 

2023年11月回顧

 

【榮譽獎項】

2023年11月,,國際電氣和電子工程師協(xié)會(IEEE)公布了 2024 年度新晉 Fellow 名單,,由于對大規(guī)模數(shù)據(jù)管理、處理和分析的貢獻,,崔斌教授入選為IEEE Fellow,。

IEEE,全稱Institute of Electrical and Electronics Engineers,,是國際性的電子技術與信息科學工程師的協(xié)會,,在160多個國家中,擁有42萬多會員,。IEEE Fellow,,為協(xié)會最高等級會員,是該組織授予的最高榮譽,,當選人需要對工程科學技術的進步或應用做出重大貢獻,,為社會帶來重大價值。每年由同行專家在有突出貢獻的會員中評選,,當選人數(shù)不超過IEEE會員總人數(shù)的千分之一,。

【新聞動態(tài)】

2023年11月,我組2017級博士張文濤入職北京大學國際機器學習研究中心,,擔任助理教授,、研究員和博士生導師。

【論文錄用】

2023年11月,,實驗室共有4篇論文被國際頂級學術會議或期刊錄用:

  1. 我組博士生張海林,、碩士生趙鵬昊等同學合作的一篇論文被VLDB 2024錄用;
  2. 我組博士生張海林、劉子瑞等同學合作的一篇論文被SIGMOD 2024錄用,;
  3. 我組2017級博士苗旭鵬,、博士生石淳安等同學合作的一篇論文被ASPLOS 2024錄用;
  4. 我組本科生喻梓浩、李昊洋等同學合作的一篇論文被AAAI 2024錄用,。

【論文簡介】

  1. Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong Yang, and Bin Cui. Experimental Analysis of Large-scale Learnable Vector Storage Compression,,VLDB 2024. 可學習嵌入向量廣泛應用于各種數(shù)據(jù)庫相關領域,特別是推薦任務和檢索任務,。然而,,相關任務中嵌入表的內存占用過大,對模型的訓練和部署提出了巨大的挑戰(zhàn),。最近很多研究提出了各種壓縮嵌入的方法,,但目前各類方法在各個評價指標上的相對效果仍不明確。在這篇論文中,,我們對嵌入壓縮進行了全面的比較分析和實驗評估,,展示它們在不同內存預算下的效果,并分析了各個方法的實用場景,。
  2. Hailin Zhang, Zirui Liu, Boxuan Chen, Yikai Zhao, Tong Zhao, Tong Yang, and Bin Cui. CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models,,SIGMOD 2024. 深度學習推薦模型(DLRM)中嵌入表的內存需求不斷增長,給模型訓練和部署帶來了巨大的挑戰(zhàn),。本文提出了CAFE,一種緊湊,、自適應和低延遲的嵌入壓縮框架,,動態(tài)地為熱門的特征分配唯一的嵌入,讓不熱門的特征共享部分嵌入,。在CAFE中,,我們提出了一種快速且輕量級的草圖數(shù)據(jù)結構HotSketch,用于捕獲特征重要性并實時識別熱特征,。我們進一步提出了多級哈希嵌入框架來優(yōu)化非熱門特征的嵌入表,。
  3. Xupeng Miao, Chunan Shi, Jiangfei Duan, Xiaoli Xi, Dahua Lin, Bin Cui, Zhihao Jia. SpotServe: Serving Generative Large Language Models on Preemptible Instances,ASPLOS 2024. SpotServe是首個針對Preemptible Instance(可搶占實例)場景下的分布式LLM推理系統(tǒng),,面向動態(tài)集群和變化負載,,自動調整最優(yōu)并行方案,快速完成細粒度推理上下文狀態(tài)恢復,,并在優(yōu)化過程中權衡了推理延遲,、吞吐和成本三方面的目標。我們在AWS集群上的實驗表明,,SpotServe相比于傳統(tǒng)方案可以大幅降低由于實例搶占導致的LLM推理延遲開銷,,借助于Spot Instance可以比On-demand Instance節(jié)省54%的金錢成本。
  4. Zihao Yu, Haoyang Li, Fangcheng Fu, Xupeng Miao, Bin Cui. Accelerating Text-to-image Editing via Cache-enabled Sparse Diffusion Inference,AAAI 2024. 本文針對文生圖場景下的修改需求,,提出了一種帶緩存機制的高效diffusion推理方法,,不僅可以自動識別出用戶所期望的修改區(qū)域,還可以通過稀疏計算技術加速圖片生成,,相比現(xiàn)有推理方法可以達到4.4倍的效率提升,。

 

2023年12月回顧

 

【榮譽獎項】

2023年12月,我組2017級博士張文濤獲得2023年北京市優(yōu)秀博士學位論文,。

【學術活動】

2023年12月10日至12月16日,,國際機器學習與人工智能頂級會議NeurIPS 2023召開,我組博士生張海林,、楊靈在大會上為錄用論文進行了講解,。

【學術活動】

2023年12月3日至6日,2023國際測試委員會智能計算與芯片聯(lián)邦大會召開,,我組開源項目河圖(Hetu)被評為BenchCoucil年度世界開源杰出成果之一,,我組2018級博士符芳誠受邀在大會上進行題為“河圖:高效可擴展的分布式深度學習系統(tǒng)/Hetu: An efficient and scalable distributed deep learning system”的演講報告

descript

                                            河圖(Hetu)被評為BenchCoucil年度世界Top100開源成果

 

 

2024年1月回顧

 

【論文錄用】

2024年1月,,我組博士生楊靈共有3篇論文被ICLR 2024錄用,。

【論文簡介】

  1. Ling Yang, Zhilong Zhang, Zhaochen Yu, Jingwei Liu, Minkai Xu, Stefano Ermon, Bin Cui. Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing, ICLR 2024. 條件擴散模型在高保真度的文本引導視覺生成和編輯方面表現(xiàn)出優(yōu)越的性能。然而,,當前的文本引導視覺擴散模型主要專注于將文本-視覺關系獨占地納入到反向過程中,,往往忽視了它們在正向過程中的相關性。正向和反向過程之間的這種不一致可能限制了在視覺合成結果中準確傳達文本語義的能力,。為了解決這個問題,,我們提出了一種新穎且通用的上下文化擴散模型(ContextDiff),通過將跨模態(tài)上下文納入到文本條件和視覺樣本之間的交互和對齊中,,將其融入到正向和反向過程中,。我們將這種上下文傳播到兩個過程中的所有時間步驟,以調整它們的軌跡,,從而促進跨模態(tài)條件建模,。我們通過理論推導將我們的上下文化擴散推廣到了DDPMs和DDIMs,并通過兩個具有挑戰(zhàn)性的任務進行了模型評估:文本到圖像生成和文本到視頻編輯,。在每個任務中,,我們的ContextDiff均取得了新的最先進性能,顯著提升了文本條件和生成樣本之間的語義對齊,,這一點在定量和定性實驗中得到了證實,。
  2. Ling Yang, Ye Tian, Minkai Xu, Zhongyi Liu, Shenda Hong, Wei Qu, Wentao Zhang, Bin Cui, Muhan Zhang, Jure Leskovec. VQGraph: Rethinking Graph Representation Space for Bridging GNNs and MLPsICLR 2024. GNN-to-MLP蒸餾旨在利用知識蒸餾(KD)來通過模仿教師GNN的輸出表示,,在圖數(shù)據(jù)上學習計算高效的多層感知器(學生MLP)?,F(xiàn)有方法主要使MLP模仿GNN對少數(shù)類標簽的預測,。然而,類空間可能不足以覆蓋眾多不同的局部圖結構,,從而限制了從GNN到MLP的知識轉移的性能,。為了解決這個問題,我們提出通過直接為GNN-to-MLP蒸餾中的節(jié)點的多樣化局部結構進行標記,,學習一個新的強大的圖表示空間,。具體而言,我們提出了一種VQ-VAE的變體,,用于在圖數(shù)據(jù)上學習一個結構感知的分詞器,,它可以將每個節(jié)點的局部子結構編碼為離散代碼。離散代碼構成一個代碼簿,,作為一個新的圖表示空間,,能夠用相應的代碼索引識別節(jié)點的不同局部圖結構。然后,,基于學習到的代碼簿,,我們提出了一個新的蒸餾目標,即軟代碼分配,,直接將每個節(jié)點的結構知識從GNN轉移到MLP,。結果框架VQGraph在七個圖數(shù)據(jù)集上的GNN-to-MLP蒸餾中,無論是在傳導式還是歸納式設置中,,都實現(xiàn)了新的最先進性能,。我們展示了VQGraph的更好性能比GNN快828倍推斷速度,并且分別在準確率上比GNN和獨立MLP平均提高了3.90%和28.05%,。
  3. Zhilin Huang*, Ling Yang*, Xiangxin Zhou, Zhilong Zhang, Wentao Zhang, Xiawu Zheng, Jie Chen, Yu Wang, Bin Cui, Wenming Yang. Protein-Ligand Interaction Prior for Binding-aware 3D Molecule Diffusion Models,,ICLR 2024. 通過擴散模型生成與特定蛋白靶點結合的3D配體分子,在基于結構的藥物設計方面表現(xiàn)出了巨大的潛力,。其關鍵思想是通過固定的正向過程將分子分解為噪聲,并學習其逆向過程以以去噪的方式從噪聲中生成分子,。然而,,現(xiàn)有的擴散模型主要專注于僅在逆向過程中納入蛋白質-配體相互作用信息,并忽視了正向過程中的相互作用,。正向和逆向過程之間的不一致可能會損害生成的分子對目標蛋白的結合親和力,。在本文中,我們提出了一種新穎的基于交互先驗的擴散模型(IPDiff),,通過將幾何蛋白質-配體相互作用引入到擴散和采樣過程中,,實現(xiàn)了針對特定蛋白的3D分子生成。具體而言,,我們首先通過利用結合親和信號進行監(jiān)督,,對蛋白質-配體相互作用先驗網(wǎng)絡(IPNet)進行預訓練。隨后,我們利用預訓練的先驗網(wǎng)絡來(1)將目標蛋白與分子配體之間的相互作用整合到正向過程中,,以調整分子擴散軌跡(先驗位移),,以及(2)增強基于結合的分子采樣過程(先驗條件)。對CrossDocked2020數(shù)據(jù)集的實證研究表明,,IPDiff能夠生成具有更真實的3D結構和最先進的對蛋白靶點的結合親和力的分子,,平均Vina評分高達-6.42,同時保持適當?shù)姆肿犹匦浴?/li>

 

2024年2月回顧

 

【榮譽獎項】

2024年2月,,我組2017級博士張文濤獲得2023 年度吳文俊人工智能科學技術獎優(yōu)秀博士學位論文獲獎論文 ”,。

【論文錄用】

2024年2月,我組2017級博士張文濤的一篇論文被SIGMOD 2024錄用,。

【論文簡介】

Wentao Zhang, Guochen Yan, Yu Shen, Yang Ling, Yaoyu Tao, Bin Cui, Jian Tang. NPA: Improving Large-scale Graph Neural Networks with Non-parametric Attention,,SIGMOD 2024 (Industry)

非參數(shù)化的圖神經(jīng)網(wǎng)絡(GNN)在大規(guī)模圖數(shù)據(jù)上取得了廣泛的使用。例如,,Open Graph Benchmark中大部分排名靠前的方法都是非參數(shù)化GNN,。盡管非參數(shù)GNN具有很高的預測性能和可擴展性,但仍面臨兩個限制,。1)由于過平滑特征的傳播,,它們會隨著傳播深度而遭受嚴重的性能退化。2)忽略了非參數(shù)傳播過程中的特征影響,,導致傳播特征次優(yōu),。本文提出了非參數(shù)注意力插件來解決這些限制,取得了ogbn-papers100M的最好性能,,在騰訊實際應用中部署實現(xiàn)并取得良好效果,。

 

結語

 

2023年的征途與榮光已屬于過去,2024年的挑戰(zhàn)與機遇已經(jīng)開始,。兔去龍來喜氣濃,,家家戶戶慶豐功。祝福新老朋友們,,龍年行大運,,龍飛鳳舞生活樂,魚躍龍門事業(yè)興,!新春快樂,!

標簽: PKU-DAIR 年度總結

SCHOLAT.com 學者網(wǎng)
免責聲明 | 關于我們 | 用戶反饋
聯(lián)系我們: