2023年7月19日,,香港大學(xué)曹原教授訪問中國海洋大學(xué)人工智能研究院,,在信息南樓A321做了題為 ”Understanding the Role of Training Algorithms in Over-Parameterized Learning: Insights from Case Studies” 的報(bào)告。
現(xiàn)代機(jī)器學(xué)習(xí)模型(比如大規(guī)模語言模型)通常包含大量參數(shù),。對于這種過參數(shù)化的模型,訓(xùn)練損失函數(shù)可能存在無限多個(gè)最小化者,,不同的訓(xùn)練算法可能會(huì)收斂到不同的解,。雖然這些解都可能在訓(xùn)練時(shí)產(chǎn)生零誤差,但它們的預(yù)測誤差可能截然不同,。因此,,要理解大型機(jī)器學(xué)習(xí)模型,必須理解訓(xùn)練算法對預(yù)測誤差的影響,。曹老師首先對隨機(jī)梯度下降和Adam優(yōu)化算法之間的泛化差距進(jìn)行理論解釋,。證明了對于某些學(xué)習(xí)問題,梯度下降可以訓(xùn)練一個(gè)兩層卷積神經(jīng)網(wǎng)絡(luò)以獲得接近零的測試誤差,,而Adam算法只能達(dá)到常數(shù)級別的測試誤差,。
同時(shí),曹老師還展示批歸一化(BN)的“隱式偏差”結(jié)果,。證明了當(dāng)使用批歸一化進(jìn)行二分類問題的線性模型學(xué)習(xí)時(shí),,梯度下降會(huì)收斂到在訓(xùn)練數(shù)據(jù)上的“均勻邊界分類器”。這個(gè)結(jié)果還可以擴(kuò)展到一類簡單的線性CNN,。
到場的同學(xué)和老師們對這一領(lǐng)域和這幾篇工作興味盎然,,紛紛提問和交流,,講座在熱烈的討論中結(jié)束。