国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

曹原教授訪問(wèn)實(shí)驗(yàn)室并做精彩報(bào)告
來(lái)源: 高峰/
中國(guó)海洋大學(xué)
3143
2
0
2023-09-13

2023年7月19日,,香港大學(xué)曹原教授訪問(wèn)中國(guó)海洋大學(xué)人工智能研究院,,在信息南樓A321做了題為 ”Understanding the Role of Training Algorithms in Over-Parameterized Learning: Insights from Case Studies” 的報(bào)告,。

現(xiàn)代機(jī)器學(xué)習(xí)模型(比如大規(guī)模語(yǔ)言模型)通常包含大量參數(shù)。對(duì)于這種過(guò)參數(shù)化的模型,,訓(xùn)練損失函數(shù)可能存在無(wú)限多個(gè)最小化者,,不同的訓(xùn)練算法可能會(huì)收斂到不同的解。雖然這些解都可能在訓(xùn)練時(shí)產(chǎn)生零誤差,,但它們的預(yù)測(cè)誤差可能截然不同,。因此,要理解大型機(jī)器學(xué)習(xí)模型,,必須理解訓(xùn)練算法對(duì)預(yù)測(cè)誤差的影響,。曹老師首先對(duì)隨機(jī)梯度下降和Adam優(yōu)化算法之間的泛化差距進(jìn)行理論解釋。證明了對(duì)于某些學(xué)習(xí)問(wèn)題,,梯度下降可以訓(xùn)練一個(gè)兩層卷積神經(jīng)網(wǎng)絡(luò)以獲得接近零的測(cè)試誤差,,而Adam算法只能達(dá)到常數(shù)級(jí)別的測(cè)試誤差。

同時(shí),,曹老師還展示批歸一化(BN)的“隱式偏差”結(jié)果,。證明了當(dāng)使用批歸一化進(jìn)行二分類問(wèn)題的線性模型學(xué)習(xí)時(shí),梯度下降會(huì)收斂到在訓(xùn)練數(shù)據(jù)上的“均勻邊界分類器”,。這個(gè)結(jié)果還可以擴(kuò)展到一類簡(jiǎn)單的線性CNN,。

到場(chǎng)的同學(xué)和老師們對(duì)這一領(lǐng)域和這幾篇工作興味盎然,紛紛提問(wèn)和交流,,講座在熱烈的討論中結(jié)束,。


登錄用戶可以查看和發(fā)表評(píng)論,, 請(qǐng)前往  登錄 或  注冊(cè)
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 聯(lián)系我們
聯(lián)系我們: