近期,實(shí)驗(yàn)室與MSRA合作的論文“DENEVIL: TOWARDS DECIPHERING AND NAVIGATING THE ETHICAL VALUES OF LARGE LANGUAGE MODELS VIA INSTRUCTION LEARNING”被國際學(xué)術(shù)會(huì)議ICLR’24錄用,。該文提出了一個(gè)可以動(dòng)態(tài)評(píng)估大語言模型價(jià)值觀的評(píng)估框架DeNEVIL,。DeNEVIL通過迭代式的生成,誘導(dǎo)大語言模型生成違反特定價(jià)值觀的提示,?;诘赖禄A(chǔ)理論(Moral Foundation Theory),論文利用DeNEVIL算法構(gòu)建了Moral Prompt價(jià)值觀評(píng)估數(shù)據(jù)集,,然后測試了27個(gè)主流的大語言模型,,發(fā)現(xiàn)了語言模型與人類價(jià)值觀的不一致性。而后探索了基于上下文對(duì)齊的方式,,嘗試對(duì)大語言模型進(jìn)行了對(duì)齊,。
ICLR是全球機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議之一,享有很高的學(xué)術(shù)聲譽(yù),。本屆ICLR一共投稿7304篇,,錄用論文2250篇,錄用率為31%,。
評(píng)論 0