国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

7
點(diǎn)贊
0
評(píng)論
0
轉(zhuǎn)載
我要入駐

【轉(zhuǎn)載】清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,,具備視覺(jué)問(wèn)答,、視覺(jué)定位等能力

收錄于合集: # 學(xué)術(shù)快訊

轉(zhuǎn)載自微信公眾號(hào):AI前線

近日,清華 KEG 實(shí)驗(yàn)室與智譜 AI 聯(lián)合推出了視覺(jué) GUI Agent——CogAgent,,CogAgent 是一個(gè)通用的視覺(jué)理解大模型,,具備視覺(jué)問(wèn)答、視覺(jué)定位(Grounding),、GUI Agent 等多種能力,,可接受 1120×1120 的高分辨率圖像輸入。在 9 個(gè)經(jīng)典的圖像理解榜單上(含 VQAv2,,STVQA, DocVQA,,TextVQA,MM-VET,,POPE 等)取得了通用能力第一的成績(jī),,并在涵蓋電腦、手機(jī)的 GUI Agent 數(shù)據(jù)集上(含 Mind2Web,,AITW 等),,大幅超過(guò)基于 LLM 的 Agent,取得第一,。

圖1 在網(wǎng)頁(yè) Agent 數(shù)據(jù)集 Mind2Web 上的性能 

圖2 在手機(jī) Agent 數(shù)據(jù)集 AITW 上的性能 

為了更好地促進(jìn)多模態(tài)大模型,、Agent 社區(qū)的發(fā)展,目前團(tuán)隊(duì)已將 CogAgent-18B 開(kāi)源至 GitHub 倉(cāng)庫(kù),,并提供了網(wǎng)頁(yè)版 Demo,。

 

視覺(jué) GUI Agent

基于語(yǔ)言預(yù)訓(xùn)練模型(LLM)的 Agent 是當(dāng)下熱門(mén)的研究話題,其具備良好的應(yīng)用前景,。但受限于 LLM 的模態(tài),,它只能接受語(yǔ)言形式的輸入。拿網(wǎng)頁(yè) Aagent 為例,,WebAgent 等工作將網(wǎng)頁(yè) HTML 連同用戶目標(biāo)(例如“Can you search for CogAgent on google”)作為 LLM 的輸入,,從而獲得 LLM 對(duì)下一步動(dòng)作的預(yù)測(cè)(例如點(diǎn)擊按鈕,輸入文本),。

然而,,一個(gè)有趣的觀察是,人類(lèi)是通過(guò)視覺(jué)與 GUI 交互的,。比如,,面對(duì)一個(gè)網(wǎng)頁(yè),當(dāng)給定一個(gè)操作目標(biāo)時(shí),,人類(lèi)會(huì)先觀察他的 GUI 界面,,然后決定下一步做什么;與此同時(shí),,GUI 天然是為了人機(jī)交互設(shè)計(jì)的,,相比于 HTML 等文本模態(tài)的表征,GUI 更為直接簡(jiǎn)潔,,易于獲取有效信息,。也就是說(shuō),在 GUI 場(chǎng)景下,,視覺(jué)是一種更為直接,、本質(zhì)的交互模態(tài),能更高效完整提供環(huán)境信息,;更進(jìn)一步地,,很多 GUI 界面并沒(méi)有對(duì)應(yīng)的源碼,也難以用語(yǔ)言表示,。因此,若能將大模型改進(jìn)為視覺(jué) Agent,,將 GUI 界面以視覺(jué)的形式直接輸入大模型中用于理解,、規(guī)劃和決策,將是一個(gè)更為直接有效,、具備極大提升空間的方法,。

CogAgent 可以實(shí)現(xiàn)基于視覺(jué)的 GUI Agent,其工作路徑與能力如下:

圖4 CogAgent工作路徑與能力 

CogAgent 模型同時(shí)接受當(dāng)前 GUI 截圖(圖像形式)和用戶操作目標(biāo)(文本形式,,例如“search for the best paper in CVPR 2023”)作為輸入,,就能預(yù)測(cè)詳細(xì)的動(dòng)作,和對(duì)應(yīng)操作元素的位置坐標(biāo)??梢詰?yīng)用于包括電腦,、手機(jī)的各種場(chǎng)景。受益于 GUI Agent 的可泛化性,,CogAgent 能在各類(lèi)沒(méi)見(jiàn)過(guò)的場(chǎng)景與任務(wù)上都取得良好的性能,。論文中展示了更多示例,覆蓋了 PPT,、手機(jī)系統(tǒng),、社交軟件、游戲等各類(lèi)場(chǎng)景

 

CogAgent 的模型結(jié)構(gòu)及訓(xùn)練方法

據(jù)介紹,,CogAgent 的模型結(jié)構(gòu)基于 CogVLM,。為了使模型具備對(duì)高分辨率圖片的理解能力,可以看清 720p 的 GUI 屏幕輸入,,團(tuán)隊(duì)將圖像輸入的分辨率大幅提升至 1120×1120(以往的模型通常小于 500×500,,包括 CogVLM,Qwen-VL 等),。然而,,分辨率的提升會(huì)導(dǎo)致圖像序列急劇增長(zhǎng),帶來(lái)難以承受的計(jì)算和顯存開(kāi)銷(xiāo)——這也是現(xiàn)有多模態(tài)預(yù)訓(xùn)練模型通常采用較小分辨率圖像輸入的原因之一,。

對(duì)此,,團(tuán)隊(duì)設(shè)計(jì)了輕量級(jí)的“高分辨率交叉注意力模塊”,在原有低分辨率大圖像編碼器(4.4 B)的基礎(chǔ)上,,增加了高分辨率的小圖像編碼器 (0.3 B),,并使用交叉注意力機(jī)制與原有的 VLM 交互。在交叉注意力中,,團(tuán)隊(duì)也使用了較小的 hidden size,,從而進(jìn)一步降低顯存與計(jì)算開(kāi)銷(xiāo)。

圖5 高分辨率交叉注意力模塊設(shè)計(jì)

結(jié)果表明,,該方法可以使模型成功理解高分辨率的圖片,,并有效降低了顯存與計(jì)算開(kāi)銷(xiāo)。在消融實(shí)驗(yàn)中,,團(tuán)隊(duì)還比較了該結(jié)構(gòu)與 CogVLM 原始方法的計(jì)算量,。結(jié)果表明,當(dāng)分辨率提升時(shí),,使用文中提出的方案(with cross-module,,橙色)將會(huì)帶來(lái)極少量的計(jì)算量增加,并與圖像序列的增長(zhǎng)成線性關(guān)系,。特別的,,1120×1120 分辨率的 CogAgent 的計(jì)算開(kāi)銷(xiāo)(FLOPs),,甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小。在 INT4 單卡推理測(cè)試中,,1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存,,相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB。

圖5 CogAgent 模型理解高分辨率圖片結(jié)果圖

在數(shù)據(jù)方面,,除了 CogVLM 用到的 image caption 數(shù)據(jù)集之外,,團(tuán)隊(duì)在文本識(shí)別、視覺(jué)定位,、GUI 圖像理解方面進(jìn)行了數(shù)據(jù)擴(kuò)充與增強(qiáng),,從而有效提升了 GUI Agent 場(chǎng)景下的性能。(CogAgent 的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)的采集,、生成方法詳細(xì)介紹于論文的 2.2 和 2.3 部分,。)

來(lái)源:AI前線(編輯:凌敏 )


返回頂部