国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

【轉(zhuǎn)載】清華大學與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答,、視覺定位等能力
1052
2024-01-06 21:52:54(已編輯)
   收錄于合集: # 學術(shù)快訊
7
0
0
用微信掃描二維碼

轉(zhuǎn)載自微信公眾號:AI前線

近日,,清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,,具備視覺問答,、視覺定位(Grounding),、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入,。在 9 個經(jīng)典的圖像理解榜單上(含 VQAv2,,STVQA, DocVQA,TextVQA,,MM-VET,,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦,、手機的 GUI Agent 數(shù)據(jù)集上(含 Mind2Web,,AITW 等),大幅超過基于 LLM 的 Agent,,取得第一,。

圖1 在網(wǎng)頁 Agent 數(shù)據(jù)集 Mind2Web 上的性能 

圖2 在手機 Agent 數(shù)據(jù)集 AITW 上的性能 

為了更好地促進多模態(tài)大模型、Agent 社區(qū)的發(fā)展,,目前團隊已將 CogAgent-18B 開源至 GitHub 倉庫,,并提供了網(wǎng)頁版 Demo。

 

視覺 GUI Agent

基于語言預(yù)訓練模型(LLM)的 Agent 是當下熱門的研究話題,,其具備良好的應(yīng)用前景。但受限于 LLM 的模態(tài),,它只能接受語言形式的輸入,。拿網(wǎng)頁 Aagent 為例,WebAgent 等工作將網(wǎng)頁 HTML 連同用戶目標(例如“Can you search for CogAgent on google”)作為 LLM 的輸入,,從而獲得 LLM 對下一步動作的預(yù)測(例如點擊按鈕,,輸入文本)。

然而,,一個有趣的觀察是,,人類是通過視覺與 GUI 交互的。比如,,面對一個網(wǎng)頁,當給定一個操作目標時,,人類會先觀察他的 GUI 界面,,然后決定下一步做什么;與此同時,,GUI 天然是為了人機交互設(shè)計的,,相比于 HTML 等文本模態(tài)的表征,GUI 更為直接簡潔,,易于獲取有效信息,。也就是說,,在 GUI 場景下,視覺是一種更為直接,、本質(zhì)的交互模態(tài),,能更高效完整提供環(huán)境信息;更進一步地,,很多 GUI 界面并沒有對應(yīng)的源碼,,也難以用語言表示。因此,,若能將大模型改進為視覺 Agent,,將 GUI 界面以視覺的形式直接輸入大模型中用于理解、規(guī)劃和決策,,將是一個更為直接有效,、具備極大提升空間的方法。

CogAgent 可以實現(xiàn)基于視覺的 GUI Agent,,其工作路徑與能力如下:

圖4 CogAgent工作路徑與能力 

CogAgent 模型同時接受當前 GUI 截圖(圖像形式)和用戶操作目標(文本形式,,例如“search for the best paper in CVPR 2023”)作為輸入,就能預(yù)測詳細的動作,,和對應(yīng)操作元素的位置坐標,。可以應(yīng)用于包括電腦,、手機的各種場景,。受益于 GUI Agent 的可泛化性,CogAgent 能在各類沒見過的場景與任務(wù)上都取得良好的性能,。論文中展示了更多示例,,覆蓋了 PPT、手機系統(tǒng),、社交軟件,、游戲等各類場景

 

CogAgent 的模型結(jié)構(gòu)及訓練方法

據(jù)介紹,CogAgent 的模型結(jié)構(gòu)基于 CogVLM,。為了使模型具備對高分辨率圖片的理解能力,,可以看清 720p 的 GUI 屏幕輸入,團隊將圖像輸入的分辨率大幅提升至 1120×1120(以往的模型通常小于 500×500,,包括 CogVLM,,Qwen-VL 等)。然而,,分辨率的提升會導致圖像序列急劇增長,,帶來難以承受的計算和顯存開銷——這也是現(xiàn)有多模態(tài)預(yù)訓練模型通常采用較小分辨率圖像輸入的原因之一。

對此,,團隊設(shè)計了輕量級的“高分辨率交叉注意力模塊”,,在原有低分辨率大圖像編碼器(4.4 B)的基礎(chǔ)上,,增加了高分辨率的小圖像編碼器 (0.3 B),并使用交叉注意力機制與原有的 VLM 交互,。在交叉注意力中,,團隊也使用了較小的 hidden size,從而進一步降低顯存與計算開銷,。

圖5 高分辨率交叉注意力模塊設(shè)計

結(jié)果表明,,該方法可以使模型成功理解高分辨率的圖片,并有效降低了顯存與計算開銷,。在消融實驗中,,團隊還比較了該結(jié)構(gòu)與 CogVLM 原始方法的計算量。結(jié)果表明,,當分辨率提升時,,使用文中提出的方案(with cross-module,橙色)將會帶來極少量的計算量增加,,并與圖像序列的增長成線性關(guān)系,。特別的,1120×1120 分辨率的 CogAgent 的計算開銷(FLOPs),,甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小,。在 INT4 單卡推理測試中,1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存,,相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB,。

圖5 CogAgent 模型理解高分辨率圖片結(jié)果圖

在數(shù)據(jù)方面,除了 CogVLM 用到的 image caption 數(shù)據(jù)集之外,,團隊在文本識別,、視覺定位、GUI 圖像理解方面進行了數(shù)據(jù)擴充與增強,,從而有效提升了 GUI Agent 場景下的性能,。(CogAgent 的預(yù)訓練和微調(diào)數(shù)據(jù)的采集、生成方法詳細介紹于論文的 2.2 和 2.3 部分,。)

來源:AI前線(編輯:凌敏 )

標簽: 多模態(tài)大模型 視覺問答 視覺定位 清華 KEG 實驗室 智譜 AI

SCHOLAT.com 學者網(wǎng)
免責聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們: