轉(zhuǎn)載自微信公眾號:AI前線
近日,,清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,,具備視覺問答,、視覺定位(Grounding),、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入,。在 9 個經(jīng)典的圖像理解榜單上(含 VQAv2,,STVQA, DocVQA,TextVQA,,MM-VET,,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦,、手機的 GUI Agent 數(shù)據(jù)集上(含 Mind2Web,,AITW 等),大幅超過基于 LLM 的 Agent,,取得第一,。
圖1 在網(wǎng)頁 Agent 數(shù)據(jù)集 Mind2Web 上的性能
圖2 在手機 Agent 數(shù)據(jù)集 AITW 上的性能
為了更好地促進多模態(tài)大模型、Agent 社區(qū)的發(fā)展,,目前團隊已將 CogAgent-18B 開源至 GitHub 倉庫,,并提供了網(wǎng)頁版 Demo。
GitHub 項目地址(含開源模型,、網(wǎng)頁版 Demo):https://github.com/THUDM/CogVLM
視覺 GUI Agent
基于語言預(yù)訓練模型(LLM)的 Agent 是當下熱門的研究話題,,其具備良好的應(yīng)用前景。但受限于 LLM 的模態(tài),,它只能接受語言形式的輸入,。拿網(wǎng)頁 Aagent 為例,WebAgent 等工作將網(wǎng)頁 HTML 連同用戶目標(例如“Can you search for CogAgent on google”)作為 LLM 的輸入,,從而獲得 LLM 對下一步動作的預(yù)測(例如點擊按鈕,,輸入文本)。
然而,,一個有趣的觀察是,,人類是通過視覺與 GUI 交互的。比如,,面對一個網(wǎng)頁,當給定一個操作目標時,,人類會先觀察他的 GUI 界面,,然后決定下一步做什么;與此同時,,GUI 天然是為了人機交互設(shè)計的,,相比于 HTML 等文本模態(tài)的表征,GUI 更為直接簡潔,,易于獲取有效信息,。也就是說,,在 GUI 場景下,視覺是一種更為直接,、本質(zhì)的交互模態(tài),,能更高效完整提供環(huán)境信息;更進一步地,,很多 GUI 界面并沒有對應(yīng)的源碼,,也難以用語言表示。因此,,若能將大模型改進為視覺 Agent,,將 GUI 界面以視覺的形式直接輸入大模型中用于理解、規(guī)劃和決策,,將是一個更為直接有效,、具備極大提升空間的方法。
CogAgent 可以實現(xiàn)基于視覺的 GUI Agent,,其工作路徑與能力如下:
圖4 CogAgent工作路徑與能力
CogAgent 模型同時接受當前 GUI 截圖(圖像形式)和用戶操作目標(文本形式,,例如“search for the best paper in CVPR 2023”)作為輸入,就能預(yù)測詳細的動作,,和對應(yīng)操作元素的位置坐標,。可以應(yīng)用于包括電腦,、手機的各種場景,。受益于 GUI Agent 的可泛化性,CogAgent 能在各類沒見過的場景與任務(wù)上都取得良好的性能,。論文中展示了更多示例,,覆蓋了 PPT、手機系統(tǒng),、社交軟件,、游戲等各類場景
CogAgent 的模型結(jié)構(gòu)及訓練方法
據(jù)介紹,CogAgent 的模型結(jié)構(gòu)基于 CogVLM,。為了使模型具備對高分辨率圖片的理解能力,,可以看清 720p 的 GUI 屏幕輸入,團隊將圖像輸入的分辨率大幅提升至 1120×1120(以往的模型通常小于 500×500,,包括 CogVLM,,Qwen-VL 等)。然而,,分辨率的提升會導致圖像序列急劇增長,,帶來難以承受的計算和顯存開銷——這也是現(xiàn)有多模態(tài)預(yù)訓練模型通常采用較小分辨率圖像輸入的原因之一。
對此,,團隊設(shè)計了輕量級的“高分辨率交叉注意力模塊”,,在原有低分辨率大圖像編碼器(4.4 B)的基礎(chǔ)上,,增加了高分辨率的小圖像編碼器 (0.3 B),并使用交叉注意力機制與原有的 VLM 交互,。在交叉注意力中,,團隊也使用了較小的 hidden size,從而進一步降低顯存與計算開銷,。
圖5 高分辨率交叉注意力模塊設(shè)計
結(jié)果表明,,該方法可以使模型成功理解高分辨率的圖片,并有效降低了顯存與計算開銷,。在消融實驗中,,團隊還比較了該結(jié)構(gòu)與 CogVLM 原始方法的計算量。結(jié)果表明,,當分辨率提升時,,使用文中提出的方案(with cross-module,橙色)將會帶來極少量的計算量增加,,并與圖像序列的增長成線性關(guān)系,。特別的,1120×1120 分辨率的 CogAgent 的計算開銷(FLOPs),,甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小,。在 INT4 單卡推理測試中,1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存,,相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB,。
圖5 CogAgent 模型理解高分辨率圖片結(jié)果圖
在數(shù)據(jù)方面,除了 CogVLM 用到的 image caption 數(shù)據(jù)集之外,,團隊在文本識別,、視覺定位、GUI 圖像理解方面進行了數(shù)據(jù)擴充與增強,,從而有效提升了 GUI Agent 場景下的性能,。(CogAgent 的預(yù)訓練和微調(diào)數(shù)據(jù)的采集、生成方法詳細介紹于論文的 2.2 和 2.3 部分,。)
來源:AI前線(編輯:凌敏 )