公交车被CαO哭高H文,久久夜色精品国产www黄色精品偷拍视频大全

轉(zhuǎn)載自微信公眾號(hào)：AI前線

近日，清華 KEG 實(shí)驗(yàn)室與智譜 AI 聯(lián)合推出了視覺(jué) GUI Agent——CogAgent,，CogAgent 是一個(gè)通用的視覺(jué)理解大模型,，具備視覺(jué)問(wèn)答、視覺(jué)定位（Grounding）,、GUI Agent 等多種能力,，可接受 1120×1120 的高分辨率圖像輸入。在 9 個(gè)經(jīng)典的圖像理解榜單上（含 VQAv2,，STVQA, DocVQA,，TextVQA，MM-VET,，POPE 等）取得了通用能力第一的成績(jī),，并在涵蓋電腦、手機(jī)的 GUI Agent 數(shù)據(jù)集上（含 Mind2Web,，AITW 等）,，大幅超過(guò)基于 LLM 的 Agent，取得第一,。

圖1 在網(wǎng)頁(yè) Agent 數(shù)據(jù)集 Mind2Web 上的性能

圖2 在手機(jī) Agent 數(shù)據(jù)集 AITW 上的性能

為了更好地促進(jìn)多模態(tài)大模型,、Agent 社區(qū)的發(fā)展，目前團(tuán)隊(duì)已將 CogAgent-18B 開(kāi)源至 GitHub 倉(cāng)庫(kù),，并提供了網(wǎng)頁(yè)版 Demo,。

論文鏈接：https://arxiv.org/pdf/2312.08914.pdf
GitHub 項(xiàng)目地址（含開(kāi)源模型、網(wǎng)頁(yè)版 Demo）：https://github.com/THUDM/CogVLM

視覺(jué) GUI Agent

基于語(yǔ)言預(yù)訓(xùn)練模型（LLM）的 Agent 是當(dāng)下熱門(mén)的研究話題，其具備良好的應(yīng)用前景,。但受限于 LLM 的模態(tài),，它只能接受語(yǔ)言形式的輸入。拿網(wǎng)頁(yè) Aagent 為例,，WebAgent 等工作將網(wǎng)頁(yè) HTML 連同用戶目標(biāo)（例如“Can you search for CogAgent on google”）作為 LLM 的輸入,，從而獲得 LLM 對(duì)下一步動(dòng)作的預(yù)測(cè)（例如點(diǎn)擊按鈕，輸入文本）,。

然而,，一個(gè)有趣的觀察是，人類(lèi)是通過(guò)視覺(jué)與 GUI 交互的,。比如,，面對(duì)一個(gè)網(wǎng)頁(yè)，當(dāng)給定一個(gè)操作目標(biāo)時(shí),，人類(lèi)會(huì)先觀察他的 GUI 界面,，然后決定下一步做什么；與此同時(shí),，GUI 天然是為了人機(jī)交互設(shè)計(jì)的,，相比于 HTML 等文本模態(tài)的表征，GUI 更為直接簡(jiǎn)潔,，易于獲取有效信息,。也就是說(shuō)，在 GUI 場(chǎng)景下,，視覺(jué)是一種更為直接,、本質(zhì)的交互模態(tài)，能更高效完整提供環(huán)境信息,；更進(jìn)一步地,，很多 GUI 界面并沒(méi)有對(duì)應(yīng)的源碼，也難以用語(yǔ)言表示,。因此，若能將大模型改進(jìn)為視覺(jué) Agent,，將 GUI 界面以視覺(jué)的形式直接輸入大模型中用于理解,、規(guī)劃和決策，將是一個(gè)更為直接有效,、具備極大提升空間的方法,。

CogAgent 可以實(shí)現(xiàn)基于視覺(jué)的 GUI Agent，其工作路徑與能力如下：

圖4 CogAgent工作路徑與能力

CogAgent 模型同時(shí)接受當(dāng)前 GUI 截圖（圖像形式）和用戶操作目標(biāo)（文本形式,，例如“search for the best paper in CVPR 2023”）作為輸入,，就能預(yù)測(cè)詳細(xì)的動(dòng)作，和對(duì)應(yīng)操作元素的位置坐標(biāo)?？梢詰?yīng)用于包括電腦,、手機(jī)的各種場(chǎng)景。受益于 GUI Agent 的可泛化性,，CogAgent 能在各類(lèi)沒(méi)見(jiàn)過(guò)的場(chǎng)景與任務(wù)上都取得良好的性能,。論文中展示了更多示例，覆蓋了 PPT,、手機(jī)系統(tǒng),、社交軟件、游戲等各類(lèi)場(chǎng)景

CogAgent 的模型結(jié)構(gòu)及訓(xùn)練方法

據(jù)介紹,，CogAgent 的模型結(jié)構(gòu)基于 CogVLM,。為了使模型具備對(duì)高分辨率圖片的理解能力，可以看清 720p 的 GUI 屏幕輸入,，團(tuán)隊(duì)將圖像輸入的分辨率大幅提升至 1120×1120（以往的模型通常小于 500×500,，包括 CogVLM，Qwen-VL 等）,。然而,，分辨率的提升會(huì)導(dǎo)致圖像序列急劇增長(zhǎng)，帶來(lái)難以承受的計(jì)算和顯存開(kāi)銷(xiāo)——這也是現(xiàn)有多模態(tài)預(yù)訓(xùn)練模型通常采用較小分辨率圖像輸入的原因之一,。

對(duì)此,，團(tuán)隊(duì)設(shè)計(jì)了輕量級(jí)的“高分辨率交叉注意力模塊”，在原有低分辨率大圖像編碼器（4.4 B）的基礎(chǔ)上,，增加了高分辨率的小圖像編碼器 (0.3 B）,，并使用交叉注意力機(jī)制與原有的 VLM 交互。在交叉注意力中,，團(tuán)隊(duì)也使用了較小的 hidden size,，從而進(jìn)一步降低顯存與計(jì)算開(kāi)銷(xiāo)。

圖5 高分辨率交叉注意力模塊設(shè)計(jì)

結(jié)果表明,，該方法可以使模型成功理解高分辨率的圖片,，并有效降低了顯存與計(jì)算開(kāi)銷(xiāo)。在消融實(shí)驗(yàn)中,，團(tuán)隊(duì)還比較了該結(jié)構(gòu)與 CogVLM 原始方法的計(jì)算量,。結(jié)果表明，當(dāng)分辨率提升時(shí),，使用文中提出的方案（with cross-module,，橙色）將會(huì)帶來(lái)極少量的計(jì)算量增加，并與圖像序列的增長(zhǎng)成線性關(guān)系,。特別的,，1120×1120 分辨率的 CogAgent 的計(jì)算開(kāi)銷(xiāo)（FLOPs）,，甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小。在 INT4 單卡推理測(cè)試中,，1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存,，相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB。

圖5 CogAgent 模型理解高分辨率圖片結(jié)果圖

在數(shù)據(jù)方面,，除了 CogVLM 用到的 image caption 數(shù)據(jù)集之外,，團(tuán)隊(duì)在文本識(shí)別、視覺(jué)定位,、GUI 圖像理解方面進(jìn)行了數(shù)據(jù)擴(kuò)充與增強(qiáng),，從而有效提升了 GUI Agent 場(chǎng)景下的性能。（CogAgent 的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)的采集,、生成方法詳細(xì)介紹于論文的 2.2 和 2.3 部分,。）

來(lái)源：AI前線（編輯：凌敏）

【轉(zhuǎn)載】清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent：基于多模態(tài)大模型的 GUI Agent,，具備視覺(jué)問(wèn)答,、視覺(jué)定位等能力

評(píng)論 0

近期熱門(mén)新聞

下一篇