【新智元導(dǎo)讀】蘋(píng)果開(kāi)發(fā)的多模態(tài)模型Ferret-UI增強(qiáng)了對(duì)屏幕的理解和交互,在引用、基礎(chǔ)和推理方面表現(xiàn)出了卓越的性能,這些增強(qiáng)功能的出現(xiàn)預(yù)示著巨大的進(jìn)步。
一句話Siri就能幫忙打開(kāi)美團(tuán)外賣下訂單的日子看來(lái)不遠(yuǎn)啦!
4月8日,蘋(píng)果發(fā)布了其最新的多模態(tài)大語(yǔ)言模型(MLLM )——Ferret-UI,能夠更有效地理解和與屏幕信息進(jìn)行交互,在所有基本UI任務(wù)上都超過(guò)了GPT-4V!
論文地址:https://arxiv.org/pdf/2404.05719.pdf
雖然蘋(píng)果前段時(shí)間經(jīng)歷了泰坦項(xiàng)目的沉沒(méi),但看目前的形式,這是又要開(kāi)卷的節(jié)奏呀~
不少人十分期待,這項(xiàng)技術(shù)如果在蘋(píng)果的Siri上,Siri豈不是要變得聰明絕頂了!
眾所周知,通用域多模態(tài)大型語(yǔ)言模型(MLLM )在理解和有效交互的能力方面往往不足。
而Ferret-UI被稱之為是一種新的MLLM,專為理解移動(dòng)UI屏幕而量身定制,具備指向、定位和推理等多種能力。
Ferret-UI能夠通過(guò)靈活的輸入格式(點(diǎn)、框、涂鴉)和基礎(chǔ)任務(wù)(例如:查找小部件、查找圖標(biāo)、查找文本、小部件列表)在移動(dòng)用戶界面屏幕上執(zhí)行引用任務(wù)(例如:小部件分類、圖標(biāo)識(shí)別、OCR) )。
Ferret-UI的一個(gè)關(guān)鍵特點(diǎn)是「任何分辨率」(anyres),該技術(shù)通過(guò)放大細(xì)節(jié)來(lái)解決UI屏幕中小型對(duì)象的識(shí)別問(wèn)題,從而提高模型對(duì)UI元素的理解精度。
這些基本任務(wù)為模型提供了豐富的視覺(jué)和空間知識(shí),使其能夠在粗略和精細(xì)級(jí)別上區(qū)分 UI 類型, 例如區(qū)分各種圖標(biāo)或文本元素。
具體來(lái)說(shuō),F(xiàn)erret-UI 不僅能夠在詳細(xì)描述和感知對(duì)話中討論視覺(jué)元素, 還能在交互對(duì)話中提出目標(biāo)導(dǎo)向的動(dòng)作并通過(guò)函數(shù)推理來(lái)推斷屏幕的整體功能。
網(wǎng)友直呼:泰褲辣!
雖然Ferret-UI-base緊密遵循Ferret的架構(gòu),但Ferret-UI-anyres融入了額外的細(xì)粒度圖像功能。
特別是,預(yù)先訓(xùn)練的圖像編碼器和投影層可以為整個(gè)屏幕生成圖像特征,對(duì)于基于原始圖像長(zhǎng)寬比獲得的每個(gè)子圖像,生成附加圖像特征。
為了增強(qiáng)模型的推理能力, 研究人員編譯了用于高級(jí)任務(wù)的數(shù)據(jù)集,包括詳細(xì)描述、 感知/交互對(duì)話和函數(shù)推理。
在基礎(chǔ)任務(wù)性能的比較上, Ferret-UI展現(xiàn)出了對(duì)UI屏幕的出色理解能力以及執(zhí)行開(kāi)放式指令的能力,表現(xiàn)可謂亮眼!
掌握應(yīng)用程序屏幕并使AI像人類一樣進(jìn)行交互,蘋(píng)果未來(lái)或許將改變MLLM的游戲規(guī)則!
論文細(xì)節(jié)
方法
Ferret-UI建立在Ferret的基礎(chǔ)上。
Ferret是一種MLLM,擅長(zhǎng)在形狀和細(xì)節(jié)各異的自然圖像中進(jìn)行空間參照和定位。
它可以解釋區(qū)域或?qū)ο蟛⑴c之交互,無(wú)論這些區(qū)域或?qū)ο蟊恢付槿魏巫杂尚螤睿c(diǎn)、方框等)。
它包含一個(gè)預(yù)先訓(xùn)練好的視覺(jué)編碼器和一個(gè)純解碼器語(yǔ)言模型,并采用一種獨(dú)特的混合表示技術(shù),將指定區(qū)域轉(zhuǎn)換為適合LLM處理的格式。
為了向Ferret灌輸U(kuò)I專業(yè)知識(shí),他們對(duì)Ferret-UI進(jìn)行了兩個(gè)擴(kuò)展:
1. UI參照和定位的定義與構(gòu)建
2. 模型架構(gòu)調(diào)整以更好地處理屏幕數(shù)據(jù)
與之前需要外部檢測(cè)模塊或屏幕視圖文件的MLLM不同, Ferret-UI 是自給自足的。
它將原始屏幕像素作為模型輸入,這種方法不僅促進(jìn)了高級(jí)單屏交互,還為新應(yīng)用程序鋪平道路,例如:提高可訪問(wèn)性。
數(shù)據(jù)集
他們對(duì)iPhone和安卓設(shè)備的屏幕進(jìn)行了研究。
對(duì)于安卓屏幕,研究人員使用RICO數(shù)據(jù)集的一個(gè)子集,具體來(lái)說(shuō),他們考慮了Spotlight中的任務(wù),其數(shù)據(jù)是公開(kāi)的,包括 screen2words、widgetcaptions 和 taperception。
對(duì)于iPhone屏幕,研究人員使用AMP數(shù)據(jù)集,它涵蓋了廣泛的應(yīng)用程序。
在收集 Android 和 iPhone 屏幕后,他們使用預(yù)先訓(xùn)練好的基于像素的UI檢測(cè)模型進(jìn)一步從屏幕收集細(xì)粒度元素注 釋。
對(duì)于每個(gè)檢測(cè)到的用戶界面元素,輸出結(jié)果都包括用戶界面類型(按鈕、文本、圖標(biāo)、圖片等)、相應(yīng)的邊界框,以及由Apple Vision Framework識(shí)別的顯示在其上的文本(如果有的話)。
任務(wù)制定
首先從現(xiàn)有的Spotlight任務(wù)中獲取screen2words、widgetcaptions和taperception,并將它們格式化為會(huì)話QA 對(duì)。
對(duì)于每個(gè)訓(xùn)練示例,他們都會(huì)對(duì)相應(yīng)任務(wù)的提示進(jìn)行采樣,并將其與原始源圖像和真實(shí)答案配對(duì)。
基礎(chǔ)任務(wù)數(shù)據(jù)生成
除了Spotlight任務(wù)之外,他們將referring任務(wù)定義為輸入中帶有邊界框的任務(wù),而基礎(chǔ)任務(wù)則是輸出中帶有邊界框的任務(wù)。
對(duì)于每個(gè)任務(wù),他們還使用GPT-3.5 Turbo來(lái)擴(kuò)展基本提示以引入任務(wù)問(wèn)題的變體。
數(shù)據(jù)生成的詳細(xì)信息如下圖所示。
高級(jí)任務(wù)數(shù)據(jù)生成
為了將推理能力融入到該模型中,他們使用LLaVA方法,并用GPT-4收集另外4種格式的數(shù)據(jù)。
首先對(duì)檢測(cè)輸出中的邊界框坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化,然后將檢測(cè)、提示和可選的一次性示例發(fā)送到GPT-4。
為了詳細(xì)描述和功能推理,他們將生成的響應(yīng)與預(yù)選的提示配對(duì)來(lái)訓(xùn)練Ferret-UI。
下圖說(shuō)明了高級(jí)任務(wù)的訓(xùn)練數(shù)據(jù)生成過(guò)程。
以上數(shù)據(jù)的生成主要為4個(gè)任務(wù),分別是:詳細(xì)描述、對(duì)話感知、對(duì)話交互和功能推理。
其中,他們擴(kuò)展了詳細(xì)描述和函數(shù)推理的基本提示,將它們與GPT-4響應(yīng)配對(duì),作為模型訓(xùn)練中的輸入數(shù)據(jù)。
對(duì)于對(duì)話任務(wù),他們?yōu)镚PT-4提供了一個(gè)上下文示例,以更好地遵循其輸出中的邊界框格式。
實(shí)驗(yàn)結(jié)果
初級(jí)任務(wù)的性能細(xì)分如下表所示。
可以看到,與Spotlight相比,F(xiàn)erret-UI在S2W和 WiC方面表現(xiàn)出了優(yōu)越的性能,盡管Spotlight使用了80M網(wǎng)頁(yè)截圖和269M手機(jī)截圖進(jìn)行預(yù)訓(xùn)練。Ferret-UI性能雖然低于TaP,但仍然具有競(jìng)爭(zhēng)力。
高級(jí)任務(wù)性能的結(jié)果如下表所示。
盡管Ferret-UI的訓(xùn)練數(shù)據(jù) 集中缺少Android特定數(shù)據(jù),但它在兩個(gè)平臺(tái)的高級(jí)任務(wù)上都表現(xiàn)出了值得稱贊的性能。
這表明用戶界面知識(shí)在不同操作系統(tǒng)之間具有顯著的可轉(zhuǎn)移性。
消融研究
研究發(fā)現(xiàn),當(dāng)僅使用高級(jí)任務(wù)數(shù)據(jù),兩個(gè)平臺(tái)的性能均為64%。添加iPhone或Android基本任務(wù) 后,iPhone上高級(jí)任務(wù)的性能持續(xù)提高5%。
同樣,從iPhone添加基本任務(wù)可將Android在高級(jí)任務(wù)上的性能提高約4%,而合并Android基本任務(wù)可將這一性能提高9%。
包含iPhone和Android基本任務(wù)后,iPhone 和 Android 高級(jí)任務(wù)的性能分別進(jìn)一步提高了3%和5%,超出了單組基本任務(wù)所帶來(lái)的改進(jìn)。
這些觀察結(jié)果支持他們的假設(shè),即:基本任務(wù)為模型提供了增強(qiáng)的視覺(jué)和空間理解,從而促進(jìn)了高級(jí)任務(wù)。
為了探索不同數(shù)據(jù)配置對(duì)Spotlight Tasks性能的影響,他們特別研究了添加初級(jí)任務(wù)數(shù)據(jù)是否能提高模型性能,因?yàn)檫@些任務(wù)的目的是為了提高對(duì)屏幕的視覺(jué)和空間理解能力。
如下表所示,添加基本任務(wù)數(shù)據(jù)(無(wú)論是僅來(lái)自Android、iPhone還是兩者的組合)都不會(huì)顯著改變?nèi)齻€(gè)Spotlight任務(wù)的性能。
在分析Ferret-UI 的參照功能時(shí),他們特別關(guān)注OCR和小部件分類預(yù)測(cè),如下圖所示。
OCR分析揭示了三個(gè)值得注意的觀察結(jié)果:
1. 模型預(yù)測(cè)相鄰文本而不是目標(biāo)區(qū)域中的文本
2. 該模型表現(xiàn)出預(yù)測(cè)實(shí)際單詞的傾向,而不僅僅是破譯屏幕上顯示的字符。
3. Ferret-UI展示了準(zhǔn)確預(yù)測(cè)部分被截?cái)嗟奈谋镜哪芰Γ词乖贠CR模型返回不正確文本的情況下也是如此。
參考資料:
https://arxiv.org/abs/2404.05719