Ferret-UI是什么?
Ferret-UI是蘋果公司與哥倫比亞大學研究團隊聯合發布的一個多模態模型。它是專門為了增強對移動端用戶界面(UI)屏幕的理解而定制的,配備了引用、定位和推理功能。該模型能夠“看懂”手機屏幕上的內容并執行任務,聚焦于移動端、關注用戶交互。
論文鏈接:https://arxiv.org/pdf/2404.05719.pdf

Ferret-UI主要功能特性
- 多模態理解能力:Ferret-UI展現了高水平的圖文關聯能力,尤其是在理解用戶界面屏幕并與其有效交互方面,彌補了現有大部分通用多模態大模型的不足。
- UI任務執行:Ferret-UI在多數基礎UI任務上展現出了優越的性能,特別是在與iPhone相關的任務上,其性能超過了Ferret和GPT-4V。
- Anyres技術:為解決移動設備UI屏幕長寬比多樣化問題,Ferret-UI引入了“任何分辨率”技術,使其能夠適應不同長寬比的屏幕,提高模型對UI元素的細節識別能力。
Ferret-UI的評測結果
Ferret-UI的評測結果表明,這款由蘋果開發的多模態模型在多項手機UI任務上表現出色,甚至在某些方面超越了GPT-4V。以下是Ferret-UI在評測中的幾個亮點:
- 基礎UI任務表現:Ferret-UI在大多數基礎UI任務上都展示了出色的性能,特別是與iPhone相關的任務。在OCR(光學字符識別)、圖標識別和控件分類等任務上,Ferret-UI的平均準確率分別為72.9%、82.4%和81.4%,明顯高于GPT-4V的相應準確率。
- 在安卓任務上的表現:盡管Ferret-UI的訓練數據集未特別包含安卓數據,該模型在安卓平臺的高級任務上仍然展現出了可觀的性能。這表明Ferret-UI具備跨操作系統UI知識遷移的能力。
- Anyres技術的應用:Ferret-UI采用了“任何分辨率”技術,成功解決了移動設備UI屏幕長寬比多樣化的問題。這項技術通過生成額外的圖像特征和區域連續特征,提高了模型對小型UI元素的識別和定位精度。
- 高級UI任務性能:在如詳細描述、感知對話、交互對話和功能推斷等高級任務上,Ferret-UI展現了與GPT-4V相當,甚至在某些任務上超過GPT-4V的性能。這進一步證明了Ferret-UI在理解和執行復雜UI交互方面的高效能力。

總體來看,Ferret-UI的評測結果強調了其作為一個多模態模型在手機UI任務上的先進性和實用性。通過在基礎和高級UI任務上的出色表現,Ferret-UI展示了其在改善移動設備用戶交互體驗方面的巨大潛力。
Ferret-UI的應用場景
- 移動端用戶交互:Ferret-UI可用于增強智能手機和其他移動設備上的用戶交互體驗,通過理解用戶界面來執行復雜的UI任務。
- 自動化測試:Ferret-UI可以應用于自動化測試領域,自動識別UI中的元素和功能,提高測試效率和準確性。
- 輔助設計:對于UI設計師,Ferret-UI能夠提供界面元素的自動識別和分類,輔助設計過程中的決策。
Ferret-UI通過其先進的多模態理解能力和專注于移動端的設計,展現了在UI理解和交互方面的強大潛力。隨著技術的進一步發展和應用,Ferret-UI有望在提升移動設備用戶體驗方面發揮重要作用。
