Ferret-UI：蘋果公司推出的多模態AI模型

AIHubAI布道師

Ferret-UI是什么？

Ferret-UI是蘋果公司與哥倫比亞大學研究團隊聯合發布的一個多模態模型。它是專門為了增強對移動端用戶界面（UI）屏幕的理解而定制的，配備了引用、定位和推理功能。該模型能夠“看懂”手機屏幕上的內容并執行任務，聚焦于移動端、關注用戶交互。

多模態理解能力：Ferret-UI展現了高水平的圖文關聯能力，尤其是在理解用戶界面屏幕并與其有效交互方面，彌補了現有大部分通用多模態大模型的不足。
UI任務執行：Ferret-UI在多數基礎UI任務上展現出了優越的性能，特別是在與iPhone相關的任務上，其性能超過了Ferret和GPT-4V。
Anyres技術：為解決移動設備UI屏幕長寬比多樣化問題，Ferret-UI引入了“任何分辨率”技術，使其能夠適應不同長寬比的屏幕，提高模型對UI元素的細節識別能力。

Ferret-UI的評測結果表明，這款由蘋果開發的多模態模型在多項手機UI任務上表現出色，甚至在某些方面超越了GPT-4V。以下是Ferret-UI在評測中的幾個亮點：

基礎UI任務表現：Ferret-UI在大多數基礎UI任務上都展示了出色的性能，特別是與iPhone相關的任務。在OCR（光學字符識別）、圖標識別和控件分類等任務上，Ferret-UI的平均準確率分別為72.9%、82.4%和81.4%，明顯高于GPT-4V的相應準確率。
在安卓任務上的表現：盡管Ferret-UI的訓練數據集未特別包含安卓數據，該模型在安卓平臺的高級任務上仍然展現出了可觀的性能。這表明Ferret-UI具備跨操作系統UI知識遷移的能力。
Anyres技術的應用：Ferret-UI采用了“任何分辨率”技術，成功解決了移動設備UI屏幕長寬比多樣化的問題。這項技術通過生成額外的圖像特征和區域連續特征，提高了模型對小型UI元素的識別和定位精度。
高級UI任務性能：在如詳細描述、感知對話、交互對話和功能推斷等高級任務上，Ferret-UI展現了與GPT-4V相當，甚至在某些任務上超過GPT-4V的性能。這進一步證明了Ferret-UI在理解和執行復雜UI交互方面的高效能力。