MobileAgent是什么?
MobileAgent是阿里巴巴和北京交通大學(xué)開(kāi)發(fā)的可以模擬人類(lèi)操作手機(jī)的自主多模態(tài)AI代理。該項(xiàng)目利用人工智能技術(shù),特別是在多模態(tài)大型語(yǔ)言模型(如GPT-4V)的應(yīng)用,以實(shí)現(xiàn)移動(dòng)設(shè)備代理的自主決策和交互。

MobileAgent的主要特點(diǎn)
MobileAgent是一個(gè)純視覺(jué)解決方案,不需要系統(tǒng)代碼,而是通過(guò)分析圖像來(lái)理解和操作手機(jī)。能夠自主完成打開(kāi)淘寶找帽子添加到購(gòu)物車(chē),播放音樂(lè),自主使用導(dǎo)航APP等任務(wù)。
- 純可視化解決方案,獨(dú)立于 XML 和系統(tǒng)元數(shù)據(jù)。
- 操作范圍不受限制,可進(jìn)行多應(yīng)用操作。
- 多種視覺(jué)感知工具,用于操作定位。
- 無(wú)需探索和培訓(xùn),即插即用。
如何使用MobileAgent?
目前MobileAgent已經(jīng)開(kāi)源,你可以自己按需部署體驗(yàn)。
項(xiàng)目地址:https://github.com/X-PLUG/MobileAgent
?版權(quán)聲明:如無(wú)特殊說(shuō)明,本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織,在未征得本站同意時(shí),禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書(shū)籍等各類(lèi)媒體平臺(tái)。否則,我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。



