MGIE是蘋果團隊近日開源的一款AI圖像編輯工具,將多模態大模型用于解決指令引導不足的問題,拍張照片、輸入文字指令就能讓手機開始自動修圖。
MGIE由多模態大模型和擴散模型組成,通過學習獲得簡明的表達指令,并提供明確的視覺相關引導。通過端到端訓練,擴散模型會同步更新,并利用預期目標的潛在想象力執行圖像編輯。這樣MGIE就能從固有的視覺推導中獲益,并解決模糊的人類指令,從而實現合理的編輯。
MGIE相關資源地址:
- 體驗地址:https://huggingface.co/spaces/tsujuifu/ml-mgie
- 項目主頁:https://mllm-ie.github.io/
- GitHub地址:https://github.com/apple/ml-mgie
- 論文地址:https://openreview.net/pdf?id=S1RKWSyZ2Y
效果對比:


?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
