PixArt是什么?
PIXART-Σ 是一個由華為諾亞方舟實驗室、大連理工大學(xué)和香港大學(xué)的研究團隊開發(fā)的擴散變換器模型(DiT),專門用于4K分辨率的文本到圖像生成。這個模型在前身 PixArt-α 的基礎(chǔ)上進行了顯著的改進,提供了更高保真度的圖像和更好的文本提示對齊。
項目地址:https://pixart-alpha.github.io/PixArt-sigma-project/

PixArt的主要特性
PIXART-Σ 的關(guān)鍵特點包括:
- 高質(zhì)量訓(xùn)練數(shù)據(jù):PIXART-Σ 整合了更高質(zhì)量的圖像數(shù)據(jù),并與更精確、詳細的圖像標題配對。
- 高效的令牌壓縮:提出了一種新的注意力模塊,用于在 DiT 框架內(nèi)壓縮鍵和值,顯著提高了效率,并促進了超高分辨率圖像的生成。
- 較小的模型大小:PIXART-Σ 擁有0.6B參數(shù),比現(xiàn)有的文本到圖像擴散模型(如SDXL的2.6B參數(shù)和SD Cascade的5.1B參數(shù))更小,但仍然能夠?qū)崿F(xiàn)卓越的圖像質(zhì)量和用戶提示的遵循能力。
- 4K圖像生成能力:支持創(chuàng)建高分辨率的海報和壁紙,有效地支持電影和游戲等行業(yè)高質(zhì)量視覺內(nèi)容的生產(chǎn)。
PIXART-Σ 的這些進步使其成為一個強大的工具,適用于需要高質(zhì)量視覺內(nèi)容生成的應(yīng)用場景。研究團隊還提供了相關(guān)的代碼和演示,以便其他研究人員和開發(fā)者可以進一步探索和利用這個模型。
如何使用PixArt?
- 項目地址(含體驗地址):https://pixart-alpha.github.io/PixArt-sigma-project/
- 論文地址:https://arxiv.org/abs/2403.04692
- GitHub:https://github.com/PixArt-alpha/PixArt-sigma
?版權(quán)聲明:如無特殊說明,本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個人或組織,在未征得本站同意時,禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺。否則,我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。



