-
Emu3:智源推出的原生多模態(tài)世界模型,可實現(xiàn)圖像、文本、視頻的統(tǒng)一理解和生成
Emu3是智源研究院發(fā)布的原生多模態(tài)世界模型,該模型只基于下一個 token 預(yù)測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態(tài)數(shù)據(jù)的理解和生成- 2.4k
- 0
-
Grok-1.5V:xAI發(fā)布的多模態(tài)AI大模型
Grok-1.5V不僅具備強大的文本處理能力,還可以處理各種視覺信息,如文檔、圖表、截圖和照片。這使得Grok-1.5V能夠在多學(xué)科推理、理解科學(xué)圖表、閱讀文本和實現(xiàn)真實世界的空間理解等領(lǐng)域與現(xiàn)有的前沿多模態(tài)模型競爭。- 4.3k
- 0