“汽車比人的速度快,但并不意味著我們不再行走。遠(yuǎn)距離移動(dòng)大量物體時(shí),我們需要發(fā)動(dòng)機(jī),無(wú)論是飛機(jī)、船只還是汽車。我們認(rèn)為AI繪畫(huà)技術(shù)是想象力的發(fā)動(dòng)機(jī)。”
“人們完全誤解了人工智能是什么。他們把它看作是一只老虎。老虎很危險(xiǎn),可能會(huì)吃掉我,是一個(gè)對(duì)手。水也有危險(xiǎn),你會(huì)淹死在水中,但你也可以在里面游泳,可以制造船只,可以用水壩發(fā)電。水是危險(xiǎn)的,但它也是文明的驅(qū)動(dòng)力。”
AI繪畫(huà)會(huì)讓藝術(shù)家們集體失業(yè)嗎?
Midjourney是一款A(yù)I繪畫(huà)工具,只要輸入你想到的文字,就能通過(guò)人工智能產(chǎn)出相對(duì)應(yīng)的圖片,耗時(shí)只有大約一分鐘。自今年5月推出beta版后,這款搭載在Discord社區(qū)上的工具迅速成為討論焦點(diǎn)。
今年4月,另外一款大熱的AI繪畫(huà)工具DALL-E升級(jí)到第二代,并在7月對(duì)100萬(wàn)個(gè)用戶開(kāi)放測(cè)試,盡管要收費(fèi),還是吸引了大量用戶涌入。
目前,AI生成的藝術(shù)品正悄悄開(kāi)始重塑文化。過(guò)去幾年里,機(jī)器學(xué)習(xí)系統(tǒng)從文本提示生成圖像的能力,在質(zhì)量、準(zhǔn)確性和表達(dá)能力方面都得到了顯著提高。這些畫(huà)作在互聯(lián)網(wǎng)上流傳,給人們帶來(lái)了一種新奇感。藝術(shù)家和設(shè)計(jì)師也正在把這些軟件集成到工作流程中,很快,由人工智能生成和增強(qiáng)的藝術(shù)將無(wú)處不在。
但是,這些工具從實(shí)驗(yàn)室轉(zhuǎn)移到日常用戶手中,在創(chuàng)造新的視覺(jué)表達(dá)語(yǔ)言的同時(shí),也很可能帶來(lái)新的問(wèn)題,比如版權(quán)糾紛、輸出錯(cuò)誤信息的潛在危險(xiǎn),都必須引起注意。
近日,科技媒體The Verge專訪了Midjourney的創(chuàng)始人David Holz。這家公司目前只有約10個(gè)員工,但雄心勃勃。Holz說(shuō):人工智能增強(qiáng)下創(chuàng)造力的涌現(xiàn),仍然只是冰山一角。
以下為采訪內(nèi)容,有刪減。
問(wèn):你有什么背景?是怎么進(jìn)入這個(gè)領(lǐng)域的?什么是Midjourney——一家公司,一個(gè)社區(qū)?如何描述它?
答:我2011年左右搬到舊金山,創(chuàng)辦了名為L(zhǎng)eap Motion的科技公司,運(yùn)營(yíng)12年后離開(kāi),再創(chuàng)辦了Midjourney。
我們認(rèn)為,(AI繪畫(huà)工具)不是關(guān)于藝術(shù)或深度偽造(deepfake)的問(wèn)題,而是,我們?nèi)绾螖U(kuò)大人類物種的想象力?當(dāng)計(jì)算機(jī)比99%的人類更擅長(zhǎng)視覺(jué)想象力時(shí),這意味著什么?這并不意味著我們將停止想象。汽車比人的速度快,但并不意味著我們不再行走。遠(yuǎn)距離移動(dòng)大量物體時(shí),我們需要發(fā)動(dòng)機(jī),無(wú)論是飛機(jī)、船只還是汽車。我們認(rèn)為這項(xiàng)技術(shù)是想象力的發(fā)動(dòng)機(jī)。因此,這是一件非常積極和人性化的事情。
問(wèn):許多實(shí)驗(yàn)室和公司正在開(kāi)發(fā)類似的技術(shù),將文本轉(zhuǎn)化為圖像。谷歌有Imagen,OpenAI有DALL-E,還有一些較小的項(xiàng)目,如Craiyon。這種技術(shù)從何而來(lái),你覺(jué)得它未來(lái)會(huì)走向何處?Midjourney的愿景與這個(gè)領(lǐng)域的其他人有什么不同?
答:(人工智能帶來(lái)圖像生成工具)取得了兩個(gè)突破。一個(gè)是理解語(yǔ)言,另一個(gè)是創(chuàng)建圖像的能力,結(jié)合后可以通過(guò)理解語(yǔ)言來(lái)創(chuàng)建圖像。這些工具將比人類更擅長(zhǎng)制作圖像,而且速度會(huì)非常快,在未來(lái)一兩年內(nèi)將能夠?qū)崟r(shí)制作內(nèi)容:每秒30幀,高分辨率。會(huì)很貴,但是是可能實(shí)現(xiàn)的。然后在10年后,將能買到帶有巨型人工智能處理器的Xbox,所有游戲都像夢(mèng)一樣。
我們?nèi)ツ?月開(kāi)始測(cè)試原始技術(shù),很快發(fā)現(xiàn),大多數(shù)人不知道他們想要什么。你說(shuō):“這里有一臺(tái)機(jī)器,你可以用它畫(huà)任何東西,你想要什么?”他們說(shuō):“狗”。你說(shuō):“真的嗎?”然后他們說(shuō):“粉紅色的狗”。所以你給他們一張狗的圖片,他們就說(shuō)“好吧”,然后去做別的事情。
然而,如果你把他們放在一個(gè)小組里,他們會(huì)說(shuō)“狗”,其他人會(huì)說(shuō)“太空狗”,還有人會(huì)說(shuō)“阿茲特克太空狗”,然后突然之間,人們明白了這些可能性,你正在創(chuàng)造一種被增強(qiáng)的想象力,一個(gè)可以用這種新能力學(xué)習(xí)和娛樂(lè)的環(huán)境。因此,我們發(fā)現(xiàn)人們真的喜歡一起想象,所以我們讓(Midjourney)更具社交性。我們有一個(gè)巨大的Discord社區(qū),大約有100萬(wàn)人在這些共享空間中共同想象。
問(wèn):你認(rèn)為這種人類的集體與機(jī)器的集體是平行的嗎?可以作為這些人工智能系統(tǒng)的某種制衡?
答:不存在機(jī)器的集體。每次你要求人工智能作畫(huà)時(shí),它都不記得或知道它做過(guò)的任何東西。它沒(méi)有意志,沒(méi)有目標(biāo),沒(méi)有意圖,沒(méi)有講故事的能力。所有的自我、意志和故事都是我們?nèi)祟惖摹K拖褚粋€(gè)發(fā)動(dòng)機(jī),發(fā)動(dòng)機(jī)不會(huì)自己去哪,但人會(huì)去。
社區(qū)內(nèi)有一百萬(wàn)人在制作圖像,你必須支付額外費(fèi)用才能退出社區(qū)——如果這么做,說(shuō)明你是某種類型的商業(yè)用戶。所以每個(gè)人都在互相撕裂,產(chǎn)生新的美學(xué)。幾乎就像審美加速主義。它們不是人工智能美學(xué),而是新的、有趣的人類美學(xué),我認(rèn)為它們會(huì)溢出到真實(shí)世界。

一個(gè)由百萬(wàn)人組成的社區(qū),他們的想象力被人工智能增強(qiáng)了。(圖 The Verge / Midjourneynone)
問(wèn):這種開(kāi)放性能確保安全嗎?因?yàn)橛泻芏嘤懻摚f(shuō)人工智能圖像生成器被用來(lái)生成潛在的有害內(nèi)容,無(wú)論是令人討厭的圖像——血腥和暴力——還是錯(cuò)誤信息。你如何阻止這種情況發(fā)生?答:當(dāng)你在某人制作的所有圖像上寫(xiě)上他的名字時(shí),他們?cè)谑褂梅矫婢透佑幸?guī)范了。這很有幫助。
每當(dāng)我們看到時(shí)都會(huì)禁止。如果必須的話,會(huì)禁言。
問(wèn):那真實(shí)的面孔呢,因?yàn)檫@是制造錯(cuò)誤信息的另一個(gè)載體。模型是否生成逼真的面孔?
答:會(huì)產(chǎn)生名人面孔這類東西。但我們一般不會(huì),我們有默認(rèn)的風(fēng)格和外觀,既具有藝術(shù)性又美觀。如果花100個(gè)小時(shí)嘗試,也許可以找到一些合適的單詞組合,讓它看起來(lái)非常逼真,但你必須非常努力,讓它看起來(lái)像一張照片。就我個(gè)人而言,我認(rèn)為世界不需要更多的深度偽造,但它確實(shí)需要更多美麗的東西,所以我們專注于讓一切看起來(lái)美麗和具有藝術(shù)性。

蘇聯(lián)時(shí)代的宣傳海報(bào)警告流氓人工智能的危險(xiǎn)。(圖 The Verge / Midjourneynone)
問(wèn):你從哪里獲得模型中的訓(xùn)練數(shù)據(jù)?答:和其他人一樣,我們的訓(xùn)練數(shù)據(jù)幾乎來(lái)自同一個(gè)地方——差不多就是互聯(lián)網(wǎng)。幾乎每個(gè)大型人工智能模型都會(huì)提取它所能獲得的所有數(shù)據(jù)和所有文本,以及能夠提取的所有圖像。
所以,我們最近的更新做了很大改進(jìn),你可能認(rèn)為我們是通過(guò)(在訓(xùn)練數(shù)據(jù)中)放入大量繪畫(huà)來(lái)做到的,但并沒(méi)有。我們只是使用了用戶作品的數(shù)據(jù)。
問(wèn):訓(xùn)練花了多少錢?
答:我不能談?wù)摼唧w成本,但我可以說(shuō)個(gè)大概。訓(xùn)練圖像模型每次大概在5萬(wàn)美元左右。一次嘗試無(wú)法正確理解,所以必須嘗試3次、10次或者20次。很貴,比大多數(shù)大學(xué)所能支付得要多,但也不至于貴到10億美元或需要購(gòu)買一臺(tái)超級(jí)計(jì)算機(jī)。
我相信培訓(xùn)和運(yùn)營(yíng)的成本都會(huì)下降。但運(yùn)行成本實(shí)際上相當(dāng)高。每張圖片都花錢。每個(gè)圖像都是在2萬(wàn)美元的服務(wù)器上生成的,我們必須按分鐘租用這些服務(wù)器。
問(wèn):說(shuō)到訓(xùn)練數(shù)據(jù),一個(gè)有爭(zhēng)議的方面是所有權(quán)問(wèn)題。美國(guó)現(xiàn)行法律規(guī)定,不能對(duì)人工智能生成的藝術(shù)作品擁有版權(quán),但我們不太清楚是否可以對(duì)訓(xùn)練數(shù)據(jù)中使用的圖像擁有版權(quán)。藝術(shù)家和設(shè)計(jì)師努力創(chuàng)造一種特定的風(fēng)格,但如果他們的作品現(xiàn)在可以被人工智能機(jī)器人復(fù)制,會(huì)發(fā)生什么?
答:我們的社區(qū)中確實(shí)有很多藝術(shù)家,他們對(duì)這個(gè)工具普遍持積極態(tài)度,認(rèn)為這將使他們更有效率,并改善他們的生活。我們經(jīng)常和他們交談,問(wèn):“你還好嗎?你對(duì)此感覺(jué)好嗎?”
許多使用該平臺(tái)的知名藝術(shù)家都在說(shuō)同樣的話,真的很有意思。他們說(shuō):“我覺(jué)得Midjourney是一個(gè)藝術(shù)學(xué)生,它有自己的風(fēng)格,當(dāng)你用我的名字來(lái)創(chuàng)作圖像時(shí),就像要求藝術(shù)學(xué)生創(chuàng)作一些受我藝術(shù)啟發(fā)的東西。一般來(lái)說(shuō),作為一名藝術(shù)家,我希望人們從我創(chuàng)作的東西中獲得靈感。”
問(wèn):您在對(duì)話中多次提到Midjourney的默認(rèn)藝術(shù)風(fēng)格,每個(gè)人工智能圖像生成器都有自己的偏好和表達(dá)方式。你如何描述Midjourney的獨(dú)特風(fēng)格,你是如何有意識(shí)地發(fā)展它的?
答:我們嘗試了很多東西,每次嘗試新事物時(shí),都會(huì)渲染出一千張圖像。我們絕對(duì)不希望它看起來(lái)像照片。完美的照片讓我有點(diǎn)不舒服,盡管我知道你有理由想要更逼真的東西。
我認(rèn)為這種風(fēng)格會(huì)有點(diǎn)異想天開(kāi)、抽象和奇特,它傾向于以你可能不會(huì)要求的方式進(jìn)行融合,以一種令人驚訝和富有美感的方式。它喜歡使用很多藍(lán)色和橙色,有一些最喜歡的顏色和最喜歡的面孔。如果你給它一個(gè)非常模糊的指示,它會(huì)用它喜歡的方式來(lái)創(chuàng)作。所以,我們不知道為什么會(huì)發(fā)生這種情況,但它喜歡畫(huà)一張?zhí)貏e的女人臉——我們不知道它來(lái)自哪里,來(lái)自我們的12個(gè)訓(xùn)練數(shù)據(jù)集之一——但人們只是稱它為Miss Journey。還有一個(gè)家伙的臉,有點(diǎn)方正,帶著壓迫感,也出現(xiàn)了一段時(shí)間,但他還沒(méi)有名字。

Journey小姐的油畫(huà)肖像。(圖 The Verge / Midjourneynone)
問(wèn):人工智能領(lǐng)域的一些人傾向于以宏大的術(shù)語(yǔ)來(lái)思考這項(xiàng)技術(shù),他們將其與神比較,與有感知的人生相比。你覺(jué)得怎么樣?答:一段時(shí)間以來(lái),我一直在試圖弄清楚什么是Midjourney的人工智能圖像生成器?你可以說(shuō)它就像一個(gè)想象力的發(fā)動(dòng)機(jī),但也有別的東西。這就像攝影的發(fā)明嗎?攝影被發(fā)明時(shí),繪畫(huà)就變得奇怪了,因?yàn)槿魏稳硕伎梢耘囊粡埬樀恼掌敲次覟槭裁匆?huà)畫(huà)呢?
是這樣的嗎?不,不是那樣的。感覺(jué)就像發(fā)動(dòng)機(jī)的發(fā)明:就像你每分鐘都在創(chuàng)作一堆圖像,你沿著想象的道路飛來(lái)飛去,感覺(jué)很好。但是,如果你再向未來(lái)邁出一步,你不是一次創(chuàng)作4張圖像,而是1000或10000張,那就不同了。有一天,我做到了:我在幾分鐘內(nèi)制作了4萬(wàn)張圖像,突然之間,我面前有如此巨大的廣度——所有這些不同的生物和環(huán)境——我花了四個(gè)小時(shí)才看完一切,在這個(gè)過(guò)程中,我感覺(jué)自己好像要淹死了。我覺(jué)得我是個(gè)小孩子,看著游泳池的深處,就像知道自己不會(huì)游泳,對(duì)水的深度有這種感覺(jué)。突然間,(Midjourney)感覺(jué)不像發(fā)動(dòng)機(jī),而是像一股洪流。我花了幾周來(lái)消化,我想了想,然后我意識(shí)到,你知道嗎?這實(shí)際上是水。
現(xiàn)在,人們完全誤解了人工智能是什么。他們把它看作是一只老虎。老虎很危險(xiǎn),可能會(huì)吃掉我,是一個(gè)對(duì)手。水也有危險(xiǎn),你會(huì)淹死在水中,但流水的危險(xiǎn)與老虎的危險(xiǎn)大不相同。水是危險(xiǎn)的,是的,但你也可以在里面游泳,你可以制造船只,可以用水壩發(fā)電。水是危險(xiǎn)的,但它也是文明的驅(qū)動(dòng)力,作為知道如何與水一起生活和共事的人,我們相處得更好。這是一個(gè)機(jī)會(huì)。它沒(méi)有意志,沒(méi)有惡意,是的,你可能淹死在里面,但這并不意味著我們應(yīng)該禁止水。當(dāng)你發(fā)現(xiàn)一個(gè)新的水源時(shí),這真的是一件好事。
問(wèn):Midjourney是新的水源嗎?
答:我覺(jué)得我們作為一個(gè)物種,共同發(fā)現(xiàn)了一種新的水源,Midjourney試圖弄清楚的是,好吧,我們?nèi)绾巫屓藗兪褂盟课覀內(nèi)绾谓倘藗冇斡荆咳绾沃圃齑唬咳绾谓ㄔ焖畨危咳绾螐暮ε履缢娜俗兂蓪?lái)在海水中沖浪的孩子?我們正在制造沖浪板,而不是制造水。

將人工智能描繪成水的插圖:一種可以用于善或惡的強(qiáng)大力量。(圖 The Verge / Midjourneynone)
- 來(lái)源:https://www.theverge.com/2022/8/2/23287173/ai-image-generation-art-midjourney-multiverse-interview-david-holz


