“汽車比人的速度快,但并不意味著我們不再行走。遠距離移動大量物體時,我們需要發(fā)動機,無論是飛機、船只還是汽車。我們認為AI繪畫技術是想象力的發(fā)動機。”
“人們完全誤解了人工智能是什么。他們把它看作是一只老虎。老虎很危險,可能會吃掉我,是一個對手。水也有危險,你會淹死在水中,但你也可以在里面游泳,可以制造船只,可以用水壩發(fā)電。水是危險的,但它也是文明的驅動力。”
AI繪畫會讓藝術家們集體失業(yè)嗎?
Midjourney是一款AI繪畫工具,只要輸入你想到的文字,就能通過人工智能產(chǎn)出相對應的圖片,耗時只有大約一分鐘。自今年5月推出beta版后,這款搭載在Discord社區(qū)上的工具迅速成為討論焦點。
今年4月,另外一款大熱的AI繪畫工具DALL-E升級到第二代,并在7月對100萬個用戶開放測試,盡管要收費,還是吸引了大量用戶涌入。
目前,AI生成的藝術品正悄悄開始重塑文化。過去幾年里,機器學習系統(tǒng)從文本提示生成圖像的能力,在質量、準確性和表達能力方面都得到了顯著提高。這些畫作在互聯(lián)網(wǎng)上流傳,給人們帶來了一種新奇感。藝術家和設計師也正在把這些軟件集成到工作流程中,很快,由人工智能生成和增強的藝術將無處不在。
但是,這些工具從實驗室轉移到日常用戶手中,在創(chuàng)造新的視覺表達語言的同時,也很可能帶來新的問題,比如版權糾紛、輸出錯誤信息的潛在危險,都必須引起注意。
近日,科技媒體The Verge專訪了Midjourney的創(chuàng)始人David Holz。這家公司目前只有約10個員工,但雄心勃勃。Holz說:人工智能增強下創(chuàng)造力的涌現(xiàn),仍然只是冰山一角。
以下為采訪內容,有刪減。
問:你有什么背景?是怎么進入這個領域的?什么是Midjourney——一家公司,一個社區(qū)?如何描述它?
答:我2011年左右搬到舊金山,創(chuàng)辦了名為Leap Motion的科技公司,運營12年后離開,再創(chuàng)辦了Midjourney。
我們認為,(AI繪畫工具)不是關于藝術或深度偽造(deepfake)的問題,而是,我們如何擴大人類物種的想象力?當計算機比99%的人類更擅長視覺想象力時,這意味著什么?這并不意味著我們將停止想象。汽車比人的速度快,但并不意味著我們不再行走。遠距離移動大量物體時,我們需要發(fā)動機,無論是飛機、船只還是汽車。我們認為這項技術是想象力的發(fā)動機。因此,這是一件非常積極和人性化的事情。
問:許多實驗室和公司正在開發(fā)類似的技術,將文本轉化為圖像。谷歌有Imagen,OpenAI有DALL-E,還有一些較小的項目,如Craiyon。這種技術從何而來,你覺得它未來會走向何處?Midjourney的愿景與這個領域的其他人有什么不同?
答:(人工智能帶來圖像生成工具)取得了兩個突破。一個是理解語言,另一個是創(chuàng)建圖像的能力,結合后可以通過理解語言來創(chuàng)建圖像。這些工具將比人類更擅長制作圖像,而且速度會非常快,在未來一兩年內將能夠實時制作內容:每秒30幀,高分辨率。會很貴,但是是可能實現(xiàn)的。然后在10年后,將能買到帶有巨型人工智能處理器的Xbox,所有游戲都像夢一樣。
我們去年9月開始測試原始技術,很快發(fā)現(xiàn),大多數(shù)人不知道他們想要什么。你說:“這里有一臺機器,你可以用它畫任何東西,你想要什么?”他們說:“狗”。你說:“真的嗎?”然后他們說:“粉紅色的狗”。所以你給他們一張狗的圖片,他們就說“好吧”,然后去做別的事情。
然而,如果你把他們放在一個小組里,他們會說“狗”,其他人會說“太空狗”,還有人會說“阿茲特克太空狗”,然后突然之間,人們明白了這些可能性,你正在創(chuàng)造一種被增強的想象力,一個可以用這種新能力學習和娛樂的環(huán)境。因此,我們發(fā)現(xiàn)人們真的喜歡一起想象,所以我們讓(Midjourney)更具社交性。我們有一個巨大的Discord社區(qū),大約有100萬人在這些共享空間中共同想象。
問:你認為這種人類的集體與機器的集體是平行的嗎?可以作為這些人工智能系統(tǒng)的某種制衡?
答:不存在機器的集體。每次你要求人工智能作畫時,它都不記得或知道它做過的任何東西。它沒有意志,沒有目標,沒有意圖,沒有講故事的能力。所有的自我、意志和故事都是我們人類的。它就像一個發(fā)動機,發(fā)動機不會自己去哪,但人會去。
社區(qū)內有一百萬人在制作圖像,你必須支付額外費用才能退出社區(qū)——如果這么做,說明你是某種類型的商業(yè)用戶。所以每個人都在互相撕裂,產(chǎn)生新的美學。幾乎就像審美加速主義。它們不是人工智能美學,而是新的、有趣的人類美學,我認為它們會溢出到真實世界。

一個由百萬人組成的社區(qū),他們的想象力被人工智能增強了。(圖 The Verge / Midjourneynone)
問:這種開放性能確保安全嗎?因為有很多討論,說人工智能圖像生成器被用來生成潛在的有害內容,無論是令人討厭的圖像——血腥和暴力——還是錯誤信息。你如何阻止這種情況發(fā)生?答:當你在某人制作的所有圖像上寫上他的名字時,他們在使用方面就更加有規(guī)范了。這很有幫助。
每當我們看到時都會禁止。如果必須的話,會禁言。
問:那真實的面孔呢,因為這是制造錯誤信息的另一個載體。模型是否生成逼真的面孔?
答:會產(chǎn)生名人面孔這類東西。但我們一般不會,我們有默認的風格和外觀,既具有藝術性又美觀。如果花100個小時嘗試,也許可以找到一些合適的單詞組合,讓它看起來非常逼真,但你必須非常努力,讓它看起來像一張照片。就我個人而言,我認為世界不需要更多的深度偽造,但它確實需要更多美麗的東西,所以我們專注于讓一切看起來美麗和具有藝術性。

蘇聯(lián)時代的宣傳海報警告流氓人工智能的危險。(圖 The Verge / Midjourneynone)
問:你從哪里獲得模型中的訓練數(shù)據(jù)?答:和其他人一樣,我們的訓練數(shù)據(jù)幾乎來自同一個地方——差不多就是互聯(lián)網(wǎng)。幾乎每個大型人工智能模型都會提取它所能獲得的所有數(shù)據(jù)和所有文本,以及能夠提取的所有圖像。
所以,我們最近的更新做了很大改進,你可能認為我們是通過(在訓練數(shù)據(jù)中)放入大量繪畫來做到的,但并沒有。我們只是使用了用戶作品的數(shù)據(jù)。
問:訓練花了多少錢?
答:我不能談論具體成本,但我可以說個大概。訓練圖像模型每次大概在5萬美元左右。一次嘗試無法正確理解,所以必須嘗試3次、10次或者20次。很貴,比大多數(shù)大學所能支付得要多,但也不至于貴到10億美元或需要購買一臺超級計算機。
我相信培訓和運營的成本都會下降。但運行成本實際上相當高。每張圖片都花錢。每個圖像都是在2萬美元的服務器上生成的,我們必須按分鐘租用這些服務器。
問:說到訓練數(shù)據(jù),一個有爭議的方面是所有權問題。美國現(xiàn)行法律規(guī)定,不能對人工智能生成的藝術作品擁有版權,但我們不太清楚是否可以對訓練數(shù)據(jù)中使用的圖像擁有版權。藝術家和設計師努力創(chuàng)造一種特定的風格,但如果他們的作品現(xiàn)在可以被人工智能機器人復制,會發(fā)生什么?
答:我們的社區(qū)中確實有很多藝術家,他們對這個工具普遍持積極態(tài)度,認為這將使他們更有效率,并改善他們的生活。我們經(jīng)常和他們交談,問:“你還好嗎?你對此感覺好嗎?”
許多使用該平臺的知名藝術家都在說同樣的話,真的很有意思。他們說:“我覺得Midjourney是一個藝術學生,它有自己的風格,當你用我的名字來創(chuàng)作圖像時,就像要求藝術學生創(chuàng)作一些受我藝術啟發(fā)的東西。一般來說,作為一名藝術家,我希望人們從我創(chuàng)作的東西中獲得靈感。”
問:您在對話中多次提到Midjourney的默認藝術風格,每個人工智能圖像生成器都有自己的偏好和表達方式。你如何描述Midjourney的獨特風格,你是如何有意識地發(fā)展它的?
答:我們嘗試了很多東西,每次嘗試新事物時,都會渲染出一千張圖像。我們絕對不希望它看起來像照片。完美的照片讓我有點不舒服,盡管我知道你有理由想要更逼真的東西。
我認為這種風格會有點異想天開、抽象和奇特,它傾向于以你可能不會要求的方式進行融合,以一種令人驚訝和富有美感的方式。它喜歡使用很多藍色和橙色,有一些最喜歡的顏色和最喜歡的面孔。如果你給它一個非常模糊的指示,它會用它喜歡的方式來創(chuàng)作。所以,我們不知道為什么會發(fā)生這種情況,但它喜歡畫一張?zhí)貏e的女人臉——我們不知道它來自哪里,來自我們的12個訓練數(shù)據(jù)集之一——但人們只是稱它為Miss Journey。還有一個家伙的臉,有點方正,帶著壓迫感,也出現(xiàn)了一段時間,但他還沒有名字。

Journey小姐的油畫肖像。(圖 The Verge / Midjourneynone)
問:人工智能領域的一些人傾向于以宏大的術語來思考這項技術,他們將其與神比較,與有感知的人生相比。你覺得怎么樣?答:一段時間以來,我一直在試圖弄清楚什么是Midjourney的人工智能圖像生成器?你可以說它就像一個想象力的發(fā)動機,但也有別的東西。這就像攝影的發(fā)明嗎?攝影被發(fā)明時,繪畫就變得奇怪了,因為任何人都可以拍一張臉的照片,那么我為什么要畫畫呢?
是這樣的嗎?不,不是那樣的。感覺就像發(fā)動機的發(fā)明:就像你每分鐘都在創(chuàng)作一堆圖像,你沿著想象的道路飛來飛去,感覺很好。但是,如果你再向未來邁出一步,你不是一次創(chuàng)作4張圖像,而是1000或10000張,那就不同了。有一天,我做到了:我在幾分鐘內制作了4萬張圖像,突然之間,我面前有如此巨大的廣度——所有這些不同的生物和環(huán)境——我花了四個小時才看完一切,在這個過程中,我感覺自己好像要淹死了。我覺得我是個小孩子,看著游泳池的深處,就像知道自己不會游泳,對水的深度有這種感覺。突然間,(Midjourney)感覺不像發(fā)動機,而是像一股洪流。我花了幾周來消化,我想了想,然后我意識到,你知道嗎?這實際上是水。
現(xiàn)在,人們完全誤解了人工智能是什么。他們把它看作是一只老虎。老虎很危險,可能會吃掉我,是一個對手。水也有危險,你會淹死在水中,但流水的危險與老虎的危險大不相同。水是危險的,是的,但你也可以在里面游泳,你可以制造船只,可以用水壩發(fā)電。水是危險的,但它也是文明的驅動力,作為知道如何與水一起生活和共事的人,我們相處得更好。這是一個機會。它沒有意志,沒有惡意,是的,你可能淹死在里面,但這并不意味著我們應該禁止水。當你發(fā)現(xiàn)一個新的水源時,這真的是一件好事。
問:Midjourney是新的水源嗎?
答:我覺得我們作為一個物種,共同發(fā)現(xiàn)了一種新的水源,Midjourney試圖弄清楚的是,好吧,我們如何讓人們使用它?我們如何教人們游泳?如何制造船只?如何建造水壩?如何從害怕溺水的人變成將來在海水中沖浪的孩子?我們正在制造沖浪板,而不是制造水。

將人工智能描繪成水的插圖:一種可以用于善或惡的強大力量。(圖 The Verge / Midjourneynone)
- 來源:https://www.theverge.com/2022/8/2/23287173/ai-image-generation-art-midjourney-multiverse-interview-david-holz
