OpenAI掀起AI生圖熱潮:“吉卜力”動(dòng)漫風(fēng)陷版權(quán)爭(zhēng)議,實(shí)測(cè)中文渲染遇瓶頸
圖片來源:視覺中國(guó)
藍(lán)鯨新聞3月29日訊(記者 朱俊熹)夢(mèng)核風(fēng)格的小貓、“打工人”版的Hello Kitty、一鍵Jellycat……你對(duì)這些AI生成的圖片肯定不陌生,它們?cè)鸨槿W(wǎng),但現(xiàn)在都已經(jīng)過時(shí)了。這幾天占據(jù)海內(nèi)外各大社交媒體首頁的,是另一類新的AI生圖風(fēng)格:吉卜力動(dòng)漫風(fēng)。
本周早些時(shí)候,OpenAI對(duì)ChatGPT的圖像生成功能進(jìn)行了升級(jí),用戶可以通過其多模態(tài)大模型GPT-4o來生成和修改圖像。在3月26日的直播中,OpenAI CEO Sam Altman和團(tuán)隊(duì)展示了如何在ChatGPT中把一張自拍照轉(zhuǎn)換為動(dòng)漫風(fēng)格的圖片。觀看者們很快發(fā)現(xiàn),其畫風(fēng)與日本吉卜力動(dòng)畫工作室極為相似,并開始在互聯(lián)網(wǎng)上自發(fā)體驗(yàn)、傳播。一位用戶甚至將這稱作OpenAI模型的“第一次病毒式傳播”。
圖片來源:Sam Altman X
因涌入的體驗(yàn)者過多,OpenAI決定推遲向免費(fèi)用戶開放這一圖像生成工具的時(shí)間。Sam Altman在社交平臺(tái)X上發(fā)帖稱,“我們的GPU快要炸了”。他不僅將頭像換成了吉卜力風(fēng)格編輯后的個(gè)人照,還自嘲道,“為了創(chuàng)造超級(jí)智能努力了十年,前七年半幾乎沒人關(guān)心,之后兩年半大家因?yàn)楦鞣N事討厭我。有一天醒來收到了成百上千條信息:‘看,我把你做成了一個(gè)吉卜力風(fēng)格的帥小伙’。”
圖片來源:Sam Altman X
AI生成“風(fēng)格”涉侵權(quán)嗎?
然而當(dāng)AI生成的“吉卜力”圖片迅速充斥互聯(lián)網(wǎng),一個(gè)擔(dān)憂也隨之而起:這是否會(huì)涉及到對(duì)吉卜力工作室動(dòng)漫作品版權(quán)的侵犯?更引人關(guān)注的是,吉卜力工作室的聯(lián)合創(chuàng)辦人、動(dòng)畫師宮崎駿早在2016年就表達(dá)過對(duì)AI生成內(nèi)容的不滿。他在看到一段由AI生成的視頻片段時(shí)直言,“我感到極度惡心,絕不會(huì)希望把這種技術(shù)融入我的作品中。”
OpenAI發(fā)言人則表示,ChatGPT拒絕“以個(gè)別活躍藝術(shù)家的風(fēng)格進(jìn)行生成”,但允許生成“更廣泛的工作室風(fēng)格”。
對(duì)于其中可能牽涉的版權(quán)爭(zhēng)議,江蘇劍橋頤華律師事務(wù)所律師、專利代理師楊衛(wèi)薪告訴藍(lán)鯨新聞,一般情況下“風(fēng)格”是沒有著作權(quán)的,因?yàn)樗槐Wo(hù)具體的表達(dá),而不保護(hù)思想。“但是如果生成的內(nèi)容和吉卜力里面的角色或者場(chǎng)景有較高的一致性,那可能就會(huì)構(gòu)成侵權(quán)。”
楊衛(wèi)薪律師補(bǔ)充稱,從GPT-4o在生成吉卜力風(fēng)格圖像上的表現(xiàn)來看,模型在訓(xùn)練時(shí)必然使用到了吉卜力工作室的作品素材,“不然大模型是沒法理解這種圖片風(fēng)格并進(jìn)行相應(yīng)的生成。”如果按照中國(guó)的著作權(quán)法來看,AI抓取素材用于訓(xùn)練并進(jìn)行內(nèi)容生成,是一種侵犯復(fù)制權(quán)、信息網(wǎng)絡(luò)傳播權(quán)的行為,但目前學(xué)界和業(yè)界都想將這種行為往合理使用的方向推進(jìn)。
一句話生圖成現(xiàn)實(shí)
使用AI生成圖片并不是新鮮事,OpenAI此次在功能上的更新能夠引起現(xiàn)象級(jí)傳播,一大原因還是在于其生成圖片的高質(zhì)量。
據(jù)OpenAI介紹,GPT-4o模型具備較強(qiáng)的文本渲染能力。藍(lán)鯨新聞?dòng)浾邔?shí)測(cè)發(fā)現(xiàn),4o不僅可以還原原圖的文字內(nèi)容,也支持通過自然語言的描述,來調(diào)整文字的位置或顏色等細(xì)節(jié)。但該模型對(duì)英文字符的渲染準(zhǔn)確度要高于中文字符,在實(shí)測(cè)過程中會(huì)出現(xiàn)將簡(jiǎn)體字編輯成繁體字,或生成的中文字符出錯(cuò)的情況。OpenAI也承認(rèn),4o模型在渲染非拉丁語言時(shí)可能會(huì)遇到困難。
圖片來源:藍(lán)鯨新聞
此外,GPT-4o在圖像一致性方面也取得了較大進(jìn)展。即使經(jīng)過多輪對(duì)話的調(diào)整,其生成的圖像在風(fēng)格、主體外觀等方面也能保持一致。這能夠極大地提升AI生圖在游戲設(shè)計(jì)、廣告制作等領(lǐng)域的落地可能。
圖片來源:藍(lán)鯨新聞
據(jù)OpenAI介紹,此前其推出的AI生圖模型Dall-E是擴(kuò)散模型,而4o圖像生成是一個(gè)自回歸模型。4o系統(tǒng)會(huì)按照從左到右、從上到下的順序逐步生成圖像,類似于文本的書寫方式,而不是像擴(kuò)散模型那樣,一次性生成整個(gè)圖像。
AI創(chuàng)企深勢(shì)科技的AI算法負(fù)責(zé)人柯國(guó)霖在社交媒體上分析稱,這體現(xiàn)了用自回歸模型來統(tǒng)一多模態(tài)這一方案的優(yōu)勢(shì)。Dall-E是在隱空間中將圖像與語言對(duì)齊,在生成圖像時(shí),模型不斷在文本和圖像之間進(jìn)行相互轉(zhuǎn)換。但這一過程必然是有損的,圖像的引導(dǎo)能力很弱,生成的隨機(jī)性大、難以精細(xì)控制。
柯國(guó)霖表示,像GPT-4o這類Omni Model(全能模型),能夠?qū)?duì)話中的圖像、文本甚至更多模態(tài)統(tǒng)一轉(zhuǎn)化為一維token序列,直接通過自回歸的方式輸入給模型。這樣就無需再依賴文本作為橋梁,避免了信息的中途損失。更關(guān)鍵的是,模型每次都能保留完整的圖像信息,因此能夠根據(jù)用戶指令,對(duì)圖像內(nèi)容進(jìn)行更細(xì)致、更可控的調(diào)整。
對(duì)于更多用戶而言,GPT-4o此次更新帶來的驚喜還體現(xiàn)在使用流程的絲滑度上,讓“一句話生圖”、“用嘴改圖”的可行性直線拉升。相較而言,此前主流的AI生圖工具Stable Diffusion對(duì)使用者的專業(yè)能力要求較高,需要掌握不同插件及參數(shù)的設(shè)置。而Midjourney在可控性和一致性方面較弱,不適用于要求高度一致性的任務(wù)。
設(shè)計(jì)師章蕭醇在社交平臺(tái)X上直言,GPT-4o的圖像能力直接推翻了之前很多創(chuàng)業(yè)公司的產(chǎn)品。“他們花了那么多時(shí)間、人力、投資人的錢去調(diào)優(yōu)的算法、工作流、模型,直接被一次大模型的更新就取代了。”
GPT-4o模型于去年5月正式推出,主打的就是具備能夠處理文本、音頻和圖像的多模態(tài)能力,與當(dāng)前備受關(guān)注的o1等推理模型有所不同。但在近一年的時(shí)間內(nèi),4o都未向用戶放開其圖像生成功能。
3月28日,GPT-4o再迎部分更新,包括更擅長(zhǎng)遵循詳細(xì)的指令、提高了解決復(fù)雜技術(shù)和編碼問題的能力。Sam Altman預(yù)告稱,“更多更新即將到來。”