香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

強大到不敢給普通人用!史詩級大模型 Sora 如何讓眾行業(yè)一夜變天?

1視頻生成模型“新王登基”,Sora 何以成為全球焦點?

2023年以來,多模態(tài)視頻生成技術(shù)取得了顯著的進(jìn)展和突破,從 Runway 到 Pika 再到年末的 VideoPoet,視頻生成模型進(jìn)入到加速階段。2024年2月,OpenAI 旗下視頻生成模型 Sora 正式對外發(fā)布。Sora 一名源于日文“空”(そら sora),取自天空之意,以示其無限的創(chuàng)造潛力。與 Runway、Pika、VideoPoet 等“前輩”相比,Sora 在視頻生成效果和質(zhì)量上具有明顯優(yōu)勢。也正因如此,Sora 一經(jīng)發(fā)布就在全球范圍內(nèi)掀起了討論熱潮,迅速成為當(dāng)前最受關(guān)注的模型之一。

“Sora 的出現(xiàn)時間要比我們預(yù)想的要早很多,OpenAI 已經(jīng)提前帶來了驚喜”。WeShop 唯象 GM 吳海波在接受 InfoQ 采訪時提到,從技術(shù)層面來看,Sora 并沒有引入全新的理論框架,而是將現(xiàn)有技術(shù)進(jìn)行了新的整合。自從 Sora 問世以來,人們對其背后的技術(shù)進(jìn)行了深入分析。比如,Meta 的謝賽寧曾在 Twitter 上進(jìn)行拆解,其認(rèn)為 Sora 所采用的 DiT 結(jié)構(gòu),就是基于他在 ICCV2023發(fā)布的 DiT(Diffusion Transformer)思路構(gòu)建的,這也是支撐 Sora 的一個重要基礎(chǔ)。

在模型架構(gòu)方面,Runway、Pika 等模型底層采用的是擴散模型(Diffusion Model)技術(shù),利用高斯噪音和 prompt,再通過 U-Net 對噪音進(jìn)行解析,實現(xiàn)逐幀的渲染。雖然 prompt 通過 Transformer 技術(shù)得到了前后文的聯(lián)系,但視頻生成中卻沒有較大時間軸或前后聯(lián)系的概念,從而導(dǎo)致先前的視頻只能生成三四秒,畫面跳躍跳幀等問題嚴(yán)重。

而 Sora 利用 Transformer 替代 Diffusion 的 U-Net,不限制原始視頻的尺寸,不僅能通過 Transformer 技術(shù)保證前后的連貫性,還能保證生成視頻在各個畫幅比例下都有很好的表現(xiàn),從而生成時長更長、效果更好的視頻。

目前,Sora 能夠生成1分鐘的視頻,深圳市鼎盛方圓科技發(fā)展有限公司創(chuàng)始人黃鴻波表示,理論上來看,Sora 是能夠生成生成更長時間的視頻的,但其中的不確定性會更多,也會需要更高的算力?!皬牧愕揭缓芎唵?,但再想往上則需要質(zhì)的飛躍,難度比較大”。

比起生成的視頻時長,黃鴻波認(rèn)為,Sora 這類視頻生成模型更應(yīng)解決的是如何保持人物一致性和場景一致性。這兩點都是目前業(yè)內(nèi)比較難以克服的難題。以人物為例,一段完整的視頻中不僅存在主角,還存在配角和各種人物關(guān)系。在電影和電視劇的實際拍攝中,人是真實存在不會改變的,但 Sora 或其他目前現(xiàn)存的技術(shù)都無法保證人物的一致性。人物的每次生成,臉型、膚色、眼睛大小、痣的位置等都會發(fā)生變化。場景同樣如此,不同的鏡頭會從不同角度進(jìn)行拍攝,但周圍的場景需要有一些變化?!皬哪壳暗囊曨l演示來看,Sora 已經(jīng)趨近完美,如果能解決人物一致性和場景一致性的問題,基本上就能達(dá)到影視公司想要的結(jié)果了”。

此外,Sora 對“世界模型”的實現(xiàn)方式也存在一定爭議。OpenAI 聲稱 Sora“擴展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路”。英偉達(dá)高級研究科學(xué)家 Jim Fan 也斷言,Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎,是一個可學(xué)習(xí)的模擬器,或“世界模型”。但也有人對此提出質(zhì)疑。圖靈獎得主 Yann LeCun 認(rèn)為 Sora 并不理解物理世界,甚至稱 Sora 對“世界模型”的實現(xiàn)方式注定是死路一條。

具體來說,Sora 在生成視頻時依賴于文本指令,這些文本描述了場景和意義。如果 Sora 能夠理解視頻內(nèi)容,并在給定一段視頻后,補充出更長的視頻,且前后情節(jié)邏輯一致,那么這將是一個重要的進(jìn)步。這將表明 Sora 不僅僅是通過視覺理解事物,而是能夠從更深層次上理解視頻內(nèi)容。

“長期來看,如果 Sora 能夠在視頻中實現(xiàn)首尾呼應(yīng),比如在電影中常見的前后呼應(yīng)的情節(jié),這表明它具有更長的因果鏈理解能力。這將是一個重要的里程碑,表明 Sora 越來越像是一個世界模型,能夠理解物理定律和社會規(guī)則?!眳呛2ㄌ岬剑壳?,Sora 還處于一個比較早期的階段,類似于早期的 GPT-3——它展現(xiàn)出了一定的能力,但尚未達(dá)到 ChatGPT 那樣的成熟度。“但它的進(jìn)步速度很快,2024年值得我們期待,屆時應(yīng)該會有許多新的進(jìn)展出現(xiàn)。”

2Sora 如何重塑千行百業(yè)?

當(dāng)前,Sora 還未正式對外開放。在近日的一場專訪中,Sora 的核心團(tuán)隊成員表示 Sora 太過強大,還不能讓普通人很快就用到,OpenAI 正在收集用戶反饋,還有很多安全工作要做。而根據(jù) OpenAI CTO Mira Murati 此前的說法,“Sora 最快在今年內(nèi)開放公測”。

作為一個基礎(chǔ)模型,Sora 無疑會對各行各業(yè)產(chǎn)生影響,在影視、電商、游戲行業(yè)中,Sora 一定會帶來新的想象力。其中,影視行業(yè)將會成為 Sora 的首選

目前,影視行業(yè)的制作流程涉及多個環(huán)節(jié)。編劇完成劇本后,會尋找合適的導(dǎo)演合作。在好萊塢或國內(nèi)的大型制片廠,他們通常會先找普通演員拍攝樣品,需要將90分鐘的電影精華部分濃縮,拍攝成30至40分鐘的樣片,用于向投資人展示電影的內(nèi)容、故事情節(jié)、人物設(shè)定以及特效應(yīng)用等。只有當(dāng)投資人認(rèn)可了故事的創(chuàng)新點和市場潛力后,才會決定投資。不過,這類樣片的制作成本相當(dāng)高,每分鐘的制作費用在1至2萬元之間。

如果引入 Sora 這類視頻生成模型,將大幅降低制作成本,成本可能壓縮至每分鐘數(shù)千元。此外,Sora 還能免除影視制作的場景搭設(shè)、威亞特效、影視后期等工作,顯著提高制作效率。

“在與北京影視行業(yè)的合作中,我發(fā)現(xiàn)他們在拍攝電視劇和電影時,經(jīng)常遇到一些無法通過常規(guī)手段拍攝的鏡頭,如宇宙大爆炸、地月軌道等場景,這些都需要依賴3D 后期制作來完成。但這類鏡頭的制作成本極高。以電影行業(yè)常見的25幀 / 秒為例,一個2至3秒的鏡頭就包含約70幀的畫面,按照幀計費的3D 后期制作費用,這樣短暫的鏡頭也需要投入上千甚至上萬的成本?!秉S鴻波介紹道,有了 Sora 技術(shù)后,影視公司可以將那些特效制作成本高昂或無法通過演員實際拍攝的場景,通過 Sora 或類似的視頻生成模型來展現(xiàn)。“Sora 不僅對影視行業(yè)有益,它對傳統(tǒng)廣告制作、游戲和流媒體方面也有一定的影響,一些畫面鏡頭的拍攝通過 AI 在幾分鐘內(nèi)就能完成,節(jié)省了大量的人力物力。”

在電商行業(yè)中,Sora 這類視頻生成模型也帶來了新的想象力。

傳統(tǒng)的產(chǎn)品視頻拍攝需要模特、場景布置、拍攝以及后期制作等多個環(huán)節(jié),而 Sora 只需輸入相應(yīng)的文本描述或圖片,即可在短時間內(nèi)生成逼真的視頻,極大地提高了電商營銷素材制作效率。此外,商家可以利用 Sora 生成產(chǎn)品在不同場景下的視頻,或者展示產(chǎn)品在不同空間布局下的效果,從而提升消費者的購買意愿。

雖然 Sora 在視頻生成方面取得了顯著進(jìn)步,但要想真正應(yīng)用在電商行業(yè)中,仍面臨一些挑戰(zhàn)。“目前,用戶可以通過提交指令給 Sora,Sora 會在一段時間后生成視頻反饋給用戶。這種交互方式雖然令人興奮,但也存在局限性,因為它缺乏明確的控制和交互方式。”吳海波提到,以電商為例,商家可能更希望基于某個已有商品生成視頻內(nèi)容,在將實體商品與視頻結(jié)合方面,Sora 目前還無法滿足需求。Sora 無法將商家的商品巧妙地融入視頻中,并展示商品在真實場景中的應(yīng)用,讓潛在顧客直觀地了解商品。

“盡管 Sora 已經(jīng)展示了在自由發(fā)揮狀態(tài)下的創(chuàng)造力,但我們還不清楚如何將這些技術(shù)與現(xiàn)有電商平臺有效結(jié)合,如何讓它按照我們的需求生成內(nèi)容,還有待進(jìn)步一的優(yōu)化?!眳呛2ū硎?,要想在電商行業(yè)中進(jìn)一步拓展 Sora 技術(shù)的應(yīng)用范圍,還需要不斷研究并探索新的方法,以實現(xiàn)商品與視頻的完美結(jié)合。

游戲作為較早落地 AIGC 技術(shù)的行業(yè)之一,在制作過程中也可引入 Sora 這類視頻生成模型。黃鴻波提到,目前游戲行業(yè)比較容易落地的是大場景、風(fēng)格轉(zhuǎn)換和季節(jié)轉(zhuǎn)換類型。

比如,可以借助 Sora 技術(shù),實現(xiàn)游戲中的季節(jié)轉(zhuǎn)換等場景,通過每個季節(jié)2-3秒的場景交替生成游戲內(nèi)的視頻,這樣不僅可以提升游戲的視覺體驗,還能有效減少游戲的制作開發(fā)成本。游戲內(nèi)的服裝道具也可以通過 Sora 來完成。而對于游戲人物的動作,如跑步和飛翔,傳統(tǒng)的制作方法通常涉及到底模建模、骨骼綁定以及動作合成?,F(xiàn)在這些工作也可以通過 AI 技術(shù)來完成,在最后由人工進(jìn)行必要的補充和調(diào)整,以確保動作的真實性更加出色。

此外,光影和材料的仿真也是游戲制作中的重要環(huán)節(jié),這些同樣可以通過 AI 技術(shù)實現(xiàn)。例如,當(dāng)角色從兩米高的地方跳下時,不同材質(zhì)的服裝(如絲綢、粗布、盔甲)會產(chǎn)生不同的漂浮效果、落地速度和聲音,這些細(xì)節(jié)在游戲和電影制作中都有著專門的處理流程。

四足動物的動作設(shè)計是游戲行業(yè)的痛點之一。人類的走路和跑步動作相對自然,但四足動物的動作往往難以協(xié)調(diào)。而這類問題正是 Sora 這類技術(shù)可以發(fā)揮優(yōu)勢的地方。特別是像貓狗等常見的動物,由于不涉及復(fù)雜的 IP 和版權(quán)問題,更適合作為實踐案例來解決動作設(shè)計上的挑戰(zhàn)。

不過,相較視頻生成模型,圖片生成模型在技術(shù)上已經(jīng)更為成熟,這使得其在多個行業(yè)中的應(yīng)用更加廣泛和深入。

“目前在游戲行業(yè)中應(yīng)用最多的還是文生圖模型。一般擁有自己 IP 的企業(yè)都會利用已有的形象素材,訓(xùn)練自家的文生圖模型,生成視頻或相關(guān)角色的形象參考”。據(jù)黃鴻波介紹,所有的文生圖、文生視頻、角色設(shè)計生成、形象設(shè)計生成,都無法直接采用生成產(chǎn)物,只是給設(shè)計人員一些靈感和啟發(fā),讓他們以此為參考進(jìn)行設(shè)計和開發(fā)。以一個海島家園類的游戲為例,可以讓 Stable Diffusion 等工具生成大量的海島、家園、游戲風(fēng)格設(shè)計圖,給美術(shù)的同學(xué)一些啟發(fā),這也是目前企業(yè)內(nèi)多數(shù)的落地形式。

在電商行業(yè)中,圖片生成模型也已得到廣泛應(yīng)用。吳海波提到,相較于視頻生成技術(shù),圖片生成技術(shù)已經(jīng)發(fā)展得更為成熟,因此在這一領(lǐng)域的應(yīng)用也更為迅速。去年,核心團(tuán)隊來自蘑菇街的 AI 商拍工具 WeShop 上線,WeShop 正是基于 Stable Diffusion 模型提供 AI 智能商品圖生成服務(wù)。目前,WeShop 主要服務(wù)于兩類用戶:一類是供應(yīng)鏈為主的工廠老板,他們可以利用 WeShop AI 將商品圖片轉(zhuǎn)換成不同模特和背景的圖片;另一類是計劃拓展海外市場的電商,他們可以通過 WeShop AI 將國內(nèi)商品圖片適配到適合海外市場的模特場景中。

“展望圖片生成技術(shù)的未來,我認(rèn)為 Sora 的成功表明模型規(guī)模的重要性,我們預(yù)期圖片領(lǐng)域的基礎(chǔ)模型也將取得顯著進(jìn)步。業(yè)界的技術(shù)路線和思路正趨于一致,大家都認(rèn)識到需要引入 DiT 結(jié)構(gòu)。盡管目前還有一條嘗試純 Transformer 基礎(chǔ)架構(gòu)的路線,類似 于 GPT,但尚未超越現(xiàn)有技術(shù)。然而,隨著 Sora 證明了大模型的有效性,我們可以預(yù)見將有更多資源投入到圖片生成領(lǐng)域,推動其向前發(fā)展。這一點或許尚未得到廣泛關(guān)注,但我堅信圖片生成技術(shù)很快將迎來重大突破?!眳呛2偨Y(jié)道。

3擔(dān)心被 Sora 們?nèi)〈?

Sora 給不同行業(yè)帶來巨大變革可能得同時,也給就業(yè)市場帶來了挑戰(zhàn),越來越多的從業(yè)者開始擔(dān)心,自己終將被 Sora 們所取代。首當(dāng)其沖的是影視行業(yè)從業(yè)者,不少聲音開始討論“特效公司要死了嗎”“導(dǎo)演、后期是不是都要失業(yè)了”。

對此,受訪專家們普遍持樂觀態(tài)度。以 CG 技術(shù)的出現(xiàn)為例,當(dāng)年 CG 技術(shù)嶄露頭角時,許多動畫師曾擔(dān)憂自己的工作可能會受到威脅。然而,事實并非如此。實際上,CG 技術(shù)并未降低制作電影或動畫的成本,反而使得成本有所上升。與此同時,CG 技術(shù)讓人們能夠創(chuàng)作出更高質(zhì)量、更具視覺震撼力的作品,這反而激發(fā)了畫師和導(dǎo)演的創(chuàng)造力,使他們能夠制作出更為精彩的內(nèi)容,也進(jìn)一步提升了整個行業(yè)的標(biāo)準(zhǔn)。

吳海波認(rèn)為,面對 CG 技術(shù)這樣的革新,我們應(yīng)該積極擁抱變化,從中尋找新的機遇,而不是一味地?fù)?dān)憂和抵觸。如果我們固執(zhí)地堅持舊有的工作方式而不愿適應(yīng),那么確實可能會面臨問題。但與此同時,新技術(shù)也為我們打開了更廣闊的市場,提升了行業(yè)的上限,并為我們提供了更多嘗試不同角度和方法的可能性?!叭绻銏猿终J(rèn)為自己被新技術(shù)替代了,這或許是一種無法避免的心態(tài)。然而,我認(rèn)為,有些工作被新技術(shù)解放,實際上是一件好事。換個角度看,我們可以說自己是從原有的束縛中得到了解放,迎來了新的機遇和挑戰(zhàn)?!?/p>

Sora 同樣如此。目前來看,Sora 仍只是一款工具,并不能完全取代某一職位或環(huán)節(jié),而是幫助人們更好地提升工作效率。 以影視拍攝流程為例,盡管有 ChatGPT 這樣的大語言模型協(xié)助,劇本編寫仍需編劇來把控故事情節(jié)和故事性。分鏡鏡頭的策劃也需要導(dǎo)演來完成,因為模型生成的成品往往缺乏靈魂,需要人類加入細(xì)節(jié)、個人的情感和靈魂。同樣,演員也是不可或缺的角色,因為觀眾既有人注重故事情節(jié),也有人喜歡看明星的表演,如果取代了明星,電影就失去了其獨特的意義。

那么,Sora 究竟帶來了什么,又能取代什么呢?

黃鴻波認(rèn)為,Sora 確實能加速視頻和電影的制作效率,降低生產(chǎn)成本,并有可能取代部分特效制作公司的流程。但需要注意的是,這并非完全的取代,而是借助 Sora 完成一個大致的 demo,為特效公司提供思路,并替代部分相對簡單的特效制作。原本需要十天才能完成的工作,現(xiàn)在可能只需要三五天就能完成。必須明確的是,任何技術(shù)的誕生都只是一種工具,其存在的目的是為了服務(wù)于人類。因此,完全的取代并不存在,工具的作用更多的是降低成本、提升效率。

4寫在最后:參與到 AI 變革中來

近兩年,AI 技術(shù)的快速演變和不斷創(chuàng)新的特性超乎了所有人的預(yù)期,一個又一個創(chuàng)新模型的發(fā)布讓人們不斷驚嘆于 AI 的潛力和能力。時代之下,更應(yīng)該保持對 AI 技術(shù)發(fā)展的關(guān)注,隨時準(zhǔn)備迎接新的突破和變化,通過不斷學(xué)習(xí)和適應(yīng)新技術(shù),在 AI 技術(shù)的浪潮中找到自己的位置,參與到 AI 變革中來。

“我們現(xiàn)在的目標(biāo)是首先參與到這場變革中來,將自己轉(zhuǎn)變?yōu)橐粋€ AI Native 的公司。我們從蘑菇街獨立出一個團(tuán)隊來開發(fā) WeShop,就是希望以創(chuàng)業(yè)團(tuán)隊的心態(tài)來完成這個項目。如果我們?nèi)匀皇褂脗鹘y(tǒng)的業(yè)務(wù)模式和資源來應(yīng)用 AI 技術(shù),我們可能會錯過未來真正的大機會。因此,我們保持創(chuàng)業(yè)團(tuán)隊的狀態(tài),摒棄過去的包袱,以便在 AI Native 的環(huán)境中創(chuàng)造出新物種,抓住未來的機會?!眳呛2ㄕJ(rèn)為,當(dāng)前 AI 技術(shù)在電商領(lǐng)域的變革性影響難以清晰描繪,但其一定會為整個行業(yè)帶來深刻變革,這不僅僅局限于在現(xiàn)有電商平臺上增加智能問答功能或 AI 拍照等改進(jìn),而是 當(dāng) AI 技術(shù)普及到一定程度時,人們將會見證一個全新的電商生態(tài)系統(tǒng)的崛起

對于影視和游戲行業(yè),AI 帶來的變革同樣在發(fā)生,但目前都還缺少一個完整可落地的方案——一個能將文生圖、文生視頻等單一化工具串聯(lián)起來的綜合性工具。

黃鴻波認(rèn)為,理想的情況是,只需要手稿和文字描述,就能直接流程化生成包括2D 圖像、3D 模型、立繪、骨骼綁定以及動作生成等在內(nèi)的完整一套內(nèi)容。對于游戲行業(yè)而言,這樣的綜合性工具能夠極大地提升開發(fā)效率。通過輸入文字描述和手稿,工具能夠自動處理生成游戲所需的各種資源,從而大大減輕開發(fā)者的負(fù)擔(dān)。同樣,影視行業(yè)也迫切需要這樣的解決方案。只需要提供腳本,工具便能直接分析出完整的故事情節(jié)梗概,并基于這一情節(jié)生成圍繞其展開的視頻內(nèi)容。這樣不僅能確保畫面風(fēng)格的統(tǒng)一性和一致性,還能提高影視制作的效率和質(zhì)量。


相關(guān)內(nèi)容