fun88官网,雷竞技,雷火体育官网

來源：互聯網

Sora，是指OpenAI在美國當地時間2024年2月15日發布的首個文本生成視頻模型。為全方位展示Sora的功能，OpenAI同時發布了48個由Sora直接生成、未經修改、長度不等（9秒~60秒）的視頻案例和技術報告，正式入局視頻生成領域。于北京時間12月10日正式推出。

Sora繼承了Dall·E-3的畫質和遵循指令能力，可以根據用戶的文本提示快速制作長達一分鐘的高保真視頻，還能獲取現有的靜態圖像并從中生成視頻。該模型能夠理解復雜場景中不同元素之間的物理屬性及其關系，了解這些物體在物理世界中的存在方式，從而深度模擬真實物理世界，生成具有多個角色、包含特定運動的復雜場景。

Sora的發布使內容創作領域的專業難度降低，作為實現通用人工智能（AGI）的重要里程碑，其問世標志著人工智能在理解真實世界場景并與之互動的能力方面實現了重大飛躍。Sora能夠根據提示詞生成60s的連貫視頻，遠超行業平均“4s”的視頻生成長度。

行業背景

OpenAI在大模型領域的探索

OpenAI是由薩姆·奧爾特曼、埃隆·馬斯克等人于2015年12月11日創立的一家人工智能公司。2022年11月，OpenAI推出了聊天機器人ChatGPT，該產品展現出了人工智能對比過去在文字理解力和邏輯能力上的超越。推出后僅兩個月，用戶活躍量便達到上億規模。ChatGPT這一現象級產品的推出對AIGC（Artificial Intelligence Generated Content，人工智能生成內容）具有里程碑意義，引領了AIGC領域的全新變革。隨后，OpenAI的開發重點又逐步過渡到圖像的生成。2021年1月5日，OpenAI研究并開發了連接文本和圖像神經網絡CLIP和文本創建圖像神經網絡Dall-E。2022年4月6日，OpenAI發布新的人工智能系統Dall·E-2。

視覺算法行業進步

2023年至2024年初，META、谷歌等科技企業陸續發布類似文本生成視頻的AI模型。Meta為Facebook和Instagram推出兩款基于AI的圖像編輯工具，分別是“Emu Edit”和“Emu Video”，適用領域包括照片和視頻，Emu Edit模型僅用文字指令就可以準確編輯圖像。谷歌研究院推出了Lumiere文生視頻”擴散模型，主打采用自家開發的“Space-Time U-Net”基礎架構，能夠一次生成“完整、真實、動作連貫”的視頻。人工智能初創企業Runway也在開發相應產品來幫助制作視頻。此外，Pika、HeyGen等人工智能生成的視頻應用逐漸受到關注，這驗證了多模態技術的不斷進步與成熟。視覺算法在泛化性、可提示性、生成質量和穩定性等方面的突破已推動技術拐點到來以及爆款應用出現，3D資產生成、視頻生成等領域受益于擴散算法成熟。但數據與算法難點多于圖像生成，考慮到LLM對AI各領域的加速作用以及已出現較好的開源模型，視覺算法行業在2024年可能取得更大的發展。

發展歷程

模型發展

推出Dall·E

2021年1月，OpenAI推出Dall-E，Dall-E是一個可以根據書面文字生成圖像的人工智能系統，該名稱來源于著名畫家達利（Dalí）和機器人總動員（Wall-E）。該系統可以根據簡單的描述創建極其逼真和清晰的圖像，精通各種藝術風格，包括插畫和風景等。它還可以生成文字來制作建筑物上的標志，并分別制作同一場景的草圖和全彩圖像。

Dall·E-2發布

2022年4月6日，OpenAI發布人工智能系統Dall·E-2，它不僅可以生成更真實和更準確的畫像，而且能夠從文本描述中將概念、屬性和風格等元素綜合起來，創造出原創、逼真且具有現實主義風格的圖像和藝術作品，AI繪畫技術也隨之嶄露頭角。

ChatGPT面世

2022年11月30日，OpenAI推出了大語言模型ChatGPT，這款聊天機器人的上線引發全球關注，它能夠模擬人類的語言行為，與用戶進行自然交互，上線僅5天用戶數量就已突破100萬，推出后兩個月的用戶活躍量達到了上億規模。除了流暢地與用戶對話，ChatGPT還能寫詩、撰文、編碼，用戶可以用它翻譯、改錯別字、debug（計算機程序糾錯）等，顯示出人工智能從只能解決單一領域問題，向解決多領域問題的轉變。

推出GPT-4語言模型

2023年3月14日，OpenAI為聊天機器人ChatGPT發布了GPT-4語言模型。GPT-4是一個能夠接收圖像和文本輸入，發出文本輸出的大型多模式模型，可為ChatGPT和新Bing等應用程序提供支持。多模態的GPT-4還可以生成、編輯具有創意性或技術性的文章，在高級推理方面的表現超過其前代產品。

Dall·E-3問世

2023年9月21日，OpenAI公司開發的文生圖AI工具迎來了第三個版本Dall·E-3，Dall·E-3進一步優化了生成邏輯，讓生成的效果更為準確、優秀，并且直接內置到ChatGPT中。相比以往系統，Dall·E-3更能理解細微差別和細節，讓用戶更加輕松地將自己的想法轉化為非常準確的圖像。

發布Sora

2024年2月16日凌晨，OpenAI發布了首個文生視頻模型Sora，展示了48個由Sora模型生成的視頻，包括行人在日本街頭行走、狗在雪地中玩耍、中國龍年舞龍等豐富場景。“Sora”源自日語“空”（そら sora），即天空之意，引申含義還有“自由”，以示其無限的創造潛力。OpenAI的技術團隊包括蒂姆·布魯克斯和比爾·皮布爾斯等開發者認為，選擇這一名字是因為它“喚起了無限創造潛力的想法”。

OpenAI表示，Sora建立在過去對Dall-E和GPT模型的研究基礎之上，Sora繼承了Dall·E-3的畫質和遵循指令能力，可以根據用戶的文本提示快速制作長達一分鐘的高保真視頻。該模型了解這些物體在物理世界中的存在方式，可以深度模擬真實物理世界，能生成具有多個角色、包含特定運動的復雜場景。

2024年2月20日，Sora系統負責人在社交媒體發布招聘廣告，并附上了一條"花瓣成虎"視頻。在Sora亮相后，該團隊又陸續公布了不少新視頻，包括多機位畫面、視頻融合等。2024年12月8日，OpenAI發布了Sora最新生成視頻，時長達1分18秒，其內容為身穿復古時裝的人們在廣場跳舞。

推出Sora

Sora于北京時間12月10日正式推出。ChatGPT會員可直接使用Sora Turbo；Plus用戶（月費20美元，約合人民幣145元）每月享有50次生成配額；支付每月200美元的Pro用戶可享受無限慢速模式及500次快速通道。此外，Sora提供靈活的獨立訂閱方案，包含入門版（Starter）、專業版（Pro）和尊享版（Unlimited），支持按月或按年計費，支持隨時取消且無隱藏費用。

產品功能

優點

功能概述

Sora是視覺數據的通用模型，能夠嚴格根據用戶輸入的文本描述，準確理解所描述事物在現實世界中的存在方式，生成不同時長、長寬比和分辨率的高清視頻和圖像（支持生成1080p高清視頻）。并且突破傳統AI工具的時間限制，單次生成最長可達60秒的連貫場景（Pika等AI視頻工具還在突破幾秒內的連貫性）。其生成視頻可包含高度細致的背景、復雜的多角度鏡頭，以及富有情感的多個角色，特定類型的動作，視覺風格前后保持一致。例如，Sora可以制作時尚女性走在霓虹閃爍的東京街頭的視頻、雪地里的巨型長毛象視頻，甚至是太空人冒險的電影預告片。Sora還可以生成可變大小的圖像，最高可達2048 × 2048分辨率。

支持現有視頻輸入

Sora支持現有視頻輸入并對其進行擴展或填充缺失的幀，這一功能在視頻編輯、電影特效等領域具有應用前景，可以幫助用戶快速完成視頻內容的補充和完善，從而創建完美的循環視頻、向前或向后擴展視頻等。比如，基于Dall·E-3圖像生成視頻，從一個生成的視頻片段開始向前/向后擴展視頻，編輯轉換視頻的風格/環境，將兩個具有完全不同主題和場景組成的輸入視頻無縫銜接在一起。

具備新興的仿真能力

Sora可以生成帶有動態攝像機運動的視頻。隨著攝像機的移動和旋轉，人物和場景元素在三維空間中始終如一地移動。Sora經常能夠有效地為短期和長期依賴關系建模，可以在單個樣本中生成同一角色的多個鏡頭，在整個視頻中保持其外觀一致。

該模型有時可以用簡單的方式模擬影響世界狀態的行為，例如，畫家可以在畫布上留下新的筆觸，隨著時間的推移，或者一個人吃漢堡時留下咬痕。在模擬數字世界方面，Sora能夠模擬人工過程，比如視頻游戲，可在高保真度渲染世界及其動態的同時，用基本策略控制《我的世界》中的玩家。

靜態圖像生成視頻

Sora模型能夠獲取現有的靜態圖像并從中生成視頻，準確地讓圖像內容動起來并關注小細節。該功能可通過在一個時間范圍為一幀的空間網格中排列高斯噪聲塊來實現。

缺點

Sora的局限性在于，它可能難以準確模擬復雜場景的物理原理，并且可能無法理解因果關系。例如，在文本描述為“五只灰狼幼崽在一條偏僻的礫石路上互相嬉戲、追逐”的視頻畫面中，狼的數量會變化，一些狼會憑空出現或消失。該模型還可能混淆提示的空間細節，例如混淆左右，并且可能難以精確描述隨著時間推移發生的事件，例如遵循特定的相機軌跡。如提示詞“籃球穿過籃筐然后爆炸”中，籃球沒有正確被籃筐阻擋。

OpenAI方面在《作為世界模擬器的視頻生成模型》技術報告中表示，Sora作為一個模擬器，表現出許多限制，它并沒有準確地模擬許多基本互動的物理效應，比如玻璃破碎。吃食物之類的互動不總是產生正確的物體狀態變化。還有在長時間樣本中發展的不連貫性或物體的自發出現。對于這些問題，多位人工智能領域人士表示，皆因概率模式的邏輯硬傷所致。

技術特點

多幀預測與生成

Sora是一個擴散模型，它從類似于靜態噪聲的視頻開始，通過多個步驟逐漸去除噪聲，視頻也從最初的隨機像素轉化為清晰的圖像場景，其能夠一次生成多幀預測，確保畫面主體在暫時離開視野時仍保持一致。

視覺數據轉為Patches

研發團隊發現patches是訓練生成各種類型視頻和圖像的模型的可擴展且有效的表示（類似于GPT中的token）。在更高層面上，Sora首先將視頻壓縮到較低維的潛在空間，然后將表示分解為時空patches，從而將視頻轉換為patches。通過這種統一的數據表示方式，可以在比以前更廣泛的視覺數據上訓練模型，涵蓋不同的持續時間、分辨率和縱橫比，有助于模型學習到更豐富的視覺特征，提高生成視頻的質量和多樣性。

視頻壓縮網絡

研發團隊訓練了一個降低視覺數據維度的網絡。該網絡將原始視頻作為輸入，并輸出在時間和空間上壓縮的潛在表示。Sora在這個壓縮的潛在空間中接受訓練，而后生成視頻。團隊還訓練了相應的解碼器模型，將生成的潛在表示映射回像素空間。

用于視頻生成的縮放Transformer

Sora采用與GPT模型相似的Transformer架構，這使得模型具有很強的擴展性，可以有效地縮放為視頻模型。Transformer架構能夠處理長序列數據，并通過自注意力機制捕捉數據中的依賴關系，從而提高模型的生成能力。但為了解決Transformer架構在長文本和高分辨率圖像處理上的問題，擴散模型采用更可擴展的狀態空間模型（SSM）主干替代了傳統的注意力機制，從而減少了算力需求，并能夠生成高分辨率圖像。

語言理解

訓練文本到視頻生成系統需要大量帶有相應文本字幕的視頻。研究團隊將Dall·E-3中的重字幕（re-captioning）技術應用于Sora。具體來說，研究團隊首先訓練一個高度描述性的字幕生成器模型，然后使用它為訓練集中所有視頻生成文本字幕。研究團隊發現，對高度描述性視頻字幕進行訓練可以提高文本保真度以及視頻的整體質量。與Dall·E-3類似，研究團隊還利用GPT將簡短的用戶prompt轉換為較長的詳細字幕，然后發送到視頻模型。這使得Sora能夠生成準確遵循用戶prompt的高質量視頻，同時也提高了模型的靈活性和可控性。

原生規模訓練

Sora采用“原生規模訓練”，過往的圖像和視頻生成通常會將視頻調整為標準大小，但這樣會失去視頻的原始長寬比和細節，而原生規模的訓練方法可以帶來更好的效果。在原始大小的數據上進行訓練一方面可達成采樣的靈活性。Sora可以采樣寬屏1920x1080p視頻、垂直1080×1920視頻以及介于兩者之間的所有視頻。這讓Sora可直接以不同設備的原始寬高比為其創建內容。它還支持在生成全分辨率的內容之前，以較小的尺寸快速創建內容原型——所有內容都使用相同的模型。另一方面，在視頻的原始長寬比上進行訓練可以改善構圖和框架。研究團隊將Sora與其模型的一個版本進行比較，該版本將所有訓練視頻裁剪為方形。在正方形裁剪上訓練的模型有時會生成僅部分顯示主題的視頻。相比之下，來自Sora的視頻生成更完整、更美觀，有改進的幀。

產品研發

研發團隊

此外，Clarence Wing Yin Ng、Rohan Sahai、Ryan O'Rourke、Troy Euhman、Yufei Guo均參與了Sora的研究。

研發軼事

技術基礎

Sora團隊共同領導者比爾·皮布爾斯（William Peebles）和謝賽寧合著的論文《Scalable diffusion models with transformers》被認為是Sora背后的重要技術基礎之一。但謝賽寧否認參與Sora研發團隊，僅稱其合著論文起到一些作用。Sora發布時，圖靈獎獲得者、Meta首席科學家Yann LeCun表示，該研究論文因為“缺乏創新”，先被CVPR 2023拒絕，后來被ICCV 2023接收。

研發時間

謝賽寧在公開回應時稱，比爾·皮布爾斯曾表示他們“每天基本不睡覺，高強度工作了一年”。

后續測試

安全性

在安全問題上，Sora已經包含了一個過濾器，阻止暴力、色情、仇恨，以及特定人物的視頻輸出。OpenAI借鑒2023年在Dall·E-3上實驗的圖像探測器，把C2PA技術標準（一種內容追溯方式，也可以理解為內容水印）嵌入到Sora的輸出視頻中，以鑒別視頻是否為AI深度偽造視頻。Sora還開發了魯棒性的圖像分類器，用于審查每個生成視頻的幀，以幫助確保它在顯示給用戶之前符合相關使用政策。此外，Sora已交由Team Red進行安全測試，評估其潛在的危害或風險，期間特定用戶會試圖讓平臺失靈，產生不恰當的內容或出毛病。

創意性

OpenAI還邀請了一支專業創意人士團隊測試Sora，用于反饋其在專業環境中的實用性，再根據這些反饋意見改進Sora，確保它能有效滿足用戶的需求。截至2024年2月，一些視覺藝術家、設計師和電影制作人以及OpenAI員工已獲得Sora的訪問權限，他們已開始在社交平臺曬出使用Sora生成的新作品，展現AI生成視頻的創意潛力。

社會影響

正面影響

價值意義

Sora模型可以深度模擬真實物理世界，在技術層面支持獨立創作，使內容創作領域的專業難度大大降低，對需要制作視頻的藝術家、電影制片人或學生來說，帶來了無限可能。Sora的發布也使OpenAI成為最新一家采用生成視頻技術的人工智能公司，促進了AI視頻生成領域的技術發展與商業競爭，對現有主流平臺如Runway、Pika和Stable Video Diffusion等的技術優勢和行業地位造成沖擊。同時，Sora是實現通用人工智能（AGI）的重要里程碑，其問世標志著人工智能在理解真實世界場景并與之互動的能力方面實現了重大飛躍。通過不斷深入研究和發展Sora等先進模型，有望在未來實現更加智能、高效和多樣化的視頻生成與處理技術。

產業格局

估值上漲

Sora發布后，OpenAI的估值迅速上漲，且文生視頻大模型會大幅推動人工智能基礎設施的需求，英偉達、OpenAI、軟銀集團等巨頭公司都被曝正在進行AI芯片的制造布局，英偉達也因大模型訓練需要GPU算力支持而股價大漲。在中國，2月19日，Sora相關概念全線“爆發”，會暢通訊、當虹科技、萬興科技、易點天下、因賽集團、東方國信、數碼視訊、華揚聯眾、國脈文化等股票均大幅上漲，多家公司回應稱，會根據自身業務特點，在文生視頻技術落地、Sora應用等方面尋找突破入口。

生產變革

浙商證券預測，Sora及同類產品會參與到改變信息生產和分發兩大環節的進程中，PGC（專業生產內容）廣泛采用AI工具輔助生產，UGC（用戶生成內容）借助AI工具逐步替代PGC，AI生成視頻工具的商業化會提速。Sora的誕生也為以后短視頻平臺的內容生產提供了更大的可能性。

負面影響

Sora可嚴格根據用戶輸入的提示詞，制作長達一分鐘的視頻，并保持較高的視覺質量，其視頻制作的專業程度可與人工媲美，不少網友稱這可能導致大量的影視等相關行業從業者失業，甚至有人開始“悼念”一整個素材行業。此外，Sora能夠理解物體在現實世界中的物理規律和存在方式，其生成的數字視頻的長度和質量超出了迄今為止所見的水平，部分視頻已經難辨真假。Sora的應用將進一步加劇當代社會的后真相狀況，真實與虛擬的邊界進一步模糊，甚至完全被消解。

社會評價

國際

《麻省理工科技評論》評：OpenAI推出了一個令人驚嘆的新型生成視頻模型，Sora是2024年值得關注的科技發展趨勢之一，文本到視頻生成是一個熱門的研究方向。

OpenAI科學家蒂姆·布魯克斯（Tim Brooks）評：我們認為，建立能夠理解視頻的模型，并理解我們世界中所有這些非常復雜的交互，對于未來所有的人工智能系統而言，是非常重要的一步。

市場研究公司ABI research高級分析師里斯·海登（Reece Hayden）評：盡管多模態大模型并不新鮮，而且文生視頻的模型已經存在，但OpenAI聲稱Sora具有的長度和準確性使其與眾不同。這類人工智能模型可能會對數字娛樂市場產生重大影響，新的個性化內容將在各個渠道傳播。

特斯拉CEO馬斯克在Sora發布后回復了多條網友評論。有網友在評論Sora生成的60秒時尚女子在東京街頭散步時稱，“gg Pixar（皮克斯動畫制作公司）”（編注：gg為Good Games縮寫，代指“打得好，我認輸”?），隨后馬斯克回復，“gg humans（人類）”。馬斯克還稱，通過AI增強的人類將在未來幾年創造出最好的作品。

電影導演和視覺特效專家Michael Gracey評：以后或許不再需要一個由100名至200名藝術家組成的團隊來用3年時間完成動畫長片，像Sora這樣的人工智能工具將使電影制作者能夠仔細控制他們的輸出，從頭開始制作各種視頻。

英偉達科學家DrJimFan評：Sora是一個數據驅動的物理引擎。它是對許多世界的模擬，無論是真實的還是幻想的。仿真器通過一些去噪和梯度數學來學習復雜的渲染、“直觀”物理、長期推理和語義基礎。如果Sora使用虛幻引擎5對大量合成數據進行訓練，我不會感到驚訝，它也必須如此。

普林斯頓大學計算機科學教授Arvind Narayanan評：根據OpenAI于2024年2月15日發布的視頻，Sora“似乎比任何其他視頻生成工具都“先進得多”。這可能會導致‘深度偽造’視頻，人們更難識別出人工智能生成的視頻。

Meta首席AI科學家楊立昆評：針對OpenAI定位“世界模擬器”的觀點，楊立昆表示，根據提示詞生成的大部分逼真視頻并不表明這樣的AI系統理解物理世界，生成視頻的過程與基于世界模型的因果預測完全不同。

伊利諾伊大學厄巴納-香檳分校信息科學教授特德·安德伍德評：沒想到在接下來的兩到三年內還會出現這種持續、連貫的視頻生成水平。

前記者、現斯坦福大學研究員巴西勒·西蒙評：在生成式人工智能方面有了可怕的飛躍，可以快速生成逼真的作品，這些工具可能會在選舉中被濫用，公眾將可能“不再知道該相信什么”。

國內

360創始人周鴻祎評：Sora的誕生意味著實現AGI（通用人工智能）可能從10年縮短至一兩年。這次OpenAI利用它的大語言模型優勢，讓Sora實現了對現實世界的理解和對世界的模擬兩層能力，這樣產生的視頻才是真實的，才能跳出2D的范圍模擬真實的物理世界。

中國社會科學院法學研究所副研究員唐林垚評：從公布的視頻來看，相較于其他視頻類生成式AI，Sora在畫面清晰度、內容流暢度、表意深度和精彩程度方面均有大幅提升。

中科深智創始人兼CEO成維忠評：Sora目前還存在因果關系推理問題，但這個問題不是Sora自身的問題，而是目前所有類似模型均存在的問題——文生視頻過程中，模型搞不清楚人與環境的關系，搞不清楚前后邏輯關系等情況，該問題會導致模型在實際應用的時候，達不到使用者設想的完美程度，但從個人工具的角度來說，Sora已經比此前行業內推出的文生視頻好很多了。未來隨著訓練的加強，該問題也會逐步得到解決。

專業攝影師孟凡評：Sora視頻幀率較高，說明計算能力比較強，且影片的寬容度更高，如調色、細節表現、高速鏡頭展現等。在直觀感受上，Sora 模型產出的視頻運鏡自然，物體運動符合規律，鏡頭間邏輯一致性好，但是Sora視頻的邏輯性會差一點。

中國電影文學學會副秘書長杜紅軍評：編劇、導演不必因Sora的出現而擔心，它是幫助實現影視效果的好工具，能夠激發更多人的內容創造力。人類負責創意，AI負責創造，未來的電影創作將是概念片先行，可能不是在寫劇本，而是“寫”影像。

復旦大學教授、上海市數據科學重點實驗室主任肖仰華評：意料之中也意料之外。所謂意料之中，是因為ChatGPT誕生之后，業內專家都普遍預測大模型一定會從純文本的大模型向多模態發展。所謂多模態指的是圖文混合、和視頻相結合的這類大模型。意料之外是指當你親眼看到了Sora生成的視頻具備如此的逼真度，沖擊力還是很激烈的。它對模擬物理世界的逼真程度，達到了空前的水平，是之前人工智能技術從來沒有做到過的。

社會爭議

虛假信息

Sora的發布引發了關于虛假信息傳播的爭議。其強大的圖像視頻生成能力達到了以假亂真的程度，這不僅改變了人們“眼見為實”的傳統觀念，還可能帶來一系列社會問題，如視頻證據真實性和有效性的驗證難題。在Sora問世前已有多起利用AI偽造視頻進行詐騙的案例，顯示了AI生成視頻可能被濫用于非法目的的風險。Sora的普及可能會進一步降低制作高質量虛假視頻的門檻，加劇虛假信息的傳播。盡管互聯網平臺已有針對特定類型虛假信息的檢測機制，但對于復雜難辨的信息仍需加強深度分析和及時阻斷。隨著AI生成內容的激增，網絡上的合成內容會大量存在，這要求不僅在技術上持續改進，還需建立更全面的治理體系來有效應對虛假信息的挑戰。

版權問題

Sora可能引發侵權爭議。一方面，Sora生成的視頻版權是否受到保護尚不明確，這可能導致使用這些視頻的主體面臨侵權索賠和版權保護追溯的風險。另一方面，Sora在訓練過程中使用了相關素材，即使只是用這些素材進行訓練，也可能存在潛在的侵權風險。

門檻問題

Sora讓視頻創作隨手可得、人人可行，極大實現了內容和創作主體的多樣化，這是技術媒介時代平權主義趨勢的表征。與其說Sora打開了傳統影視業的閘門，不如說它抬高了影視業的水準，使影視業變為更小眾、更精英化的行業。Sora為影視行業畫出的新界限，從歷史感、故事深度和人物塑造中，建立與受眾深層的情感連接。

必威电竞|足球世界杯竞猜平台