生成式人工智能(Generative Artificial Intelligence)是一種能夠根據提示生成文本、圖像或其他媒體信息的人工智能。這一技術的核心依托于多模態模型,能針對用戶需求,利用機器學習技術在現有的大規模多模態數據集基礎上生成新的文本、程序代碼、圖像、視頻和聲音等數據,具備處理多種任務和場景的能力。
在人工智能生成內容(AIGC)的早期階段,希勒和艾薩克森于1957年通過將計算機程序中的控制變量轉換成音符,創作了歷史上第一支由計算機創作的音樂作品《依利亞克組曲》。1990年代之后,AIGC逐漸從實驗性發展向實用性演變。2007年,紐約大學的羅斯·古德溫裝配的人工智能系統創作了世界上第一部完全由人工智能創作的小說《1 The Road》。自2014年起,隨著深度學習算法的發展,特別是生成式對抗網絡(GAN)的提出和不斷迭代,AIGC進入了新的時代。特別是DALL-E和ChatGPT等作品的發布,標志著AIGC在生成內容方面取得了顯著的突破。
AIGC在應用方面將率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大發展。ChatGPT是生成式人工智能的一種,同類AI還包括DALL-E、Stable Diffusion,以及Midjourney等。AIGC擁有超越人類的生產能力和知識水平,能夠承擔信息挖掘、素材調用、復刻、編輯等機械性勞動,以低邊際成本、高效率的方式滿足大規模個性化需求。
2023年12月26日,生成式人工智能入選“2023年度十大科技名詞”,其余九個詞分別是:大語言模型、量子計算、腦機接口技術、數據要素、智慧城市、碳足跡、柔性制造、雜草稻、可控核聚變。2024年7月3日,世界知識產權組織發布《生成式人工智能專利態勢報告》,2014年至2023年中國生成式A1專利申請量全球第一。截至2025年6月,中國生成式人工智能用戶規模達5.15億人,普及率為36.5%。截至2025年8月,中國累計有538款生成式人工智能服務完成備案,263款生成式人工智能應用或功能完成登記。
發展歷程
早期發展階段(1950s-1990s)
在AIGC的早期階段,由于科技水平的限制,進行了小范圍實驗。1957年,費迪南·希勒和艾薩克森通過將計算機程序中的控制變量轉換成音符,創作了歷史上第一支由計算機創作的音樂作品《依利亞克組曲》。1966年,魏岑鮑姆和科爾比合作開發了世界上第一款可進行人機對話的機器人“伊莉莎”,該機器人通過關鍵字掃描和重組完成交互任務。80年代中期,IBM基于HMM模型創造了語音控制打字機“坦戈拉”,能處理約20000個單詞。然而,由于高昂的系統成本,80年代末至90年代中期各國政府減少了在人工智能領域的投入,導致AIGC未能取得重大突破。
沉淀積累階段(1990s-2010s)
AIGC逐漸從實驗性發展向實用性演變。2006年,深度學習算法取得重大突破,同時GPU、TPU等算力設備性能提升,互聯網為各類人工智能算法提供海量訓練數據,推動了人工智能的顯著進步。然而,AIGC仍然面臨算法瓶頸,限制了其在創作任務上的表現,應用范圍有限,效果有待提升。
2007年,紐約大學的羅斯·古德溫裝配的人工智能系統創作了小說《1 The Road》,這是世界上第一部完全由人工智能創作的小說。2012年,微軟展示了一個基于深層神經網絡的全自動同聲傳譯系統,能夠通過語音識別、語言翻譯、語音合成等技術將英文演講者的內容自動轉換成中文語音。這標志著AIGC在語音處理領域取得了一些進展。
快速發展階段 (21 世紀 10 年代中期至今)
自2014年起,隨著深度學習算法的發展,特別是生成式對抗網絡(GAN)的提出和不斷迭代,AIGC進入了新的時代。生成內容呈現多樣化,逼真程度逐漸提高,甚至達到了人類難以分辨的水平。
2017年,微軟推出了人工智能少女“小冰”,發布了世界上首部由100%人工智能創作的詩集《陽光失了玻璃窗》。2018年,英偉達發布了StyleGAN模型,該模型能夠自動生成逼真的圖片,目前已經升級到第四代模型StyleGAN-XL。2019年,DeepMind發布了DVD-GAN模型,用于生成連續視頻。2021年,OpenAI推出了DALL-E,并于一年后推出了升級版本DALL-E-2,主要用于文本與圖像的交互生成內容。用戶只需輸入簡短的描述性文字,DALL-E-2即可創作出卡通、寫實、抽象等風格的繪畫作品。2022年底,OpenAI推出了ChatGPT,其全稱是生成式預訓轉換機器人,是一款模仿自然語言的應用,該應用的特點是,利用神經網絡架構并接受大量數據和語料庫的機器學習,能夠模仿普通人的對話和寫作。2023年3月16日,微軟宣布引入名為Copilot的人工智能服務,并將其整合到Word、PowerPoint、Excel等Office辦公軟件中。該服務具備根據各軟件的功能和需求處理不同類型任務的能力。這些進展標志著AIGC在生成內容方面取得了顯著的突破。2024年7月3日,世界知識產權組織發布《生成式人工智能專利態勢報告》。報告顯示,2014年至2023年,中國發明人申請的生成式人工智慧專利數量最多,遠超美國、韓國、日本和印度等國。2014年至2023年,全球生成式人工智能相關的發明申請量達54000件,其中超過25%是在2023年一年出現的。2025年上半年,中國生成式人工智能用戶規模增長2.66億人,半年增長106.6%。在所有生成式人工智能用戶中,40歲以下中青年用戶占比達到74.6%,大專、本科及以上高學歷用戶占比為37.5%。截至2025年6月,中國生成式人工智能用戶規模達5.15億人,普及率為36.5%。截至2025年8月,中國累計有538款生成式人工智能服務完成備案,263款生成式人工智能應用或功能完成登記。
特點
涌現能力
AIGC通過創造性再創作,使得模型在足夠大和建模能力足夠強的情況下,能夠具備自然語言理解的推理能力。常識推理一直是人工智能領域的重大難題,LLM 的出現加上算力成本的降低使常識推理取得了重大進展,通過思維鏈提示能夠解決復雜推理難題。
基礎承載能力
AIGC在生成式對抗網絡和Transformer等生成算法的支持下,通過海量無監督預訓練降低了對標注數據的依賴,利用未標注數據自主學習規律,并通過微調在特定任務上提升模型能力,實現了在多領域任務上的統一建設。
自然語言交互
AIGC爆發的標志是基于自然語言交互的ChatGPT等平臺的涌現,使得AIGC不僅適用于專業人員,還包括普通民眾。用戶對社交軟件自然語言交互的熟悉和喜好推動了AIGC的廣泛應用,但也引入了全方位的數據和數據安全風險。
類型
根據內容生產的不同模態,AIGC可劃分為四個基礎模態,分別涵蓋文本、音頻、圖像和視頻。每一種模態技術都具有獨特的應用場景和特性。此外,這四種模態的融合產生了第五種模態——跨模態內容生成模式,使AIGC能夠創造更加豐富多樣的生成內容。
文本
文本內容生成主要可劃分為兩大類:非交互式和交互式。在非交互式文本生成方面,包括了摘要/標題生成、文本風格遷移、文章生成以及圖像生成文本等技術。這些方法能夠根據具體的應用場景,自動生成滿足要求的文本內容,從而提高生成效率和內容質量。而在交互式文本生成方面,更為智能化的應用方式允許根據用戶的需求和反饋,生成更貼近用戶期望的內容。這一類應用主要包括聊天機器人、文本交互游戲等。
文本內容生成方面的代表性產品或模型包括JasperAI、copy.AI、ChatGPT、Bard、AI dungeon等。
音頻
音頻生成技術是一種使用算法和模型生成人工音頻的技術。這種技術一般在特定場景下應用,例如文本轉語音,如數字人的播報、語音客服等。在這些場景中,通過算法生成符合用戶和場景需求的語音,從而提升用戶體驗和操作效率。此外,這一技術在各種C端產品中廣泛應用,包括智能家居、車載音響、虛擬助手等。
音頻生成方面的代表性產品或模型包括DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。
圖像
圖像生成技術是一種利用算法和模型生成人工圖像的先進技術。可根據應用場景分為圖像編輯修改和圖像自主生成兩大類。圖像編輯修改技術致力于對圖像進行重構和修復,提升圖像的質量和清晰度,以滿足用戶對圖像處理的多樣需求,包括圖像修復、人臉替換、圖像去水印等方面。而圖像自主生成技術則通過算法和模型實現對圖像的全新生成,為用戶提供更為多樣化的圖像服務,例如參照圖像生成繪畫圖像、真實圖像生成素描圖像、文本生成圖像等。
圖像生成方面的代表性產品或模型包括EditGAN,Deepfake,DALL-E、MidJourney、Stable Diffusion,文心一格等。
視頻
視頻生成技術是一種利用算法和模型生成人工視頻的先進技術。該技術根據應用場景分為視頻編輯和視頻自主生成兩大類。視頻編輯技術廣泛應用于視頻超分辨率、視頻修復、視頻畫面剪輯等方面。而視頻自主生成技術的核心原理是通過深度學習模型對圖像或視頻進行分析和理解,然后根據特定算法生成相應的視頻。這一技術可以應用于圖像生成視頻、文本生成視頻等多個領域。
視頻生成方面的代表性產品或模型包括Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video。
跨模態
跨模態生成是指通過結合不同模態的AI技術,實現模態之間的轉換和生成。這一技術通過在不同媒介之間進行轉化和生成,拓展了人工智能應用的領域和應用場景,它支持將不同的信息形式轉化為人類可理解的其他形式。例如,將文本轉化為圖像、音頻或視頻,將圖像轉化為文本、音頻或視頻,從而實現更為自然、直觀和高效的交互方式。跨模態生成技術同時也可以廣泛應用于藝術創作、廣告營銷、教育培訓、醫療診斷等多個領域,提升AIGC的產業化和工業化應用能力。
跨模態生成方面的代表性產品或模型包括DALL-E、MidJourney、Stable Diffusion。
技術細節
概率生成模型
概率生成模型是一種統計模型,它可以學習觀察數據的聯合概率分布。在生成模型中,我們努力找到在給定輸入特征的情況下,期望輸出或標簽同時存在的聯合概率。生成模型通常被用于估計概率和可能性,通過這些概率對數據點進行建模,并基于這些概率進行分類。由于該模型學習了數據集的概率分布,因此它能夠參考這一分布來生成新的數據實例。
不同于傳統的人工智能僅對輸入數據進行處理和分析,生成式人工智能的核心在于概率生成模型,這些模型致力于學習并模擬事物的內在規律及輸入數據的概率分布。一旦模型完成訓練,便可從該分布中進行抽樣,根據用戶的輸入資料生成具有邏輯性和連貫性的新內容。常見的概率生成模型包括自回歸模型、生成式對抗模型、變分自編碼模型、流模型和擴散模型。
對抗學習機制
對抗學習是一種機器學習方法,它通過讓兩個網絡相互競爭對抗的方式進行學習。這種學習機制通常包括兩個關鍵角色:生成器和判別器。
生成器的任務是生成盡可能真實的數據,而判別器的任務是區分生成的數據和真實的數據。生成器通過不斷學習訓練庫中真實圖片的概率分布,將輸入的隨機噪聲轉變為新的圖片樣本(即假數據),使得生成數據的分布盡可能逼近真實數據的分布。判別器同時觀測真實和虛構的數據,致力于判別輸入數據的真實性。
通過反復的交替訓練和對抗,生成器和判別器的能力將不斷增強,直至達到一種均衡狀態。最終訓練完成的生成器能夠生成高質量、以假亂真的圖片。這種對抗學習機制在深度學習中得到廣泛應用,特別是在生成對抗網絡(GAN)中。
潛在變量建模
潛在變量模型是一種統計模型,其將一組可觀察變量(也被稱為顯變量或指標)與一組潛在變量相關聯。在許多生成模型中,潛在變量被引入以捕捉輸入數據的內在結構。例如,在變分自編碼器中,潛在變量用于表示輸入數據的壓縮表征,然后通過解碼從這一表征中重構原始數據。
深度神經網絡
深度神經網絡是一種具有一定復雜性的神經網絡,它是一個包含多于兩層的神經網絡。深度神經網絡使用復雜的數學建模來以復雜的方式處理數據。同時深度神經網絡是一種機器學習類型,模仿大腦學習的方式。它已經被用于各種任務,包括語言翻譯、圖像搜索工具,甚至醫學診斷。生成式人工智能使用一種稱為生成對抗網絡(GANs)的深度學習來創建新的內容。
對抗訓練策略
對抗訓練策略是一種用于提高機器學習模型對抗攻擊魯棒性的防御方法。該策略通過在對抗性和干凈示例的混合數據集上進行模型訓練,從而增強模型對攻擊的魯棒性。對抗訓練是提高深度學習模型對對抗示例抵御能力的最為有效的方法之一。與其他防御策略不同,對抗訓練主要加強模型的內在魯棒性。
對抗訓練策略廣泛應用于生成對抗網絡(GANs)的訓練中。生成對抗網絡的成功訓練方法確保目標函數收斂到局部最小值。此外,對抗攻擊是一種故意試圖通過提供欺騙性輸入來混淆機器學習模型的嘗試。生成對抗性示例是最常見的對抗攻擊類型,攻擊者有意設計這些輸入以導致模型出錯。
應用實例
ChatGPT
ChatGPT是OpenAI開發的人工智能聊天機器人,允許用戶通過書面提示與其交互,生成類人文本的回應。
OpenAI成立于2015年,由Elon Musk和Sam Altman創立,并得到微軟等知名投資者支持。
ChatGPT屬于生成式人工智能,該服務以文本為基礎,能夠對用戶請求產生類似人類的回應,如生成詩歌或提供建議。ChatGPT的獨特之處在于由大型語言模型GPT-3.5支持,該模型是GPT-3的升級版,擁有1750億個參數,是迄今為止最大、最強大的語言處理AI模型之一。ChatGPT能理解人類語言并生成類似人類反應的文本,表現出令人印象深刻的人性化響應。其另一個特點是能夠記錄上下文,提高對話的連貫性,這一能力使得ChatGPT在交流中更具人性化。
DALL-E
DALL·E是一款人工智能系統,以自然語言描述為基礎,具備創造逼真圖像和藝術的能力。其特色在于圖像生成,能夠創作原創逼真的圖像和藝術作品,以及構圖擴展,通過將圖像擴展到原始畫布之外,創造全新的構圖。此外,DALL·E還支持實時編輯,通過自然語言字幕對現有圖像進行真實編輯,以及圖像變體,能夠生成原始圖像的不同變體,為用戶提供更多選擇。
在2021年1月推出DALL·E后,一年后推出了更新版本DALL·E 2,生成更逼真、更準確的圖像,分辨率提高了4倍。在2023年10月初,OpenAI向ChatGPT Plus和Enterprise客戶提供了DALL·E 3,具有更好的效果和更強的安全性。DALL·E 3還可以與ChatGPT聯動,當用戶提出想法時,ChatGPT將自動生成定制的詳細提示,將用戶的想法轉化為現實。
DeepFake
Deepfake是一種人工智能人像生成技術,涵蓋面部替換、面部重演和人臉生成等方面。通過面部替換,該技術能夠將人像巧妙地合成到已有的圖片或視頻中,達到逼真的效果。在面部重演方面,Deepfake可以操縱視頻中的人像面部特征,包括口型、眉毛、眼睛運動和頭部傾斜,從而改變其表情。同時,通過基于訓練數據的人臉生成,Deepfake能夠創造出全新的人臉圖像,擴展了其應用領域。
這一技術的發源可追溯至2017年,最初由Reddit用戶“deepfakes”在該平臺發布名人換臉視頻而得名。深度偽造主要基于生成對抗網絡(GAN),這種深度學習模型通過兩個相互對抗的神經網絡,一個用于生成圖像,另一個用于判別輸出是否真實,通過交替優化訓練,生成的深度偽造內容足以逼真地欺騙人的視覺。
在Deepfake技術的應用中,換臉是最常見的,它涉及交換兩個人的臉;人臉合成則用于生成從未存在過的人的面孔;而在面部屬性和表情操縱中,通過改變特定特征如眼睛、眉毛等,可以調整面部的表情。整個過程的關鍵在于將一個人的解碼器應用于另一個人的潛在面孔,實現輸出人臉具有一個人的表情和結構,同時保留另一個人的風格和神情。
DeepDream
DeepDream是由谷歌于2015年發布的一種圖像生成算法,可以將神經網絡學習模式可視化展現。
DeepDream的原理是通過輸入一張圖像到一個卷積神經網絡,讓網絡告訴我們這張圖像可能包含哪些物體。我們可以選擇一個目標,比如海星綱,然后通過調整輸入圖像的像素值,使得網絡認為圖像里有海星。這個過程中,我們不是調整神經網絡的規則,而是在圖像上操作,使它看起來更像目標。這種方法不僅可以生成有趣的圖像,還能揭示神經網絡內部學到的信息。類似孩子們觀察云朵并試圖解釋隨機形狀,DeepDream 過度解釋并增強圖像中存在的圖案,從而強化網絡對特定圖案的識別能力,生成夢幻般的圖像。
MuseNet
MuseNet是使用Sparse Transformer技術的音樂生成系統,可根據輸入的音符組預測下一個音符。模型由72層網絡和24個注意力頭組成,訓練數據包括ClassicalArchives、BitMidi等來源的MIDI文件。
MuseNet支持以10種樂器創作4分鐘的音樂,模仿不同作曲家的風格,同時具備融合多種音樂風格的能力。它的原型提供簡單和高級模式,用戶可在高級模式下與模型交互生成全新音樂作品。
相關爭議
技術和安全風險
基于算法能力的內容安全風險:
基于技術應用的數據安全風險:
基于大模型的算法安全風險:
國際態度
生成式人工智能的發展和應用,引起了國際社會的高度關注和重視,各國和國際組織紛紛采取措施,加強對生成式人工智能的監管和治理,以確保其安全、可靠、可信、可控。
中國
2021年9月25日,國家新一代人工智能治理專業委員會發布《新一代人工智能倫理規范》。該規范旨在將倫理道德融入人工智能全生命周期,為從事相關活動的個人、法人和機構提供倫理指引。規范包括總則、特定活動倫理規范和組織實施,提出了六項基本倫理要求,如增進人類福祉、促進公平公正等,以及18項特定活動的倫理要求。該規范的發布旨在引導負責任的人工智能研發和應用,促進健康發展。
2023年5月23日,中國國家互聯網信息辦公室發布了《生成式人工智能服務管理暫行辦法》,旨在規范技術發展、服務規范和監管措施。強調鼓勵技術創新,提供者需遵守法規,防范違法內容,明確服務適用范圍,保護用戶隱私。監管部門將加強管理,對具有社會動員能力的服務進行安全評估。違規行為將面臨行政處罰和法律責任。該辦法自2023年8月15日起正式生效。
美國
2017年,美國眾議院發布《人工智能創新團隊法案》,2018年發布《人工智能就業法案》,旨在應對人工智能對就業的挑戰,倡導創造終身學習和技能培訓環境。同年,美國設立人工智能國家安全委員會,負責審查AI技術在軍事應用中的風險,處理AI技術在國家安全和國防領域的倫理道德問題,并推動公開訓練數據標準和共享。
2019年,美國國防創新委員會發布《人工智能原則:國防部人工智能應用倫理的若干建議》,明確了“負責、公平、可追蹤、可靠、可控”等五大必須遵守的原則。
2020年10月,美國白宮發布了《人工智能權利法案藍圖》,列出了五項原則,以“指導自動化系統的設計、使用和部署,保護人工智能時代的美國民眾。
歐洲各國
2021年4月21日,歐盟提出《人工智能法案》的草案,旨在為人工智能治理提供具有法律約束力的支持。該法案以風險預防為基礎,制定了全面的規定體系,以推動創新,將歐洲建設成為可信賴的全球人工智能中心。截至2022年12月6日,歐盟理事會通過了關于該法案的共同立場,以確保在歐盟市場投放和使用的人工智能系統的安全性,并遵守現行法律。2023年3月,該法案提交歐盟議會進行初審,4月27日,歐洲議會成員就《人工智能法案》達成了臨時政治協議,要求生成式人工智能公司透露用于開發系統的受版權保護的材料。此協議為《人工智能法案》的通過鋪平了道路。
2023年6月14日,歐洲議會投票通過了《人工智能法案》,明確了禁止實時面部識別以及ChatGPT等生成式人工智能工具的規定。該法案將進入歐盟委員會、議會和成員國的三方談判協商程序,以確定最終版本。作為全球首個綜合性人工智能治理法案,它將成為全球人工智能法規的標桿,為各國監管機構提供廣泛的參考。
此外,還有一些國際組織和學者,呼吁對生成式人工智慧進行更嚴格的限制和禁止,以防止其對人類社會造成不可逆轉的危害。
環境污染風險
2024年10月28日,一項研究報告顯示(這項研究的詳細內容已發表在英國《自然-計算科學》雜志上),生成式人工智能(側重于大型語言模型)預計在2020年至2030年間產生120萬噸至500萬噸的電子垃圾。這些電子廢物大部分來自硬件元件,如處理器和存儲器以及電源系統。產生的電子垃圾可能包括150萬噸的印制電路板和50萬噸的電池,其中可能含有鉛和鉻等有害物質。報告建議實施循環經濟戰略(即延長現有基礎設施的使用壽命并在再制造過程中重復使用關鍵模塊和材料),可減少86%的電子垃圾產生量。
參考資料 >
相輝校慶系列學術報告:面對ChatGPT類生成式人工智能的多重挑戰,這場報告會揭曉破局之法.復旦大學新聞.2023-11-23
人工智能可能有自主意識了嗎?.清華大學新聞.2023-11-23
ChatGPT爆紅 生成式AI科技掀吸金潮.聯合早報.2023-12-02
ChatGPT 浪潮之下:國內外 AIGC 與 GPT 技術的演化與應用.GLG25.2023-12-02
2023年度十大科技名詞.光明網-今日頭條.2024-01-02
世界知識產權組織:過去十年中國生成式AI專利申請量居全球第一.央視新聞.2024-07-04
我國生成式人工智能用戶規模達5.15億.百家號.2025-11-03
Generative vs. Discriminative Machine Learning Models.www.unite.ai.2023-11-23
對抗學習.廣州大學深度視覺實驗室.2023-11-23
潛變量模型 Latent Variable Model.academic-accelerator.2023-11-23
Deep Neural Network.techopedia.2023-11-24
What is a Deep Neural Network (DNN)?.oticon.2023-11-24
Infographic: Generative AI Explained by AI.visualcapitalist.com.2023-11-24
Adversarial Machine Learning.deepai.2023-11-24
chatgpt是什么.chatgpt中文網.2023-11-27
DALL-E 2.openai.2023-11-27
DALL-E 3.openai.2023-11-27
相由AI生:淺談深度偽造(Deepfake)與個人形象權.lexology.2023-12-05
什么是Deepfake技術?Deepfake技術的常見應用.網易伏羲.2023-12-05
揭秘谷歌Deep Dream的前世今生.機器之心.2023-12-05
DeepDream.tensorflow.2023-12-05
Deep Dream:計算機生成夢幻圖像.gitbook.2023-12-05
OpenAI推出MuseNet用來編寫音樂.鳳凰新聞.2023-11-27
生成式人工智能的安全風險及監管現狀.安全內參.2023-11-27
加強監管生成式人工智能.今日頭條.2023-11-20
《新一代人工智能倫理規范》發布.中華人民共和國科學技術部.2023-11-20
生成式人工智能服務管理暫行辦法.中國政府網.2023-11-20
美國對人工智能的監管:進展、爭論與展望.澎湃新聞.2023-11-20
開展“游說閃電戰” 發揮“規范性力量” 歐盟謀求AI監管領域主導權(環球熱點).《 人民日報海外版 》.2023-11-21
第一部AI監管法案要來了?歐洲議會通過《人工智能法案》草案.央視網.2023-11-21
生成式人工智能如何監管.今日頭條.2023-11-20
研究認為生成式AI將產生大量電子垃圾.百家號.2024-10-31