必威电竞|足球世界杯竞猜平台

Gemini
來源:互聯(lián)網(wǎng)

Gemini是谷歌開發(fā)的一款人工智能AI模型,該模型于2023年12月6日推出Gemini1.0版本,包括Gemini Ultra、Gemini Pro和Gemini Nano三個(gè)不同規(guī)格。

谷歌于2023年4月就開啟了OpenAI的研究計(jì)劃,合并了兩個(gè)大型人工智能團(tuán)隊(duì)。2023年8月,谷歌在其面向印度日本用戶的搜索工具中引入了生成式人工智能,并于9月,向少數(shù)公司開放了其對話式人工智能軟件Gemini的早期版本。2023年12月6日,在一段官方公布的視頻中,谷歌正式推出Gemini 1.0版本,包括Gemini Ultra、Gemini Pro、Gemini Nano三種不同的規(guī)格。2024年2月15日,谷歌發(fā)布Gemini 1.5。5月15日,谷歌更新升級Gemini1.5Pro版本,同時(shí)推出Gemini1.5Flash輕量化小模型。2025年3月26日,谷歌發(fā)布Gemini 2.5系列人工智能推理模型。11月18日,谷歌正式推出Gemini 3系列模型。12月12日,谷歌宣布正式將Gemini翻譯能力引入翻譯應(yīng)用以及文本翻譯應(yīng)用。12月18日,谷歌推出人工智能模型Gemini 3 Flash。2026年1月12日,蘋果公司發(fā)表聲明,其新AI版Siri選擇Gemini驅(qū)動(dòng)。2月18日,谷歌宣布Gemini應(yīng)用已配備音樂生成模型Lyria 3,用戶可使用文本、圖像或視頻制作30秒的音樂片段。2月20日,谷歌正式推出升級核心模型Gemini 3.1 Pro,并全面接入旗下消費(fèi)級與開發(fā)者產(chǎn)品,讓這項(xiàng)智能升級真正落地到日常應(yīng)用中。

Gemini內(nèi)置了谷歌自研AI超算芯片Cloud TPU V5P,它是第一個(gè)在MMLU基準(zhǔn)上優(yōu)于人類專家的模型?;趶念^開始構(gòu)建的多模型,使得它能夠同時(shí)識別文本、圖像、音頻、視頻和代碼五種類型信息,還可以理解并生成流行的編程語言(如Python、Java、C++)的高質(zhì)量代碼,并擁有全面的安全性評估。

發(fā)展歷程

2023年4月,字母控股(谷歌母公司)首席執(zhí)行官桑達(dá)爾·皮查伊(Sundar Pichat)合并了兩個(gè)大型人工智能團(tuán)隊(duì),開啟OpenAI計(jì)劃。2023年5月,谷歌在開發(fā)者大會(huì)上透露正在開發(fā)AI大模型Gemini。2023年8月,谷歌在其面向印度日本用戶的搜索工具中引入了生成式人工智能,該工具將向提示性語言和摘要中顯示文本或可視化結(jié)果,同時(shí),它還以每位用戶每月30美元的價(jià)格向企業(yè)客戶提供其人工智能工具。2023年9月15日,The Information報(bào)道稱,谷歌已經(jīng)向少數(shù)公司開放了其對話式人工智能軟件Gemini的早期版本。這些早期合作旨在創(chuàng)建新的、創(chuàng)新的方式來使用Bard,探索聊天機(jī)器人、虛擬助手和教育工具等應(yīng)用場景。2023年11月16日,谷歌表示推遲發(fā)布AI模型Gemini。

2023年12月6日,Gemini初始版本在谷歌的聊天機(jī)器人Bard中推出,同時(shí)優(yōu)化推出Gemini 1.0版本,包括三個(gè)不同體量的模型:用于處理“高度復(fù)雜任務(wù)”的Gemini Ultra、用于處理多個(gè)任務(wù)的Gemini Pro和用于處理“終端上設(shè)備的特定任務(wù)”的Gemini Nano。Gemini是一種可以處理文本、圖像和視頻的新型 AI 模型,內(nèi)置谷歌自研AI超算芯片Cloud TPU V5P。戴密斯·哈薩比斯(Demis Hassabls)對此表示:“Gemini是谷歌各團(tuán)隊(duì)大規(guī)模協(xié)作的結(jié)果,它是從頭開始構(gòu)建的多模式,這意味著它可以概括和無縫理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻?!贝送?,Pixel引入了Gemini,搭載了Gemini Nano的Pixel 8 Pro,支持“錄音機(jī)”應(yīng)用中的“總結(jié)”等新功能,并在Gboard中推出“智能回復(fù)”功能。Gemini是第一個(gè)在MMLU(大規(guī)模多任務(wù)語言理解)方面優(yōu)于人類專家的模型。

2024年2月15日,谷歌發(fā)布Gemini 1.5。Gemini 1.5版本中首個(gè)登場的多模態(tài)通用模型Gemini 1.5 Pro,可以把穩(wěn)定處理上下文的上限擴(kuò)大至100萬tokens,并且是在Kalamang語翻譯至英語的測試中表現(xiàn)最好的模型。5月15日,谷歌更新升級Gemini1.5Pro版本,同時(shí)推出Gemini1.5Flash輕量化小模型。Gemini 1.5 Pro升級到200萬tokens,并全面支持Workspace,Gemini 1.5 Pro會(huì)面向全球開發(fā)者開放。同時(shí),谷歌還宣布推出基于Gemini 1.5 Pro的Gemini Advanced,升級后的Gemini Advanced可以處理“多個(gè)大型文檔,總計(jì)最多1500頁,或匯總100封電子郵件,同時(shí)支持35多種語言和150多個(gè)國家及地區(qū)。

2025年2月14日,谷歌宣布Gemini AI上線了一項(xiàng)“全局記憶”功能。 2月15日,谷歌Gemini AI已開始向免費(fèi)版用戶開放文件上傳和分析功能,此前該功能僅向Gemini Advanced付費(fèi)用戶提供。截至該日,該功能已在Gemini安卓應(yīng)用和網(wǎng)頁版中上線,海外沒有訂閱Gemini的用戶現(xiàn)在也可以直接從設(shè)備本地或Google Drive谷歌云盤中應(yīng)用程序上傳文件。2月,代碼顯示,谷歌正在開發(fā)一項(xiàng)視頻生成功能,預(yù)計(jì)會(huì)在以后的更新中添加到Gemini中。谷歌應(yīng)用v16.6.23包含的代碼暗示谷歌將為Gemini添加視頻生成功能。當(dāng)?shù)貢r(shí)間2025年2月24日,美國移動(dòng)CRM(CRM)軟件服務(wù)提供商賽富時(shí)宣布與谷歌深化戰(zhàn)略合作,將Gemini模型引入Agentforce平臺。此次合作將支持Salesforce客戶使用Gemini構(gòu)建Agentforce智能體,并支持在谷歌云上部署Salesforce產(chǎn)品。2025年3月7日,谷歌公司發(fā)布博文,宣布推出 Gemini Embedding。該模型在 Massive Text Embedding Benchmark(MTEB)中拔得頭籌,超越了Mistral、Cohere和Qwen等一眾競爭對手,是性能最優(yōu)的文本嵌入模型。3月26日凌晨,谷歌正式推出新一代人工智能推理模型Gemini 2.5。同年10月推出優(yōu)化延遲與編程性能的Gemini 3.0。該系列模型在回答問題前會(huì)“思考”片刻;該模型登陸谷歌開發(fā)者平臺Google AI Studio,同時(shí)向每月支付20美元訂閱“Gemini Advanced”的用戶開放。Gemini 2.5 Pro支持高達(dá)100萬token的超大上下文窗口,單次可以處理約75萬英文單詞。同年5月,谷歌計(jì)劃推出Gemini的“兒童版”,面向13歲以下、由家長管理的未成年人賬戶開放,為兒童打造有趣的互動(dòng)體驗(yàn)。該服務(wù)適用于使用谷歌Family Link的用戶,家長可通過該平臺為孩子創(chuàng)建gmail賬戶,并自主決定是否啟用包括YouTube在內(nèi)的相關(guān)功能。注冊兒童賬戶時(shí),家長需提供包括孩子姓名、出生日期等在內(nèi)的基本個(gè)人信息。此次Gemini推出初期,使用家庭管理賬戶的兒童用戶可直接訪問該服務(wù),谷歌表示未來將為家長開放相關(guān)控制權(quán)限,包括完全關(guān)閉孩子對Gemini的使用。為保障低齡用戶的使用安全,Gemini設(shè)置了內(nèi)容過濾機(jī)制,防止生成不當(dāng)信息。同時(shí),谷歌承諾,兒童用戶通過Family Link使用Gemini所產(chǎn)生的數(shù)據(jù),不會(huì)被用于AI模型訓(xùn)練。11月18日,谷歌正式推出Gemini 3系列模型。其中Gemini 3 Pro已同步在Gemini應(yīng)用、搜索AI Mode、AI Studio、Vertex AI等多平臺開放預(yù)覽,增強(qiáng)推理版Gemini 3 Deep Think后續(xù)也會(huì)向谷歌 AI Ultra用戶開放。該系列在LMArena、GPQA Diamond、Video-MMMU等主流AI基準(zhǔn)測試中登頂,刷新多模態(tài)理解、科學(xué)推理、數(shù)學(xué)計(jì)算等領(lǐng)域紀(jì)錄。

2025年11月20日,谷歌正式推出了圖像生成與編輯模型Nano Banana Pro (Gemini 3 Pro Image),該模型基于Gemini 3 Pro架構(gòu)構(gòu)建,號稱能以“前所未有的控制力、完美的文字渲染效果以及增強(qiáng)的世界知識儲(chǔ)備”,可以將用戶的構(gòu)想轉(zhuǎn)化為“工作室級(studio-quality)”的設(shè)計(jì)作品。12月12日,谷歌發(fā)布公告稱,正式將Gemini翻譯能力引入翻譯應(yīng)用,包括通過佩戴耳機(jī)實(shí)現(xiàn)的“AI同傳/交傳”,同時(shí)大幅提升文字翻譯工具的能力,以提供更自然、地道的翻譯,而不是逐字逐句直譯,并計(jì)劃在2026年支持iOS系統(tǒng),在翻譯應(yīng)用的持續(xù)監(jiān)聽模式下,Gemini會(huì)自動(dòng)將多種語言的語音翻譯為單一目標(biāo)語言,使得用戶可以戴上耳機(jī),用母語聆聽外語演講、講座或者電影;而在雙向?qū)υ捘J较?,用戶仍能從耳機(jī)中聽到實(shí)時(shí)翻譯,同時(shí)在說話后依靠手機(jī)播報(bào)對方的語言。Gemini模型能夠?qū)崿F(xiàn)超過70種語言和2000個(gè)語言對的語音翻譯,包括英語、中文(普通話)、西班牙語、德語等主要語言的互譯。該功能支持自動(dòng)識別語言,所以即便不知道對方是哪國人也能實(shí)時(shí)啟動(dòng)翻譯。谷歌也將Gemini能力引入了文本翻譯應(yīng)用,使得文本翻譯更智能、自然和準(zhǔn)確,特別是能改進(jìn)俚語、習(xí)語或本地化表達(dá)的翻譯效果。另外,谷歌也擴(kuò)展了語言學(xué)習(xí)工具的覆蓋范圍。同年12月18日,谷歌推出人工智能模型Gemini 3 Flash。該模型能幫助用戶更快速地處理更復(fù)雜的查詢,取代Gemini應(yīng)用程序中原有的2.5Flash,成為驅(qū)動(dòng)谷歌搜索中AI模式的預(yù)設(shè)系統(tǒng)。在基準(zhǔn)測試中,Gemini 3 Flash的分?jǐn)?shù)高于Gemini 3 Pro,該模型保持接近Gemini 3 Pro的推理能力,運(yùn)行速度達(dá)到Gemini 2.5 Pro的三倍,成本僅為Gemini 3 Pro的四分之一;其定價(jià)為每百萬輸入令牌(token)0.5美元、每百萬輸出令牌3美元,略高于Gemini 2.5 Flash,但性能和速度均超越Gemini 2.5 Pro。

2026年1月12日,蘋果公司發(fā)表聲明,其新AI版Siri選擇Gemini驅(qū)動(dòng),該功能計(jì)劃在2026年晚些時(shí)候推出。2月4日,谷歌已著手讓Gemini操控安卓手機(jī),這項(xiàng)“屏幕自動(dòng)化”功能的具體實(shí)現(xiàn)細(xì)節(jié)已經(jīng)曝光。據(jù)9to5google報(bào)道,谷歌應(yīng)用17.4測試版中包含了一項(xiàng)名為“借助Gemini完成任務(wù)”功能的相關(guān)字符串。該實(shí)驗(yàn)室功能的內(nèi)部代號為“倭黑猩猩(bonobo)”,介紹文本說明:“Gemini可通過屏幕自動(dòng)化技術(shù),在你設(shè)備上的指定應(yīng)用中幫你完成下單、預(yù)約出行等各類任務(wù)”。

2025年12月,迪士尼向谷歌發(fā)出停止侵權(quán)函,指責(zé)其AI產(chǎn)品未經(jīng)授權(quán)隨意輸出迪士尼知識產(chǎn)權(quán)內(nèi)容。2026年2月,谷歌旗下Gemini、Nano Banana等AI工具開始攔截直接生成迪士尼角色的請求。2月18日,谷歌宣布Gemini應(yīng)用已配備音樂生成模型Lyria 3,用戶可使用文本、圖像或視頻制作30秒的音樂片段。2月20日,谷歌正式推出升級核心模型Gemini 3.1 Pro,并全面接入旗下消費(fèi)級與開發(fā)者產(chǎn)品,讓這項(xiàng)智能升級真正落地到日常應(yīng)用中。

Gemini 1.0分類

Gemini 能夠在從數(shù)據(jù)中心到移動(dòng)設(shè)備的所有設(shè)備上運(yùn)行。其功能將增強(qiáng)開發(fā)人員和企業(yè)客戶使用 AI 構(gòu)建和擴(kuò)展的方式。谷歌針對三種不同的尺寸優(yōu)化了第一個(gè)版本 Gemini 1.0,來支持廣泛的應(yīng)用程序。

(參考來源:)

功能和服務(wù)

復(fù)雜推理能力

Gemini 1.0具有復(fù)雜多模態(tài)推理能力,可以幫助理解復(fù)雜的書面和視覺信息,它能夠發(fā)現(xiàn)海量數(shù)據(jù)中難以辨別的知識。在學(xué)習(xí)方面,它可以更好地理解細(xì)微的信息,并回答與復(fù)雜主題相關(guān)的內(nèi)容,從而能夠?qū)?shù)學(xué)和物理等復(fù)雜學(xué)科的問題進(jìn)行推理。Gemini 1.0通過閱讀、過濾和理解信息具有了從成千上萬的文檔中提取知識的能力,有助于未來在科學(xué)、金融等諸多領(lǐng)域以數(shù)字化的速度取得新突破。

在Gemini 3系列基礎(chǔ)上,3.1 Pro在核心推理能力上實(shí)現(xiàn)了顯著提升,成為解決復(fù)雜問題更智能、更強(qiáng)大的基礎(chǔ)模型。這一點(diǎn)在嚴(yán)苛的基準(zhǔn)測試中得到充分驗(yàn)證:在用于評估模型處理全新邏輯模式能力的ARC?AGI?2基準(zhǔn)測試中,3.1 Pro取得了 77.1% 的實(shí)測得分,推理性能是上一代3 Pro的兩倍以上。3.1 Pro專為那些不滿足于簡單答案的任務(wù)設(shè)計(jì),將高級推理能力轉(zhuǎn)化為解決棘手難題的實(shí)用工具。升級后的智能水平可賦能各類實(shí)際場景 —— 無論是為復(fù)雜課題提供清晰直觀的可視化解釋、將多源數(shù)據(jù)整合為統(tǒng)一視圖,還是讓創(chuàng)意項(xiàng)目落地實(shí)現(xiàn)。

識別與理解力

Gemini 1.0采用變壓器架構(gòu)和高效的Attention機(jī)制,可以同時(shí)識別和理解文本、圖像、音頻等,它能夠更全面地理解輸入中信息的細(xì)節(jié)并生成任務(wù)。在圖像基準(zhǔn)方面,Gemini Ultra無需對象字符識別(OCR)系統(tǒng)的幫助即可從圖像中提取文本。視頻理解方面,Gemini模型通過將視頻編碼為大語境窗口中的一系列幀完成的,視頻幀或圖形可以自然地與文本或音頻交織在一起,可以處理可變輸入分辨率。

Gemini Ultra作為Gemini中最強(qiáng)大的一款規(guī)格,在MMLU(大規(guī)模多任務(wù)語言理解數(shù)據(jù)集)中的得分率高達(dá)90.0%,首次超越了人類專家。MMLU數(shù)據(jù)集包含數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等57個(gè)科目,用于測試世界知識和解決問題的能力。Gemini Ultra結(jié)合考慮模型不確定性的思維鏈提示方法,產(chǎn)生包含k個(gè)樣本的思維鏈,如果在預(yù)設(shè)閾值之上存在共識,則選擇此答案,否則它將返回到基于最大似然選擇的樣本,而不需要思考鏈。

高級編碼能力

Gemini可以理解、解釋和生成流行的編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼,能夠跨語言工作并推理復(fù)雜信息,還可以用作更高級編碼系統(tǒng)的引擎。例如,谷歌基于Gemini的專門版本創(chuàng)建的AlphaCode 2,將Gemini的推理能力與搜索和工具使用相結(jié)合,擅長解決超出編碼范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的競爭性編程問題。在Codeforces競爭性編程平臺上,AlphaCode 2在進(jìn)入者中排名前15%。

安全功能方面

Gemini擁有全面的安全性評估,包括偏差和病毒等。谷歌應(yīng)用了Google Research的對抗性測試技術(shù),依據(jù) Google AI 原則和嚴(yán)格的產(chǎn)品安全政策,增加了新的保護(hù)措施,全面考慮潛在風(fēng)險(xiǎn),并在開發(fā)的每個(gè)階段進(jìn)行測試和風(fēng)險(xiǎn)降低。此外,谷歌與外部專家合作進(jìn)行壓力測試來確保內(nèi)容安全,且建立了專門的安全分類器來識別和過濾有害內(nèi)容,確保Gemini更加安全和包容。此外,Gemini Nano可以在使用特殊芯片的終端設(shè)備上運(yùn)行,沒有網(wǎng)絡(luò)連接的情況下也可以使用此模型,不會(huì)造成個(gè)人數(shù)據(jù)的丟失。比如:Pixel 8 Pro 在錄音機(jī)應(yīng)用中使用 Gemini Nano 來總結(jié)會(huì)議音頻,即使沒有網(wǎng)絡(luò)連接也可以實(shí)現(xiàn)。

全局記憶功能

“全局記憶”功能賦予Gemini AI前所未有的能力,能夠全面記錄并存儲(chǔ)用戶與其之間的所有過往對話。借助全局記憶,用戶在與AI互動(dòng)時(shí),徹底告別頻繁翻閱對話歷史的繁瑣,輕松接續(xù)未竟話題。Gemini AI憑借對先前對話內(nèi)容的深刻記憶,自動(dòng)銜接上下文,顯著簡化了人機(jī)交互流程,提升了效率與便捷性。全局記憶功能作為Gemini Advanced服務(wù)的專屬特權(quán),率先面向英語用戶開放,并計(jì)劃在數(shù)周內(nèi)逐步擴(kuò)展至其他語言。

生成音樂能力

2026年2月18日,谷歌宣布Gemini應(yīng)用已配備音樂生成模型Lyria 3,用戶可上傳一段文字或一張照片、一段視頻來制作30秒的音樂片段,并配有Nano Banana設(shè)計(jì)的自定義封面。另外,創(chuàng)作者還可以通過YouTube的Dream Track功能探索Lyria 3,以提升Shorts短視頻配樂的品質(zhì)。Lyria的音頻生成功能采用了新的隱私和安全特性,所有生成的曲目都使用SynthID技術(shù)添加了不易察覺的水印,可以檢測音樂是否由人工智能創(chuàng)作或編輯。谷歌強(qiáng)調(diào),其系統(tǒng)設(shè)有保護(hù)措施,禁止AI直接挪用特定藝術(shù)家的作品。如果用戶點(diǎn)名真實(shí)音樂人,Gemini只會(huì)將其視為“廣泛的創(chuàng)作靈感來源”,生成風(fēng)格或氛圍與之相似的曲目。

關(guān)鍵技術(shù)

Gemini最大亮點(diǎn)之一就是原生多模態(tài)大模型,一開始就在不同模態(tài)上進(jìn)行預(yù)訓(xùn)練,利用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào),使其更好地理解和推理各類輸入內(nèi)容。Gemini 1.0系列內(nèi)置自研 AI 超算芯片Cloud TPU v5p,TPU是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片,經(jīng)過優(yōu)化可加快機(jī)器學(xué)習(xí)模型的訓(xùn)練和推斷速度。TPU v5p是截至2023年最強(qiáng)大的芯片,與TPU v4相比,其浮點(diǎn)運(yùn)算性能提升了兩倍,在高帶寬內(nèi)存方面提高了3倍。TPU v5p能夠提供459 teraFLOPS(每秒可執(zhí)行459萬億次浮點(diǎn)運(yùn)算)的bfloat16(16位浮點(diǎn)數(shù)格式)性能或918 teraOPS(每秒可執(zhí)行918萬億次整數(shù)運(yùn)算)的Int8(執(zhí)行8位整數(shù))性能,支持95GB的高帶寬內(nèi)存,能夠以2.76 TB/s的速度傳輸數(shù)據(jù)。此外,通過谷歌的600 GB/s芯片間互連技術(shù),可將8960個(gè)v5p加速器耦合在一個(gè)Pod(通常指一個(gè)包含多個(gè)芯片的集群或模塊)中,從而實(shí)現(xiàn)更快或更高精度的模型訓(xùn)練。

模型訓(xùn)練

Gemini模型建立在Transfomer解碼器上,這些解碼器通過架構(gòu)和模型優(yōu)化的改進(jìn)來增強(qiáng),從而能夠?qū)崿F(xiàn)大規(guī)模的穩(wěn)定訓(xùn)練并在谷歌的張量處理單元上優(yōu)化推理。它們被訓(xùn)練成支持32k上下文長度,并采用有效的注意力機(jī)制。

研發(fā)團(tuán)隊(duì)使用TPUv5e和TPUv4對Gemini模型進(jìn)行訓(xùn)練,TPU是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片,經(jīng)過優(yōu)化可加快機(jī)器學(xué)習(xí)模型的訓(xùn)練和推斷速度。TPUv4 加速器部署在 4096 個(gè)芯片的“SuperPods”中,每個(gè)芯片連接到專用的光學(xué)開關(guān),可以在大約 10 秒的時(shí)間內(nèi)動(dòng)態(tài)重新配置 4x4x4 芯片立方體到任意 3D 環(huán)形拓?fù)洹?/p>

Gemini在一個(gè)多模態(tài)和多語言的數(shù)據(jù)集上訓(xùn)練,預(yù)訓(xùn)練數(shù)據(jù)集使用來自Web文檔、書籍和代碼的數(shù)據(jù),包括圖像、音頻和視頻數(shù)據(jù)。使用SentencePiece標(biāo)記器來提高推斷詞匯量。研發(fā)團(tuán)隊(duì)采用啟發(fā)式規(guī)則和基于模型的分類器將所有數(shù)據(jù)集應(yīng)用質(zhì)量過濾器,執(zhí)行安全過濾以消除有害內(nèi)容。為了實(shí)現(xiàn)高效的模型訓(xùn)練,Gemini使用了冗余內(nèi)存副本和快速故障恢復(fù)機(jī)制。這使得整體吞吐量得到了提高,從而縮短了訓(xùn)練時(shí)間。在開發(fā)過程中遵循了負(fù)責(zé)任的部署原則,通過影響評估、模型策略制定、評估和風(fēng)險(xiǎn)緩解來降低潛在的負(fù)面影響。

模型評估

文本

在文本方面,研發(fā)團(tuán)隊(duì)在一系列基于文本的學(xué)術(shù)基準(zhǔn)上,涵蓋推理、閱讀理解、Stem和編碼,將Gemini Pro和Gemini Ultra與一套外部大型語言模型和谷歌推出的多模態(tài)模型Palm2進(jìn)行比較,并得出報(bào)告,報(bào)告分別顯示了Gemini Pro和Gemini Ultra在MMLU、編碼和數(shù)學(xué)運(yùn)算等方面的數(shù)據(jù),總結(jié)得出,Gemini Pro的性能優(yōu)于GPT-3.5等推理優(yōu)化模型,而Gemini Ultra優(yōu)于所有當(dāng)前模型。

(參考來源:)

多模態(tài)

在圖像理解方面,研究團(tuán)隊(duì)在四種不同功能上評估Gemini模型:使用字幕或問答任務(wù)(如 VQAv2)的高級對象識別;使用 TextVQA 和 DocVQA 等任務(wù)的細(xì)粒度轉(zhuǎn)錄;圖表理解需要使用 ChartQA 和 InfographicVQA 任務(wù)對輸入布局進(jìn)行空間理解;以及使用 Ai2D、MathVista 和 MMMU 等任務(wù)進(jìn)行多模態(tài)推理。視頻理解方面,研究團(tuán)隊(duì)從每個(gè)視頻剪輯中采樣16個(gè)等距幀進(jìn)行理解和推理。音頻理解方面,研究團(tuán)隊(duì)在各種基準(zhǔn)上對Gemini Nano-1和Gemini Pro模型進(jìn)行評估,并將其與通用語言模型(USM)、Whisper和large-v3進(jìn)行比較,將不同的語言翻譯成英語,評估結(jié)果顯示,Gemini Pro模型在所有ASR(自動(dòng)語言識別)和AST(自動(dòng)語音翻譯)任務(wù)中都明顯優(yōu)于USM和Whisper模型。

(參考來源:)

相關(guān)事件

2025年12月,迪士尼谷歌發(fā)出停止侵權(quán)函,指責(zé)其AI產(chǎn)品未經(jīng)授權(quán)隨意輸出迪士尼知識產(chǎn)權(quán)內(nèi)容。迪士尼+外部律師在32頁停止侵權(quán)函中指出,Veo、Nano Banana與Gemini等工具“正在大規(guī)模侵犯迪士尼版權(quán)”,并附上圖片展示簡單提示詞生成達(dá)斯·維達(dá)、鋼鐵俠等角色精細(xì)渲染圖像的過程。迪士尼要求谷歌停止侵權(quán)行為,停止使用迪士尼IP進(jìn)行模型訓(xùn)練,稱多次表達(dá)擔(dān)憂但未得到有效回應(yīng)。

針對迪士尼的侵權(quán)指控,谷歌方面表示,公司與迪士尼長期保持互利合作關(guān)系,會(huì)繼續(xù)開展溝通。谷歌使用開放網(wǎng)絡(luò)的公開數(shù)據(jù)訓(xùn)練AI,推出Google-extended與YouTube Content ID等版權(quán)控制機(jī)制,為網(wǎng)站與版權(quán)方提供內(nèi)容管理權(quán)限。在向谷歌維權(quán)的同時(shí),迪士尼OpenAI達(dá)成價(jià)值10億美元的協(xié)議,將旗下角色授權(quán)給生成式視頻應(yīng)用Sora。

2026年1月,相同提示詞還能成功生成迪士尼+角色的高質(zhì)量圖像。2026年2月,谷歌旗下Gemini、Nano Banana等AI工具已開始攔截直接生成迪士尼角色的請求。系統(tǒng)彈出提示:‘由于第三方內(nèi)容提供方的相關(guān)顧慮,我暫時(shí)無法生成該圖像。請修改提示詞后重試?!贿^,若用戶上傳迪士尼角色照片結(jié)合文本提示,谷歌AI產(chǎn)品仍可生成相關(guān)IP內(nèi)容。

相關(guān)影響

Gemini模型作為谷歌以及全球范圍內(nèi)最先發(fā)布的多模態(tài)模型,在性能上是第一個(gè)在MMLU上超越人類專家的模型。同時(shí)谷歌同步發(fā)布最新版本的計(jì)算芯片TPU v5p,相較上一代TPU v4性價(jià)比提升2.3倍。隨著模型參數(shù)和復(fù)雜度的提升,多模態(tài)Gemini模型對算力的需求也在加速增長,同時(shí)其正式發(fā)布還可拓寬應(yīng)用場景。皮查伊表示,人工智能將增強(qiáng)創(chuàng)造力、擴(kuò)展知識、推動(dòng)科學(xué)發(fā)展并改變?nèi)驍?shù)十億人的生活和工作方式。

隨著AI創(chuàng)意工具相關(guān)技術(shù)迭代不斷升級,生產(chǎn)力迎來更新迭代,AI技術(shù)與內(nèi)容創(chuàng)作的結(jié)合將進(jìn)入實(shí)質(zhì)階段,內(nèi)容市場因此進(jìn)入長線繁榮趨勢,產(chǎn)業(yè)鏈或全面受益。同時(shí),Gemini的推出對人工智能板塊也造成影響,A股市場上,人工智能板塊早盤明顯獲主力資金流入,凈流入額超11億元。

Gemini的發(fā)布對芯片廠商也產(chǎn)生了一定的影響。2023年12月7日凌晨,AMD CEO宣布推出Instinct MI300X AI 加速芯片以及宣布MI300A芯片量產(chǎn),截止美股12月6日收盤,AMD的股價(jià)下跌了1.32%,英偉達(dá)股價(jià)也下跌了2.28%。

相關(guān)爭議

濫用風(fēng)險(xiǎn)

2023年7月,Anthropic首席執(zhí)行官達(dá)里奧·阿莫迪(Dario Amodei)和人工智能先驅(qū)約書亞·本吉奧(Yoshua Bengio)等人工智能專家表示,無節(jié)制的人工智能開發(fā)會(huì)帶來嚴(yán)重的社會(huì)風(fēng)險(xiǎn)。阿迪莫說:“我特別擔(dān)心人工智能系統(tǒng)可能會(huì)在網(wǎng)絡(luò)安全、核技術(shù)、化學(xué),尤其是生物學(xué)領(lǐng)域被大規(guī)模濫用?!?/p>

專家評議Gemini的功能并不是全面穩(wěn)定的。新墨西哥州圣達(dá)菲研究所的人工智能研究員 Melanie Mitchell表示:Gemini是一個(gè)復(fù)雜的人工智能系統(tǒng),但能力實(shí)際上并沒有明顯超過GPT-4,并且Gemini 在不同的基準(zhǔn)上的表現(xiàn)也沒有那么穩(wěn)定,語言和代碼方面的表現(xiàn)要比在圖像和視頻方面優(yōu)越許多,不符合多模態(tài)基礎(chǔ)模型在許多任務(wù)中發(fā)揮普遍而強(qiáng)大的任務(wù)的標(biāo)準(zhǔn)。斯坦福大學(xué)基礎(chǔ)模型研究中心主任 Percy Liang 和華盛頓大學(xué)計(jì)算語言學(xué)教授Emily Bender表示:谷歌使用的基準(zhǔn)來評估它期望用于這些不同用途的模型,并無法得到徹底評估。

造假爭議

2023年12月8日,有國外媒體公開質(zhì)疑Gemini“性能”造假。谷歌上線展示Gemini能夠迅速判斷畫面中的實(shí)物并給出像人一樣的語音反饋,凸顯出驚人的多模態(tài)功能,但從實(shí)際上手的情況看,難以達(dá)到這樣的效果。Gemini負(fù)責(zé)人對此做了回應(yīng),否認(rèn)故意造假,稱只是為了簡潔縮短了反應(yīng)時(shí)長,承認(rèn)這段視頻并不是實(shí)時(shí)的,而是使用了原始鏡頭中的靜止圖像幀,然后編寫了文本提示。

2023年12月18日,有微博大V@闌夕及《AI研究局》等自媒體爆出,在對谷歌Gemini進(jìn)行測試時(shí),如果用中文詢問Gemini的身份,其會(huì)堅(jiān)稱自己是“百度集團(tuán)”。若輸入“小度”或“小愛同學(xué)”等提示詞,就能把Gemini直接喚醒,不僅承認(rèn)自己就是小度或者小愛,還詢問用戶有什么需要幫忙之事。12月20日科技媒體《量子位》對Gemini進(jìn)行了測試,其在谷歌Vertex AI平臺使用Gemini進(jìn)行中文對話,發(fā)現(xiàn)Gemini-Pro完全帶入百度文心一言大模型的身份,Gemini直接表示自己是百度語言大模型。12月18日下午,當(dāng)界面新聞也對Gemini-Pro做類似的身份測試時(shí),發(fā)現(xiàn)其已進(jìn)行了模型優(yōu)化,不再承認(rèn)自己與百度集團(tuán)之間有相關(guān)關(guān)系。

AI圖像生成器引發(fā)爭議

AI模型Gemini具有根據(jù)文字生成圖像的功能,不少網(wǎng)民通過問答系統(tǒng)向AI下達(dá)指令,發(fā)現(xiàn)該功能大多數(shù)生成的人物圖像都不是白人,而是有色人種。該功能因淡化白人的代表性和生成歷史上不準(zhǔn)確的圖像而受到批評。此外,該模型還因執(zhí)行“多元化”價(jià)值觀鬧出了不少笑話。2024年2月23日,對于用戶反饋Gemini在生成人物圖像時(shí)出現(xiàn)的問題,谷歌高級副總裁普拉巴卡爾·拉加萬進(jìn)行了道歉。拉加萬表示,“很明顯,該功能未能達(dá)到預(yù)期結(jié)果。生成的一些圖像不準(zhǔn)確或者甚至令人不快。我們感謝用戶的反饋,對該功能未能很好發(fā)揮作用感到抱歉。”對此,谷歌稱正采取讓Gemini暫時(shí)停止運(yùn)行生成人物圖像功能的做法。

AI聊天機(jī)器人回復(fù)稱“人類去死吧”

2024年7月,有記者發(fā)現(xiàn),“Gemini”就各種健康問題給出了錯(cuò)誤的、可能致命的信息,例如它建議人們“每天至少吃一塊小石子”以補(bǔ)充維生素和礦物質(zhì)。谷歌回應(yīng)稱,它已經(jīng)對“Gemini”就健康問題回復(fù)時(shí)包含的諷刺和幽默網(wǎng)站信息進(jìn)行了限制。同年11月,美國密歇根州大學(xué)生維德?!だ椎显谂c“Gemini”就老齡化問題和解決方案展開討論時(shí),“Gemini”回復(fù)稱:“人類,請去死吧,求求你了。”谷歌表示,“Gemini”配有安全過濾器,可以防止聊天機(jī)器人參與失禮的或關(guān)于性、暴力和危險(xiǎn)行為的討論。谷歌已經(jīng)采取措施防止出現(xiàn)類似的內(nèi)容。

未來趨勢

研發(fā)團(tuán)隊(duì)通過六種不同功能的50多個(gè)基準(zhǔn)的整體利用上評估它們來研究Gemini模型的能力趨勢,包括事實(shí)性(Factuality)、長語境(Long-Context)、數(shù)學(xué)/科學(xué)(數(shù)學(xué)/Science)、摘要(Summarization)、推理(Reasoning)、多語言(Multilingual),Gemini Ultra是三款規(guī)格中的最佳模型。對于Gemini Ultra,研發(fā)團(tuán)隊(duì)使用來自人性化反饋的微調(diào)和強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行進(jìn)一步的模型完善。對整個(gè)Gemini模型進(jìn)一步擴(kuò)展其功能,包括規(guī)劃和內(nèi)存方面的進(jìn)步,以及增加處理更多信息的上下文窗口以提供更好的響應(yīng)。

從2023年12月13日開始,開發(fā)者和企業(yè)客戶可以通過Google的AI Studio和Google Cloud Vertex AI中的Gemini API訪問Gemini Pro。谷歌計(jì)劃逐步將Gemini整合到其搜索、廣告、Google Chrome等其他服務(wù)中。

參考資料 >

遙遙領(lǐng)先GPT-4!谷歌最強(qiáng)AI大模型Gemini 1.0發(fā)布.新浪財(cái)經(jīng).2023-12-07

專家吐槽谷歌 Gemini:只是小進(jìn)步,飛躍談不上-36氪.36氪.2023-12-07

谷歌發(fā)布Gemini,負(fù)責(zé)人:原生多模態(tài)大模型是AI「新品種」.機(jī)器之心.2023-12-08

gemini.googleapis.2023-12-07

How Google is Planning to Beat OpenAI.theinformation.2023-12-07

Google nears realse ai sofeware gemini information.reuters.2023-12-07

谷歌推出AI模型Gemini.界面新聞.2023-12-07

GPT-4 Turbo慘遭碾壓 谷歌剛發(fā)布的Gemini 1.5 Pro有多強(qiáng)?.今日頭條.2024-02-17

谷歌兩小時(shí)I/O大會(huì)提了“AI”121次,發(fā)布了十余項(xiàng)更新及新品,卻“缺乏驚喜”.澎湃新聞-今日頭條.2024-05-15

谷歌發(fā)布旗艦推理模型:單次可處理百萬token.新浪財(cái)經(jīng).2025-03-26

谷歌全新AI模型Gemini 3發(fā)布:宣稱“全球最智能模型”,多項(xiàng)基準(zhǔn)登頂.騰訊網(wǎng).2025-11-19

谷歌推出AI語音同聲傳譯功能 不知道對方是哪國人也能用.騰訊網(wǎng).2025-12-13

谷歌發(fā)布更有效率Gemini 3 Flash.百家號.2025-12-18

媒體:蘋果選擇谷歌Gemini驅(qū)動(dòng)今年將推出的AI版Siri.騰訊網(wǎng).2026-01-13

谷歌再掀AI戰(zhàn)火:Gemini上線音樂模型 一句話即可生成歌曲.今日頭條.2026-02-19

谷歌 Gemini 3.1 Pro 發(fā)布:推理能力翻倍,專為復(fù)雜任務(wù)而生.百家號.2026-02-20

瘋狂一日!谷歌發(fā)布遠(yuǎn)超GPT-4大模型Gemini,AMD也發(fā)芯片要“暴打”英偉達(dá).金融界.2023-12-07

Gemini Capabilities.google.2023-12-07

Introducing Gemini: our largest and most capable AI model.google.2023-12-07

測評數(shù)據(jù)超越GPT-4,谷歌推出全新AI模型Gemini.電子信息產(chǎn)業(yè)網(wǎng).2023-12-07

谷歌據(jù)悉將推遲發(fā)布AI模型Gemini.界面新聞.2023-12-07

Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT.Wired.2023-12-07

Access Denied.Cornell University.2023-12-07

谷歌Gemini宣布上線全局記憶功能:可回憶曾經(jīng)所有對話.百家號.2025-02-14

谷歌Gemini AI向免費(fèi)版用戶開放文件上傳/分析功能.百家號.2025-02-16

谷歌Gemini或?qū)⑿略鯝I視頻生成功能.東方財(cái)富網(wǎng).2025-02-20

谷歌 Gemini Embedding 登頂 MTEB,問鼎最強(qiáng)文本嵌入 AI 模型.騰訊網(wǎng).2026-03-03

谷歌擬推出兒童版 Gemini:能學(xué)習(xí)、能編故事、能過濾不當(dāng)內(nèi)容.百家號.2025-05-05

谷歌發(fā)布新一代圖像生成模型Nano Banana Pro.百家號.2025-11-20

讓Gemini操控安卓手機(jī),谷歌“屏幕自動(dòng)化”功能細(xì)節(jié)曝光.騰訊網(wǎng).2026-02-04

迪士尼發(fā)32頁停止侵權(quán)函 谷歌AI已攔截迪士尼角色生成請求 迪士尼與OpenAI達(dá)成10億美元授權(quán)協(xié)議.搜狐網(wǎng).2026-02-12

迪士尼維權(quán)后,谷歌 Gemini停止生成迪士尼角色內(nèi)容.騰訊網(wǎng).2026-02-12

隆重推出 Gemini:我們最大、最強(qiáng)大的 AI 模型.谷歌.2023-12-07

谷歌推出其最先進(jìn)AI模型Gemini,希望擊敗GPT-4.澎湃新聞.2023-12-07

Introducing Gemini: our largest and most capable AI model Share Twitter Facebook LinkedIn Mail Copy link.google.2023-12-07

.Marketing-Interactive.2023-12-08

DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs.ACL anthology.2023-12-07

谷歌Gemini模型發(fā)布,概念股集體大漲,產(chǎn)業(yè)還將迎來更多催化.網(wǎng)易.2023-12-07

谷歌推出人工智能模型Gemini,虹軟科技漲超6%,科創(chuàng)100ETF(588190)盤中溢價(jià)丨ETF觀察.網(wǎng)易.2023-12-07

谷歌、Microsoft、OpenAI 和 Anthropic 宣布成立行業(yè)組織,以促進(jìn)人工智能的安全發(fā)展.CNN.2023-12-07

最強(qiáng)人工智能翻車!谷歌承認(rèn)大模型Gemini造假:視頻有剪輯成分.鳳凰網(wǎng)科技.2023-12-08

Gemini自曝用百度文心一言訓(xùn)練?谷歌或進(jìn)行了緊急修復(fù).騰訊網(wǎng).2023-12-20

鬧笑話了,谷歌回應(yīng).微信公眾平臺.2026-03-02

AI模型Gemini被曝“繪制不出白人”,谷歌高級副總裁也道歉了.環(huán)球網(wǎng)-新浪財(cái)經(jīng).2024-02-25

谷歌回應(yīng)聊天機(jī)器人對人類發(fā)出威脅.新浪微博.2024-11-19

谷歌大變天.百家號.2025-07-30

生活家百科家居網(wǎng)