竞技宝,fun88官网,雷竞技官网

來源：互聯(lián)網(wǎng)

Gemini是谷歌開發(fā)的一款人工智能AI模型，該模型于2023年12月6日推出Gemini1.0版本，包括Gemini Ultra、Gemini Pro和Gemini Nano三個(gè)不同規(guī)格。

谷歌于2023年4月就開啟了OpenAI的研究計(jì)劃，合并了兩個(gè)大型人工智能團(tuán)隊(duì)。2023年8月，谷歌在其面向印度和日本用戶的搜索工具中引入了生成式人工智能，并于9月，向少數(shù)公司開放了其對話式人工智能軟件Gemini的早期版本。2023年12月6日，在一段官方公布的視頻中，谷歌正式推出Gemini 1.0版本，包括Gemini Ultra、Gemini Pro、Gemini Nano三種不同的規(guī)格。2024年2月15日，谷歌發(fā)布Gemini 1.5。5月15日，谷歌更新升級Gemini1.5Pro版本，同時(shí)推出Gemini1.5Flash輕量化小模型。2025年3月26日，谷歌發(fā)布Gemini 2.5系列人工智能推理模型。11月18日，谷歌正式推出Gemini 3系列模型。12月12日，谷歌宣布正式將Gemini翻譯能力引入翻譯應(yīng)用以及文本翻譯應(yīng)用。12月18日，谷歌推出人工智能模型Gemini 3 Flash。2026年1月12日，蘋果公司發(fā)表聲明，其新AI版Siri選擇Gemini驅(qū)動(dòng)。2月18日，谷歌宣布Gemini應(yīng)用已配備音樂生成模型Lyria 3，用戶可使用文本、圖像或視頻制作30秒的音樂片段。2月20日，谷歌正式推出升級核心模型Gemini 3.1 Pro，并全面接入旗下消費(fèi)級與開發(fā)者產(chǎn)品，讓這項(xiàng)智能升級真正落地到日常應(yīng)用中。

Gemini內(nèi)置了谷歌自研AI超算芯片Cloud TPU V5P，它是第一個(gè)在MMLU基準(zhǔn)上優(yōu)于人類專家的模型?；趶念^開始構(gòu)建的多模型，使得它能夠同時(shí)識別文本、圖像、音頻、視頻和代碼五種類型信息，還可以理解并生成流行的編程語言（如Python、Java、C++）的高質(zhì)量代碼，并擁有全面的安全性評估。

發(fā)展歷程

2023年4月，字母控股（谷歌母公司）首席執(zhí)行官桑達(dá)爾·皮查伊（Sundar Pichat）合并了兩個(gè)大型人工智能團(tuán)隊(duì)，開啟OpenAI計(jì)劃。2023年5月，谷歌在開發(fā)者大會(huì)上透露正在開發(fā)AI大模型Gemini。2023年8月，谷歌在其面向印度和日本用戶的搜索工具中引入了生成式人工智能，該工具將向提示性語言和摘要中顯示文本或可視化結(jié)果，同時(shí)，它還以每位用戶每月30美元的價(jià)格向企業(yè)客戶提供其人工智能工具。2023年9月15日，The Information報(bào)道稱，谷歌已經(jīng)向少數(shù)公司開放了其對話式人工智能軟件Gemini的早期版本。這些早期合作旨在創(chuàng)建新的、創(chuàng)新的方式來使用Bard，探索聊天機(jī)器人、虛擬助手和教育工具等應(yīng)用場景。2023年11月16日，谷歌表示推遲發(fā)布AI模型Gemini。

2023年12月6日，Gemini初始版本在谷歌的聊天機(jī)器人Bard中推出，同時(shí)優(yōu)化推出Gemini 1.0版本，包括三個(gè)不同體量的模型：用于處理“高度復(fù)雜任務(wù)”的Gemini Ultra、用于處理多個(gè)任務(wù)的Gemini Pro和用于處理“終端上設(shè)備的特定任務(wù)”的Gemini Nano。Gemini是一種可以處理文本、圖像和視頻的新型 AI 模型，內(nèi)置谷歌自研AI超算芯片Cloud TPU V5P。戴密斯·哈薩比斯（Demis Hassabls）對此表示：“Gemini是谷歌各團(tuán)隊(duì)大規(guī)模協(xié)作的結(jié)果，它是從頭開始構(gòu)建的多模式，這意味著它可以概括和無縫理解、操作和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻?！贝送?，Pixel引入了Gemini，搭載了Gemini Nano的Pixel 8 Pro，支持“錄音機(jī)”應(yīng)用中的“總結(jié)”等新功能，并在Gboard中推出“智能回復(fù)”功能。Gemini是第一個(gè)在MMLU（大規(guī)模多任務(wù)語言理解）方面優(yōu)于人類專家的模型。

2024年2月15日，谷歌發(fā)布Gemini 1.5。Gemini 1.5版本中首個(gè)登場的多模態(tài)通用模型Gemini 1.5 Pro，可以把穩(wěn)定處理上下文的上限擴(kuò)大至100萬tokens，并且是在Kalamang語翻譯至英語的測試中表現(xiàn)最好的模型。5月15日，谷歌更新升級Gemini1.5Pro版本，同時(shí)推出Gemini1.5Flash輕量化小模型。Gemini 1.5 Pro升級到200萬tokens，并全面支持Workspace，Gemini 1.5 Pro會(huì)面向全球開發(fā)者開放。同時(shí)，谷歌還宣布推出基于Gemini 1.5 Pro的Gemini Advanced，升級后的Gemini Advanced可以處理“多個(gè)大型文檔，總計(jì)最多1500頁，或匯總100封電子郵件，同時(shí)支持35多種語言和150多個(gè)國家及地區(qū)。

2025年2月14日，谷歌宣布Gemini AI上線了一項(xiàng)“全局記憶”功能。 2月15日，谷歌Gemini AI已開始向免費(fèi)版用戶開放文件上傳和分析功能，此前該功能僅向Gemini Advanced付費(fèi)用戶提供。截至該日，該功能已在Gemini安卓應(yīng)用和網(wǎng)頁版中上線，海外沒有訂閱Gemini的用戶現(xiàn)在也可以直接從設(shè)備本地或Google Drive谷歌云盤中應(yīng)用程序上傳文件。2月，代碼顯示，谷歌正在開發(fā)一項(xiàng)視頻生成功能，預(yù)計(jì)會(huì)在以后的更新中添加到Gemini中。谷歌應(yīng)用v16.6.23包含的代碼暗示谷歌將為Gemini添加視頻生成功能。當(dāng)?shù)貢r(shí)間2025年2月24日，美國移動(dòng)CRM（CRM）軟件服務(wù)提供商賽富時(shí)宣布與谷歌深化戰(zhàn)略合作，將Gemini模型引入Agentforce平臺。此次合作將支持Salesforce客戶使用Gemini構(gòu)建Agentforce智能體，并支持在谷歌云上部署Salesforce產(chǎn)品。2025年3月7日，谷歌公司發(fā)布博文，宣布推出 Gemini Embedding。該模型在 Massive Text Embedding Benchmark（MTEB）中拔得頭籌，超越了Mistral、Cohere和Qwen等一眾競爭對手，是性能最優(yōu)的文本嵌入模型。3月26日凌晨，谷歌正式推出新一代人工智能推理模型Gemini 2.5。同年10月推出優(yōu)化延遲與編程性能的Gemini 3.0。該系列模型在回答問題前會(huì)“思考”片刻；該模型登陸谷歌開發(fā)者平臺Google AI Studio，同時(shí)向每月支付20美元訂閱“Gemini Advanced”的用戶開放。Gemini 2.5 Pro支持高達(dá)100萬token的超大上下文窗口，單次可以處理約75萬英文單詞。同年5月，谷歌計(jì)劃推出Gemini的“兒童版”，面向13歲以下、由家長管理的未成年人賬戶開放，為兒童打造有趣的互動(dòng)體驗(yàn)。該服務(wù)適用于使用谷歌Family Link的用戶，家長可通過該平臺為孩子創(chuàng)建gmail賬戶，并自主決定是否啟用包括YouTube在內(nèi)的相關(guān)功能。注冊兒童賬戶時(shí)，家長需提供包括孩子姓名、出生日期等在內(nèi)的基本個(gè)人信息。此次Gemini推出初期，使用家庭管理賬戶的兒童用戶可直接訪問該服務(wù)，谷歌表示未來將為家長開放相關(guān)控制權(quán)限，包括完全關(guān)閉孩子對Gemini的使用。為保障低齡用戶的使用安全，Gemini設(shè)置了內(nèi)容過濾機(jī)制，防止生成不當(dāng)信息。同時(shí)，谷歌承諾，兒童用戶通過Family Link使用Gemini所產(chǎn)生的數(shù)據(jù)，不會(huì)被用于AI模型訓(xùn)練。11月18日，谷歌正式推出Gemini 3系列模型。其中Gemini 3 Pro已同步在Gemini應(yīng)用、搜索AI Mode、AI Studio、Vertex AI等多平臺開放預(yù)覽，增強(qiáng)推理版Gemini 3 Deep Think后續(xù)也會(huì)向谷歌 AI Ultra用戶開放。該系列在LMArena、GPQA Diamond、Video-MMMU等主流AI基準(zhǔn)測試中登頂，刷新多模態(tài)理解、科學(xué)推理、數(shù)學(xué)計(jì)算等領(lǐng)域紀(jì)錄。

2025年11月20日，谷歌正式推出了圖像生成與編輯模型Nano Banana Pro (Gemini 3 Pro Image)，該模型基于Gemini 3 Pro架構(gòu)構(gòu)建，號稱能以“前所未有的控制力、完美的文字渲染效果以及增強(qiáng)的世界知識儲(chǔ)備”，可以將用戶的構(gòu)想轉(zhuǎn)化為“工作室級（studio-quality）”的設(shè)計(jì)作品。12月12日，谷歌發(fā)布公告稱，正式將Gemini翻譯能力引入翻譯應(yīng)用，包括通過佩戴耳機(jī)實(shí)現(xiàn)的“AI同傳/交傳”，同時(shí)大幅提升文字翻譯工具的能力，以提供更自然、地道的翻譯，而不是逐字逐句直譯，并計(jì)劃在2026年支持iOS系統(tǒng)，在翻譯應(yīng)用的持續(xù)監(jiān)聽模式下，Gemini會(huì)自動(dòng)將多種語言的語音翻譯為單一目標(biāo)語言，使得用戶可以戴上耳機(jī)，用母語聆聽外語演講、講座或者電影；而在雙向?qū)υ捘Ｊ较?，用戶仍能從耳機(jī)中聽到實(shí)時(shí)翻譯，同時(shí)在說話后依靠手機(jī)播報(bào)對方的語言。Gemini模型能夠?qū)崿F(xiàn)超過70種語言和2000個(gè)語言對的語音翻譯，包括英語、中文（普通話）、西班牙語、德語等主要語言的互譯。該功能支持自動(dòng)識別語言，所以即便不知道對方是哪國人也能實(shí)時(shí)啟動(dòng)翻譯。谷歌也將Gemini能力引入了文本翻譯應(yīng)用，使得文本翻譯更智能、自然和準(zhǔn)確，特別是能改進(jìn)俚語、習(xí)語或本地化表達(dá)的翻譯效果。另外，谷歌也擴(kuò)展了語言學(xué)習(xí)工具的覆蓋范圍。同年12月18日，谷歌推出人工智能模型Gemini 3 Flash。該模型能幫助用戶更快速地處理更復(fù)雜的查詢，取代Gemini應(yīng)用程序中原有的2.5Flash，成為驅(qū)動(dòng)谷歌搜索中AI模式的預(yù)設(shè)系統(tǒng)。在基準(zhǔn)測試中，Gemini 3 Flash的分?jǐn)?shù)高于Gemini 3 Pro，該模型保持接近Gemini 3 Pro的推理能力，運(yùn)行速度達(dá)到Gemini 2.5 Pro的三倍，成本僅為Gemini 3 Pro的四分之一；其定價(jià)為每百萬輸入令牌（token）0.5美元、每百萬輸出令牌3美元，略高于Gemini 2.5 Flash，但性能和速度均超越Gemini 2.5 Pro。

2026年1月12日，蘋果公司發(fā)表聲明，其新AI版Siri選擇Gemini驅(qū)動(dòng)，該功能計(jì)劃在2026年晚些時(shí)候推出。2月4日，谷歌已著手讓Gemini操控安卓手機(jī)，這項(xiàng)“屏幕自動(dòng)化”功能的具體實(shí)現(xiàn)細(xì)節(jié)已經(jīng)曝光。據(jù)9to5google報(bào)道，谷歌應(yīng)用17.4測試版中包含了一項(xiàng)名為“借助Gemini完成任務(wù)”功能的相關(guān)字符串。該實(shí)驗(yàn)室功能的內(nèi)部代號為“倭黑猩猩（bonobo）”，介紹文本說明：“Gemini可通過屏幕自動(dòng)化技術(shù)，在你設(shè)備上的指定應(yīng)用中幫你完成下單、預(yù)約出行等各類任務(wù)”。

2025年12月，迪士尼向谷歌發(fā)出停止侵權(quán)函，指責(zé)其AI產(chǎn)品未經(jīng)授權(quán)隨意輸出迪士尼知識產(chǎn)權(quán)內(nèi)容。2026年2月，谷歌旗下Gemini、Nano Banana等AI工具開始攔截直接生成迪士尼角色的請求。2月18日，谷歌宣布Gemini應(yīng)用已配備音樂生成模型Lyria 3，用戶可使用文本、圖像或視頻制作30秒的音樂片段。2月20日，谷歌正式推出升級核心模型Gemini 3.1 Pro，并全面接入旗下消費(fèi)級與開發(fā)者產(chǎn)品，讓這項(xiàng)智能升級真正落地到日常應(yīng)用中。

Gemini 1.0分類

Gemini 能夠在從數(shù)據(jù)中心到移動(dòng)設(shè)備的所有設(shè)備上運(yùn)行。其功能將增強(qiáng)開發(fā)人員和企業(yè)客戶使用 AI 構(gòu)建和擴(kuò)展的方式。谷歌針對三種不同的尺寸優(yōu)化了第一個(gè)版本 Gemini 1.0，來支持廣泛的應(yīng)用程序。

（參考來源：）

功能和服務(wù)

復(fù)雜推理能力

Gemini 1.0具有復(fù)雜多模態(tài)推理能力，可以幫助理解復(fù)雜的書面和視覺信息，它能夠發(fā)現(xiàn)海量數(shù)據(jù)中難以辨別的知識。在學(xué)習(xí)方面，它可以更好地理解細(xì)微的信息，并回答與復(fù)雜主題相關(guān)的內(nèi)容，從而能夠?qū)?shù)學(xué)和物理等復(fù)雜學(xué)科的問題進(jìn)行推理。Gemini 1.0通過閱讀、過濾和理解信息具有了從成千上萬的文檔中提取知識的能力，有助于未來在科學(xué)、金融等諸多領(lǐng)域以數(shù)字化的速度取得新突破。

在Gemini 3系列基礎(chǔ)上，3.1 Pro在核心推理能力上實(shí)現(xiàn)了顯著提升，成為解決復(fù)雜問題更智能、更強(qiáng)大的基礎(chǔ)模型。這一點(diǎn)在嚴(yán)苛的基準(zhǔn)測試中得到充分驗(yàn)證：在用于評估模型處理全新邏輯模式能力的ARC?AGI?2基準(zhǔn)測試中，3.1 Pro取得了 77.1% 的實(shí)測得分，推理性能是上一代3 Pro的兩倍以上。3.1 Pro專為那些不滿足于簡單答案的任務(wù)設(shè)計(jì)，將高級推理能力轉(zhuǎn)化為解決棘手難題的實(shí)用工具。升級后的智能水平可賦能各類實(shí)際場景 —— 無論是為復(fù)雜課題提供清晰直觀的可視化解釋、將多源數(shù)據(jù)整合為統(tǒng)一視圖，還是讓創(chuàng)意項(xiàng)目落地實(shí)現(xiàn)。

識別與理解力

Gemini 1.0采用變壓器架構(gòu)和高效的Attention機(jī)制，可以同時(shí)識別和理解文本、圖像、音頻等，它能夠更全面地理解輸入中信息的細(xì)節(jié)并生成任務(wù)。在圖像基準(zhǔn)方面，Gemini Ultra無需對象字符識別（OCR）系統(tǒng)的幫助即可從圖像中提取文本。視頻理解方面，Gemini模型通過將視頻編碼為大語境窗口中的一系列幀完成的，視頻幀或圖形可以自然地與文本或音頻交織在一起，可以處理可變輸入分辨率。

Gemini Ultra作為Gemini中最強(qiáng)大的一款規(guī)格，在MMLU（大規(guī)模多任務(wù)語言理解數(shù)據(jù)集）中的得分率高達(dá)90.0%，首次超越了人類專家。MMLU數(shù)據(jù)集包含數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等57個(gè)科目，用于測試世界知識和解決問題的能力。Gemini Ultra結(jié)合考慮模型不確定性的思維鏈提示方法，產(chǎn)生包含k個(gè)樣本的思維鏈，如果在預(yù)設(shè)閾值之上存在共識，則選擇此答案，否則它將返回到基于最大似然選擇的樣本，而不需要思考鏈。

高級編碼能力

Gemini可以理解、解釋和生成流行的編程語言（如Python、Java、C++和Go）的高質(zhì)量代碼，能夠跨語言工作并推理復(fù)雜信息，還可以用作更高級編碼系統(tǒng)的引擎。例如，谷歌基于Gemini的專門版本創(chuàng)建的AlphaCode 2，將Gemini的推理能力與搜索和工具使用相結(jié)合，擅長解決超出編碼范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的競爭性編程問題。在Codeforces競爭性編程平臺上，AlphaCode 2在進(jìn)入者中排名前15%。

安全功能方面

Gemini擁有全面的安全性評估，包括偏差和病毒等。谷歌應(yīng)用了Google Research的對抗性測試技術(shù)，依據(jù) Google AI 原則和嚴(yán)格的產(chǎn)品安全政策，增加了新的保護(hù)措施，全面考慮潛在風(fēng)險(xiǎn)，并在開發(fā)的每個(gè)階段進(jìn)行測試和風(fēng)險(xiǎn)降低。此外，谷歌與外部專家合作進(jìn)行壓力測試來確保內(nèi)容安全，且建立了專門的安全分類器來識別和過濾有害內(nèi)容，確保Gemini更加安全和包容。此外，Gemini Nano可以在使用特殊芯片的終端設(shè)備上運(yùn)行，沒有網(wǎng)絡(luò)連接的情況下也可以使用此模型，不會(huì)造成個(gè)人數(shù)據(jù)的丟失。比如：Pixel 8 Pro 在錄音機(jī)應(yīng)用中使用 Gemini Nano 來總結(jié)會(huì)議音頻，即使沒有網(wǎng)絡(luò)連接也可以實(shí)現(xiàn)。

全局記憶功能

“全局記憶”功能賦予Gemini AI前所未有的能力，能夠全面記錄并存儲(chǔ)用戶與其之間的所有過往對話。借助全局記憶，用戶在與AI互動(dòng)時(shí)，徹底告別頻繁翻閱對話歷史的繁瑣，輕松接續(xù)未竟話題。Gemini AI憑借對先前對話內(nèi)容的深刻記憶，自動(dòng)銜接上下文，顯著簡化了人機(jī)交互流程，提升了效率與便捷性。全局記憶功能作為Gemini Advanced服務(wù)的專屬特權(quán)，率先面向英語用戶開放，并計(jì)劃在數(shù)周內(nèi)逐步擴(kuò)展至其他語言。

生成音樂能力

2026年2月18日，谷歌宣布Gemini應(yīng)用已配備音樂生成模型Lyria 3，用戶可上傳一段文字或一張照片、一段視頻來制作30秒的音樂片段，并配有Nano Banana設(shè)計(jì)的自定義封面。另外，創(chuàng)作者還可以通過YouTube的Dream Track功能探索Lyria 3，以提升Shorts短視頻配樂的品質(zhì)。Lyria的音頻生成功能采用了新的隱私和安全特性，所有生成的曲目都使用SynthID技術(shù)添加了不易察覺的水印，可以檢測音樂是否由人工智能創(chuàng)作或編輯。谷歌強(qiáng)調(diào)，其系統(tǒng)設(shè)有保護(hù)措施，禁止AI直接挪用特定藝術(shù)家的作品。如果用戶點(diǎn)名真實(shí)音樂人，Gemini只會(huì)將其視為“廣泛的創(chuàng)作靈感來源”，生成風(fēng)格或氛圍與之相似的曲目。

關(guān)鍵技術(shù)

Gemini最大亮點(diǎn)之一就是原生多模態(tài)大模型，一開始就在不同模態(tài)上進(jìn)行預(yù)訓(xùn)練，利用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào)，使其更好地理解和推理各類輸入內(nèi)容。Gemini 1.0系列內(nèi)置自研 AI 超算芯片Cloud TPU v5p，TPU是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片，經(jīng)過優(yōu)化可加快機(jī)器學(xué)習(xí)模型的訓(xùn)練和推斷速度。TPU v5p是截至2023年最強(qiáng)大的芯片，與TPU v4相比，其浮點(diǎn)運(yùn)算性能提升了兩倍，在高帶寬內(nèi)存方面提高了3倍。TPU v5p能夠提供459 teraFLOPS（每秒可執(zhí)行459萬億次浮點(diǎn)運(yùn)算）的bfloat16（16位浮點(diǎn)數(shù)格式）性能或918 teraOPS（每秒可執(zhí)行918萬億次整數(shù)運(yùn)算）的Int8（執(zhí)行8位整數(shù)）性能，支持95GB的高帶寬內(nèi)存，能夠以2.76 TB/s的速度傳輸數(shù)據(jù)。此外，通過谷歌的600 GB/s芯片間互連技術(shù)，可將8960個(gè)v5p加速器耦合在一個(gè)Pod（通常指一個(gè)包含多個(gè)芯片的集群或模塊）中，從而實(shí)現(xiàn)更快或更高精度的模型訓(xùn)練。

模型訓(xùn)練

Gemini模型建立在Transfomer解碼器上，這些解碼器通過架構(gòu)和模型優(yōu)化的改進(jìn)來增強(qiáng)，從而能夠?qū)崿F(xiàn)大規(guī)模的穩(wěn)定訓(xùn)練并在谷歌的張量處理單元上優(yōu)化推理。它們被訓(xùn)練成支持32k上下文長度，并采用有效的注意力機(jī)制。

研發(fā)團(tuán)隊(duì)使用TPUv5e和TPUv4對Gemini模型進(jìn)行訓(xùn)練，TPU是谷歌為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片，經(jīng)過優(yōu)化可加快機(jī)器學(xué)習(xí)模型的訓(xùn)練和推斷速度。TPUv4 加速器部署在 4096 個(gè)芯片的“SuperPods”中，每個(gè)芯片連接到專用的光學(xué)開關(guān)，可以在大約 10 秒的時(shí)間內(nèi)動(dòng)態(tài)重新配置 4x4x4 芯片立方體到任意 3D 環(huán)形拓?fù)洹?/p>

Gemini在一個(gè)多模態(tài)和多語言的數(shù)據(jù)集上訓(xùn)練，預(yù)訓(xùn)練數(shù)據(jù)集使用來自Web文檔、書籍和代碼的數(shù)據(jù)，包括圖像、音頻和視頻數(shù)據(jù)。使用SentencePiece標(biāo)記器來提高推斷詞匯量。研發(fā)團(tuán)隊(duì)采用啟發(fā)式規(guī)則和基于模型的分類器將所有數(shù)據(jù)集應(yīng)用質(zhì)量過濾器，執(zhí)行安全過濾以消除有害內(nèi)容。為了實(shí)現(xiàn)高效的模型訓(xùn)練，Gemini使用了冗余內(nèi)存副本和快速故障恢復(fù)機(jī)制。這使得整體吞吐量得到了提高，從而縮短了訓(xùn)練時(shí)間。在開發(fā)過程中遵循了負(fù)責(zé)任的部署原則，通過影響評估、模型策略制定、評估和風(fēng)險(xiǎn)緩解來降低潛在的負(fù)面影響。

模型評估

文本

在文本方面，研發(fā)團(tuán)隊(duì)在一系列基于文本的學(xué)術(shù)基準(zhǔn)上，涵蓋推理、閱讀理解、Stem和編碼，將Gemini Pro和Gemini Ultra與一套外部大型語言模型和谷歌推出的多模態(tài)模型Palm2進(jìn)行比較，并得出報(bào)告，報(bào)告分別顯示了Gemini Pro和Gemini Ultra在MMLU、編碼和數(shù)學(xué)運(yùn)算等方面的數(shù)據(jù)，總結(jié)得出，Gemini Pro的性能優(yōu)于GPT-3.5等推理優(yōu)化模型，而Gemini Ultra優(yōu)于所有當(dāng)前模型。

（參考來源：）

多模態(tài)

在圖像理解方面，研究團(tuán)隊(duì)在四種不同功能上評估Gemini模型：使用字幕或問答任務(wù)（如 VQAv2）的高級對象識別；使用 TextVQA 和 DocVQA 等任務(wù)的細(xì)粒度轉(zhuǎn)錄；圖表理解需要使用 ChartQA 和 InfographicVQA 任務(wù)對輸入布局進(jìn)行空間理解；以及使用 Ai2D、MathVista 和 MMMU 等任務(wù)進(jìn)行多模態(tài)推理。視頻理解方面，研究團(tuán)隊(duì)從每個(gè)視頻剪輯中采樣16個(gè)等距幀進(jìn)行理解和推理。音頻理解方面，研究團(tuán)隊(duì)在各種基準(zhǔn)上對Gemini Nano-1和Gemini Pro模型進(jìn)行評估，并將其與通用語言模型（USM）、Whisper和large-v3進(jìn)行比較，將不同的語言翻譯成英語，評估結(jié)果顯示，Gemini Pro模型在所有ASR（自動(dòng)語言識別）和AST（自動(dòng)語音翻譯）任務(wù)中都明顯優(yōu)于USM和Whisper模型。

（參考來源：）

未來趨勢

研發(fā)團(tuán)隊(duì)通過六種不同功能的50多個(gè)基準(zhǔn)的整體利用上評估它們來研究Gemini模型的能力趨勢，包括事實(shí)性（Factuality）、長語境（Long-Context）、數(shù)學(xué)/科學(xué)（數(shù)學(xué)/Science）、摘要（Summarization）、推理（Reasoning）、多語言（Multilingual），Gemini Ultra是三款規(guī)格中的最佳模型。對于Gemini Ultra，研發(fā)團(tuán)隊(duì)使用來自人性化反饋的微調(diào)和強(qiáng)化學(xué)習(xí)（RLHF）進(jìn)行進(jìn)一步的模型完善。對整個(gè)Gemini模型進(jìn)一步擴(kuò)展其功能，包括規(guī)劃和內(nèi)存方面的進(jìn)步，以及增加處理更多信息的上下文窗口以提供更好的響應(yīng)。

從2023年12月13日開始，開發(fā)者和企業(yè)客戶可以通過Google的AI Studio和Google Cloud Vertex AI中的Gemini API訪問Gemini Pro。谷歌計(jì)劃逐步將Gemini整合到其搜索、廣告、Google Chrome等其他服務(wù)中。

參考資料 >

遙遙領(lǐng)先GPT-4!谷歌最強(qiáng)AI大模型Gemini 1.0發(fā)布.新浪財(cái)經(jīng).2023-12-07

專家吐槽谷歌 Gemini:只是小進(jìn)步，飛躍談不上-36氪.36氪.2023-12-07

谷歌發(fā)布Gemini，負(fù)責(zé)人:原生多模態(tài)大模型是AI「新品種」.機(jī)器之心.2023-12-08

gemini.googleapis.2023-12-07

How Google is Planning to Beat OpenAI.theinformation.2023-12-07

Google nears realse ai sofeware gemini information.reuters.2023-12-07

谷歌推出AI模型Gemini.界面新聞.2023-12-07

GPT-4 Turbo慘遭碾壓谷歌剛發(fā)布的Gemini 1.5 Pro有多強(qiáng)？.今日頭條.2024-02-17

谷歌兩小時(shí)I/O大會(huì)提了“AI”121次，發(fā)布了十余項(xiàng)更新及新品，卻“缺乏驚喜”.澎湃新聞-今日頭條.2024-05-15

谷歌發(fā)布旗艦推理模型：單次可處理百萬token.新浪財(cái)經(jīng).2025-03-26

谷歌全新AI模型Gemini 3發(fā)布:宣稱“全球最智能模型”，多項(xiàng)基準(zhǔn)登頂.騰訊網(wǎng).2025-11-19