移至主要內容
台灣官方部落格

隆重推出 Gemini:我們最強大的 AI 模型



為所有人帶來更實用的 AI 服務

Image 1: 圖片中有 Gemini 的標誌,標誌上方有一顆星星,背景為黑色,標誌兩側有多條彩色線條向中間聚攏

Google 暨 Alphabet 執行長 Sundar Pichai 的分享

每一次的技術變革,都是推進科學探索、加速人類成長與改善生活的機會。我相信我們現在目睹 AI 帶來的轉變,將會是我們一生中最深遠的變革,遠大於之前行動裝置或網路所帶來的轉變。AI 有潛力為世界上的每一個人創造各種機會,從平凡到不凡。它將會大舉推進創新和經濟的進步,並以前所未有的規模驅動知識、學習、創造與生產力。

而讓我感到興奮的,是有機會讓 AI 為世界上的每個人帶來幫助。

我們展開以 AI 為優先的旅程已經將近第八個年頭,但是進程的速度才正要加快:數以百萬計的人每天都在我們的各種產品裡使用生成式 AI,做到一年前做不到的事情,無論是替更複雜的問題尋找答案,或是用新的工具來協作和創造。與此同時,開發人員也正在使用我們的模型和基礎架構來打造新的生成式 AI 應用程式,而世界各地的新創和企業也透過我們的 AI 工具持續成長。

這樣的動能令人驚豔,但是,我們其實才正要開始探索這段旅程的各種可能性。

我們正以大膽且負責任的方式展開這項任務。這表示我們要有野心去研究,同時追求能力,可以為人類和我們的社會帶來極大益處,同時建立保障措施,並且與政府和專家合作,來應對隨著 AI 能力提高所帶來的風險。在 AI 原則的指導下,我們會繼續投資最好的工具、基礎模型和基礎設施,並將應用到我們和別人的產品。

現在,我們邁出下一步、繼續和 Gemini 的旅程;這是我們目前為止最強大、最通用的模型,在很多領先的基準測試裡都展現最先進的性能。我們的第一個版本、Gemini 1.0,有依照不同模型的大小進行最佳化:Ultra、Pro 和 Nano。這些是 Gemini 時代的第一批模型,也是我們第一次實現今年稍早成立 Google DeepMind 的願景。這些模型的新時代,是我們公司在科學和工程上最大的努力。我真的對未來感到興奮,也期待 Gemini 會為世界各地的人們帶來的機會。

Image 2: 圖片顯示 Gemini 標誌,字體為藍色漸層,右上角有一顆星星,背景為透明

Google Demind 執行長 Demis Hassabis,代表 Gemini 開發團隊分享

就跟我很多鑽研 AI 的同事一樣,AI 也一直都是我工作的重心。從我青少年的時候替電腦遊戲設計 AI 程式開始,一直到我成為神經科學的研究者,在不斷地探討人類大腦運作的過程中,我始終相信,如果能打造出更聰明的機器、並且加以善用,我們可以造福人類的方式,將會難以想像。

我們在 Google DeepMind 持續致力以負責任的方式,透過人工智慧 AI 為世界賦能。長久以來,我們的願景是根據人類理解世界、與世界互動的方式,建立新一代的 AI 模型,讓 AI 不再只是一個聰明的軟體,而是像專業的合作夥伴或是助手,變得更加實用、而且符合直覺。

如今,我們推出我們目前最強大、通用性最高的模型 Gemini,也讓我們離這個願景更近了一步。

Gemini 是 Google 跨部門大型合作的成果,包括 Google Research 團隊的成員也參與其中。從一開始,我們就把 Gemini 設計為多模態的模式,讓 Gemini 能夠通用化,並流暢地理解、操作和結合包括文字、圖像、音訊、視訊和程式碼在內的不同類型資訊。

Gemini 也是我們至今推出最有彈性的模型,從資料中心到行動裝置的各種平台上,都能高效運行。而開發人員和企業客戶在使用 AI 構建和拓展業務的時候,Gemini 的先進功能可以為他們帶來極大的幫助。

我們已經針對 Gemini 1.0 版本的模型進行了最佳化,並推出共三種不同的規模:

  • Gemini Ultra:規模最大、功能最強大的模型,專為高度複雜的任務而設計。
  • Gemini Pro:最適合擴展、橫跨各種類型的任務。
  • Gemini Nano:處理裝置上的任務最有效率的模型。

最先進的性能

我們不斷對 Gemini 模型進行嚴格的測試,評估 Gemini 在處理各種任務上的表現。從理解自然圖像、音訊和視訊,到數學推理;我們發現 Gemini Ultra 在大型語言模型(LLM) 研究和開發中廣泛採用的 32 個學術基準測試中,有 30 個取得了超越了當前的最先進基準的效能。

我們透過 32 個在研究和開發大型語言模型(LLM)的時候會採用的學術基準,去測試 Gemini Ultra 從理解自然圖像、音訊和視訊到數學推理的表現,而從其中 30 個測試基準得到的結果,都超越目前最先進的模型。

MMLU(大規模多任務語言理解;massive multitask language understanding)的測試裡,結合了包括數學、物理、歷史、法律、醫學和倫理學等 57 個主題,去測試模型對世界的理解還有解決問題的能力;而 Gemini Ultra 以 90.04% 的高得分,成為第一個在 MMLU 測試裡超越人類專家的模型。

我們新的 MMLU 衡量方法,讓 Gemini 能夠利用它的推理能力在回答難題前更仔細地思考,相比僅使用第一印象的評估方式有顯著進化。

我們採用 MMLU 當作基準測試的方法,讓 Gemini 能夠利用它的推理能力在回答難題前更仔細地思考,比起 Gemini 第一時間的反應有顯著的進步。

Gemini 在文字和程式碼等多個測試面向中,超越了先進性能的基準。

Image 3: Gemini 在文字和程式碼等多個測試面向中,超越了先進性能的基準

新的 MMMU 基準測試包括了多模態的任務,跨越不同的領域,要完成的話需要刻意的去推理,而 Gemini Ultra 也在 MMMU 的基準測試裡得到 59.4% 的領先分數。

光學字元識別(object character recognition, OCR)系統,會協助模型從影像擷取出文字訊息,再近一步處理;但是在我們的圖像基準測試裡,Gemini Ultra 在沒有使用 OCR 的情況下,還超越了先前的最先進模型。這些基準測試,突顯出 Gemini 原生多模態的特性,也初步展現了 Gemini 具備更複雜的推理能力。

詳情請參閱我們的 Gemini 技術報告

Gemini 在多項多模態基準測試中,展現出超越先進基準的性能。

Image 4: Gemini 在多項多模態基準測試中,展現出超越先進基準的性能

新一代功能

到目前為止,打造多模態模型的標準方法,是針對不同的模態去訓練個別的元件,再把元件組合在一起,大致模擬出一部分的多模態功能。這些模型在執行某些任務的時候會表現很好,例如描述圖像,但在處理比較概念性或是比較複雜的推理時,就會比較有困難。

我們把 Gemini 設計成原生就是多模態的模型,一開始就在不同的模態上進行預先的訓練。接著,我們透過額外的多模態資料進行微調,進一步提升效能。這樣可以幫助 Gemini 從一開始就能順暢地理解和推理各種輸入的資訊,效能遠比現有的多模態模型來得好,並幾乎在所有的領域都展現出最先進的能力。 

成熟的推理能力

Gemini 1.0 成熟的多模態推理能力,有助於理解複雜的書面和視覺訊息,也因此使得 Gemini 具備了獨特的技能,可以從大量資料中整理出難以理解的知識。

Gemini 在閱讀、篩選和理解資訊方面的能力相當令人驚豔,能夠從數十萬份文件中擷取出觀點,能夠更快速地幫助許多領域帶來新的突破,從科學到金融都是。

理解文字、圖像、音訊等更多資訊

Gemini 1.0 所受的訓練,是同時識別和理解文字、圖像和音訊等資訊,所以能進一步的理解更細微的資訊,並回答涉及複雜主題的問題。這也讓 Gemini 在解釋、推理像是數學和物理這樣複雜的問題上,表現特別出色。

進階的程式設計能力

我們第一個版本的 Gemini 能夠理解、解釋世界上最常用的程式語言,像是 Python、Java、C++ 和 Go,並且生成高品質的程式碼。能夠跨語言工作、解讀複雜資訊的能力,更讓 Gemini 成為世界數一數二的程式設計基礎模型。

Gemini Ultra 在幾個程式設計的基準測試中表現出色,包括程式設計業界衡量成效標準的 HumanEval 測試,以及我們自己的截留(held-out)驗證資料集,用的是程式設計者自己生成的來源,而不是來自網路的資訊。

Gemini 也可以當作引擎,來驅動更進階的程式生成系統。兩年前,我們推出了 AlphaCode,是第一個在程式設計競賽當中能夠達到有競爭實力的 AI 程式碼生成系統。

透過一個專門版本的 Gemini,我們建立了更進階的程式碼生成系統 AlphaCode 2。這個系統除了擅長程式設計,還能處理和數學與理論電腦科學相關、複雜的競技程式設計的問題。

當與 AlphaCode 在相同的平台上進行評估時,AlphaCode 2 展現出大幅度的進步,解決的問題數量幾乎是兩倍。我們評估 AlphaCode 2 的表現超過 85% 的參賽者,相較於 AlphaCode 只贏過 50% 左右的參賽者,有所提升。而且,如果程式設計師和 AlphaCode 2 協作,協助定義程式碼需要遵循的特定屬性時,表現甚至更好。

我們迫不及待看到程式設計師更多去使用性能強大的 AI 模型作為協作工具,讓這些模型幫助他們解讀問題、提出程式設計,並且在實作上進行協助,可以更快地發表應用程式、設計出更好的服務。

詳情請參閱我們的 AlphaCode 2 技術報告

更可靠、更具可擴充性和更高效

我們透過 AI 最佳化的基礎架構,有規模的去訓練 Gemini 1.0,而這個架構使用的是 Google 自行設計的 Tensor Processing Unit(TPU)v4 及 v5e;而我們也把 Gemini 設計成最可靠、擴充能力最強的模型,同時把服務的效率提到最高。

和先前性能較低的小型模型相比,Gemini 在 TPU 上執行的速度甚至高出許多。TPU 是我們專門打造的 AI 加速器,運用在 Google 搜尋、YouTube、Gmail、Google 地圖、Google Play 和 Android 等採用 AI 技術的產品當中,服務數十億名使用者;此外,Gemini 也讓全球許多企業能以經濟實惠的方式大規模的訓練 AI 模型。

今天,我們也宣布推出 Cloud TPU v5p,這是 Google 到目前為止性能最佳、效率最高、擴充性最強的 TPU 系統,專為訓練頂尖 AI 模型所設計。新一代的 TPU 可以加快 Gemini 的發展,幫助開發人員和企業客戶更快的訓練大規模的生成式 AI 模型,因此能更早推出全新的產品和功能給客戶。

Google 資料中心的一排 Cloud TPU v5p AI 加速器超級電腦。

Image 5: Google 資料中心的一排 Cloud TPU v5p AI 加速器超級電腦

安全建構,責任至上

Google 致力以大膽且負責任的態度,推動先進的 AI 技術。在建構 Gemini 的過程中,除了遵循 Google AI 準則和我們針對各項產品嚴謹的安全政策,我們也考量到了 Gemini 多模態的能力,新增了相應防護措施,並在開發作業的每一個階段,考量潛在的風險,同時盡可能去測試、降低風險。

在截至目前 Google 所有的 AI 模型中,Gemini 在偏誤、資料毒性(toxicity)等方面,都接受了最全面的安全性評估。在網路攻擊、說服能力和自主性等可能存在風險的領域,我們都進行了最新的研究,也運用 Google Research 團隊領先業界的對抗測試技巧,在部署 Gemini 前就率先找出關鍵的安全問題。

為了辨識出內部測試方法的盲點,我們也和許多不同背景的外部專家及夥伴合作,運用各式各樣的問題對模型進行壓力測試。

為了診斷模型的內容安全性,並確保輸出的內容符合 Google 的政策,我們在 Gemini 的各個訓練階段使用了不同的基準測試,包括真實有害指令提示(Real Toxicity Prompts),是由 Allen Institute of AI 的專家開發,從網路上集合了有害程度不一的 10 萬個指令提示。有關於這項工作的更多細節,我們將在未來逐步分享。

為限制 AI 造成的危害,我們打造專用的安全分類機制,可用來辨識、標籤及篩選內容,像是有關暴力或是負面刻板印象的內容。另外,搭配健全的篩選機制,我們能夠透過這種分層處理的方式,確保 Gemini 對每個人來說都更具安全性與包容性。而我們也會持續解決我們所知模型既有的挑戰,包括事實性、錨定、歸因和實證等領域。

在開發、部署 AI 模型的路上,堅持負責任並維護安全性,永遠都會是 Google 的核心要務。這樣長期的承諾需要同心協力,所以我們和業界及整個生態體系合作,希望能定義出有關安全方面的基準與最佳做法,並且和機構一起建立安全基準,包括 MLCommonsFrontier Model Forum 和他們設立AI Safety Fund 基金,還有我們的 AI 安全架構 Secure AI Framework(SAIF)。我們設計 SAIF 的宗旨,就是希望能夠幫助公私部門降低 AI 系統的安全風險。同時,我們未來繼續開發 Gemini 的過程中,也會持續和全球的研究人員、政府及公民團體保持合作。

讓更多人能夠使用 Gemini

Gemini 1.0 將在 Google 的眾多產品與平台推出:

Gemini Pro 導入 Google 產品 

我們將在 Google 產品中導入 Gemini,讓數十億人都能使用。 

從今天起,Bard 將使用專門調整的 Gemini Pro 模型,帶來更進階的邏輯推理、規劃與理解等能力。這將是 Bard 自推出以來,最大幅度的升級更新。

採用 Gemini Pro 模型的 Bard 將先以英文版本在超過 170 多個國家和地區提供使用,並預計在不久後開放其他模態應用,並持續拓展對於不同語言與地區的支援。

另外,我們也將把 Gemini 帶到 Pixel 裝置上。Pixel 8 Pro 是第一款能夠運行 Gemini Nano 的智慧型手機,並透過 Gemini 支援全新功能,像是在錄音工具中提供摘要服務,以及 Gboard 中的智慧回覆。其中,Gboard 智慧回覆將可以率先在 WhatsApp 使用,並將在明年持續拓展至更多即時通訊應用程式。

接下來幾個月,Gemini 將整合至 Google 的更多核心產品與服務中,包括 Google 搜尋、廣告、Chrome 瀏覽器以及Duet AI。

我們也開始嘗試在 Google 搜尋裡測試使用 Gemini,可以讓我們生成式搜尋體驗(Search Generative Experience)的速度更快,在美國英文介面上的延遲會降低 40%,品質也會提高。 

用 Gemini 進行開發

從今年 12 月 13 日開始,開發人員和企業客戶將可以透過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 使用 Gemini Pro。

Google AI Studio 是免付費的網頁型開發者工具,只要使用 API 金鑰,就能快速建立原型並發布應用程式。到了需要全代管 AI 平台的時候,則可以選擇使用 Vertex AI 對 Gemini 進行自訂設定,可以全權掌控資料,同時利用 Google Cloud 提供的額外功能,來維護企業的安全、保全、隱私、資料管理,並且符合規定。

Android 開發人員也可以透過 AICore,在建構作業中運用 Gemini Nano。以處理裝置端的任務而言,Gemini Nano 是 Google 目前最有效率的模型,而 AICore 是適用於 Android 14 的最新系統功能,會率先在 Pixel 8 Pro 上推出。歡迎登記使用​​ AICore 的提前預覽版。

Gemini Ultra 即將推出

在 Gemini Ultra 方面,我們目前仍在執行全方位的信任和安全檢查,例如透過 Google 信任的外部團隊進行攻擊演練,並透過專門調整的機制與人工回饋的強化式學習(reinforcement learning from human feedback, RLHF),在正式發布之前持續改良模型。

在調整的過程中,我們會開放特定客戶、開發人員、合作夥伴及安全專家使用 Gemini Ultra,透過這樣的早期實驗收集意見回饋,然後在明年年初讓更多開發人員及企業客戶使用。

明年年初,我們也會推出 Bard Advanced,這是一個全新且最為先進的 AI 體驗,讓你能夠體驗我們最好的模型和效能,屆時就會是 Gemini Ultra。

開啟 Gemini 世代:解鎖未來創新

在 AI 發展的進程中,Gemini 是重大的里程碑;在我們持續快速創新、以負責任的方式提升模型效能的同時,Gemini 為 Google 在 AI 的進程開啟了全新的時代。

我們在 Gemini 上面已經有長足的進步,同時也努力讓未來的版本能有更好的能力,包括提升規劃與記憶的功能,並且擴大模型參考的資訊範圍,提供更好的回應。

在負責任的 AI 幫助下,世界會有許多美好的可能,讓我們感到很興奮:這樣創新的未來會激發創意、拓展知識、促進科學進步,還能改變全球數十億人的生活和工作。

進一步瞭解 Gemini 的能力和運作方式