Gemini 2.5: nasze najinteligentniejsze modele stają się jeszcze lepsze

21 Maj, 2025

Tulsee Doshi

Senior Director, Product Management, on behalf of the Gemini team

W marcu zaprezentowaliśmy Gemini 2.5 Pro, nasz dotychczas najinteligentniejszy model, a dwa tygodnie temu udostępniliśmy z myślą o programistach aktualizację wyprzedzającą konferencję I/O, aby mogli tworzyć niezwykłe aplikacje internetowe. Dziś udostępniamy jeszcze więcej aktualizacji dotyczących serii modeli Gemini 2.5:

Oprócz imponującej wydajności wersji 2.5 Pro w akademickich testach porównawczych, model ten jest obecnie liderem w rankingach WebDev Arena i LMArena, wyróżniając się również w ułatwianiu użytkownikom nauki.
Do wersji 2.5 Pro i 2.5 Flash wprowadzamy nowe funkcje: głos o naturalnej modulacji zapewniający bardziej naturalne rozmowy, zaawansowane zabezpieczenia i możliwości korzystania z komputera w ramach prototypu Project Mariner. Wersja 2.5 Pro stanie się jeszcze lepsza dzięki Deep Think – eksperymentalnemu, ulepszonemu trybowi rozumowania przeznaczonemu do wysoce złożonych obliczeń matematycznych i kodowania.
Nadal inwestujemy w funkcje dla programistów, wprowadzając podsumowania przemyśleń w Gemini API i Vertex AI by zapewnić większą przejrzystość, rozszerzając budżet myślowy wersji 2.5 Pro dla większej kontroli oraz dodając obsługę narzędzi MCP w Gemini API i SDK, aby zapewnić dostęp do większej liczby narzędzi open source.
Wersja 2.5 Flash jest już dostępna dla wszystkich w aplikacji Gemini. Na początku czerwca udostępnimy zaktualizowaną wersję w Google AI Studio dla programistów oraz w Vertex AI dla przedsiębiorstw. Niedługo potem udostępnimy wersję 2.5 Pro.

Te niezwykłe postępy to wynik nieustannego zaangażowania zespołów Google w doskonalenie oraz odpowiedzialne i bezpieczne udostępnianie naszych technologii. Przyjrzyjmy się im bliżej.

Model 2.5 Pro działa lepiej niż kiedykolwiek

Niedawno zaktualizowaliśmy model 2.5 Pro, aby pomóc programistom tworzyć bogatsze, interaktywne aplikacje internetowe. Wspaniale jest obserwować pozytywne reakcje użytkowników i programistów. Słuchamy ich i wprowadzamy ulepszenia na podstawie ich opinii.

Oprócz wysokiej wydajności w akademickich testach porównawczych nowy model 2.5 Pro jest teraz liderem popularnej tabeli liderów kodowania, WebDev Arena, z wynikiem ELO wynoszącym 1420. Jest również liderem na wszystkich tabelach wyników LMArena, która ocenia ludzkie preferencje w różnych wymiarach. A dzięki oknu kontekstowemu na milion tokenów, model 2.5 Pro osiąga najbardziej zaawansowane wyniki w zakresie rozumienia długiego kontekstu i treści wideo.

Od czasu włączenia LearnLM, rodziny modeli zbudowanych we współpracy z ekspertami edukacyjnymi, model 2.5 Pro stał się również czołowym modelem ułatwiającym naukę.. W bezpośrednich porównaniach oceniających jego skuteczność i funkcje pedagogiczne edukatorzy i eksperci preferowali Gemini 2.5 Pro względem innych modeli w różnych scenariuszach. Model ten przewyższył najlepsze modele w każdej z pięciu zasad uczenia się stosowanych przy tworzeniu edukacyjnych systemów AI.

Więcej informacji znajdziesz w zaktualizowanej karcie modelu Gemini 2.5 Pro oraz na stronie poświęconej technologii Gemini.

Deep Think

Badając granice możliwości myślenia Gemini, zaczynamy testować ulepszony tryb rozumowania o nazwie Deep Think. Wykorzystuje on nowe techniki badawcze, dzięki którym przed udzieleniem odpowiedzi model może brać pod uwagę wiele hipotez.

Model 2.5 Pro Deep Think otrzymuje imponujący wynik w USAMO 2025, obecnie jednym z najtrudniejszych testów matematycznych. Jest także liderem LiveCodeBench, bardzo trudnego testu z kodowania na poziomie zawodniczym, oraz uzyskuje 84,0% w MMMU, który testuje rozumowanie multimodalne.

Ponieważ model 2.5 Pro DeepThink wytycza nowe granice możliwości, poświęcamy dużo czasu na ewaluację zabezpieczeń i zebranie opinii ekspertów ds. bezpieczeństwa. W ramach tego procesu udostępnimy go zaufanym testerom poprzez interfejs Gemini API, by wsłuchać się w ich opinie zanim udostępnimy nowy model szerokiej publiczności.

Jeszcze lepszy model 2.5 Flash

2.5 Flash to nasz zaawansowany model zaprojektowany z myślą o szybkości i niskich kosztach – i jest on teraz lepszy w każdym wymiarze. Został udoskonalony w kluczowych wskaźnikach porównawczych dotyczących rozumowania, multimodalności, kodu i długiego kontekstu, dzięki czemu stał się jeszcze bardziej wydajny, wykorzystując w naszych testach o 20–30% mniej tokenów.

Nowy model Flash 2.5 jest już dostępny do podglądu w ramach Google AI Studio dla programistów, w Vertex AI dla przedsiębiorstw i w aplikacji Gemini dla wszystkich. Na początku czerwca będzie ogólnie dostępny w wersji produkcyjnej.

Więcej informacji znajduje się w zaktualizowanej karcie modelu Gemini 2.5 Flash oraz na stronie poświęconej technologii Gemini.

Nowe możliwości modelu Gemini 2.5

Naturalna modulacja głosu i ulepszenia Live API

Dzisiaj Live API udostępnia do podglądu audiowizualne wejście i naturalną modulację głosu w dialogach, więc możesz bezpośrednio rozwijać funkcje konwersacyjne z bardziej naturalnym i ekspresyjnym Gemini. Dzięki temu użytkownik może sterować tonem, akcentem i stylem mówienia. Można na przykład powiedzieć modelowi, aby opowiadając historię, używał dramatycznego tonu. Obsługuje teraz również korzystanie z narzędzi wyszukiwania w Twoim imieniu.

Możesz również eksperymentować z zestawem wczesnych funkcji, takich jak:

Affective Dialogue, w którym model wykrywa emocje w głosie użytkownika i odpowiednio reaguje;
Proactive Audio, w którym model ignoruje rozmowy w tle i wie, kiedy odpowiedzieć;
Thinking in the Live API, w którym model wykorzystuje możliwości myślenia Gemini w celu obsługi bardziej złożonych zadań.

Udostępniamy również podgląd nowych funkcji zamiany tekstu na mowę w modelach 2.5 Pro i 2.5 Flash. To pierwsze takie rozwiązania, które oferują obsługę wielu rozmówców, umożliwiając zamianę tekstu na mowę na dwa głosy poprzez wbudowany generator audio. Podobnie jak dialogi Native Audio, zamiana tekstu na mowę jest ekspresyjna i może uchwycić niezwykle subtelne niuanse, takie jak szepty. Działa w ponad 24 językach i płynnie przełącza się między nimi.

Funkcja zamiany tekstu na mowę jest już dostępna w Gemini API.

Korzystanie z komputera

Możliwości wykorzystania komputera w prototypie Project Mariner przenosimy do interfejsu Gemini API i Vertex AI. Jego potencjał badają takie firmy jak Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company i Cartwheel. Już w lecie udostępnimy go szerzej programistom do eksperymentów.

Większe bezpieczeństwo

Znacznie zwiększyliśmy również ochronę przed zagrożeniami bezpieczeństwa, takimi jak pośrednie wstrzyknięcia promptów. Dochodzi do nich, gdy złośliwe instrukcje są osadzane w danych pobieranych przez model AI. Nasze nowe podejście do bezpieczeństwa pomogło znacząco zwiększyć wskaźnik ochrony Gemini przed atakami polegającymi na pośrednich wstrzyknięciach promptów podczas korzystania z narzędzia, dzięki czemu Gemini 2.5 jest naszą najbezpieczniejszą rodziną modeli, które powstały do tej pory.

Więcej informacji na temat naszej pracy w zakresie bezpieczeństwa, odpowiedzialności i zabezpieczeń oraz tego, jak rozwijamy zabezpieczenia Gemini, znajdziesz na blogu Google DeepMind.

Ulepszone funkcje dla programistów

Podsumowania przemyśleń

Modele 2.5 Pro i Flash będą teraz zawierać podsumowania przemyśleń w Gemini API i w Vertex AI. Podsumowania te wyciągają surowe dane z modelu i układają je w przejrzystym formacie z nagłówkami, kluczowymi szczegółami i informacjami o działaniach modelu, np. o użyciu narzędzi.

Mamy nadzieję, że dzięki bardziej ustrukturyzowanemu, usprawnionemu formatowi procesu myślowego modelu programiści i użytkownicy będą mogli lepiej rozumieć i łatwiej debugować interakcje z modelami Gemini.

Budżety myślowe

Wprowadziliśmy model 2.5 Flash z zarządzaniem budżetami myślowymi, aby zapewnić programistom większą kontrolę nad kosztami poprzez równoważenie opóźnienia i jakości. Teraz, wprowadzamy tę funkcję do modelu 2.5 Pro. Pozwala ona kontrolować liczbę tokenów, których model używa do myślenia, zanim udzieli odpowiedzi, a nawet wyłączyć jego możliwości myślenia.

W najbliższych tygodniach model Gemini 2.5 Pro z zarządzaniem budżetami będzie ogólnie dostępny w stabilnej wersji produkcyjnej wraz z ogólnie dostępnym modelem.

Obsługa MCP

Dodaliśmy natywną obsługę SDK dla definicji protokołu Model Context Protocol (MCP) w Gemini API, aby ułatwić integrację z narzędziami open source. Badamy również sposoby wdrażania serwerów MCP i innych hostowanych narzędzi, co ułatwi tworzenie aplikacji agentów.

Zawsze wprowadzamy innowacje w nowych podejściach, aby ulepszać nasze modele i funkcje dla programistów, zwiększając przy tym ich wydajność. Będziemy przy tym nadal reagować na opinie programistów, więc prosimy o dalsze ich przesyłanie. Kontynuujemy również inwestycje w nasze szeroko zakrojone badania, pozwalające przesuwać granice możliwości Gemini. Więcej informacji już wkrótce.

Dowiedz się więcej o Gemini i jego możliwościach na naszej stronie internetowej.

MIEJSCE PUBLIKACJI: