ขอแนะนำ Gemini 2.0: โมเดล AI รุ่นใหม่ของเราสำหรับยุค Agentic AI

ธ.ค. 12, 2024

Sundar Pichai

CEO of Google and Alphabet

Image 1: ภาพนิ่งพร้อมข้อความ “Gemini 2.0”

ข้อความจากซุนดาร์ พิชัย CEO ของ Alphabet และ Google
ข้อมูลเป็นหัวใจสำคัญของความก้าวหน้าของมนุษย์ ด้วยเหตุนี้ ตลอดระยะเวลากว่า 26 ปีที่ผ่านมา เราจึงทุ่มเทให้กับพันธกิจของเราในการจัดระเบียบข้อมูลโลก และทำให้ข้อมูลดังกล่าวสามารถเข้าถึงและเป็นประโยชน์ได้อย่างทั่วถึง และนี่คือเหตุผลที่เรายังคงพัฒนาขอบเขตความสามารถของ AI เพื่อช่วยจัดระเบียบข้อมูลเหล่านั้นในทุกอินพุต และทำให้ข้อมูลเหล่านั้นเข้าถึงได้ผ่านเอาต์พุตรูปแบบต่างๆ เพื่อให้เกิดประโยชน์ต่อทุกคนอย่างแท้จริง
นั่นคือวิสัยทัศน์ของเราเมื่อตอนเปิดตัว Gemini 1.0 เมื่อเดือนธันวาคมปีที่แล้ว โดย Gemini 1.0 และ 1.5 ซึ่งเป็นโมเดลแรกๆ ที่ทำงานได้กับข้อมูลหลายประเภท (Multimodal) แบบเนทีฟ ได้ขับเคลื่อนความก้าวหน้าครั้งใหญ่ด้วยความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) และหน้าต่างบริบท (Context Window) ที่ใหญ่ขึ้นเพื่อทำความเข้าใจข้อมูลประเภทต่างๆ ทั้งข้อความ วิดีโอ รูปภาพ เสียง และโค้ด และประมวลผลข้อมูลได้ดียิ่งขึ้น

ปัจจุบันนักพัฒนาซอฟต์แวร์หลายล้านคนกำลังนำ Gemini มาต่อยอดในการสร้างผลิตภัณฑ์ของพวกเขา และ Gemini ก็ช่วยให้เราพลิกโฉมผลิตภัณฑ์ทั้งหมดของเราด้วยเช่นกัน ซึ่งรวมถึงผลิตภัณฑ์ทั้ง 7 รายการที่มีผู้ใช้ 2 พันล้านคนทั่วโลก นอกจากนี้ยังช่วยให้เราสร้างผลิตภัณฑ์ใหม่ขึ้นมาด้วย โดย NotebookLM เป็นตัวอย่างที่แสดงให้เห็นถึงความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) และหน้าต่างบริบท (Context Window) ที่ใหญ่ขึ้น ซึ่งเป็นประโยชน์ต่อผู้ใช้ และทำให้เป็นที่ชื่นชอบของผู้คนมากมาย
ในช่วง 1 ปีที่ผ่านมา เราได้ลงทุนพัฒนาโมเดล Agentic AI มากขึ้น ซึ่งโมเดลเหล่านี้จะเข้าใจสิ่งต่างๆ ที่อยู่รอบตัวคุณได้ดียิ่งขึ้น ตลอดจนคิดล่วงหน้าไปหลายขั้นตอน และทำสิ่งต่างๆ ภายใต้การดูแลของคุณ
วันนี้ เรารู้สึกตื่นเต้นที่จะเปิดตัวโมเดลรุ่นใหม่ที่สร้างขึ้นสำหรับยุค Agentic AI ขอแนะนำ Gemini 2.0 ซึ่งเป็นโมเดลที่มีความสามารถมากที่สุดของเราในตอนนี้ ด้วยความก้าวหน้าใหม่ๆ ในด้านความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) เช่น เอาต์พุตภาพและเสียงแบบเนทีฟ และการใช้เครื่องมือแบบเนทีฟ Gemini 2.0 จะช่วยให้เราสร้าง AI Agent ใหม่ๆ ซึ่งจะทำให้วิสัยทัศน์เกี่ยวกับผู้ช่วย AI ที่เป็นสากลของเราเข้าใกล้ความเป็นจริงมากขึ้น
วันนี้เราจะเปิดให้นักพัฒนาซอฟต์แวร์และผู้ทดสอบที่เชื่อถือได้ทดลองใช้ Gemini 2.0 และเราจะนำโมเดลใหม่นี้ไปใช้กับผลิตภัณฑ์ของเราในเร็วๆ นี้ โดยจะเริ่มจาก Gemini และ Google Search ก่อน ตั้งแต่วันนี้เป็นต้นไป Gemini 2.0 Flash เวอร์ชันทดลองจะพร้อมให้ผู้ใช้ Gemini ทุกคนใช้งานได้ นอกจากนี้ เรายังจะเปิดตัวฟีเจอร์ใหม่ที่เรียกว่า Deep Research ซึ่งใช้การให้เหตุผลขั้นสูงและความสามารถในการประมวลผลข้อมูลได้มากขึ้นเพื่อทำหน้าที่เป็นผู้ช่วยวิจัย โดยจะช่วยสำรวจหัวข้อที่ซับซ้อนและรวบรวมรายงานต่างๆ ให้คุณ ฟีเจอร์นี้พร้อมใช้งานใน Gemini Advanced แล้ววันนี้
ไม่มีผลิตภัณฑ์ไหนที่ AI เข้ามาพลิกโฉมได้มากกว่า Google Search อีกแล้ว ตอนนี้มีผู้ใช้ฟีเจอร์ข้อมูลภาพรวมโดย AI (AI Overview) ใน Google Search เพื่อถามคำถามในรูปแบบใหม่ๆ มากถึง 1 พันล้านคน ทำให้ฟีเจอร์นี้กลายเป็นหนึ่งในฟีเจอร์ของ Search ที่ได้รับความนิยมสูงสุดอย่างรวดเร็ว ในขั้นตอนต่อไป เราจะนำความสามารถในการให้เหตุผลขั้นสูงของ Gemini 2.0 มาสู่ AI Overview เพื่อให้สามารถจัดการกับหัวข้อและคำถามที่ซับซ้อนได้ ซึ่งรวมถึงสมการคณิตศาสตร์ขั้นสูง การค้นหาในหลากหลายรูปแบบ และการเขียนโค้ด เราได้เริ่มการทดสอบแบบจำกัดตั้งแต่สัปดาห์นี้แล้ว และจะเปิดให้ใช้งานในวงกว้างมากขึ้นในช่วงต้นปีหน้า นอกจากนี้เรายังมีแผนที่จะขยายการให้บริการ AI Overview ในประเทศและภาษาใหม่ๆ เพิ่มเติมในปีหน้า
ความก้าวหน้าของ Gemini 2.0 เป็นผลพวงมาจากการลงทุนในด้านนวัตกรรม AI อย่างเต็มรูปแบบของเราในช่วงเวลากว่า 1 ทศวรรษที่ผ่านมา โดยต่อยอดมาจากฮาร์ดแวร์ที่เราสร้างขึ้นเอง เช่น Trillium ซึ่งเป็นชิป TPU (Tensor Processing Unit) รุ่นที่ 6 ของเรา ที่ช่วยขับเคลื่อนการฝึกและการอนุมานของ Gemini 2.0 แบบ 100% และตอนนี้ชิป Trillium ก็พร้อมให้บริการแก่ลูกค้าทั่วไปเพื่อนำไปใช้งานแล้วเช่นกัน
หาก Gemini 1.0 ช่วยในเรื่องของการจัดระเบียบและทำความเข้าใจข้อมูล Gemini 2.0 ก็คือการทำให้สิ่งเหล่านั้นมีประโยชน์มากยิ่งขึ้น ผมแทบรอไม่ไหวที่จะได้เห็นสิ่งใหม่ๆ ที่จะเกิดขึ้นในยุคต่อไป

-ซุนดาร์

ขอแนะนำ Gemini 2.0: โมเดล AI รุ่นใหม่ของเราสำหรับยุค Agentic AI

โดย Demis Hassabis, CEO และ Koray Kavukcuoglu, CTO ของ Google DeepMind ในนามของทีม Gemini

ในช่วง 1 ปีที่ผ่านมา เราได้สร้างความก้าวหน้าในด้าน AI (Artificial Intelligence) อย่างต่อเนื่อง และในวันนี้ เราจะเปิดตัวเวอร์ชันทดลองของ Gemini 2.0 Flash ซึ่งเป็นโมเดลแรกในตระกูล Gemini 2.0 และเป็นโมเดลอันทรงพลังที่ใช้เวลาในการตอบสนองต่ำและมาพร้อมประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเทคโนโลยีที่ล้ำสมัยของเรา

นอกจากนี้ เรายังจะแชร์ข้อมูลเกี่ยวกับขอบเขตการวิจัยด้าน Agentic AI ของเราด้วยการนำเสนอความสามารถในการทำงานกับข้อมูลหลายประเภท (Multimodal) แบบเนทีฟของโมเดลต้นแบบที่ขับเคลื่อนด้วย Gemini 2.0

Gemini 2.0 Flash

Gemini 2.0 Flash พัฒนาต่อยอดมาจากความสำเร็จของ Gemini 1.5 Flash ซึ่งเป็นโมเดลยอดนิยมสำหรับนักพัฒนาซอฟต์แวร์ โดยมีประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเวลาตอบสนองที่รวดเร็วในระดับเดียวกัน แต่จากการทดสอบด้วยเกณฑ์มาตรฐานหลัก พบว่า Gemini 2.0 Flash มีประสิทธิภาพเหนือกว่า Gemini 1.5 Pro ด้วยความเร็วถึง 2 เท่า นอกจากนี้ Gemini 2.0 Flash ยังมาพร้อมความสามารถใหม่ๆ ซึ่งนอกเหนือจากการรองรับอินพุตแบบ Multimodal เช่น รูปภาพ วิดีโอ และเสียงแล้ว ยังรองรับเอาต์พุตแบบ Multimodal ด้วยเช่นกัน เช่น รูปภาพที่สร้างขึ้นเองผสมกับข้อความและการอ่านออกเสียงข้อความ (Text to Speech หรือ TTS) ในหลายภาษาซึ่งสามารถปรับแต่งได้ นอกจากนี้ยังสามารถเรียกใช้เครื่องมือต่างๆ เช่น Google Search การเรียกใช้โค้ด รวมถึงฟังก์ชันของบุคคลที่สามที่ผู้ใช้กำหนดได้อีกด้วย

เป้าหมายของเราคือการนำโมเดลเหล่านี้ไปให้ผู้คนได้ใช้อย่างปลอดภัยและรวดเร็ว ในเดือนที่ผ่านมา เราได้เปิดให้ใช้งาน Gemini 2.0 เวอร์ชันทดลองเบื้องต้น และได้รับฟีดแบ็กที่ดีจากนักพัฒนาซอฟต์แวร์

Gemini 2.0 Flash พร้อมให้บริการแล้วในรูปแบบโมเดลทดลองสำหรับนักพัฒนาซอฟต์แวร์ผ่านทาง Gemini API ใน Google AI Studio และ Vertex AI โดยมีอินพุตแบบ Multimodal และเอาต์พุตข้อความพร้อมให้บริการสำหรับนักพัฒนาซอฟต์แวร์ทั้งหมด นอกจากนี้ การอ่านออกเสียงข้อความและการสร้างภาพแบบเนทีฟก็พร้อมให้บริการสำหรับพาร์ทเนอร์ที่เข้าร่วมการทดลองใช้ก่อนเปิดตัวด้วยเช่นกัน โดยจะพร้อมให้ใช้งานทั่วไปในเดือนมกราคม พร้อมด้วยโมเดลขนาดอื่นๆ เพิ่มเติม

นอกจากนี้ เรายังจะเปิดตัว Multimodal Live API ใหม่ที่มีอินพุตเสียงและวิดีโอสตรีมมิงแบบเรียลไทม์ และความสามารถในการใช้เครื่องมือต่างๆ ร่วมกันได้ เพื่อช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างแอปพลิเคชันที่โต้ตอบได้แบบไดนามิก ดูรายละเอียดเพิ่มเติมเกี่ยวกับ Gemini 2.0 Flash และ Multimodal Live API ได้ที่บล็อกสำหรับนักพัฒนาซอฟต์แวร์ของเรา

Gemini 2.0 พร้อมใช้งานในแอป Gemini ซึ่งเป็นผู้ช่วย AI ของเรา

ตั้งแต่วันนี้เป็นต้นไป ผู้ใช้ Gemini ทั่วโลกสามารถเข้าถึงเวอร์ชันที่เพิ่มประสิทธิภาพการแชทของ Gemini 2.0 Flash Experimental ได้โดยเลือกจากเมนูแบบเลื่อนลงของโมเดลบนเดสก์ท็อปและเว็บบนอุปกรณ์เคลื่อนที่ และจะพร้อมใช้งานในแอป Gemini บนอุปกรณ์เคลื่อนที่ในเร็วๆ นี้ โดยโมเดลใหม่นี้จะทำให้ผู้ช่วย Gemini เป็นประโยชน์ต่อผู้ใช้ยิ่งขึ้น

ในช่วงต้นปีหน้า เราจะขยาย Gemini 2.0 ไปยังผลิตภัณฑ์อื่นๆ ของ Google เพิ่มเติม

ปลดล็อกประสบการณ์การใช้ Agentic AI ด้วย Gemini 2.0

ความสามารถในการดำเนินการของอินเทอร์เฟซผู้ใช้แบบเนทีฟของ Gemini 2.0 Flash ร่วมกับการปรับปรุงประสิทธิภาพในด้านอื่นๆ เช่น การให้เหตุผลแบบ Multimodal การทำความเข้าใจข้อมูลที่มีเนื้อหายาวๆ การปฏิบัติตามคำสั่งที่ซับซ้อนและการวางแผน การเรียกใช้ฟังก์ชันที่มีหลายองค์ประกอบ การใช้เครื่องมือแบบเนทีฟ และการตอบสนองที่เร็วยิ่งขึ้น โดยทั้งหมดนี้จะทำงานร่วมกันเพื่อมอบประสบการณ์การใช้งาน Agentic AI แบบใหม่

การประยุกต์ใช้ AI Agent ในทางปฏิบัตินั้นเต็มไปด้วยความเป็นไปได้มากมาย ซึ่งยังคงต้องมีการศึกษาวิจัยเพิ่มเติมอย่างต่อเนื่อง เรากำลังสำรวจขอบเขตใหม่นี้ด้วยโครงการต้นแบบที่สามารถช่วยให้ผู้คนทำสิ่งต่างๆ ให้สำเร็จลุล่วงได้ ซึ่งรวมถึงการอัปเดต Project Astra ซึ่งเป็นโครงการวิจัยต้นแบบของเราที่สำรวจความสามารถใหม่ๆ ของผู้ช่วย AI สากล Project Mariner ที่สำรวจวิธีใหม่ๆ ในการโต้ตอบระหว่างมนุษย์กับ AI Agent ในอนาคต โดยเริ่มจากเบราว์เซอร์ของคุณ และ Jules ซึ่งเป็น Code Agent ที่ทำงานด้วยระบบ AI ซึ่งสามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ได้

แม้ว่าเราเพิ่งอยู่ในระยะเริ่มต้นของการพัฒนา แต่เราก็รู้สึกตื่นเต้นที่ได้เห็นว่าผู้ทดสอบที่เชื่อถือได้นั้นใช้ความสามารถใหม่เหล่านี้ให้เป็นประโยชน์อย่างไรบ้าง รวมถึงสิ่งที่เราได้เรียนรู้เพื่อที่จะทำให้ความสามารถเหล่านี้พร้อมใช้งานในผลิตภัณฑ์ต่างๆ มากขึ้นในอนาคต

Project Astra: AI Agent ที่ใช้ความเข้าใจแบบ Multimodal ในโลกแห่งความเป็นจริง

ตั้งแต่ที่เราเปิดตัว Project Astra ในงาน Google I/O เราก็ได้เรียนรู้จากผู้ทดสอบที่เชื่อถือได้ซึ่งใช้ Project Astra บนโทรศัพท์ Android ข้อเสนอแนะอันมีค่าของพวกเขาช่วยให้เราเข้าใจได้ดีขึ้นว่าผู้ช่วย AI สากลจะทำงานได้อย่างไรในทางปฏิบัติ รวมถึงผลกระทบต่อความปลอดภัยและจริยธรรม การปรับปรุง Project Astra ในเวอร์ชันล่าสุดที่ต่อยอดจาก Gemini 2.0 มีดังนี้

บทสนทนาที่ดียิ่งขึ้น: ตอนนี้ Project Astra สามารถสนทนาได้ในหลายภาษาและใช้หลายภาษาปนกันได้ โดยเข้าใจสำเนียงและคำที่ไม่ค่อยคุ้นเคยได้ดีขึ้น
การใช้งานเครื่องมือใหม่: Gemini 2.0 ช่วยให้ Project Astra สามารถใช้ Google Search, Google Lens และ Google Maps ได้ ทำให้มีประโยชน์มากขึ้นในฐานะผู้ช่วยในชีวิตประจำวันของคุณ
หน่วยความจำที่ดีขึ้น: เราได้ปรับปรุงความสามารถของ Project Astra ในการจดจำสิ่งต่างๆ ภายใต้การควบคุมของคุณ โดยตอนนี้ Project Astra มีหน่วยความจำในเซสชันนานถึง 10 นาที และสามารถจดจำการสนทนากับคุณในอดีตได้มากขึ้น จึงปรับแต่งให้เหมาะกับคุณมากขึ้น
การตอบสนองที่เร็วยิ่งขึ้น: ด้วยความสามารถใหม่ในการสตรีมและการเข้าใจเสียงแบบเนทีฟ Project Astra สามารถเข้าใจภาษาได้อย่างรวดเร็วในระดับที่เท่ากับการสนทนาของมนุษย์

เรากำลังหาวิธีที่จะนำความสามารถประเภทนี้มาใช้กับผลิตภัณฑ์ต่างๆ ของ Google เช่น แอป Gemini ผู้ช่วย AI ของเรา และผลิตภัณฑ์รูปแบบอื่นๆ เช่น แว่นตา และเรากำลังจะเริ่มขยายโปรแกรมผู้ทดสอบที่เชื่อถือได้ (Trusted Tester Program) ให้ครอบคลุมผู้คนมากขึ้น รวมถึงผู้ทดสอบกลุ่มเล็กๆ ที่จะเริ่มทดสอบ Project Astra บนแว่นตาต้นแบบในเร็วๆ นี้

Project Mariner: AI Agent ที่ช่วยให้คุณทำงานที่ซับซ้อนได้สำเร็จ

Project Mariner คือต้นแบบการวิจัยเบื้องต้นที่ต่อยอดจาก Gemini 2.0 ซึ่งสำรวจอนาคตของการโต้ตอบระหว่างมนุษย์กับ AI Agent โดยเริ่มจากเบราว์เซอร์ของคุณ โดยโมเดลต้นแบบนี้สามารถทำความเข้าใจและให้เหตุผลเกี่ยวกับข้อมูลต่างๆ บนหน้าจอเบราว์เซอร์ของคุณ รวมถึงพิกเซลและองค์ประกอบบนเว็บ เช่น ข้อความ โค้ด รูปภาพ และแบบฟอร์ม จากนั้นจึงใช้ข้อมูลดังกล่าวผ่านส่วนขยาย Chrome เวอร์ชันทดลองเพื่อทำงานต่างๆ ให้กับคุณ

เมื่อประเมินเทียบกับเกณฑ์มาตรฐาน WebVoyager ซึ่งทดสอบประสิทธิภาพการทำงานบนเว็บแบบ End-to-End ของ AI Agent พบว่า Project Mariner มีประสิทธิภาพอยู่ในระดับแนวหน้าด้วยคะแนน 83.5% โดยมีการทำงานแบบ Single Agent

แม้จะยังอยู่ในขั้นเริ่มต้น แต่ Project Mariner ก็แสดงให้เห็นว่าในทางเทคนิคแล้ว การนำ AI Agent ไปใช้งานบนเบราว์เซอร์นั้นสามารถทำได้ แม้ว่าในปัจจุบันการทำงานอาจจะยังไม่รวดเร็วพอและไม่แม่นยำเสมอไป แต่จะมีการพัฒนาให้ดีขึ้นอย่างรวดเร็วในอนาคต

เพื่อสร้างสิ่งนี้ขึ้นมาอย่างปลอดภัยและมีความรับผิดชอบ เราจึงดำเนินการวิจัยเชิงรุกเกี่ยวกับความเสี่ยงประเภทใหม่และการบรรเทาผลกระทบที่อาจเกิดขึ้น ในขณะเดียวกันก็เปิดโอกาสให้ผู้ใช้เข้ามามีส่วนร่วมด้วย ยกตัวอย่างเช่น Project Mariner ทำได้เพียงพิมพ์ เลื่อน หรือคลิกในแท็บที่ใช้งานอยู่บนเบราว์เซอร์ของคุณเท่านั้น และจะขอให้ผู้ใช้ยืนยันขั้นสุดท้ายก่อนดำเนินการที่ละเอียดอ่อนบางอย่าง เช่น การซื้อสินค้า เป็นต้น

ขณะนี้ผู้ทดสอบที่เชื่อถือได้กำลังเริ่มทดสอบ Project Mariner โดยใช้ส่วนขยาย Chrome เวอร์ชันทดลอง ในขณะเดียวกันเราก็จะเริ่มศึกษาในส่วนของระบบนิเวศเว็บควบคู่กันไปด้วย

Jules: AI Agent สำหรับนักพัฒนาซอฟต์แวร์

เรื่องต่อมาก็คือ เราจะสำรวจว่า AI Agent สามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ด้วย Jules ได้อย่างไร Jules เป็น Code Agent เวอร์ชันทดลองที่ทำงานด้วยระบบ AI ที่ผสานรวมเข้ากับเวิร์กโฟลว์ GitHub โดยตรง Jules สามารถแก้ไขปัญหา พัฒนาแผน และดำเนินการได้ภายใต้การกำกับดูแลของนักพัฒนาซอฟต์แวร์ ความพยายามนี้เป็นส่วนหนึ่งของเป้าหมายในระยะยาวของเราในการสร้าง AI Agent ที่เป็นประโยชน์ในทุกด้าน รวมถึงการเขียนโค้ด

ดูข้อมูลเพิ่มเติมเกี่ยวกับการทดลองต่อเนื่องนี้ได้ที่บล็อกสำหรับนักพัฒนาซอฟต์แวร์ของเรา

Image 6: ภาพเคลื่อนไหวแสดงการทำงานของ Jules

การใช้ AI Agent ในเกม และอื่นๆ

Google DeepMind มีประวัติ อันยาวนานในการใช้เกมเพื่อช่วยให้โมเดล AI สามารถทำตามกฎ การวางแผน และตรรกะได้ดีขึ้น ตัวอย่างเช่น เมื่อสัปดาห์ที่ผ่านมา เราได้เปิดตัว Genie 2 ซึ่งเป็นโมเดล AI ของเราที่สามารถสร้างเกมแบบ 3 มิติได้หลากหลายรูปแบบจากภาพเพียงภาพเดียว เราได้ต่อยอดแนวทางนี้ด้วยการสร้าง AI Agent โดยใช้ Gemini 2.0 ซึ่งสามารถช่วยนำทางคุณในโลกเสมือนจริงของวิดีโอเกมได้ Genie 2 สามารถให้เหตุผลเกี่ยวกับเกมโดยอ้างอิงจากการกระทำบนหน้าจอเพียงอย่างเดียว และเสนอแนะว่าจะต้องทำอะไรต่อไปในการสนทนาแบบเรียลไทม์

เรากำลังร่วมมือกับนักพัฒนาเกมชั้นนำ เช่น Supercell เพื่อสำรวจวิธีการทำงานของ AI Agent เหล่านี้ โดยทดสอบความสามารถในการตีความกฎและความท้าทายในเกมหลากหลายประเภท ตั้งแต่เกมแนววางแผนกลยุทธ์อย่าง “Clash of Clans” ไปจนถึงเกมจำลองการทำฟาร์มอย่าง “Hay Day”

นอกจากจะทำหน้าที่เป็นเพื่อนเล่นเกมเสมือนจริงแล้ว AI Agent เหล่านี้ยังสามารถใช้ Google Search เพื่อเชื่อมต่อคุณกับข้อมูลในการเล่นเกมที่มีอยู่อย่างมากมายบนเว็บได้อีกด้วย

นอกจากการสำรวจความสามารถของ AI Agent ในโลกเสมือนจริงแล้ว เรายังกำลังทดลองใช้ AI Agent ที่สามารถช่วยเหลือผู้ใช้ในโลกแห่งความเป็นจริงได้ด้วยการนำความสามารถในการให้เหตุผลของ Gemini 2.0 มาใช้กับหุ่นยนต์ แม้ว่าจะยังอยู่ในช่วงเริ่มต้น แต่เราก็รู้สึกตื่นเต้นกับศักยภาพของ AI Agent ที่สามารถให้ความช่วยเหลือในสภาพแวดล้อมทางกายภาพได้

ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นแบบการวิจัยและการทดลองต่างๆ ของเราได้ที่ labs.google

การสร้าง AI Agent อย่างมีความรับผิดชอบในยุค Agentic AI

Gemini 2.0 Flash และต้นแบบการวิจัยของเราช่วยให้เราสามารถทดสอบความสามารถใหม่ๆ ของ AI Agent และทำกระบวนการนี้ซ้ำๆ เพื่อทำการปรับปรุงให้ได้ผลลัพธ์ตามที่ต้องการ ซึ่งในที่สุดแล้วจะช่วยให้ผลิตภัณฑ์ของ Google มีประโยชน์มากยิ่งขึ้น

ในขณะที่เราพัฒนาเทคโนโลยีใหม่เหล่านี้ เราก็ตระหนักถึงความรับผิดชอบที่ตามมาและคำถามมากมายเกี่ยวกับ AI Agent ในเรื่องของความปลอดภัย นั่นคือเหตุผลที่เราใช้แนวทางการสำรวจและการพัฒนาแบบค่อยเป็นค่อยไป โดยดำเนินการวิจัยต้นแบบหลายๆ แบบ ดำเนินการฝึกอบรมด้านความปลอดภัยซ้ำๆ ทำงานร่วมกับผู้ทดสอบที่เชื่อถือได้และผู้เชี่ยวชาญภายนอก ดำเนินการประเมินความเสี่ยงและการประกันด้านความปลอดภัยอย่างครอบคลุม

ตัวอย่างเช่น:

ในกระบวนการด้านความปลอดภัย เราได้ทำงานร่วมกับคณะกรรมการด้านความรับผิดชอบและความปลอดภัย (Responsibility and Safety Committee หรือ RSC) ซึ่งเป็นกลุ่มผู้ตรวจสอบภายในของเรามายาวนาน เพื่อระบุและทำความเข้าใจความเสี่ยงที่อาจเกิดขึ้น
ความสามารถในการให้เหตุผลของ Gemini 2.0 ช่วยให้เกิดความก้าวหน้าครั้งสำคัญในแนวทางการทำงานของ Red Team ที่นำ AI เข้ามาช่วย ซึ่งรวมถึงความสามารถในการตรวจจับความเสี่ยง ตลอดจนการประเมินและการสร้างข้อมูลฝึกโดยอัตโนมัติเพื่อลดความเสี่ยง ซึ่งหมายความว่าเราสามารถเพิ่มประสิทธิภาพของโมเดลเพื่อความปลอดภัยได้ดียิ่งขึ้น
เนื่องจากความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) ของ Gemini 2.0 ทำให้ผลลัพธ์ที่เป็นไปได้มีความซับซ้อนมากขึ้น เราจะยังคงประเมินและฝึกโมเดลสำหรับอินพุตและเอาต์พุตของภาพและเสียงเพื่อช่วยปรับปรุงความปลอดภัย
ในส่วนของ Project Astra เรากำลังสำรวจแนวทางการบรรเทาผลกระทบที่อาจเกิดขึ้นกับผู้ใช้ที่แชร์ข้อมูลที่ละเอียดอ่อนกับ AI Agent โดยไม่ได้ตั้งใจ และเราได้สร้างการควบคุมความเป็นส่วนตัวไว้แล้ว ซึ่งทำให้ผู้ใช้สามารถลบเซสชันต่างๆ ได้อย่างง่ายดาย นอกจากนี้ เรายังดำเนินการค้นคว้าวิธีการต่างๆ เพื่อให้แน่ใจว่า AI Agent ทำหน้าที่เป็นแหล่งข้อมูลที่เชื่อถือได้และไม่ดำเนินการใดๆ ที่ไม่ได้ตั้งใจในนามของผู้ใช้
สำหรับ Project Mariner เรากำลังดำเนินการเพื่อให้แน่ใจว่าโมเดลเรียนรู้ที่จะจัดลำดับความสำคัญให้คำสั่งของผู้ใช้อยู่เหนือความพยายามของบุคคลที่สามในการแทรกพรอมต์ (Prompt Injection) เพื่อให้สามารถระบุคำสั่งที่อาจเป็นอันตรายจากแหล่งภายนอกและป้องกันการใช้งานในทางที่ผิดได้ การดำเนินการในส่วนนี้ช่วยป้องกันไม่ให้ผู้ใช้ตกเป็นเหยื่อของการฉ้อโกงและฟิชชิงผ่านช่องทางต่างๆ เช่น คำสั่งที่เป็นอันตรายที่ซ่อนอยู่ในอีเมล เอกสาร หรือเว็บไซต์ต่างๆ

เราเชื่อมั่นอย่างยิ่งว่าวิธีเดียวที่จะสร้าง AI ได้คือการมีความรับผิดชอบตั้งแต่เริ่มต้น และเราจะยังคงให้ความสำคัญกับการทำให้ความปลอดภัยและความรับผิดชอบเป็นองค์ประกอบหลักในกระบวนการพัฒนาโมเดล AI และ AI Agent ของเราให้มีประสิทธิภาพมากยิ่งขึ้นต่อไป

Gemini 2.0, AI Agent และอื่นๆ

การเปิดตัวในวันนี้ถือเป็นก้าวใหม่สำหรับโมเดล Gemini ของเรา ซึ่งการเปิดตัว Gemini 2.0 Flash และต้นแบบการวิจัยที่สำรวจความเป็นไปได้ของ AI Agent ถือเป็นอีกหนึ่งความก้าวหน้าครั้งสำคัญของเราในยุค Gemini และเราจะยังคงเดินหน้าสำรวจความเป็นไปได้ใหม่ๆ โดยคำนึงถึงความปลอดภัยควบคู่กันไป เพื่อต่อยอดไปสู่ยุคของ AGI (Artificial General Intelligence)

โพสต์ใน:

ขอแนะนำ Gemini 2.0: โมเดล AI รุ่นใหม่ของเราสำหรับยุค Agentic AI

เรื่องที่เกี่ยวข้อง