ขอแนะนำ Gemini 2.0: โมเดล AI รุ่นใหม่ของเราสำหรับยุค Agentic AI

ข้อความจากซุนดาร์ พิชัย CEO ของ Alphabet และ Google
ข้อมูลเป็นหัวใจสำคัญของความก้าวหน้าของมนุษย์ ด้วยเหตุนี้ ตลอดระยะเวลากว่า 26 ปีที่ผ่านมา เราจึงทุ่มเทให้กับพันธกิจของเราในการจัดระเบียบข้อมูลโลก และทำให้ข้อมูลดังกล่าวสามารถเข้าถึงและเป็นประโยชน์ได้อย่างทั่วถึง และนี่คือเหตุผลที่เรายังคงพัฒนาขอบเขตความสามารถของ AI เพื่อช่วยจัดระเบียบข้อมูลเหล่านั้นในทุกอินพุต และทำให้ข้อมูลเหล่านั้นเข้าถึงได้ผ่านเอาต์พุตรูปแบบต่างๆ เพื่อให้เกิดประโยชน์ต่อทุกคนอย่างแท้จริง
นั่นคือวิสัยทัศน์ของเราเมื่อตอนเปิดตัว Gemini 1.0 เมื่อเดือนธันวาคมปีที่แล้ว โดย Gemini 1.0 และ 1.5 ซึ่งเป็นโมเดลแรกๆ ที่ทำงานได้กับข้อมูลหลายประเภท (Multimodal) แบบเนทีฟ ได้ขับเคลื่อนความก้าวหน้าครั้งใหญ่ด้วยความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) และหน้าต่างบริบท (Context Window) ที่ใหญ่ขึ้นเพื่อทำความเข้าใจข้อมูลประเภทต่างๆ ทั้งข้อความ วิดีโอ รูปภาพ เสียง และโค้ด และประมวลผลข้อมูลได้ดียิ่งขึ้น
ปัจจุบันนักพัฒนาซอฟต์แวร์หลายล้านคนกำลังนำ Gemini มาต่อยอดในการสร้างผลิตภัณฑ์ของพวกเขา และ Gemini ก็ช่วยให้เราพลิกโฉมผลิตภัณฑ์ทั้งหมดของเราด้วยเช่นกัน ซึ่งรวมถึงผลิตภัณฑ์ทั้ง 7 รายการที่มีผู้ใช้ 2 พันล้านคนทั่วโลก นอกจากนี้ยังช่วยให้เราสร้างผลิตภัณฑ์ใหม่ขึ้นมาด้วย โดย NotebookLM เป็นตัวอย่างที่แสดงให้เห็นถึงความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) และหน้าต่างบริบท (Context Window) ที่ใหญ่ขึ้น ซึ่งเป็นประโยชน์ต่อผู้ใช้ และทำให้เป็นที่ชื่นชอบของผู้คนมากมาย
ในช่วง 1 ปีที่ผ่านมา เราได้ลงทุนพัฒนาโมเดล Agentic AI มากขึ้น ซึ่งโมเดลเหล่านี้จะเข้าใจสิ่งต่างๆ ที่อยู่รอบตัวคุณได้ดียิ่งขึ้น ตลอดจนคิดล่วงหน้าไปหลายขั้นตอน และทำสิ่งต่างๆ ภายใต้การดูแลของคุณ
วันนี้ เรารู้สึกตื่นเต้นที่จะเปิดตัวโมเดลรุ่นใหม่ที่สร้างขึ้นสำหรับยุค Agentic AI ขอแนะนำ Gemini 2.0 ซึ่งเป็นโมเดลที่มีความสามารถมากที่สุดของเราในตอนนี้ ด้วยความก้าวหน้าใหม่ๆ ในด้านความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) เช่น เอาต์พุตภาพและเสียงแบบเนทีฟ และการใช้เครื่องมือแบบเนทีฟ Gemini 2.0 จะช่วยให้เราสร้าง AI Agent ใหม่ๆ ซึ่งจะทำให้วิสัยทัศน์เกี่ยวกับผู้ช่วย AI ที่เป็นสากลของเราเข้าใกล้ความเป็นจริงมากขึ้น
วันนี้เราจะเปิดให้นักพัฒนาซอฟต์แวร์และผู้ทดสอบที่เชื่อถือได้ทดลองใช้ Gemini 2.0 และเราจะนำโมเดลใหม่นี้ไปใช้กับผลิตภัณฑ์ของเราในเร็วๆ นี้ โดยจะเริ่มจาก Gemini และ Google Search ก่อน ตั้งแต่วันนี้เป็นต้นไป Gemini 2.0 Flash เวอร์ชันทดลองจะพร้อมให้ผู้ใช้ Gemini ทุกคนใช้งานได้ นอกจากนี้ เรายังจะเปิดตัวฟีเจอร์ใหม่ที่เรียกว่า Deep Research ซึ่งใช้การให้เหตุผลขั้นสูงและความสามารถในการประมวลผลข้อมูลได้มากขึ้นเพื่อทำหน้าที่เป็นผู้ช่วยวิจัย โดยจะช่วยสำรวจหัวข้อที่ซับซ้อนและรวบรวมรายงานต่างๆ ให้คุณ ฟีเจอร์นี้พร้อมใช้งานใน Gemini Advanced แล้ววันนี้
ไม่มีผลิตภัณฑ์ไหนที่ AI เข้ามาพลิกโฉมได้มากกว่า Google Search อีกแล้ว ตอนนี้มีผู้ใช้ฟีเจอร์ข้อมูลภาพรวมโดย AI (AI Overview) ใน Google Search เพื่อถามคำถามในรูปแบบใหม่ๆ มากถึง 1 พันล้านคน ทำให้ฟีเจอร์นี้กลายเป็นหนึ่งในฟีเจอร์ของ Search ที่ได้รับความนิยมสูงสุดอย่างรวดเร็ว ในขั้นตอนต่อไป เราจะนำความสามารถในการให้เหตุผลขั้นสูงของ Gemini 2.0 มาสู่ AI Overview เพื่อให้สามารถจัดการกับหัวข้อและคำถามที่ซับซ้อนได้ ซึ่งรวมถึงสมการคณิตศาสตร์ขั้นสูง การค้นหาในหลากหลายรูปแบบ และการเขียนโค้ด เราได้เริ่มการทดสอบแบบจำกัดตั้งแต่สัปดาห์นี้แล้ว และจะเปิดให้ใช้งานในวงกว้างมากขึ้นในช่วงต้นปีหน้า นอกจากนี้เรายังมีแผนที่จะขยายการให้บริการ AI Overview ในประเทศและภาษาใหม่ๆ เพิ่มเติมในปีหน้า
ความก้าวหน้าของ Gemini 2.0 เป็นผลพวงมาจากการลงทุนในด้านนวัตกรรม AI อย่างเต็มรูปแบบของเราในช่วงเวลากว่า 1 ทศวรรษที่ผ่านมา โดยต่อยอดมาจากฮาร์ดแวร์ที่เราสร้างขึ้นเอง เช่น Trillium ซึ่งเป็นชิป TPU (Tensor Processing Unit) รุ่นที่ 6 ของเรา ที่ช่วยขับเคลื่อนการฝึกและการอนุมานของ Gemini 2.0 แบบ 100% และตอนนี้ชิป Trillium ก็พร้อมให้บริการแก่ลูกค้าทั่วไปเพื่อนำไปใช้งานแล้วเช่นกัน
หาก Gemini 1.0 ช่วยในเรื่องของการจัดระเบียบและทำความเข้าใจข้อมูล Gemini 2.0 ก็คือการทำให้สิ่งเหล่านั้นมีประโยชน์มากยิ่งขึ้น ผมแทบรอไม่ไหวที่จะได้เห็นสิ่งใหม่ๆ ที่จะเกิดขึ้นในยุคต่อไป
-ซุนดาร์
ขอแนะนำ Gemini 2.0: โมเดล AI รุ่นใหม่ของเราสำหรับยุค Agentic AI
โดย Demis Hassabis, CEO และ Koray Kavukcuoglu, CTO ของ Google DeepMind ในนามของทีม Gemini
ในช่วง 1 ปีที่ผ่านมา เราได้สร้างความก้าวหน้าในด้าน AI (Artificial Intelligence) อย่างต่อเนื่อง และในวันนี้ เราจะเปิดตัวเวอร์ชันทดลองของ Gemini 2.0 Flash ซึ่งเป็นโมเดลแรกในตระกูล Gemini 2.0 และเป็นโมเดลอันทรงพลังที่ใช้เวลาในการตอบสนองต่ำและมาพร้อมประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเทคโนโลยีที่ล้ำสมัยของเรา
นอกจากนี้ เรายังจะแชร์ข้อมูลเกี่ยวกับขอบเขตการวิจัยด้าน Agentic AI ของเราด้วยการนำเสนอความสามารถในการทำงานกับข้อมูลหลายประเภท (Multimodal) แบบเนทีฟของโมเดลต้นแบบที่ขับเคลื่อนด้วย Gemini 2.0
Gemini 2.0 Flash
Gemini 2.0 Flash พัฒนาต่อยอดมาจากความสำเร็จของ Gemini 1.5 Flash ซึ่งเป็นโมเดลยอดนิยมสำหรับนักพัฒนาซอฟต์แวร์ โดยมีประสิทธิภาพการทำงานที่ดียิ่งขึ้นด้วยเวลาตอบสนองที่รวดเร็วในระดับเดียวกัน แต่จากการทดสอบด้วยเกณฑ์มาตรฐานหลัก พบว่า Gemini 2.0 Flash มีประสิทธิภาพเหนือกว่า Gemini 1.5 Pro ด้วยความเร็วถึง 2 เท่า นอกจากนี้ Gemini 2.0 Flash ยังมาพร้อมความสามารถใหม่ๆ ซึ่งนอกเหนือจากการรองรับอินพุตแบบ Multimodal เช่น รูปภาพ วิดีโอ และเสียงแล้ว ยังรองรับเอาต์พุตแบบ Multimodal ด้วยเช่นกัน เช่น รูปภาพที่สร้างขึ้นเองผสมกับข้อความและการอ่านออกเสียงข้อความ (Text to Speech หรือ TTS) ในหลายภาษาซึ่งสามารถปรับแต่งได้ นอกจากนี้ยังสามารถเรียกใช้เครื่องมือต่างๆ เช่น Google Search การเรียกใช้โค้ด รวมถึงฟังก์ชันของบุคคลที่สามที่ผู้ใช้กำหนดได้อีกด้วย

เป้าหมายของเราคือการนำโมเดลเหล่านี้ไปให้ผู้คนได้ใช้อย่างปลอดภัยและรวดเร็ว ในเดือนที่ผ่านมา เราได้เปิดให้ใช้งาน Gemini 2.0 เวอร์ชันทดลองเบื้องต้น และได้รับฟีดแบ็กที่ดีจากนักพัฒนาซอฟต์แวร์
Gemini 2.0 Flash พร้อมให้บริการแล้วในรูปแบบโมเดลทดลองสำหรับนักพัฒนาซอฟต์แวร์ผ่านทาง Gemini API ใน Google AI Studio และ Vertex AI โดยมีอินพุตแบบ Multimodal และเอาต์พุตข้อความพร้อมให้บริการสำหรับนักพัฒนาซอฟต์แวร์ทั้งหมด นอกจากนี้ การอ่านออกเสียงข้อความและการสร้างภาพแบบเนทีฟก็พร้อมให้บริการสำหรับพาร์ทเนอร์ที่เข้าร่วมการทดลองใช้ก่อนเปิดตัวด้วยเช่นกัน โดยจะพร้อมให้ใช้งานทั่วไปในเดือนมกราคม พร้อมด้วยโมเดลขนาดอื่นๆ เพิ่มเติม
นอกจากนี้ เรายังจะเปิดตัว Multimodal Live API ใหม่ที่มีอินพุตเสียงและวิดีโอสตรีมมิงแบบเรียลไทม์ และความสามารถในการใช้เครื่องมือต่างๆ ร่วมกันได้ เพื่อช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างแอปพลิเคชันที่โต้ตอบได้แบบไดนามิก ดูรายละเอียดเพิ่มเติมเกี่ยวกับ Gemini 2.0 Flash และ Multimodal Live API ได้ที่บล็อกสำหรับนักพัฒนาซอฟต์แวร์ของเรา
Gemini 2.0 พร้อมใช้งานในแอป Gemini ซึ่งเป็นผู้ช่วย AI ของเรา
ตั้งแต่วันนี้เป็นต้นไป ผู้ใช้ Gemini ทั่วโลกสามารถเข้าถึงเวอร์ชันที่เพิ่มประสิทธิภาพการแชทของ Gemini 2.0 Flash Experimental ได้โดยเลือกจากเมนูแบบเลื่อนลงของโมเดลบนเดสก์ท็อปและเว็บบนอุปกรณ์เคลื่อนที่ และจะพร้อมใช้งานในแอป Gemini บนอุปกรณ์เคลื่อนที่ในเร็วๆ นี้ โดยโมเดลใหม่นี้จะทำให้ผู้ช่วย Gemini เป็นประโยชน์ต่อผู้ใช้ยิ่งขึ้น
ในช่วงต้นปีหน้า เราจะขยาย Gemini 2.0 ไปยังผลิตภัณฑ์อื่นๆ ของ Google เพิ่มเติม
ปลดล็อกประสบการณ์การใช้ Agentic AI ด้วย Gemini 2.0
ความสามารถในการดำเนินการของอินเทอร์เฟซผู้ใช้แบบเนทีฟของ Gemini 2.0 Flash ร่วมกับการปรับปรุงประสิทธิภาพในด้านอื่นๆ เช่น การให้เหตุผลแบบ Multimodal การทำความเข้าใจข้อมูลที่มีเนื้อหายาวๆ การปฏิบัติตามคำสั่งที่ซับซ้อนและการวางแผน การเรียกใช้ฟังก์ชันที่มีหลายองค์ประกอบ การใช้เครื่องมือแบบเนทีฟ และการตอบสนองที่เร็วยิ่งขึ้น โดยทั้งหมดนี้จะทำงานร่วมกันเพื่อมอบประสบการณ์การใช้งาน Agentic AI แบบใหม่
การประยุกต์ใช้ AI Agent ในทางปฏิบัตินั้นเต็มไปด้วยความเป็นไปได้มากมาย ซึ่งยังคงต้องมีการศึกษาวิจัยเพิ่มเติมอย่างต่อเนื่อง เรากำลังสำรวจขอบเขตใหม่นี้ด้วยโครงการต้นแบบที่สามารถช่วยให้ผู้คนทำสิ่งต่างๆ ให้สำเร็จลุล่วงได้ ซึ่งรวมถึงการอัปเดต Project Astra ซึ่งเป็นโครงการวิจัยต้นแบบของเราที่สำรวจความสามารถใหม่ๆ ของผู้ช่วย AI สากล Project Mariner ที่สำรวจวิธีใหม่ๆ ในการโต้ตอบระหว่างมนุษย์กับ AI Agent ในอนาคต โดยเริ่มจากเบราว์เซอร์ของคุณ และ Jules ซึ่งเป็น Code Agent ที่ทำงานด้วยระบบ AI ซึ่งสามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ได้
แม้ว่าเราเพิ่งอยู่ในระยะเริ่มต้นของการพัฒนา แต่เราก็รู้สึกตื่นเต้นที่ได้เห็นว่าผู้ทดสอบที่เชื่อถือได้นั้นใช้ความสามารถใหม่เหล่านี้ให้เป็นประโยชน์อย่างไรบ้าง รวมถึงสิ่งที่เราได้เรียนรู้เพื่อที่จะทำให้ความสามารถเหล่านี้พร้อมใช้งานในผลิตภัณฑ์ต่างๆ มากขึ้นในอนาคต
Project Astra: AI Agent ที่ใช้ความเข้าใจแบบ Multimodal ในโลกแห่งความเป็นจริง
ตั้งแต่ที่เราเปิดตัว Project Astra ในงาน Google I/O เราก็ได้เรียนรู้จากผู้ทดสอบที่เชื่อถือได้ซึ่งใช้ Project Astra บนโทรศัพท์ Android ข้อเสนอแนะอันมีค่าของพวกเขาช่วยให้เราเข้าใจได้ดีขึ้นว่าผู้ช่วย AI สากลจะทำงานได้อย่างไรในทางปฏิบัติ รวมถึงผลกระทบต่อความปลอดภัยและจริยธรรม การปรับปรุง Project Astra ในเวอร์ชันล่าสุดที่ต่อยอดจาก Gemini 2.0 มีดังนี้
- บทสนทนาที่ดียิ่งขึ้น: ตอนนี้ Project Astra สามารถสนทนาได้ในหลายภาษาและใช้หลายภาษาปนกันได้ โดยเข้าใจสำเนียงและคำที่ไม่ค่อยคุ้นเคยได้ดีขึ้น
- การใช้งานเครื่องมือใหม่: Gemini 2.0 ช่วยให้ Project Astra สามารถใช้ Google Search, Google Lens และ Google Maps ได้ ทำให้มีประโยชน์มากขึ้นในฐานะผู้ช่วยในชีวิตประจำวันของคุณ
- หน่วยความจำที่ดีขึ้น: เราได้ปรับปรุงความสามารถของ Project Astra ในการจดจำสิ่งต่างๆ ภายใต้การควบคุมของคุณ โดยตอนนี้ Project Astra มีหน่วยความจำในเซสชันนานถึง 10 นาที และสามารถจดจำการสนทนากับคุณในอดีตได้มากขึ้น จึงปรับแต่งให้เหมาะกับคุณมากขึ้น
- การตอบสนองที่เร็วยิ่งขึ้น: ด้วยความสามารถใหม่ในการสตรีมและการเข้าใจเสียงแบบเนทีฟ Project Astra สามารถเข้าใจภาษาได้อย่างรวดเร็วในระดับที่เท่ากับการสนทนาของมนุษย์
เรากำลังหาวิธีที่จะนำความสามารถประเภทนี้มาใช้กับผลิตภัณฑ์ต่างๆ ของ Google เช่น แอป Gemini ผู้ช่วย AI ของเรา และผลิตภัณฑ์รูปแบบอื่นๆ เช่น แว่นตา และเรากำลังจะเริ่มขยายโปรแกรมผู้ทดสอบที่เชื่อถือได้ (Trusted Tester Program) ให้ครอบคลุมผู้คนมากขึ้น รวมถึงผู้ทดสอบกลุ่มเล็กๆ ที่จะเริ่มทดสอบ Project Astra บนแว่นตาต้นแบบในเร็วๆ นี้
Project Mariner: AI Agent ที่ช่วยให้คุณทำงานที่ซับซ้อนได้สำเร็จ
Project Mariner คือต้นแบบการวิจัยเบื้องต้นที่ต่อยอดจาก Gemini 2.0 ซึ่งสำรวจอนาคตของการโต้ตอบระหว่างมนุษย์กับ AI Agent โดยเริ่มจากเบราว์เซอร์ของคุณ โดยโมเดลต้นแบบนี้สามารถทำความเข้าใจและให้เหตุผลเกี่ยวกับข้อมูลต่างๆ บนหน้าจอเบราว์เซอร์ของคุณ รวมถึงพิกเซลและองค์ประกอบบนเว็บ เช่น ข้อความ โค้ด รูปภาพ และแบบฟอร์ม จากนั้นจึงใช้ข้อมูลดังกล่าวผ่านส่วนขยาย Chrome เวอร์ชันทดลองเพื่อทำงานต่างๆ ให้กับคุณ
เมื่อประเมินเทียบกับเกณฑ์มาตรฐาน WebVoyager ซึ่งทดสอบประสิทธิภาพการทำงานบนเว็บแบบ End-to-End ของ AI Agent พบว่า Project Mariner มีประสิทธิภาพอยู่ในระดับแนวหน้าด้วยคะแนน 83.5% โดยมีการทำงานแบบ Single Agent
แม้จะยังอยู่ในขั้นเริ่มต้น แต่ Project Mariner ก็แสดงให้เห็นว่าในทางเทคนิคแล้ว การนำ AI Agent ไปใช้งานบนเบราว์เซอร์นั้นสามารถทำได้ แม้ว่าในปัจจุบันการทำงานอาจจะยังไม่รวดเร็วพอและไม่แม่นยำเสมอไป แต่จะมีการพัฒนาให้ดีขึ้นอย่างรวดเร็วในอนาคต
เพื่อสร้างสิ่งนี้ขึ้นมาอย่างปลอดภัยและมีความรับผิดชอบ เราจึงดำเนินการวิจัยเชิงรุกเกี่ยวกับความเสี่ยงประเภทใหม่และการบรรเทาผลกระทบที่อาจเกิดขึ้น ในขณะเดียวกันก็เปิดโอกาสให้ผู้ใช้เข้ามามีส่วนร่วมด้วย ยกตัวอย่างเช่น Project Mariner ทำได้เพียงพิมพ์ เลื่อน หรือคลิกในแท็บที่ใช้งานอยู่บนเบราว์เซอร์ของคุณเท่านั้น และจะขอให้ผู้ใช้ยืนยันขั้นสุดท้ายก่อนดำเนินการที่ละเอียดอ่อนบางอย่าง เช่น การซื้อสินค้า เป็นต้น
ขณะนี้ผู้ทดสอบที่เชื่อถือได้กำลังเริ่มทดสอบ Project Mariner โดยใช้ส่วนขยาย Chrome เวอร์ชันทดลอง ในขณะเดียวกันเราก็จะเริ่มศึกษาในส่วนของระบบนิเวศเว็บควบคู่กันไปด้วย
Jules: AI Agent สำหรับนักพัฒนาซอฟต์แวร์
เรื่องต่อมาก็คือ เราจะสำรวจว่า AI Agent สามารถช่วยเหลือนักพัฒนาซอฟต์แวร์ด้วย Jules ได้อย่างไร Jules เป็น Code Agent เวอร์ชันทดลองที่ทำงานด้วยระบบ AI ที่ผสานรวมเข้ากับเวิร์กโฟลว์ GitHub โดยตรง Jules สามารถแก้ไขปัญหา พัฒนาแผน และดำเนินการได้ภายใต้การกำกับดูแลของนักพัฒนาซอฟต์แวร์ ความพยายามนี้เป็นส่วนหนึ่งของเป้าหมายในระยะยาวของเราในการสร้าง AI Agent ที่เป็นประโยชน์ในทุกด้าน รวมถึงการเขียนโค้ด
ดูข้อมูลเพิ่มเติมเกี่ยวกับการทดลองต่อเนื่องนี้ได้ที่บล็อกสำหรับนักพัฒนาซอฟต์แวร์ของเรา

การใช้ AI Agent ในเกม และอื่นๆ
Google DeepMind มีประวัติอันยาวนานในการใช้เกมเพื่อช่วยให้โมเดล AI สามารถทำตามกฎ การวางแผน และตรรกะได้ดีขึ้น ตัวอย่างเช่น เมื่อสัปดาห์ที่ผ่านมา เราได้เปิดตัว Genie 2 ซึ่งเป็นโมเดล AI ของเราที่สามารถสร้างเกมแบบ 3 มิติได้หลากหลายรูปแบบจากภาพเพียงภาพเดียว เราได้ต่อยอดแนวทางนี้ด้วยการสร้าง AI Agent โดยใช้ Gemini 2.0 ซึ่งสามารถช่วยนำทางคุณในโลกเสมือนจริงของวิดีโอเกมได้ Genie 2 สามารถให้เหตุผลเกี่ยวกับเกมโดยอ้างอิงจากการกระทำบนหน้าจอเพียงอย่างเดียว และเสนอแนะว่าจะต้องทำอะไรต่อไปในการสนทนาแบบเรียลไทม์
เรากำลังร่วมมือกับนักพัฒนาเกมชั้นนำ เช่น Supercell เพื่อสำรวจวิธีการทำงานของ AI Agent เหล่านี้ โดยทดสอบความสามารถในการตีความกฎและความท้าทายในเกมหลากหลายประเภท ตั้งแต่เกมแนววางแผนกลยุทธ์อย่าง “Clash of Clans” ไปจนถึงเกมจำลองการทำฟาร์มอย่าง “Hay Day”
นอกจากจะทำหน้าที่เป็นเพื่อนเล่นเกมเสมือนจริงแล้ว AI Agent เหล่านี้ยังสามารถใช้ Google Search เพื่อเชื่อมต่อคุณกับข้อมูลในการเล่นเกมที่มีอยู่อย่างมากมายบนเว็บได้อีกด้วย
นอกจากการสำรวจความสามารถของ AI Agent ในโลกเสมือนจริงแล้ว เรายังกำลังทดลองใช้ AI Agent ที่สามารถช่วยเหลือผู้ใช้ในโลกแห่งความเป็นจริงได้ด้วยการนำความสามารถในการให้เหตุผลของ Gemini 2.0 มาใช้กับหุ่นยนต์ แม้ว่าจะยังอยู่ในช่วงเริ่มต้น แต่เราก็รู้สึกตื่นเต้นกับศักยภาพของ AI Agent ที่สามารถให้ความช่วยเหลือในสภาพแวดล้อมทางกายภาพได้
ดูข้อมูลเพิ่มเติมเกี่ยวกับต้นแบบการวิจัยและการทดลองต่างๆ ของเราได้ที่ labs.google
การสร้าง AI Agent อย่างมีความรับผิดชอบในยุค Agentic AI
Gemini 2.0 Flash และต้นแบบการวิจัยของเราช่วยให้เราสามารถทดสอบความสามารถใหม่ๆ ของ AI Agent และทำกระบวนการนี้ซ้ำๆ เพื่อทำการปรับปรุงให้ได้ผลลัพธ์ตามที่ต้องการ ซึ่งในที่สุดแล้วจะช่วยให้ผลิตภัณฑ์ของ Google มีประโยชน์มากยิ่งขึ้น
ในขณะที่เราพัฒนาเทคโนโลยีใหม่เหล่านี้ เราก็ตระหนักถึงความรับผิดชอบที่ตามมาและคำถามมากมายเกี่ยวกับ AI Agent ในเรื่องของความปลอดภัย นั่นคือเหตุผลที่เราใช้แนวทางการสำรวจและการพัฒนาแบบค่อยเป็นค่อยไป โดยดำเนินการวิจัยต้นแบบหลายๆ แบบ ดำเนินการฝึกอบรมด้านความปลอดภัยซ้ำๆ ทำงานร่วมกับผู้ทดสอบที่เชื่อถือได้และผู้เชี่ยวชาญภายนอก ดำเนินการประเมินความเสี่ยงและการประกันด้านความปลอดภัยอย่างครอบคลุม
ตัวอย่างเช่น:
- ในกระบวนการด้านความปลอดภัย เราได้ทำงานร่วมกับคณะกรรมการด้านความรับผิดชอบและความปลอดภัย (Responsibility and Safety Committee หรือ RSC) ซึ่งเป็นกลุ่มผู้ตรวจสอบภายในของเรามายาวนาน เพื่อระบุและทำความเข้าใจความเสี่ยงที่อาจเกิดขึ้น
- ความสามารถในการให้เหตุผลของ Gemini 2.0 ช่วยให้เกิดความก้าวหน้าครั้งสำคัญในแนวทางการทำงานของ Red Team ที่นำ AI เข้ามาช่วย ซึ่งรวมถึงความสามารถในการตรวจจับความเสี่ยง ตลอดจนการประเมินและการสร้างข้อมูลฝึกโดยอัตโนมัติเพื่อลดความเสี่ยง ซึ่งหมายความว่าเราสามารถเพิ่มประสิทธิภาพของโมเดลเพื่อความปลอดภัยได้ดียิ่งขึ้น
- เนื่องจากความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) ของ Gemini 2.0 ทำให้ผลลัพธ์ที่เป็นไปได้มีความซับซ้อนมากขึ้น เราจะยังคงประเมินและฝึกโมเดลสำหรับอินพุตและเอาต์พุตของภาพและเสียงเพื่อช่วยปรับปรุงความปลอดภัย
- ในส่วนของ Project Astra เรากำลังสำรวจแนวทางการบรรเทาผลกระทบที่อาจเกิดขึ้นกับผู้ใช้ที่แชร์ข้อมูลที่ละเอียดอ่อนกับ AI Agent โดยไม่ได้ตั้งใจ และเราได้สร้างการควบคุมความเป็นส่วนตัวไว้แล้ว ซึ่งทำให้ผู้ใช้สามารถลบเซสชันต่างๆ ได้อย่างง่ายดาย นอกจากนี้ เรายังดำเนินการค้นคว้าวิธีการต่างๆ เพื่อให้แน่ใจว่า AI Agent ทำหน้าที่เป็นแหล่งข้อมูลที่เชื่อถือได้และไม่ดำเนินการใดๆ ที่ไม่ได้ตั้งใจในนามของผู้ใช้
- สำหรับ Project Mariner เรากำลังดำเนินการเพื่อให้แน่ใจว่าโมเดลเรียนรู้ที่จะจัดลำดับความสำคัญให้คำสั่งของผู้ใช้อยู่เหนือความพยายามของบุคคลที่สามในการแทรกพรอมต์ (Prompt Injection) เพื่อให้สามารถระบุคำสั่งที่อาจเป็นอันตรายจากแหล่งภายนอกและป้องกันการใช้งานในทางที่ผิดได้ การดำเนินการในส่วนนี้ช่วยป้องกันไม่ให้ผู้ใช้ตกเป็นเหยื่อของการฉ้อโกงและฟิชชิงผ่านช่องทางต่างๆ เช่น คำสั่งที่เป็นอันตรายที่ซ่อนอยู่ในอีเมล เอกสาร หรือเว็บไซต์ต่างๆ
เราเชื่อมั่นอย่างยิ่งว่าวิธีเดียวที่จะสร้าง AI ได้คือการมีความรับผิดชอบตั้งแต่เริ่มต้น และเราจะยังคงให้ความสำคัญกับการทำให้ความปลอดภัยและความรับผิดชอบเป็นองค์ประกอบหลักในกระบวนการพัฒนาโมเดล AI และ AI Agent ของเราให้มีประสิทธิภาพมากยิ่งขึ้นต่อไป
Gemini 2.0, AI Agent และอื่นๆ
การเปิดตัวในวันนี้ถือเป็นก้าวใหม่สำหรับโมเดล Gemini ของเรา ซึ่งการเปิดตัว Gemini 2.0 Flash และต้นแบบการวิจัยที่สำรวจความเป็นไปได้ของ AI Agent ถือเป็นอีกหนึ่งความก้าวหน้าครั้งสำคัญของเราในยุค Gemini และเราจะยังคงเดินหน้าสำรวจความเป็นไปได้ใหม่ๆ โดยคำนึงถึงความปลอดภัยควบคู่กันไป เพื่อต่อยอดไปสู่ยุคของ AGI (Artificial General Intelligence)