ในงาน Google I/O 2024 เปิดตัวความสามารถ AI ชุดใหญ่ ไฮไลต์คือ Project Astra ผู้ช่วย AI ในอนาคต, Veo โมเดล text to video ของ Google เอง ไปจนถึงความสามารถ Android ใหม่ๆ ที่ใช่โมเดล Gemini มาทำให้โทรศัพท์ของเราฉลาดขึ้น
ในงาน Google I/O 2024 มีการใช้คำว่า AI บนเวทีไป 121 ครั้ง Sundar Pichai ซีอีโอนับให้เองเลยตอนจบงาน
Project Astra ผู้ช่วย AI ในอนาคต
Open AI มี GPT 4o แล้ว Google ก็ไม่ยอมแพ้ เปิดตัว Project Astra ที่ Google ตั้งใจว่าสิ่งนี้จะมาผู้ช่วย AI ในอนาคต การทำงานเป็นมัลติโมเดลในเรียลไทม์ ทำความเข้าใจหลายอย่างพร้อมกัน ทั้งสภาพแวดล้อมในโลกจริง วิดีโอ เสียง ข้อความ บริบทองค์ความรู้ในเรื่องต่างๆ
เดโม่ Google โชว์ให้เห็นผู้ใช้ Astra ในสำนักงานของ Google ลอนดอนขอให้ AI หาแว่นตาที่หายไป โค้ดที่ต้องเขียนเพิ่มในโปรเจกต์ สถานที่ที่เราอยู่ ซึ่งเดโม่ทั้งหมดทำในคลิปเดียวไม่มีการตัดต่อ ทำให้เห็นความสามารถของ AI ที่เข้าในสภาพแวดล้อมซับซ้อนมากขึ้น เปลี่ยนไปมา กลับไปกลับมาได้โดยมีภาวะ lag หรือดีเลย์น้อย
ในเดโม่ยังมีสาธิตการใช้ Astra กับแว่นตาสมาร์ทกลาสด้วย เราสามารถพูดคุยและให้ AI มองโลกจริงผ่านแว่นตาเราโดยไม่ต้องคอยถือกล้องมือถือจ่ออยู่ข้างหน้าตลอดเวลา
Project Astra สร้างขึ้นจาก Gemini ซึ่งเป็นโมเดล AI เรือธงของ Google ในตอนนี้ ซึ่งทั้ง Project Astra และ GPT 4o ช่วยฉายภาพให้เห็นว่าตัวเราในอนาคตจะมี AI ฉลาดๆ เป็นผู้ช่วยส่วนตัวให้เราได้ตลอดเวลา
เปิดตัว Veo โมเดล text to video ของ Google เอง
ตอนนี้ Sora มีคู่แข่งใหม่คือ Veo ใส่ prompt ข้อความเพื่อสร้างวิดีโอได้มากกว่า 1 นาที ที่สามารถทำความเข้าใจบริบททาง cinematic ทำภาพสโลว์ เร่ง หรือทำ timelapse ได้ ถือเป็นโปรดักต์ที่เจาะกลุ่มครีเอเตอร์ คนทำหนัง คนทำมิวสิควิดีโอโดยเฉพาะ
Veo จะพร้อมใช้งานภายในเครื่องมือ VideoFX ของ Google สำหรับครีเอเตอร์บางกลุ่ม เปิดรอลงทะเบียนใช้งานในบางประเทศโดยยังไม่มีไทยในเฟสแรก ในอนาคต Google มีแผนจะใช้งาน Veo ใน YouTube Shorts รวมถึงผลิตภัณฑ์อื่นๆ ด้วย
ผลงาน AI ที่ถูกสร้างขึ้นบน VideoFX ซึ่งรวมถึง Veo, ImageFX และ MusicFX จะลงลายน้ำ AI ไว้เป็นพื้นฐาน
Gemini บน Android ทำงานฉลาดขึ้นมาก
- Circle to Search หรือลากนิ้วเพื่อค้นหาทำงานฉลาดขึ้น แก้ปัญหาที่ซับซ้อนอย่างโจทย์เลข สูตรสัญลักษณ์ แผนภาพ กราฟ และช่วยแจกแจงวิธีทำเป็นข้อๆ มาให้
- ใช้ความสามารถ Gemini ได้ในหลายๆ แอป เช่น drag drop รูปภาพที่ gen ขึ้นลงใน Gmail, กด Ask this video เพื่อสรุปใจความสำคัญของวิดีโอบน YouTube, ผู้ใช้งาน Gemini Advanced ใช้สรุปเอกสาร PDF ได้ด้วย
- Gemini Nano with Multimodality บนมือถือเริ่มที่ Pixel ก่อน โดยโทรศัพท์จะไม่เพียงแต่สามารถประมวลผลการป้อนข้อความเท่านั้น แต่ยังเข้าใจข้อมูลเพิ่มเติมในบริบทต่างๆ เช่น ภาพ เสียง และภาษาพูด เพิ่มความฉลาดให้ TalkBack ฟีเจอร์เพื่อผู้มีภาวะสายตาบกพร่อง
- แจ้งเตือนมิจฉาชีพโทรมา โดยใช้ความสามารถ Gemini Nano คาดการณ์พฤติกรรมและเตือนเราว่า สายที่โทรเข้ามานี้ผิดปกติ