เป็นสงคราม AI ส่งท้ายปี สองค่ายหลัก Open AI และ Google เปิดตัวของใหม่เป็นชุด โดย Open AI ประกาศเปิดใช้งาน Sora โมเดล Gen AI สำหรับงานวิดีโอให้ผู้ใช้งานทั่วไปเต็มตัว Google ก็เปิดตัว Veo 2 และ Imagen 3 ในเวอร์ชั่นใหม่ และยังเปิดตัว Whisk ที่ให้เราใช้ภาพแทน prompt ด้วยข้อความออกมาด้วย
Veo 2 แสดงรายละเอียดสมจริงมากขึ้น ลดความผิดพลาดที่มักเกิดขึ้นจากวิดีโอ AI เข้าใจฟิสิกส์การเคลื่อนไหวของมนุษย์ได้ดีขึ้น แสดงความละเอียดได้ถึง 4K ในความยาวหลักนาที
Veo 2 ยังเข้าใจความเป็นภาพยนตร์ แสดงมุมมองภาพในเลนส์ต่างๆ เราสามารถระบุเลนส์ที่อยากได้ การเบลอฉากหลัง รวมถึงเข้าใจเอฟเฟกต์ภาพยนตร์ด้วย
Google จะขยายการใช้งาน Veo 2 ไปยังเครื่องมือ VideoFX และ YouTube Shorts รวมถึงโปรดักต์อื่นๆ ในปีหน้า
ส่วนโมเดล text-to-image อย่าง Imagen 3 ก็สามารถสร้างภาพที่มีคอมโพสดีขึ้น ทำภาพในสไตล์ต่างๆ ที่มีความสมจริง ลดความผิดพลาด เปิดใช้งานใน Google Labs ใน 100 ประเทศ
นอกจากนี้ยังมี Whisk ของใหม่ล่าสุดเป็นลูกเล่นที่ Google เปิดตัวมาได้น่าสนใจคือ โมเดลสร้างภาพ ที่ไม่ตต้อง prompt ด้วยข้อความ แต่ใช้ prompt ด้วยภาพแทน
Whisk ใช้พลัง Imagen 3 และการทำความเช้าใจรูปภาพของ Gemini รวมกัน โดย Gemini จะเขียนแคปชั่นจากรูปภาพที่เรา prompt เขาไปให้ Imagen 3 เจนออกมาให้ เราสามารถใช้ภาพในสไตล์ต่างๆ สื่อความแทนการเขียนที่อาจกินเวลามากกว่า เพื่อให้ได้ภาพที่ตรงตามความต้องการ
Whisk เริ่มเปิดใช้งานเฉพาะในสหรัฐฯ เท่านั้น