มีเครื่องมือ Generative AI หลายตัวที่สร้างวิดีโอสมจริงได้ แต่ส่วนใหญ่ยังเป็นวิดีโอเงียบ และมีความยาวจำกัด หากอยากสร้างเพลงหรือซาวด์แทร็คต้องใช้เครื่องมืออีกตัวมาช่วย Google DeepMind ก็เลยเปิดตัวเครื่องมือใหม่มาช่วยสร้างเสียงประกอบซาวด์แทร็คให้วิดีโอ AI เหล่านี้
Google อธิบายเทคโนโลยีเบื้องหลังว่าเป็น video-to-audio หรือ V2A เป็นการผสมผสานพิกเซลวิดีโอ เข้ากับข้อความเพื่อสร้างทัศนียภาพเสียงสำหรับฉากแอ็คชันบนหน้าจอ
V2A ใช้งานคู่กับ Veo เครื่องมือสร้างวิดีโอที่ Google เผยโฉมครั้งแรกในงาน Google I/O ที่ผ่านมา สร้างเสียงประกอบที่แมทช์เข้ากันกับสิ่งที่เกิดขึ้นบนวิดีโอ เช่นเสียงคันเร่งรถซิ่งไปตามถนน เสียงร้องของไดโนเสาร์แรกเกิด
ส่วนการ Prompt สามารถกำหนดได้ว่าต้องการเสียงแบบไหนแต่ต้องระบุให้ละเอียด เช่น Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete ระบบก็จะสร้างเสียงที่ตรงตามความต้องการมาให้
ตัว V2A ของ DeepMind สร้างเสียงพูดได้ด้วย แต่ยังมีปัญหาเรื่องการซิงค์เสียงให้ตรงกับการขยับริมฝีปากซึ่งเป็นเรื่องท้าทายสำหรับเครื่องมือ gen AI นอกจากนี้ V2A จะทำงานได้ดีต่อเมื่อได้อินพุตเป็นวิดีโอที่มีความชัดเจน ถ้าวิดีโอเบลอ ผิดเพี้ยน ก็ส่งผลต่อคุณภาพเสียงด้วยเช่นกัน
Google DeepMind ยังไม่เปิดให้คนทั่วไปใช้งาน เพียงแต่มาโชว์ศักยภาพว่า AI ตอนนี้ ทำได้ถึงขนาดนี้แล้ว
ในเว็บไซต์ https://deepmind.google/discover/blog/generating-audio-for-video/ มีตัวอย่างวิดีโอและ Prompt เสียงให้ดูด้วย