Nvidia เปิดตัวของโหดส่งท้ายปี Fugatto เป็นโมเดล Gen AI ที่สามารถสร้างเสียงเพลง ซาวด์เอฟเฟกต์ ไปจนถึงเสียงคนพูดในอารมณ์ต่างๆ ตามต้องการ
Fugatto ย่อมาจาก Foundational Generative Audio Transformer Opus สามารถสร้างหรือแปลงเสียงตามต้องการ ใส่อินพุตทั้งข้อความ prompt และไฟล์ audio เข้าไปสั่งงานได้
จากวิดีโอใช้งานจะเห็นได้ว่าเราใช้งาน Fugatto ในหลายสถานการณ์ เช่น สร้างเสียงแบกกราวด์เป็นเสียงรถไฟ ในขณะเดียวกันให้มีเสียงเพลงออเคสตร้าคลอไปด้วย ไปจนถึงใส่เพลงเข้าไปและให้ Fugatto แยกเสียงนักร้องออกมาจากดนตรีทั้งหมด
หรืออีกตัวอย่างคือใส่อินพุตไฟล์ audio ที่เป็นเสียงคนพูด และให้ Fugatto เปลี่ยนอารมณ์เป็นโมโห มีความสุขได้
Nvidia ยกตัวอย่างที่ Fugatto สามารถทำประโยชน์ได้คือ นักแต่งเพลง โปรดิวเซอร์สามารถสร้างดราฟท์แรกแบบไวๆ ด้วย Fugatto บริษัทโฆษณาใช้เสียงที่สร้างจาก Fugatto เพื่อพูดแคมเปญโฆษณา นักพัฒนาเกมใช้ในการสร้างซาวด์เอฟเฟกต์
Fugatto ใช้เทคนิค ComposableART แยกแยะความแตกต่างของคำสั่งที่อยู่รวมๆ กัน เช่น ใส่ prompt ขอให้พูดข้อความที่ให้ความรู้สึกเศร้าด้วยสำเนียงฝรั่งเศส ComposableART ก็จะทำความเข้าใจในแต่ละส่วน
Fugatto เวอร์ชันเต็มใช้พารามิเตอร์ 2.5 พันล้านรายการ เทรนบนแพลตฟอร์ม NVIDIA DGX ที่มีชิป GPU NVIDIA H100 Tensor Core จำนวน 32 ตัว ถ้าอยากเห็นภาพชัดเจนขึ้นว่า Fugatto ทำอะไรได้บ้าง ดูคลิปใต้คอมเม้นท์
อย่างไรก็ตาม มีประเด็นในกลุ่มศิลปินคนทำหนัง และสหภาพ SAG-AFTRA เคลื่อนไหวเรียกร้องความเป็นธรรมให้คนทำงานรวมถึงแสดงความกังวลต่อ Gen AI เกิดการประท้วงหยุดงานครั้งใหญ่ในสหรัฐฯ เมื่อช่วงปีที่แล้ว และได้บรรลุข้อตกลงกับสตูดิโอเพื่อจำกัดการใช้เทคโนโลยีดังกล่าว
ที่มา : Nvidia