Open AI เปิดเผยว่ากำลังทดสอบเครื่องมือ Voice Engine ที่สามารถเลียนแบบเสียงคนจริงได้ในความยาว 15 วินาที หลังจากก่อนหน้านี้เรียกเสียงฮือฮาด้วยการเปิดตัว Sora เครื่องมือ text-to-video ที่มีความสมจริงไปแล้ว
Open AI บอกว่าเครื่องมือ Voice Engine สามารถเลียนเสียงคนได้อย่างเป็นธรรมชาติ ไม่โมโนโทน มีน้ำเสียงขึ้น-ลง ตัวเทคโนโลยีไม่ใช่ของใหม่ แต่ใช้ API text-to-speech ที่ Open AI พัฒนามาตั้งแต่ปี 2022 และใช้งานอยู่แล้วในฟีเจอร์ Voice and Read Aloud ของ ChatGPT
ในบล็อกเปิดตัว Voice Engine มีตัวอย่างเสียงที่ AI ผลิตโดยอ้างอิงจากเสียงต้นฉบับ ผลงานเสียงที่ AI สร้างขึ้นมายังรวมถึงการแปลเป็นภาษาต่างๆ ซึ่งมีเนื้อเสียงเหมือนเสียงต้นฉบับมากอย่างแยกไม่ออก
Open AI พูดถึงกรณีการนำไปใช้จริงหรือ use case ที่ Voice Engine จะสามารถช่วยได้คือ เป็นผู้ช่วยอ่านในคนที่ไม่สามารถอ่านได้ ตัวช่วยอ่านหนังสือสำหรับเด็ก หรือการแปลภาษาเรียลไทม์ในวิดีโอ พอดคาสท์ในกลุ่มครีเอเตอร์ที่อยากให้ผลงานตัวเอง เข้าถึงคนหลากหลายเชื้อชาติ หลากหลายภาษามากขึ้น รวมถึงการใช้ Voice Engine เป็นตัวช่วยบำบัด ฟื้นฟูผู้ป่วยด้านเสียง
แน่นอนว่า Voice Engine รวมถึงเครื่องมือ text-to-speech มีแนวโน้มที่จะถูกนำไปใช้ในทางที่ผิด และเมื่อใช้คู่กับ deepfake ก็ยิ่งมีความอันตรายมากขึ้น ซึ่ง Open AI บอกว่า พาร์ทเนอร์ที่ใช้งาน Voice Engine ได้ยอมรับเงื่อนไขการใช้งานว่าใช้เสียงได้ก็ต่อเมื่อได้รับความยินยอมจากเจ้าของเสียงแล้วเท่านั้น และพาร์ทเนอร์ต้องเปิดเผยด้วยว่าเสียงที่ใช้เป็น AI-generated
ที่มา : https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices