Google เผย AudioLM ปัญญาประดิษฐ์สร้างเสียงจนแยกไม่ออกจากต้นฉบับ

Loading

  นักวิจัยจาก Google เผยรายละเอียดของ AudioLM ปัญญาประดิษฐ์ตัวใหม่ที่สามารถสร้างเสียงได้จากการป้อนข้อมูลเข้าไป   AudioLM สามารถสังเคราะห์เสียงที่ซับซ้อนอย่างเพลงที่ใช้เปียโนเล่น หรือแม้แต่เสียงคนคุยกัน ผลก็คือได้เสียงที่มีคุณภาพแทบไม่ต่างจากเสียงจริง ๆ   Google ฝึกปัญญาประดิษฐ์ชนิดนี้ด้วยการป้อนฐานข้อมูลเสียง ซึ่ง AudioLM จะใช้ Machine Learning ในการบีบอัดไฟล์เสียงให้เป็นไฟล์ข้อมูลเสียงชิ้นเล็ก ๆ ที่เรียกว่าโทเค็น ก่อนที่จะป้อนโทเค็นนี้เข้าไปให้โมเดล Machine-Learning เรียนรู้แบบแผนและรายละเอียดปลีกย่อยของเสียงนั้น ๆ   สำหรับการใช้งาน AudioLM ในการสังเคราะห์เสียงนั้น เพียงแค่ป้อนเสียงความยาวไม่กี่วินาทีเข้าไป ตัว AudioLM ก็จะคาดเดาความต่อเนื่องของเสียงที่ควรจะมาหลังจากนั้น โดย AudioLM สามารถสังเคราะห์ได้ทั้งเสียงคนพูดหรือเสียงเครื่องดนตรี จากเสียงต้นฉบับความยาวเพียง 3 วินาที ให้กลายเป็น 10 วินาที โดยไม่ซ้ำรูปแบบกันได้   ทั้งนี้ เราสามารถให้ AudioLM ผลิตเสียงได้โดยไม่ต้องป้อนเสียงเข้าไปก็ได้ แต่ให้ผลิตเสียงจากข้อมูลที่มีอยู่แล้ว   จากตัวอย่าง จะพบว่า AudioLM…