บริษัทไมโครซอฟต์เปิดตัวปัญญาประดิษฐ์ตัวใหม่ “VALL-E” เลียนเสียงคนได้ในเวลาแค่ 3 วินาที และใส่อารมณ์ลงไปในคำพูดได้ด้วย!
วงการเทคโนโลยีสั่นสะเทือนอีกครั้ง เมื่อสัปดาห์ที่แล้ว บริษัทไมโครซอฟต์ (Microsoft) ยักษ์ใหญ่ด้านเทคโนโลยี ออกมาประกาศเปิดตัวโมเดลปัญญาประดิษฐ์ (เอไอ) ตัวใหม่ที่มีชื่อว่า “VALL-E” (ไม่ใช่การ์ตูน WALL-E นะ!)
ความพิเศษของเอไอตัวนี้คือ มันสามารถจำลองเลียงของคนได้อย่างไร้ที่ติ เพียงป้อนตัวอย่างเสียงความยาวแค่ 3 วินาทีให้มัน มันก็จะสามารถเรียนรู้เสียงนั้นและสังเคราะห์เสียงนั้นออกมา
จุดเด่นของ VALL-E นอกจากเรื่องความเร็วในการเรียนรู้แล้ว มันยังสามารถใช้เสียงที่จดจำมาพูดอะไรก็ได้ และใส่ “อารมณ์” ไหนลงไปก็ได้ พูดง่าย ๆ มันจะไม่ใช่เสียงโมโนโทนแบบเอไออื่น แต่จะเป็นเสียงที่พูดราวกับเป็นคนจริง ๆ ที่มีอารมณ์ความรู้สึก
ทีมผู้พัฒนาคาดการณ์ว่า VALL-E อาจถูกนำไปใช้สำหรับแอปพลิเคชันแปลงข้อความเป็นคำพูด (Text-to-Speech) คุณภาพสูง หรือโปรแกรมแก้ไขดัดแปลงเสียงที่บันทึกไว้ จากที่พูดประโยคหนึ่ง ก็อาจตัดต่อให้พูดเป็นอีกประโยคหนึ่งโดยที่เสียงยังเป็นของผู้พูดคนเดิม
ไมโครซอฟต์เปิดเผยว่า VALL-E สร้างขึ้นจากเทคโนโลยีที่เรียกว่า EnCodec ซึ่งแตกต่างจากเทคโนโลยีแปลงข้อความเป็นคำพูดอื่น ๆ
โดยทั่วไปเทคโนโลยีแปลงข้อความเป็นคำพูดจะสังเคราะห์เสียงพูดโดยการจัดการรูปแบบคลื่น (Waveform) แต่ VALL-E จะสร้างรหัสตัวแปลงสัญญาณเสียงจากข้อความและเสียงที่ป้อนให้ วิเคราะห์ลักษณะเสียงของบุคคล แบ่งข้อมูลนั้นออกเป็นองค์ประกอบย่อย (เรียกว่า “โทเค็น”) แล้วจึงสังเคราะห์ออกมาเป็นรูปแบบคลื่น
ไมโครซอฟต์ฝึกฝนความสามารถในการสังเคราะห์เสียงพูดของ VALL-E ในฐานข้อมูลเสียงที่รวบรวมโดยเมตา เรียกว่า LibriLight ประกอบด้วยคำพูดภาษาอังกฤษ 60,000 ชั่วโมงจากผู้พูดมากกว่า 7,000 คน เพื่อให้ VALL-E สร้างเสียงออกมาได้อย่างสมจริง
ทั้งนี้ เงื่อนไขที่ VALL-E จะสามารถเลียนเสียงพูดได้ใน 3 วินาทีนั้นคือ เสียงดังกล่าวจะต้องตรงหรือใกล้เคียงกับเสียงในฐานข้อมูลการฝึก
นอกจากรักษาระดับเสียงและน้ำเสียงที่สื่ออารมณ์ของผู้พูดแล้ว VALL-E ยังสามารถเลียนแบบ “สภาพแวดล้อมทางเสียง” ของเสียงตัวอย่างได้อีกด้วย ตัวอย่างเช่น หากตัวอย่างมาจากเสียงที่เหมือนพูดจากโทรศัพท์ VALL-E ก็สามารถจำลองคุณสมบัติเสียงและความถี่ให้เหมือนเสียงที่พูดผ่านการโทรจริง ๆ
แน่นอนว่าเทคดนดลยีที่สุดยอดอย่าง VALL-E นี้มีความอันตรายของมันอยู่ เช่น หากมีคนนำเสียงของคนใกล้ชิดเราไปให้เจ้าเอไอจดจำเสียงไว้ แล้วให้เสียงนั้นพูดขอยืมเงิน เราก็อาจหลงเชื่อและตกเป็นเหยื่อของมิจฉาชีพ
ไมโครซอฟต์ระบุว่า ทราบดีว่า VALL-E มีความอันตรายแค่ไหนหากตกไปอยู่ในมือของคนร้าย จึงไม่ได้เปิดให้มีการทดลองใช้เป็นสาธารณะ
“เนื่องจาก VALL-E สามารถสังเคราะห์เสียงพูดที่เลียนแบบเสียงผู้พูดได้ จึงอาจมีความเสี่ยงที่อาจมีการนำแบบจำลองในทางที่ผิด เช่น การปลอมแปลงเสียงหรือการเลียนแบบผู้พูดบางคน เพื่อลดความเสี่ยงดังกล่าว เราอาจจะสร้างแบบจำลองที่สามารถตรวจจับเสียงสังเคราะห์ที่เกิดจาก VALL-E โดยเฉพาะด้วย” ไมโครซอฟต์กล่าว
เรียบเรียงจาก Ars Technica
ภาพจาก AFP / Shutterstock
————————————————————————————————————————-
ที่มา : PPTV Online / วันที่เผยแพร่ 13 ม.ค.65
Link : https://www.pptvhd36.com/news/ไอที/188343