New York Times อ้างแหล่งข่าวไม่เปิดเผยตัว 3 คน ระบุว่า OpenAI ดูดวิดีโอ YouTube มากกว่าล้านชั่วโมงเพื่อไปฝึก GPT-4 แม้ว่าทีมงานภายในจะมีความกังวลว่า การทำเช่นนี้จะเป็นการละเมิดข้อตกลงการใช้งานของ YouTube
ที่ผ่านมาผู้พัฒนาปัญญาประดิษฐ์ในกลุ่ม LLM ต้องการข้อความจำนวนมากเพื่อมาฝึกปัญญาประดิษฐ์ และที่สำคัญข้อความเหล่านั้นต้องเป็นคอนเทนต์คุณภาพสูงเชื่อถือได้ เพื่อฝึกปัญญาประดิษฐ์ให้ตอบเฉพาะข้อมูลที่ถูกต้อง ทาง OpenAI เองก็มีโครงการซื้อคอนเทนต์เหล่านี้อยู่ โดยมีข่าวหลุดออกมาว่าราคาประมาณ 1-5 ล้านดอลลาร์ต่อปี
ข้อมูลที่ใช้ฝึกปัญญาประดิษฐ์ที่ผ่านมามักใช้ชุดข้อมูลไม่ต่างกันมากนัก โดยอาศัยชุดข้อมูลที่ดูดมาจากเว็บจำนวนมาก บางกลุ่มวิจัยเน้นข้อมูลจาก Wikipedia ที่มีการแก้ไขมาแล้ว แต่การขยายข้อมูลที่มากขึ้นหลังจากนี้เริ่มทำได้ยาก การดูดจากเว็บมาเรื่อย ๆ ก็อาจจะได้ข้อมูลคุณภาพต่ำ
บริษัทอื่นๆ นอกจาก OpenAI นั้นมีความได้เปรียบเพราะมีแพลตฟอร์มของตัวเอง กูเกิลเคยระบุว่าใช้คอนเทนต์จาก YouTube มาฝึกปัญญาประดิษฐ์หากได้รับคำยินยอมจากเจ้าของคอนเทนต์ ส่วน Meta ก็มีแพลตฟอร์มอย่าง Instagram และ Facebook ซึ่งหากขออนุญาตในข้อตกลงการใช้งานต่าง ๆ เอาไว้ก็น่าจะนำข้อมูลมาฝึกได้ ขณะที่ OpenAI ไม่มีแพลตฟอร์มที่มีคนสร้างคอนเทนต์ให้จำนวนมาก ๆ มีเพียง ChatGPT ที่มีผู้ใช้จำนวนมาก แต่ก็เป็นเนื้อหาที่สร้างจากปัญญาประดิษฐ์เอง
ที่มา: New York Times
——————————————————————————————————————————————————————————–
ที่มา : Blognone / วันที่เผยแพร่ 8 เม.ย.67
Link : https://www.blognone.com/node/139119