Scarlett Johansson นักแสดงสาวชื่อดัง ไม่พอใจที่ OpenAI บริษัทพัฒนาปัญญาประดิษฐ์ อาจใช้เสียงของเธอในฟีเจอร์ ‘Voice Mode’ ของ ChatGPT โดยไม่ได้รับอนุญาต
แม้ OpenAI จะออกมาปฏิเสธ และบอกว่าใช้เสียงของนักพากย์คนอื่น แต่หลายคนฟังแล้วต่างบอกว่าเสียงนั้นเหมือนกับโจฮันส์สันมาก จนอดคิดไม่ได้ว่าแท้จริงแล้ว OpenAI แอบนำเสียงเธอมาทำการเทรน AI หรือไม่ ?
เมื่อข้อมูลใกล้หมดเกลี้ยง ไม่พอเลี้ยง AI
การฝึกโมเดลภาษาขนาดใหญ่ (LLM) ยิ่งมีข้อมูลขนาดใหญ่เท่าไหร่ ก็ยิ่งช่วยให้ AI เก่งขึ้น ฉลาดขึ้น และแม่นยำขึ้นมากเท่านั้น หรือพูดง่ายๆ ก็คือ ข้อมูล = อาหารหล่อเลี้ยง AI ตอนที่ OpenAI เปิดตัว GPT-3 ออกมา มันได้รับการฝึกฝนด้วยข้อมูลขนาดมหึมากว่า 3 แสนล้านโทเค็น
‘โทเค็น’ ในที่นี้หมายถึงคำ หรือส่วนของคำ เปรียบเสมือนตัวต่อเลโก้ของภาษา แต่ละตัวแทนส่วนหนึ่งของประโยค คอมพิวเตอร์จะแยกประโยคของเราออกเป็นชิ้นส่วนย่อยๆ เพื่อเข้าใจความหมาย เช่น ประโยค ‘ฉันชอบกินข้าว’ อาจถูกแยกเป็นโทเค็น ‘ฉัน’ ‘ชอบ’ ‘กิน’ ‘ข้าว’” เป็นต้น
เพื่อให้เห็นภาพง่ายขึ้น OpenAI ยกตัวอย่างไว้ดังนี้
– 1 โทเค็น ประมาณ 4 ตัวอักษรภาษาอังกฤษ
– 100 โทเค็น ประมาณ 75 คำภาษาอังกฤษ
– 1-2 ประโยค ประมาณ 30 โทเค็น
– 1 พารากราฟ ประมาณ 100 โทเค็น
GPT-3 ที่ได้เทรนด้วยข้อมูลไปแล้ว 3 แสนล้านโทเค็น อาจดูเยอะจนเรายังจินตนาการไม่ออก แต่ดูเหมือนว่า ข้อมูลแค่นั้นไม่พอ DeepMind จาก Google เคยทดสอบ AI เอาไว้ 400 แบบ มีโมเดลตัวหนึ่งชื่อว่า Chinchilla ที่ได้รับการเทรนด้วยโทเค็น 1.4 ล้านล้าน และในตอนนี้ GPT-4 ที่เราใช้กัน ได้รับการเทรนจากข้อมูลไปแล้วกว่า 13 ล้านล้านโทเค็น ซึ่งนับว่าเป็นข้อมูลมหาศาล
บริษัทบิ๊กเทคใช้ข้อมูลเร็วกว่าที่ข้อมูลจะถูกสร้างเสียอีก แต่พวกเขาหาข้อมูลจากไหนต่อ ?
ทางลัดของ OpenAI
การละเมิดลิขสิทธิ์เพื่อแลกกับข้อมูล ดูเหมือนจะหนึ่งในวิธีที่ OpenAI ใช้ หลังบริษัทเคยถูกฟ้องร้องเรียกค่าเสียหายเป็นเงินหลายพันล้านดอลลาร์ ในกรณีละเมิดลิขสิทธิ์นำบทความนับล้านฉบับที่ตีพิมพ์ใน The New York ไปใช้เทรน ChatGPT โดยไม่ได้รับอนุญาต และยังเจอฟ้องร้องอีกหลายคดีในปี 2023
– กันยายน 2023 : กลุ่มนักเขียนชาวอเมริกันชื่อดัง รวมถึง George R. R. Martin เจ้าของนวนิยายชุด Game of Thrones และ จอห์น กริชแฮม ฟ้องร้อง OpenAI ฐานละเมิดลิขสิทธิ์เช่นเดียวกัน
– กรกฎาคม 2023 : นักแสดงตลกชื่อดัง Sarah Silverman ฟ้องร้อง OpenAI ฐานละเมิดลิขสิทธิ์
– กรกฎาคม 2023 : นักเขียน Margaret Atwood และ Philip Pullman ร่วมลงนามในจดหมายเปิดผนึก เรียกร้องให้บริษัท AI จ่ายค่าตอบแทนให้กับนักเขียนที่ผลงานถูกนำไปใช้ฝึกปัญญาประดิษฐ์
– กลุ่มผู้เชี่ยวชาญด้านคอมพิวเตอร์ ฟ้องร้อง OpenAI, Microsoft และเว็บไซต์สำหรับนักเขียนโปรแกรม GitHub โดยอ้างว่า บริษัทนำโค้ดของพวกเขาไปใช้ฝึก Copilot โดยไม่ได้รับอนุญาต
อีกหนึ่งวิธีคือ ‘หาข้อมูลจากแหล่งอื่นเพิ่ม’ ด้วย Whisper ระบบการแปลเสียงพูดจาก OpenAI ที่ได้รับการฝึกฝนจากข้อมูลเสียงบนเว็บไซต์นานถึง 680,000 ชั่วโมง ความสามารถที่น่ากลัวคือ Whisper สามารถแปลงเสียงจากวิดีโอบน YouTube ได้
OpenAI ได้ใช้เครื่องมือตัวนี้แอบแปลงเสียงจากวิดีโอบน YouTube มากกว่า 1 ล้านชั่วโมงเพื่อนำไปป้อนให้กับ GPT-4 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ก้าวหน้าที่สุดของบริษัท
ตามรายงานของ The New York Times เปิดเผยว่า พนักงาน OpenAI รู้ว่าเสี่ยงกฎหมาย แต่เชื่อว่าการใช้ข้อมูลอย่าง ‘ชอบธรรม’ นอกจากนี้ Greg Brockman ประธานบอร์ด OpenAI ก็ถูกระบุชื่อในเอกสารวิจัยว่าเป็นหนึ่งในผู้สร้าง Whisper และเขายังเป็นคนลงมือช่วยรวบรวมวิดีโอ YouTube และป้อนข้อมูลเหล่านั้นเข้าสู่ระบบด้วยตัวเอง
เหตุการณ์ครั้งนี้ พนักงาน Google บางคนรู้เห็นว่า OpenAI กำลังทำผิด แต่เลือกที่จะเพิกเฉยเพราะ Google เองก็เคยใช้บทความที่ถอดความมาจากวิดีโอ YouTube เพื่อฝึก AI ของตัวเองเช่นกัน
ทางลัดของ Google
การเปิดตัว ChatGPT จุดประกายให้เกิดการแข่งขันในวงการ AI อย่างดุเดือด รวมไปถึง Google ที่จำเป็นต้องเร่งพัฒนา AI ตัวเก่งอย่าง Bard หรือ Gemini ในปัจจุบัน ซึ่งดูเหมือนว่า ‘ข้อมูลของผู้ใช้’ อาจเป็นสิ่งที่ถูกใช้เทรน AI
เมื่อปี 2023 สื่อต่างประเทศค้นพบว่า Google ปรับนโยบายความเป็นส่วนตัวใหม่ ระบุว่า บริษัทอาจดึงข้อมูลสาธารณะจากอินเตอร์เน็ตมาใช้ในการฝึกฝนโมเดลปัญญาประดิษฐ์ และบริการต่าง ๆ
การปรับเปลี่ยนนโยบายครั้งนี้ ทำให้ Google สามารถดึงข้อมูลสาธารณะจาก Google Docs รีวิวร้านอาหารบน Google Maps รวมถึงเนื้อหาออนไลน์อื่นๆ ใครก็ค้นหาเจอ มาใช้ในการเทรน AI ได้
กรณีนี้นำไปสู่การตั้งข้อสงสัยจากหลายฝ่ายว่า ข้อมูลสำคัญใน Google Docs ของผู้ใช้ที่เปิดแชร์แบบ ‘Anyone with the Link’ จะถูกนับเป็นข้อมูลสาธารณะ และถูกนำไปใช้เทรน AI ด้วยหรือไม่ ทางฝั่งตัวแทนของ Google ได้เปิดเผยว่า เอกสารที่แชร์ลิงก์แบบดังกล่าว ‘ไม่ถือว่าเป็นข้อมูลสาธารณะ และจะไม่ถูกนำไปฝึก AI’
แต่เอกสารของเราอาจตกเป็น ‘ข้อมูลสาธารณะ’ หากเราเคยโพสต์ลิงก์ Docs บนเว็บไซต์ หรือแชร์ในโซเชียลมีเดีย เพราะเว็บครอวเลอร์ (เครื่องมือที่ทำหน้าที่รวบรวมข้อมูลบนโลกอินเทอร์เน็ต) จะสามารถหาเจอได้ และข้อมูลใน Docs ชิ้นนั้นก็อาจถูกนำไปเทรน AI
ดังนั้น สบายใจได้ว่าเอกสารส่วนตัวของเราใน Google Docs ‘น่าจะปลอดภัย’ หากไม่เผลอปล่อยเป็นสาธารณะ…
ทางลัดของ Meta
Mark Zuckerberg ซีอีโอของ Meta มีการลงทุนใน AI มาหลายปี แต่การเปิดตัวของ ChatGPT ทำให้ต้องเร่งพัฒนาแชทบอทมาท้าแข่ง และเมื่อถึงจุดหนึ่ง Meta ก็ประสบปัญหาเดียวกับคู่แข่ง ‘ขาดข้อมูล’
ทีม Generative AI ของ Meta ได้ใช้ข้อมูลเกือบทุกอย่างที่หาได้บนโลกอินเตอร์เน็ตไม่ว่าจะเป็น หนังสือ บทความ ข่าว มาใช้ในการพัฒนาโมเดล แต่ยังไม่เพียงพอที่จะแข่งกับ ChatGPT ได้ เว้นแต่จะหาข้อมูลเพิ่ม
ระหว่างการประชุมครั้งหนึ่ง เคยมีการพูดคุยถึงความเป็นไปได้ในการว่างจ้าง outsource ในแอฟริกาเพื่อรวบรวมเนื้อหาสรุปย่อของงานเขียนประเภท Fiction และ Nonfiction แม้เนื้อหาเหล่านั้นจะมีลิขสิทธิ์อยู่ก็ตาม
แต่สิ่งที่น่ากังวลตามรายงานก็คือ ผู้บริหาร Meta เปิดเผยในการประชุมว่า การที่บริษัทจะไปเจรจากับสำนักพิมพ์ ศิลปิน นักดนตรี และอุตสาหกรรมข่าว เพื่อขออนุญาตใช้ข้อมูล น่าจะใช้เวลานานเกินไป หาก OpenAI มีการนำข้อมูลที่มีลิขสิทธิ์มาใช้ Meta ย่อมสามารถทำตาม ‘บรรทัดฐาน’ ของตลาดนี้ได้เช่นกัน ตามคำกล่าวของ Nick Grudin รองประธานฝ่าย Global Partnership and Content
แม้ Meta จะมีโซเชียลมีเดียขนาดยักษ์ แต่บริษัทกลับไม่มีข้อมูลโพสต์ของผู้ใช้ที่นำมาเทรน AI ได้ เนื่องจาก Facebook ไม่ได้ถูกออกแบบมาให้คนเขียนเนื้อหาประเภทเรียงความตั้งแต่ต้น แต่ดูเหมือนว่าทางออกในการหาข้อมูลมาให้ AI ของ Meta คือ ‘วิดีโอ และภาพถ่าย’
“คนส่วนใหญ่เวลานึกถึงข้อมูล จะนึกถึง Corpus ซึ่งเป็นคลังข้อมูลขนาดใหญ่ที่ใช้ในการฝึกโมเดล AI แต่บน Facebook และ Instagram มีรูปภาพที่แชร์สาธารณะหลายร้อยล้านภาพ และวิดีโอสาธารณะหลายหมื่นล้านรายการ ซึ่งคาดว่ามีขนาดใหญ่กว่าชุดข้อมูล Common Crawl นอกจากนี้ ผู้คนยังแชร์ข้อความสาธารณะจำนวนมากในความคิดเห็นบนบริการต่างๆ ของเราด้วย” – Mark Zuckerberg กล่าวในการประชมรายงานผลประกอบการ เมื่อวันที่ 1 ปี 2024
Synthetic Data : ทางออกของ AI ในวันที่โลกไม่เหลือข้อมูลชั้นดี
หากการวิเคราะห์ของบริษัทวิจัย Epoch ถูกต้อง บริษัทเทคโนโลยีอาจใช้ข้อมูลคุณภาพสูงบนอินเทอร์เน็ตหมดเกลี้ยงภายในปี 2026 แต่ดูเหมือนว่าบริษัทต่างๆ มีแผนรับมือปัญหาข้อมูลที่กำลังจะหมดระยะยาวไว้เรียบร้อยแล้วด้วย ‘ข้อมูลสังเคราะห์ (Synthetic Data)’
เนื่องจาก AI สามารถสร้างข้อความที่เลียนแบบมนุษย์ได้ จึงเกิดแนวคิดว่า เราสามารถเทรน AI ด้วยข้อความที่สร้างโดย AI ซึ่งจะช่วยให้นักพัฒนาสร้างเทคโนโลยีที่มีประสิทธิภาพ และลดการพึ่งพาข้อมูลที่ลิขสิทธิ์
นักวิจัย AI ศึกษาเรื่องข้อมูลสังเคราะห์มานานหลายปีแล้ว แต่การสร้างระบบ AI ที่สามารถฝึกได้เหมือนเราเรียนรู้เอง ทำได้ยาก ถ้า AI เรียนรู้จากสิ่งที่สร้างเอง มันอาจจะวนอยู่ในกับดัก เอาแต่เสริมสร้างความแปลกประหลาด ข้อผิดพลาดเดิมๆ ของมันเอง เหมือนคนหลงทางในป่า เพราะไม่มีข้อมูลรอบด้าน
การจะไปถึงจุดนั้นได้ เราต้องก้าวข้าวจุดที่เรียกว่า ‘เส้นขอบฟ้าของข้อมูลสังเคราะห์’ (data event horizon) ซึ่งเป็นจุดที่ AI มีความฉลาดมากพอที่จะสร้างข้อมูลสังเคราะห์ที่มีคุณภาพได้ด้วยตัวเอง โดยไม่ต้องพึ่งข้อมูลดั้งเดิมจากมนุษย์
สงครามแย่งชิงข้อมูลยังคงร้อนแรง แต่เริ่มมุ่งสู่อนาคตที่ดีขึ้น หลังบิ๊กเทคต่างเร่งรีบคว้าดีลความร่วมมือกับบริษัทสื่อ เพื่อขอใช้ประโยชน์จากเนื้อหาข้อมูลอย่างถูกต้องตามกฎหมาย สะท้อนให้เห็นถึงทิศทางที่ถูกต้องมากขึ้นของ ‘สงครามล่าข้อมูล’
เพียงแต่ข้อมูลที่เคยถูกใช้ไป ยังคงเป็นข้อสงสัยของทุกฝ่าย
อ้างอิง : New York Times, papareo, BBC, The Verge (1) (2) (3), The Register, OpenAI
บทความโดย Kriengsak Maolee
————————————————————————————————————————————————————————–
ที่มา : Techsauce / วันที่เผยแพร่ 12 มิ.ย. 2567
Link : https://techsauce.co/tech-and-biz/how-big-tech-use-shortcut-to-collect-data-to-train-ai