ข้อมูลในองค์กรของคุณพร้อมหรือยังสำหรับ AI?

“Everyone is ready for AI, except your data” Dr.Peter Aiken

เมื่อช่วงกลางเดือนกันยายนที่ผ่านมา ผมมีโอกาสเข้าร่วมงานสัมมนาของ DAMA Thailand-Bangkok ซึ่งเป็นสาขาของสถาบัน DAMA International (องค์กรระหว่างประเทศที่เน้นออกนโยบายและสร้างมาตรฐานในการจัดการบริหารข้อมูล) โดย Dr.Peter Aiken มีการออนไลน์เข้ามาร่วมสัมมนา และมีหลายคำพูดที่น่าสนใจมาก นอกจากที่ท่านบอกว่า ทุกคนพร้อมสำหรับ AIยกเว้นข้อมูลของคุณ ก็ยังมี “Bad Data + Anything Awesome = Bad Results” (ต่อให้ Machine ดีแค่ไหน แต่ถ้าข้อมูลคุณภาพแย่ ผลลัพธ์ก็แย่ตามไปด้วย) และ “Bad data quality is the enemy of AI.” (ข้อมูลคุณภาพแย่ คือศัตรูตัวหลักของ AI)

โปรเจกต์ด้าน AI ใช้เวลาส่วนมากไปกับเรื่องของข้อมูล

ซึ่งสะท้อนถึงความสำคัญของการนำข้อมูลที่ไม่ใช่แค่ปริมาณ แต่รวมถึงคุณภาพและความหลากหลายในการทำ Training Data ให้กับ Machine โดยการให้ความสำคัญกับข้อมูลนี้ก็สอดคล้องกับงานศึกษาของ Cognilytica อีกหนึ่งสถาบันเกี่ยวกับ AIที่ระบุว่า โครงการที่เกี่ยวกับ Machine Learning ใช้เวลาไปกว่า 80% ของเวลาทั้งหมดไปกับเรื่องของข้อมูล ไม่ว่าจะเป็นการระบุข้อมูล (Data Identification 5%), การรวบรวมข้อมูล (Data Aggregation 10%), การทำความสะอาดข้อมูล (Data Cleansing 25%), การแยกแยะข้อมูล (Data Labeling 25%) และการเสริมข้อมูล (Data Augmentation 15%)

นอกจากแนวทางของการสร้าง Machine แล้ว ข้อมูลที่จะนำมาเทรนนิ่งก็เป็นอีกหนึ่งปัจจัยที่จะกำหนดพัฒนาการด้าน AI

การพัฒนาสร้าง AIกำลังเปลี่ยนจากสร้าง Machine ให้คิดได้เหมือนมนุษย์ ไปสู่การสร้างเพื่อเสริมสร้างความสามารถทางความคิดของมนุษย์ โดยในช่วงต้นของการพัฒนา AI เมื่อช่วงปี 1950 นักวิทยาศาสตร์คอมพิวเตอร์และนักคณิตศาสตร์ เช่น Alan Turing (ซึ่งชีวิตท่านถูกนำมาสร้างเป็นภาพยนตร์ชื่อ The Man Who Cracked the Nazi Code: The Story of Alan Turing) จะเน้นมีเป้าหมายพัฒนาให้ Machine มีความสามารถคิดได้เหมือนมนุษย์ แต่ในระยะหลังกลายเป็นว่านักวิทยาศาสตร์คอมพิวเตอร์เน้นอยากจะพัฒนาใน Machine ให้เข้ามาช่วยเสริมความสามารถทางความคิดของมนุษย์ อาทิ Erik Brynjolfsson (Stanford Institute for Human-Centered Artificial Intelligence)

ไม่ใช่แค่ขนาดของข้อมูล แต่ AI ต้องการคุณภาพและความหลากหลาย

คุณภาพของข้อมูลเป็นประเด็นใหญ่ที่กำลังถูกพูดถึงกันค่อนข้างมากในหมู่นักวิทยาศาสตร์คอมพิวเตอร์และนักวิทยาศาสตร์ด้านข้อมูล สำหรับกลุ่มที่กังวลเรื่องของ AI Winter (ช่วงเวลาที่ความสนใจรวมถึงการลงทุนพัฒนาใน AIลดลงอย่างมาก ซึ่งส่วนใหญ่เกิดหลังจากช่วงที่กระแสความนิยมต่อ AI เพิ่มขึ้นสูงมาก จนมีการตั้งความคาดหวังต่อ AI สูงเกินไป และอาจเกิดจากข้อจำกัดด้าน Technical รวมถึงเกิดกระแสความกังวลด้านธรรมาภิบาล เป็นต้น) ได้เริ่มออกมาตั้งคำถามกับคุณค่าทางเศรษฐกิจของ AIหลังจากนี้ว่าจะสามารถสร้างเพิ่มเติมขึ้นมาได้มากน้อยเพียงใด

นอกจาก Processing Power ที่จะทำให้ AIสามารถวิเคราะห์และหาความสัมพันธ์ของข้อมูลแล้ว ตัวของชุดข้อมูลที่จะนำมาใช้ในการเทรนนิ่งเองก็มีความสำคัญไม่น้อยไปกว่ากัน โดยมีงานศึกษาของ Epoch AI(หน่วยงานวิจัยด้าน AI) ระบุว่า ความต้องการข้อมูลที่มีคุณภาพและความหลากหลายกำลังเพิ่มสูงขึ้นอย่างรวดเร็ว โดยหากไม่มีการจัดการเพิ่มการเข้าถึงข้อมูลคุณภาพ ข้อมูลคุณภาพที่มีในปัจจุบันอาจถูกนำมาใช้เทรนนิ่งจนหมดภายในปี 2026 ตัวอย่างที่ชัดเจนก็คือ AIโมเดลของทาง Google และ Meta (บริษัทแม่ของ Facebook) ได้เทรนนิ่งจำนวนคำไปแล้วมากกว่า 1 ล้านล้านคำ ซึ่งมากกว่าจำนวนคำภาษาอังกฤษใน Wikipedia ที่มี 4 พันล้านคำ นั่นจึงเป็นที่มาว่า ทำไมการเพิ่มการเข้าถึงข้อมูลที่มีคุณภาพและความหลากหลายสูงจึงกำลังเป็นสิ่งจำเป็นอย่างยิ่ง เพื่อที่จะเพิ่มมูลค่าของ AIในอนาคต

Supply Paradox of AI?

เป็นอีกหนึ่งคำถามที่เกี่ยวเนื่องจากประเด็นคุณภาพข้อมูลที่อาจเป็นข้อจำกัดของAI Transformation ในอนาคต โดยหนึ่งในผู้ที่พูดถึงประเด็นนี้คือ Erik Hoel ซึ่งเป็น Neuroscientist ชาวอเมริกัน ที่ตั้งประเด็นว่า ความสามารถ ความแม่นยำ และประสิทธิภาพ ของ AIในการที่จะสร้างประโยชน์เป็นวงกว้างในอนาคต จะขึ้นอยู่กับอุปทานของข้อมูลทั้งในด้านคุณภาพและปริมาณที่จะถูกนำมาใช้ในการทำ Training Data โดย Erik Hoel ได้เสริมประเด็นด้านนี้ต่อว่า ความเอนเอียง (Bias) ที่เกิดขึ้นจาก AIส่วนหนึ่งก็มาจาก Bias ที่เกิดขึ้นจากข้อมูลที่นำมาใช้เทรนนิ่ง นอกจากนั้นหากข้อมูลที่นำมาใช้เทรนนิ่ง Generative AIยังคงเป็นข้อมูลประเภทเดิม ชุดเดิม เช่น Writing, Image and Video Creation, Automated Marketing และ Information processing ก็อาจทำให้มูลค่าเพิ่มของ Generative AIในอนาคตเริ่มมีข้อจำกัด (อ้างอิง: U.S. Census Bureau’s Business Trends and Outlook Survey, Mar 2024) ซึ่งนั่นคือหนึ่งในเหตุผลที่มีความจำเป็นจะต้องหาข้อมูลที่มีคุณภาพและมีความหลากหลาย เพื่อนำมาเทรนนิ่ง AIแต่ข้อจำกัดในปัจจุบันก็คือข้อมูลเหล่านั้นอาจเข้าถึงได้ยาก