โลกปัจจุบัน ข้อมูลทุกอย่างมักถูกแปลงเป็นตัวเลข
ในชีวิตการทำงาน ผู้เขียนเชื่อว่าเราคงได้เห็นเครื่องมือที่ย่อยข้อมูลยุ่บยั่บให้เป็นตัวเลขไม่กี่ตัว หรือแผนภาพสวยงาม โดยอาจจะแสดงเปอร์เซ็นต์การเติบโต สัดส่วนรายได้จากสินค้าแต่ละประเภท รวมถึงตัวชี้วัดทางสถิติพื้นฐานอย่างค่าเฉลี่ย ความผันผวน แม้กระทั่งแบบจำลองเพื่อการคาดการณ์อนาคตอย่างง่าย
ในชีวิตนอกชั่วโมงออฟฟิศ เราอาจคุ้นหูกับคำว่าบิ๊กดาต้า หรือปัญญาประดิษฐ์ พร้อมกับข่าวในเชิงว่าเทคโนโลยีเหล่านี้จะเป็นประตูสู่ยุคใหม่ การทำงานจะไม่เหมือนเดิมอีกต่อไป ธุรกิจจะต้องปรับตัวโดยใช้ข้อมูลขนาดใหญ่ให้เป็นประโยชน์ หรือไม่ก็อาจต้องตายจากไป ฯลฯ
และบิ๊กดาต้าหรือปัญญาประดิษฐ์เอง ก็คืออีกหนึ่งขั้นของสถิติขั้นสูงที่ใช้ประโยชน์จากข้อมูลขนาดใหญ่ โลกดิจิตัลที่สามารถเก็บข้อมูลได้เยอะและละเอียดขึ้น รวมถึงความสามารถในการประมวลผลของคอมพิวเตอร์ที่เพิ่มขึ้น กล่าวคือบิ๊กดาต้าที่เขาว่ากันก็เป็นเรื่องเดียวกันกับสถิตินั่นแหละครับ
เมื่อพูดถึงสถิติ หลายคนคงทำหน้ายี้เพราะเต็มไปด้วยตัวเลขและสูตรคำนวณ แต่ในบทความนี้ ผู้เขียนจะมาแนะนำหนังสือ สถิติฉบับเซ็กซี่ (Naked Statistics: Stripping the Dread from the Data) ที่เนื้อหาค่อนข้างตรงปกเพราะออกแบบมาสำหรับคนเกลียดสถิติ หนังสือเล่มนี้จะปูพื้นฐานก่อนพาเราเข้าไปรู้จักด้านมืดของบิ๊กดาต้า ในหนังสือ บิ๊กดาต้ามหาประลัย (Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy) หนังสือสองเล่มที่จะทำให้เราอยู่เป็นและอยู่ได้ หรืออย่างน้อยก็พอจะเข้าใจว่าคนอื่นเขาคุยอะไรกัน
ปูพื้นฐานด้วยเปลือยสถิติ
หนังสือสถิติฉบับเซ็กซี่จะพาเราไปรู้จักสถิติแบบพื้นฐานมากๆ และความบิดเบือนที่สามารถสร้างได้จากเครื่องมือทางสถิติโดยจะเริ่มก้าวแรกจากเครื่องมือที่เรารู้จักกันดี นั่นคือค่าเฉลี่ยเลขคณิต (Arithmetic Mean) เครื่องมือที่ใช้บ่อยที่สุดเพื่อย่อยข้อมูลจำนวนมาก เช่น รายได้ของพนักงาน ส่วนสูงของนักเรียนในห้อง หรือสินทรัพย์ของคนทั้งประเทศ ให้เป็นตัวเลขตัวเดียวเพื่อดูว่า ‘ค่ากลาง’ ของชุดข้อมูลเหล่านั้นคืออะไร
มองเผินๆ ค่าเฉลี่ยเลขคณิตดูจะไม่มีพิษสงอะไร แต่ความจริงแล้วค่าเฉลี่ยดังกล่าวจำเป็นต้องตีความอย่างระมัดระวังอย่างยิ่ง สมมติง่ายๆ ว่ามีกลุ่มเพื่อนสนิท 4 คนมาพบปะกันที่ร้านอาหาร รายได้ของเพื่อนทั้ง 4 ในวัยกลางคนเฉลี่ยอยู่ที่ 50,000 บาท ในจินตนาการของเรา เราอาจคิดว่าทั้งสี่มีรายได้ใกล้เคียงกัน เช่น 45,000-50,000-50,000-55,000 แต่ความเป็นจริงแล้ว เพื่อน 3 คนอาจจะมีรายได้ค่อนข้างต่ำ แต่มีหนึ่งคนที่ประสบความสำเร็จโดยมีการกระจายตัวรายได้เช่นนี้ 10,000-15,000-20,000-155,000 หากใครกดเครื่องคิดเลขตามจะเห็นว่าทั้งสองกรณีมีค่าเฉลี่ยเท่ากัน โดยมีกลุ่มหนึ่งมีส่วนเบี่ยงเบนมาตรฐานสูงกว่าเพราะค่าผิดปกติ (Outliers)
มองเผินๆ ค่าเฉลี่ยเลขคณิตดูจะไม่มีพิษสงอะไร แต่ความจริงแล้วค่าเฉลี่ยดังกล่าวจำเป็นต้องตีความอย่างระมัดระวังอย่างยิ่ง
เริ่มสนุกแล้วใช่ไหมครับ? แต่ตัวอย่างข้างบนเป็นเพียงน้ำจิ้มเท่านั้นครับ เพราะเรื่องสถิตินั้นใกล้ตัวเรามากกว่าที่คิด เช่น การใช้ค่าสหสัมพันธ์ (Correlation) ในการคาดเดาหนังที่เราชอบของเน็ตฟลิกซ์ ความน่าจะเป็นพื้นฐานและเหตุผลที่เราไม่ควรซื้อประกันเครื่องใช้ไฟฟ้าราคาถูก รวมถึงกลุ่มเนิร์ดนักคณิตศาสตร์ที่เกือบลากระบบการเงินโลกลงเหวเพราะมั่นใจในตัวเองเกินไป และที่พลาดไม่ได้คือหลักสถิติของการทำโพล ที่จะตีแผ่หลักคิดเบื้องหลังว่าการหยิบกลุ่มตัวอย่างไม่กี่พันคนแบบไหนที่สามารถใช้นำเสนอได้ว่าเป็นตัวแทนประชากรขนาดใหญ่
แต่ที่พลาดไม่ได้ที่สุดคือบทสุดท้าย ว่าด้วยการวิเคราะห์แบบถดถอย (Regression Analysis) ซึ่งจะพาเราไปทำความเข้าใจ ‘แกนหลัก’ ที่ขับเคลื่อนเรื่องบิ๊กดาต้าและปัญญาประดิษฐ์ โดยนับว่าเป็นแบบจำลองพื้นฐานสำหรับคนที่พยายามทำความเข้าใจว่าอัลกอริธึมสามารถคาดเดาความต้องการของเราได้อย่างไร
วิเคราะห์แบบถดถอยคือการโยนข้อมูลเข้าไปในแบบจำลอง แล้วใช้คณิตศาสตร์หาความสัมพันธ์ที่มีข้อผิดพลาด (Error) น้อยที่สุด แบบจำลองอย่างง่ายคือสมการถดถอยแบบเส้นตรง (Linear Regression) ที่ใช้กราฟเส้นตรงมาพล็อตแสดงความสัมพันธ์กับสองตัวแปร เช่น ส่วนสูงและน้ำหนัก โดยสมมติว่าใส่ข้อมูลเข้าไป 5,000 คน แล้วได้ผลลัพธ์เป็น “ส่วนสูง = 83 + 1.2 x น้ำหนัก” เราสามารถใช้สมการสมมตินี้ไปทำนายส่วนสูงของคนที่เราไม่รู้จักได้ เพียงใส่น้ำหนักตัวลงไป
บิ๊กดาต้าหรือปัญญาประดิษฐ์ก็คือการทำแบบจำลองให้ซับซ้อนมากยิ่งขึ้น โดยแทนที่จะใช้สองตัวแปร เราก็หยิบจับตัวแปรอื่นๆ ใส่เข้าไป เช่น ความสูงของพ่อและแม่ เพศ อายุ ค่าใช้จ่ายในการซื้อขนมต่อเดือน ความถี่ในการออกกำลังกาย และอีกสารพัดตัวแปรตามที่ต้องการจะใส่ เพื่อให้เวลาที่นำแบบจำลองมาใช้ทำนายจะมีความแม่นยำขึ้น
ด้านมืดของบิ๊กดาต้า
แบบจำลองเหล่านี้หากมองเผินๆ จะเป็นวิทยาศาสตร์อย่างยิ่ง อย่างไรก็ดี ไม่ว่าแบบจำลองใดก็ย่อมมีข้อยกเว้นและข้อผิดพลาด ยิ่งถ้าข้อมูลที่ใส่เข้าไปตอนแรกไม่ถูกต้อง ผลลัพธ์ที่ได้มาก็ย่อมบิดเบี้ยวตามหลักขยะเข้า-ขยะออก (Garbage in – Garbage Out) แต่คนส่วนใหญ่ (ที่ไม่ได้มีพื้นฐานและความเข้าใจทางสถิติ) มักจะลืมข้อจำกัดดังกล่าว นำไปสู่การใช้สมการในทางที่ไม่เหมาะสม จนเรียกได้ว่าเป็นคณิตศาสตร์พลังทำลายล้างสูง
แบบจำลองเหล่านี้หากมองเผินๆ จะเป็นวิทยาศาสตร์อย่างยิ่ง อย่างไรก็ดี ไม่ว่าแบบจำลองใดก็ย่อมมีข้อยกเว้นและข้อผิดพลาด
และด้วยหน้ากากที่เป็นวิทยาศาสตร์และความสลับซับซ้อนยากที่มนุษย์ปุถุชนเข้าใจ ทำให้เราเหมือนจะตั้งคำถามผลลัพธ์จากการคาดทำนายโดยแบบจำลองดังกล่าวน้อยลงเรื่อยๆ โดยสมาทานว่าแบบจำลองดังกล่าวไร้อคติ พิสูจน์แล้วทางวิชาการ และน่าเชื่อถือโดยไม่ต้องสงสัย แนวคิดดังกล่าวเปลี่ยนสมการคณิตศาสตร์ธรรมดาให้เป็นอาวุธทำลายล้างสูง
ผลลัพธ์จากแบบจำลองคงไม่ส่งผลกระทบรุนแรงมากนัก หากมันไม่ได้ทำให้ชีวิตใครคนหนึ่งเปลี่ยนจากหน้ามือเป็นหลังมือโดยไร้คำอธิบาย หนังสือ บิ๊กดาต้ามหาประลัย ได้หยิบยกตัวอย่างจำนวนมากที่ตีแผ่การใช้แบบจำลองบิ๊กดาต้าในระดับที่อันตราย ตั้งแต่การคัดกรองใบสมัครงาน การพิจารณาสินเชื่อ การประเมินประสิทธิภาพของครู ไปจนถึงการสุ่มค้นตัวผู้ต้องสงสัย หรือแม้กระทั่งการตัดสินใจให้ประกันหรือไม่ให้ประกันตัว จากแบบจำลองที่ทำนายโอกาสทำผิดซ้ำ
ผู้เขียนไม่ปฏิเสธว่าแบบจำลองที่ใช้ข้อมูลมหาศาลเหล่านี้ช่วยทำให้การประเมินมีประสิทธิภาพมากขึ้น ต้นทุนน้อยลง อีกทั้งยังช่วยบรรเทาโอกาสที่จะเกิดคอร์รัปชันและปัญหาการใช้วิจารณญาณผิดพลาด อย่างไรก็ดี แบบจำลองดังกล่าวก็เป็นไปตามหลักขยะเข้า-ขยะออก หากข้อมูลที่นำมาใส่เต็มไปด้วยอคติและเหยียดชาติพันธุ์ เช่น การหยิบข้อมูลในอดีตในช่วงเวลาที่ยังมีการเหยียดสีผิวซึ่งมีอคติว่าประชากรสีผิวมีโอกาสทำผิดซ้ำสูง ผลลัพธ์ที่ได้ออกมาก็คือแบบจำลองที่ยังคงอคติเหล่านั้นเอาไว้ในโลกสมัยใหม่ที่บริบทแตกต่างกัน ในรูปสมการที่เป็นกลางและถูกต้องตามหลักวิชากร
นอกจากนี้ ข้อมูลขนาดใหญ่ยังถูกใช้เป็นอาวุธโดยนักการตลาดบางกลุ่มที่เลือกยิงโฆษณาไปยังกลุ่มคนที่เปราะบางตรงจุดที่พวกเขาอ่อนไหว เช่น โฆษณาชวนเชื่อให้เข้าเรียนระดับปริญญาตรีราคาแพงโดยขายฝันว่าจะทำให้มีรายได้เพิ่มขึ้นอย่างมากโดยเล็งไปที่กลุ่มแม่เลี้ยงเดี่ยวซึ่งมีภาระหนี้สินค่อนข้างเยอะ ทั้งที่ความจริงแล้วปริญญาจากมหาวิทยาลัยดังกล่าวแทบไม่มีค่าใดๆ
หนังสือทั้งสองเล่มจึงเป็นตำราพื้นฐานที่อ่านเข้าใจง่าย เพื่อให้เราอยู่ได้และอยู่เป็นในโลกยุคที่บิ๊กดาต้าเป็นคำฮิตติดปาก จนหลายคนอาจลืมมองถึงข้อจำกัด ปัญหา และอคติที่มาพร้อมกับการใช้งานอย่างไม่ถูกวิธี รวมถึงแบบจำลองที่ถูกนำมาใช้อย่างไม่เข้าใจโดยไร้การตรวจสอบ
Tags: big data, บิ๊กดาต้า, สถิติ, statistics