เปลือยสถิติและด้านมืดบิ๊กดาต้า สองคู่มือเพื่อให้ ‘ไม่หลงกล’ ในโลกยุคดิจิตัล

โลกปัจจุบัน ข้อมูลทุกอย่างมักถูกแปลงเป็นตัวเลข

ในชีวิตการทำงาน ผู้เขียนเชื่อว่าเราคงได้เห็นเครื่องมือที่ย่อยข้อมูลยุ่บยั่บให้เป็นตัวเลขไม่กี่ตัว หรือแผนภาพสวยงาม โดยอาจจะแสดงเปอร์เซ็นต์การเติบโต สัดส่วนรายได้จากสินค้าแต่ละประเภท รวมถึงตัวชี้วัดทางสถิติพื้นฐานอย่างค่าเฉลี่ย ความผันผวน แม้กระทั่งแบบจำลองเพื่อการคาดการณ์อนาคตอย่างง่าย

ในชีวิตนอกชั่วโมงออฟฟิศ เราอาจคุ้นหูกับคำว่าบิ๊กดาต้า หรือปัญญาประดิษฐ์ พร้อมกับข่าวในเชิงว่าเทคโนโลยีเหล่านี้จะเป็นประตูสู่ยุคใหม่ การทำงานจะไม่เหมือนเดิมอีกต่อไป ธุรกิจจะต้องปรับตัวโดยใช้ข้อมูลขนาดใหญ่ให้เป็นประโยชน์ หรือไม่ก็อาจต้องตายจากไป ฯลฯ

และบิ๊กดาต้าหรือปัญญาประดิษฐ์เอง ก็คืออีกหนึ่งขั้นของสถิติขั้นสูงที่ใช้ประโยชน์จากข้อมูลขนาดใหญ่ โลกดิจิตัลที่สามารถเก็บข้อมูลได้เยอะและละเอียดขึ้น รวมถึงความสามารถในการประมวลผลของคอมพิวเตอร์ที่เพิ่มขึ้น กล่าวคือบิ๊กดาต้าที่เขาว่ากันก็เป็นเรื่องเดียวกันกับสถิตินั่นแหละครับ

เมื่อพูดถึงสถิติ หลายคนคงทำหน้ายี้เพราะเต็มไปด้วยตัวเลขและสูตรคำนวณ แต่ในบทความนี้ ผู้เขียนจะมาแนะนำหนังสือ สถิติฉบับเซ็กซี่ (Naked Statistics: Stripping the Dread from the Data) ที่เนื้อหาค่อนข้างตรงปกเพราะออกแบบมาสำหรับคนเกลียดสถิติ หนังสือเล่มนี้จะปูพื้นฐานก่อนพาเราเข้าไปรู้จักด้านมืดของบิ๊กดาต้า ในหนังสือ บิ๊กดาต้ามหาประลัย (Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy) หนังสือสองเล่มที่จะทำให้เราอยู่เป็นและอยู่ได้ หรืออย่างน้อยก็พอจะเข้าใจว่าคนอื่นเขาคุยอะไรกัน

ปูพื้นฐานด้วยเปลือยสถิติ

หนังสือสถิติฉบับเซ็กซี่จะพาเราไปรู้จักสถิติแบบพื้นฐานมากๆ และความบิดเบือนที่สามารถสร้างได้จากเครื่องมือทางสถิติโดยจะเริ่มก้าวแรกจากเครื่องมือที่เรารู้จักกันดี นั่นคือค่าเฉลี่ยเลขคณิต (Arithmetic Mean) เครื่องมือที่ใช้บ่อยที่สุดเพื่อย่อยข้อมูลจำนวนมาก เช่น รายได้ของพนักงาน ส่วนสูงของนักเรียนในห้อง หรือสินทรัพย์ของคนทั้งประเทศ ให้เป็นตัวเลขตัวเดียวเพื่อดูว่า ‘ค่ากลาง’ ของชุดข้อมูลเหล่านั้นคืออะไร

มองเผินๆ ค่าเฉลี่ยเลขคณิตดูจะไม่มีพิษสงอะไร แต่ความจริงแล้วค่าเฉลี่ยดังกล่าวจำเป็นต้องตีความอย่างระมัดระวังอย่างยิ่ง สมมติง่ายๆ ว่ามีกลุ่มเพื่อนสนิท 4 คนมาพบปะกันที่ร้านอาหาร รายได้ของเพื่อนทั้ง 4 ในวัยกลางคนเฉลี่ยอยู่ที่ 50,000 บาท ในจินตนาการของเรา เราอาจคิดว่าทั้งสี่มีรายได้ใกล้เคียงกัน เช่น 45,000-50,000-50,000-55,000 แต่ความเป็นจริงแล้ว เพื่อน 3 คนอาจจะมีรายได้ค่อนข้างต่ำ แต่มีหนึ่งคนที่ประสบความสำเร็จโดยมีการกระจายตัวรายได้เช่นนี้ 10,000-15,000-20,000-155,000 หากใครกดเครื่องคิดเลขตามจะเห็นว่าทั้งสองกรณีมีค่าเฉลี่ยเท่ากัน โดยมีกลุ่มหนึ่งมีส่วนเบี่ยงเบนมาตรฐานสูงกว่าเพราะค่าผิดปกติ (Outliers)

มองเผินๆ ค่าเฉลี่ยเลขคณิตดูจะไม่มีพิษสงอะไร แต่ความจริงแล้วค่าเฉลี่ยดังกล่าวจำเป็นต้องตีความอย่างระมัดระวังอย่างยิ่ง

เริ่มสนุกแล้วใช่ไหมครับ? แต่ตัวอย่างข้างบนเป็นเพียงน้ำจิ้มเท่านั้นครับ เพราะเรื่องสถิตินั้นใกล้ตัวเรามากกว่าที่คิด เช่น การใช้ค่าสหสัมพันธ์ (Correlation) ในการคาดเดาหนังที่เราชอบของเน็ตฟลิกซ์ ความน่าจะเป็นพื้นฐานและเหตุผลที่เราไม่ควรซื้อประกันเครื่องใช้ไฟฟ้าราคาถูก รวมถึงกลุ่มเนิร์ดนักคณิตศาสตร์ที่เกือบลากระบบการเงินโลกลงเหวเพราะมั่นใจในตัวเองเกินไป และที่พลาดไม่ได้คือหลักสถิติของการทำโพล ที่จะตีแผ่หลักคิดเบื้องหลังว่าการหยิบกลุ่มตัวอย่างไม่กี่พันคนแบบไหนที่สามารถใช้นำเสนอได้ว่าเป็นตัวแทนประชากรขนาดใหญ่

แต่ที่พลาดไม่ได้ที่สุดคือบทสุดท้าย ว่าด้วยการวิเคราะห์แบบถดถอย (Regression Analysis) ซึ่งจะพาเราไปทำความเข้าใจ ‘แกนหลัก’ ที่ขับเคลื่อนเรื่องบิ๊กดาต้าและปัญญาประดิษฐ์ โดยนับว่าเป็นแบบจำลองพื้นฐานสำหรับคนที่พยายามทำความเข้าใจว่าอัลกอริธึมสามารถคาดเดาความต้องการของเราได้อย่างไร

วิเคราะห์แบบถดถอยคือการโยนข้อมูลเข้าไปในแบบจำลอง แล้วใช้คณิตศาสตร์หาความสัมพันธ์ที่มีข้อผิดพลาด (Error) น้อยที่สุด แบบจำลองอย่างง่ายคือสมการถดถอยแบบเส้นตรง (Linear Regression) ที่ใช้กราฟเส้นตรงมาพล็อตแสดงความสัมพันธ์กับสองตัวแปร เช่น ส่วนสูงและน้ำหนัก โดยสมมติว่าใส่ข้อมูลเข้าไป 5,000 คน แล้วได้ผลลัพธ์เป็น “ส่วนสูง = 83 + 1.2 x น้ำหนัก” เราสามารถใช้สมการสมมตินี้ไปทำนายส่วนสูงของคนที่เราไม่รู้จักได้ เพียงใส่น้ำหนักตัวลงไป

บิ๊กดาต้าหรือปัญญาประดิษฐ์ก็คือการทำแบบจำลองให้ซับซ้อนมากยิ่งขึ้น โดยแทนที่จะใช้สองตัวแปร เราก็หยิบจับตัวแปรอื่นๆ ใส่เข้าไป เช่น ความสูงของพ่อและแม่ เพศ อายุ ค่าใช้จ่ายในการซื้อขนมต่อเดือน ความถี่ในการออกกำลังกาย และอีกสารพัดตัวแปรตามที่ต้องการจะใส่ เพื่อให้เวลาที่นำแบบจำลองมาใช้ทำนายจะมีความแม่นยำขึ้น

ด้านมืดของบิ๊กดาต้า

แบบจำลองเหล่านี้หากมองเผินๆ จะเป็นวิทยาศาสตร์อย่างยิ่ง อย่างไรก็ดี ไม่ว่าแบบจำลองใดก็ย่อมมีข้อยกเว้นและข้อผิดพลาด ยิ่งถ้าข้อมูลที่ใส่เข้าไปตอนแรกไม่ถูกต้อง ผลลัพธ์ที่ได้มาก็ย่อมบิดเบี้ยวตามหลักขยะเข้า-ขยะออก (Garbage in – Garbage Out) แต่คนส่วนใหญ่ (ที่ไม่ได้มีพื้นฐานและความเข้าใจทางสถิติ) มักจะลืมข้อจำกัดดังกล่าว นำไปสู่การใช้สมการในทางที่ไม่เหมาะสม จนเรียกได้ว่าเป็นคณิตศาสตร์พลังทำลายล้างสูง

แบบจำลองเหล่านี้หากมองเผินๆ จะเป็นวิทยาศาสตร์อย่างยิ่ง อย่างไรก็ดี ไม่ว่าแบบจำลองใดก็ย่อมมีข้อยกเว้นและข้อผิดพลาด

และด้วยหน้ากากที่เป็นวิทยาศาสตร์และความสลับซับซ้อนยากที่มนุษย์ปุถุชนเข้าใจ ทำให้เราเหมือนจะตั้งคำถามผลลัพธ์จากการคาดทำนายโดยแบบจำลองดังกล่าวน้อยลงเรื่อยๆ โดยสมาทานว่าแบบจำลองดังกล่าวไร้อคติ พิสูจน์แล้วทางวิชาการ และน่าเชื่อถือโดยไม่ต้องสงสัย แนวคิดดังกล่าวเปลี่ยนสมการคณิตศาสตร์ธรรมดาให้เป็นอาวุธทำลายล้างสูง

ผลลัพธ์จากแบบจำลองคงไม่ส่งผลกระทบรุนแรงมากนัก หากมันไม่ได้ทำให้ชีวิตใครคนหนึ่งเปลี่ยนจากหน้ามือเป็นหลังมือโดยไร้คำอธิบาย หนังสือ บิ๊กดาต้ามหาประลัย ได้หยิบยกตัวอย่างจำนวนมากที่ตีแผ่การใช้แบบจำลองบิ๊กดาต้าในระดับที่อันตราย ตั้งแต่การคัดกรองใบสมัครงาน การพิจารณาสินเชื่อ การประเมินประสิทธิภาพของครู ไปจนถึงการสุ่มค้นตัวผู้ต้องสงสัย หรือแม้กระทั่งการตัดสินใจให้ประกันหรือไม่ให้ประกันตัว จากแบบจำลองที่ทำนายโอกาสทำผิดซ้ำ

ผู้เขียนไม่ปฏิเสธว่าแบบจำลองที่ใช้ข้อมูลมหาศาลเหล่านี้ช่วยทำให้การประเมินมีประสิทธิภาพมากขึ้น ต้นทุนน้อยลง อีกทั้งยังช่วยบรรเทาโอกาสที่จะเกิดคอร์รัปชันและปัญหาการใช้วิจารณญาณผิดพลาด อย่างไรก็ดี แบบจำลองดังกล่าวก็เป็นไปตามหลักขยะเข้า-ขยะออก หากข้อมูลที่นำมาใส่เต็มไปด้วยอคติและเหยียดชาติพันธุ์ เช่น การหยิบข้อมูลในอดีตในช่วงเวลาที่ยังมีการเหยียดสีผิวซึ่งมีอคติว่าประชากรสีผิวมีโอกาสทำผิดซ้ำสูง ผลลัพธ์ที่ได้ออกมาก็คือแบบจำลองที่ยังคงอคติเหล่านั้นเอาไว้ในโลกสมัยใหม่ที่บริบทแตกต่างกัน ในรูปสมการที่เป็นกลางและถูกต้องตามหลักวิชากร

นอกจากนี้ ข้อมูลขนาดใหญ่ยังถูกใช้เป็นอาวุธโดยนักการตลาดบางกลุ่มที่เลือกยิงโฆษณาไปยังกลุ่มคนที่เปราะบางตรงจุดที่พวกเขาอ่อนไหว เช่น โฆษณาชวนเชื่อให้เข้าเรียนระดับปริญญาตรีราคาแพงโดยขายฝันว่าจะทำให้มีรายได้เพิ่มขึ้นอย่างมากโดยเล็งไปที่กลุ่มแม่เลี้ยงเดี่ยวซึ่งมีภาระหนี้สินค่อนข้างเยอะ ทั้งที่ความจริงแล้วปริญญาจากมหาวิทยาลัยดังกล่าวแทบไม่มีค่าใดๆ

หนังสือทั้งสองเล่มจึงเป็นตำราพื้นฐานที่อ่านเข้าใจง่าย เพื่อให้เราอยู่ได้และอยู่เป็นในโลกยุคที่บิ๊กดาต้าเป็นคำฮิตติดปาก จนหลายคนอาจลืมมองถึงข้อจำกัด ปัญหา และอคติที่มาพร้อมกับการใช้งานอย่างไม่ถูกวิธี รวมถึงแบบจำลองที่ถูกนำมาใช้อย่างไม่เข้าใจโดยไร้การตรวจสอบ

Tags: สถิติ, statistics, big data, บิ๊กดาต้า

เปลือยสถิติและด้านมืดบิ๊กดาต้า สองคู่มือเพื่อให้ ‘ไม่หลงกล’ ในโลกยุคดิจิตัล

In Focus

ปูพื้นฐานด้วยเปลือยสถิติ

ด้านมืดของบิ๊กดาต้า

Author

รพีพัฒน์ อิงคสิทธิ์

Stay curious, be open

FOLLOW US

THE MOMENTUM

day poets Co.,Ltd.

เปลือยสถิติและด้านมืดบิ๊กดาต้า สองคู่มือเพื่อให้ ‘ไม่หลงกล’ ในโลกยุคดิจิตัล

In Focus

ปูพื้นฐานด้วยเปลือยสถิติ

ด้านมืดของบิ๊กดาต้า

Author

รพีพัฒน์ อิงคสิทธิ์

Related Posts

How to Rig an Election กลโกงนักเลือกตั้ง เมื่อคูหากลายเป็นเกราะคุ้มกันให้เผด็จการซ่อนรูป

Corruption โดย ธนัช ตั้งสุวรรณ รู้ทันความวิบัติจากโลกออนไลน์ ในวันที่มนุษย์กลายเป็นไซบอร์ก

รุกเขตการค้าเสรีดิจิทัล ก้าวใหม่ของระบบนิเวศอาลีบาบาในประเทศไทย

Stay curious, be open

FOLLOW US

THE MOMENTUM

day poets Co.,Ltd.