ในโลกยุค Big Data ที่เชื่อมต่อโลกทั้งใบด้วยอินเทอร์เน็ต ความรู้ที่เคยเป็นของหายากกลับมาหาง่ายเพียงปลายนิ้ว จึงไม่น่าแปลกใจเท่าไรนัก ที่หลากเว็บไซต์และเหล่านักเขียน (รวมถึงตัวผมด้วย) ต่างหยิบจับผลงานวิจัยอ่านยากมาย่อยให้ง่ายเพื่อนำเสนอความรู้ใหม่ๆ ประเภท ‘ผลการวิจัยล่าสุดระบุว่า . . . .’
แต่ถ้าวันหนึ่ง วารสารจิตวิทยาชั้นนำตีพิมพ์งานวิจัยยืนยันว่ามนุษย์ ‘สามารถสัมผัสถึงอนาคตได้’ โดยอ้างอิงจากการทดลอง ‘ทางวิทยาศาสตร์’ ถึง 9 ครั้ง คุณจะทำอย่างไร ?
ผมมีให้สองทางเลือกครับ หนึ่ง คือตื่นเต้นไปกับการค้นพบครั้งใหม่ และเตรียมตัวส่งลูกหลานเข้าสถาบันฝึกพลังจิตอ่านอนาคต หรือสอง กลับมาตั้งคำถามว่างานวิจัย ซึ่งหมายถึงองค์ความรู้ที่เกิดขึ้นจากการศึกษาอย่างเป็นระบบ สามารถเชื่อถือได้มากน้อยแค่ไหน
ไบรอัน โนเสก (Brian Nosek) อาจารย์ด้านจิตวิทยาจากมหาวิทยาลัยเวอร์จิเนีย เลือกทางที่สองและเริ่มตั้งคำถามกับสิ่งที่เราเรียกว่า ‘วิทยาศาสตร์’ โดยริเริ่ม ‘การทดลองของการทดลอง’ ซึ่งนำการศึกษา 100 ชิ้นที่ได้รับการตีพิมพ์ในวารสารชั้นนำด้านจิตวิทยา มาทดลองซ้ำโดยเลียนแบบทุกขั้นตอนให้ใกล้เคียงกับการวิจัยดั้งเดิมมากที่สุด แล้วพิจารณาดูว่า การทดลองที่เลียนแบบขึ้นนั้นให้ข้อสรุปใกล้เคียงกับงานวิจัยที่ตีพิมพ์หรือไม่
อ่านผลการทดลองแล้วน่าใจหายนะครับ เพราะมีงานวิจัยเพียง 63 เปอร์เซ็นต์เท่านั้นที่ได้ผลลัพธ์ซึ่งมีนัยสำคัญทางสถิติ ในขณะที่งานวิจัยต้นแบบมีผลการวิจัยถึง 97 เปอร์เซ็นต์ที่มีนัยสำคัญทางสถิติ แน่นอนครับว่าผลการทดลองดังกล่าวทำให้เกิดกระแสวิกฤตการทำซ้ำ (Reproducibility Crisis) ในแทบทุกวงการ ทั้งเคมี ฟิสิกส์ ชีววิทยา เศรษฐศาสตร์ รวมถึงการทดลองทางการแพทย์ ในขณะที่ผู้เชี่ยวชาญบางรายตั้งคำถามกับผลการทดลองของไบรอันว่า ‘เลียนแบบ’ ได้อย่างถูกต้องเหมาะสมหรือเปล่า
ผลการวิจัยฉบับดังกล่าวเขียนไว้อย่างชัดเจนว่า ไม่มีการนิยามความสำเร็จในการลอกเลียนแบบการทดลองต้นฉบับ แต่ก็คงเป็นไปไม่ได้ที่สาเหตุของผลการทดลองที่ไม่สอดคล้องกันนั้น เกิดจากการเลียนแบบที่ไม่เหมาะสมทั้งหมด
งานวิจัยที่ไม่สามารถนำมาทำซ้ำได้ ก็เปรียบเสมือน ‘ความฟลุก’ ที่เกิดขึ้นครั้งเดียวในห้องทดลอง ยกตัวอย่างเช่น หากผมทดลองจั่วไพ่ออกจากกอง 10 ใบ แล้ววันนั้นโชคชะตาเกิดเล่นตลก เพราะทั้ง 10 ใบที่ผมจั่วได้เป็นไพ่โพธิ์ดำทั้งหมด ผมก็สามารถนำผลการทดลองดังกล่าวไปตีพิมพ์ได้ในวารสารการจั่วไพ่ศาสตร์อย่างรู้เท่าไม่ถึงการณ์ โดยอาจใช้ชื่อว่า ‘ข้อค้นพบใหม่ ค่าผิดปกติของความน่าจะเป็นจากการจั่วไพ่ 10 ใบ กรณีศึกษาชายชาติพันธุ์ไทย’
น่าเสียดาย เพราะสิ่งที่ดูเหมือนจะเป็นวิทยาศาสตร์กลับเป็นแค่ความแรนดอมที่เกิดขึ้นได้เพียงนานๆ ครั้ง
งานวิจัยที่ไม่สามารถนำมาทำซ้ำได้ ก็เปรียบเสมือน ‘ความฟลุก’ ที่เกิดขึ้นครั้งเดียวในห้องทดลอง
เมื่อ พ.ศ. 2559 วารสารวิทยาศาสตร์ชื่อดังอย่าง Nature ให้เผยแพร่ผลสำรวจความคิดเห็นของนักวิทยาศาสตร์จากหลากแขนงจำนวน 1,576 คน โดยผู้ตอบแบบสอบถาม 52 เปอร์เซ็นต์มองว่าเรากำลังอยู่ในภาวะวิกฤติการทำซ้ำ อย่างไรก็ดี 72 เปอร์เซ็นต์ยังมองโลกในแง่ดี เพราะคิดว่าอย่างน้อยครึ่งหนึ่งของงานวิจัยที่ได้รับการตีพิมพ์ในสายอาชีพของตนสามารถเชื่อถือได้
อ่านไม่ผิดหรอกครับ นักวิจัยเหล่านั้นมองว่าอย่างน้อย ครึ่งหนึ่ง ของงานวิจัยสามารถเชื่อถือได้
สำหรับคนธรรมดาหาเช้ากินค่ำอย่างเราๆ ท่านๆ อ่านแล้วก็คงได้แต่มองตาปริบๆ เพราะความรู้ทางวิทยาศาสตร์ที่ได้รับการกลั่นกรองจากคณะกรรมการผู้ทรงคุณวุฒิเพื่อตีพิมพ์ในวารสารชื่อดัง อาจไม่สามารถเชื่อถือได้แบบ 100 เปอร์เซ็นต์ นำไปสู่คำถามต่อไปว่า แล้วปัญหาอยู่ที่ตรงไหน?
จากการถกเถียงในแวดวงนักวิจัย ผู้เขียนพอจะสรุปปัญหาใหญ่ๆ ได้ 3 ข้อ ดังนี้ครับ
1. การทำซ้ำการทดลองโดยนักวิจัยคนอื่น
ปัญหานี้เป็นตัวจุดระเบิดการถกเถียงในแวดวงวิชาการตามที่ผมได้สาธยายไปแล้วด้านบน ผู้เชี่ยวชาญหลายคนเสนอว่าทางออกของปัญหาดังกล่าวคือการเปิดเผยข้อมูลดิบของงานวิจัยในฐานข้อมูลสาธารณะ เช่น Harvard Dataverse ที่ปัจจุบันมีการจัดเก็บฐานข้อมูลของงานวิจัยร่วม 80,000 ชิ้นที่ผู้สนใจสามารถเข้าไปดาวน์โหลดเพื่อนำมาทำซ้ำได้แบบฟรีๆ จนเกิดเป็นเทรนด์ของวารสารวิชาการที่เริ่มตั้งเงื่อนไขว่านักวิจัยทุกคนต้องเผยแพร่ข้อมูลบนฐานข้อมูลสาธารณะก่อนการตีพิมพ์
การเผยแพร่ข้อมูลดังกล่าว นอกจากจะช่วยเพิ่มความโปร่งใส และลดปัญหางานวิจัยที่เกิดจากความฟลุกแล้ว นักศึกษา หรือผู้สนใจยังสามารถหยิบข้อมูลเหล่านี้เพื่อต่อยอดในการศึกษาปัญหาที่ใกล้เคียงกันในแง่มุมอื่นได้อีกด้วย
2. การซุกผลวิจัย และอคติของผลงานที่ได้รับการตีพิมพ์
หากใครเคยผ่านตางานวิจัยบ้าง อาจจะมีข้อสงสัยว่าทำไมงานวิจัยส่วนใหญ่ที่ได้รับการตีพิมพ์ถึง ‘มีนัยสำคัญทางสถิติ’ แทบทั้งหมด เหตุผลเบื้องลึกเบื้องหลังคือ นักวิจัยส่วนใหญ่มัก ‘ซุก’ ผลการวิจัยที่ไม่มีนัยสำคัญทางสถิติ เช่น หากผู้เขียนทำงานวิจัยโดยทดลองว่าการนั่งสมาธิจะช่วยเพิ่มผลิตภาพของการทำงานได้หรือไม่ แต่ผลการศึกษาคือ ‘ไม่มีข้อสรุป’ หรือ ‘ไม่มีนัยสำคัญทางสถิติ’ แทนที่ผมจะทุ่มแรงกายแรงใจเขียนออกมาเป็นความเรียงสวยงามพร้อมที่จะส่งให้วารสารตีพิมพ์ สู้เอาผลลัพธ์ที่ได้แช่ไว้ในโฟลเดอร์ แล้วทำงานวิจัยใหม่เพื่อหาผลลัพธ์ที่น่าตื่นเต้นกว่าไม่ดีกว่าหรือ?
แอนนี ฟรานโก (Annie Franco) และคณะวิจัยจากมหาวิทยาลัยแสตนฟอร์ด เผยแพร่การศึกษาผลของอคติดังกล่าว โดยสำรวจงานวิจัยทางสังคมศาสตร์ที่ได้รับทุนวิจัยรวมทั้งสิ้น 249 ชิ้น และได้ข้อสรุปว่า ผลการวิจัยที่มีนัยสำคัญทางสถิติจะมีโอกาสถูกนำมาเรียบเรียงเพื่อส่งวารสารวิชาการมากกว่างานวิจัยที่ไม่มีนัยสำคัญทางสถิติถึง 60 เปอร์เซ็นต์ และมีโอกาสได้รับการตีพิมพ์มากกว่าถึง 40 เปอร์เซ็นต์
จะเห็นว่าปัญหามีทั้งจากต้นทางคือนักวิจัยที่ไม่ได้ให้ความสำคัญนักกับผลวิจัยที่ไม่ได้มีนัยสำคัญทางสถิติ และปลายทางคือคณะกรรมการวารสารเองก็มีอคติที่จะตีพิมพ์งานวิจัยที่ได้ผลวิจัยซึ่งมีนัยสำคัญทางสถิติมากกว่า ทางออกของปัญหาดังกล่าวคือการ ‘ลงทะเบียน’ งานวิจัยเสียก่อน และต่อให้งานวิจัยดังกล่าวจะมีผลการศึกษาเป็นอย่างไร จะได้ตีพิมพ์ลงในวารสารหรือไม่ อย่างน้อยผลการศึกษาดังกล่าวก็จะมีที่เผยแพร่ซึ่งสาธารณชนเข้ามาอ่านดูได้
ยกตัวอย่างเช่นงานวิจัยว่าด้วยการนั่งสมาธิกับผลิตภาพในการทำงาน หากผมรวมถึงเพื่อนนักวิจัยทำการลงทะเบียนในเว็บไซต์เสียก่อน ต่อให้ผลการวิจัยจะไม่ได้รับการตีพิมพ์ แต่เราก็อาจไปค้นเจอว่ามีงานวิจัยในลักษณะนี้ราว 4 ถึง 5 ชิ้นที่ไม่พบความสัมพันธ์ระหว่างสองตัวแปรอย่างมีนัยสำคัญ หากวันดีคืนดี เราไปอ่านวารสารวิชาการแล้วพบ ‘งานวิจัยเผย นั่งสมาธิช่วยเพิ่มผลิตภาพในการทำงาน’ เราก็สามารถตั้งข้อสงสัยไว้ก่อนได้ว่าผลการศึกษาดังกล่าวอาจเกิดจากความฟลุก
3. การล้วง แคะ แกะ ข้อมูลเพื่อให้ได้ความสัมพันธ์ที่มีนัยสำคัญ
ปัญหานี้ต่อเนื่องจากข้อ 2 เมื่อนักวิจัยและวารสารวิชาการต่างก็มองหางานวิจัยที่นำเสนอผลการศึกษาที่มีนัยสำคัญทางสถิติ ทำให้นักวิจัยเกิด ‘แรงจูงใจ’ ที่จะล้วง แคะ แกะ ข้อมูล และเปลี่ยนสารพัดเทคนิควิธีทางสถิติเพื่อทำอย่างไรก็ได้ให้ความสัมพันธ์ดังกล่าวนั้น ‘มีนัยสำคัญ’ หรืออาจเรียกว่าการทำเหมืองข้อมูล (Data Mining)
ยิ่งฐานข้อมูลขนาดใหญ่ และตัวแปรเยอะมากแค่ไหน โอกาสที่อัลกอริธึมจะสามารถค้นหาความสัมพันธ์ได้ก็ยิ่งมากขึ้นเท่านั้น แต่ความสัมพันธ์ดังกล่าวอาจเป็นความสัมพันธ์ลวงๆ (Spurious Relationship) เนื่องจากมีตัวแปรสำคัญบางตัวที่ไม่ได้ถูกรวมในการศึกษา
เพื่อให้เห็นภาพ ผู้เขียนขอยกตัวอย่างงานวิจัยขำๆ เช่น ความสัมพันธ์ระหว่างยอดขายของไอศกรีมกับปริมาณของคนจมน้ำตายที่สระว่ายน้ำซึ่งพบว่ามีนัยสำคัญทางสถิติ ซึ่งอาจนำไปสู่ข้อสรุปผิดๆ ว่า ‘การกินไอศกรีมก่อนลงเล่นน้ำอาจมีอันตรายถึงชีวิต’ แต่หากอ่านระหว่างบรรทัด สองเรื่องนี้มีตัวแปรที่เชื่อมโยงกันแต่อาจไม่ได้ถูกรวมในการศึกษา และตัวแปรนั้นก็คือ ‘อุณหภูมิ’ นั่นเอง เพราะในวันที่อากาศร้อนจัด นอกจากจะทำให้ไอศกรีมขายดิบขายดีแล้ว ผู้เล่นกีฬากลางแจ้งยังมีโอกาสที่จะเสียชีวิตจากฮีทสโตรก
แม้แต่การศึกษาชื่อดังอย่าง ‘มาร์ชเมลโลว์ เทสต์’ ก็ยังถูกตั้งคำถาม โดยการทดลองดั้งเดิมจะให้เด็กอายุ 4 ขวบอดทนไม่กินมาร์ชเมลโลว์เป็นระยะเวลา 10 นาที โดยนักวิจัยสัญญาว่าหากรอได้จะให้มาร์ชเมลโลว์เพิ่มอีกหนึ่งชิ้น ผลการวิจัยดังกล่าวเป็นที่พูดถึงอย่างกว้างขวาง เพราะนักวิจัยได้ติดตามความสำเร็จของเด็กกลุ่มดังกล่าวประมาณ 10 ปีให้หลัง และพบว่าเด็กที่สามารถอดทนรอได้จะมีโอกาสประสบความสำเร็จทางวิชาการสูงกว่าเด็กที่ไม่สามารถอดทนรออย่างมีนัยสำคัญ
งานวิจัยซึ่งเผยแพร่เมื่อเดือนพฤษภาคมที่ผ่านมากลับพบความสัมพันธ์ใหม่ที่แตกต่างจากงานวิจัยดั้งเดิมอย่างสิ้นเชิงหลังจากใส่ตัวแปรซึ่งเกี่ยวข้องกับสถานะทางเศรษฐกิจและสังคมของครอบครัว เช่น วุฒิการศึกษาของพ่อแม่ หรือสิ่งแวดล้อมภายในบ้าน ซึ่งตัวแปรเหล่านี้จะส่งผลอย่างมีนัยสำคัญทางสถิติต่อความสำเร็จของเด็กๆ ในขณะที่เวลาในการรอกินมาร์ชเมลโลว์นั้นแทบไม่มีผลใดๆ ความเข้าใจดั้งเดิมที่ว่าบุคลิกของเด็กจะส่งผลต่อความสำเร็จในการศึกษา ก็เป็นเพียงเปลือกที่เคลือบปัญหาความเหลื่อมล้ำทางสังคมที่เด็กที่มีฐานะดี ย่อมมีโอกาสประสบความสำเร็จสูงกว่าเด็กที่มีพื้นฐานทางครอบครัวด้อยกว่า
สถานะทางเศรษฐกิจและสังคมของครอบครัว ส่งผลอย่างมีนัยสำคัญทางสถิติต่อความสำเร็จของเด็กๆ ในขณะที่เวลาในการรอกินมาร์ชเมลโลว์นั้นแทบไม่มีผลใดๆ
ทางออกที่จะป้องกันไม่ให้นักวิจัย ‘ตุกติก’ กับข้อมูลได้ คือการลงทะเบียนแผนการวิเคราะห์ก่อนทำการวิจัย (Pre-analysis Plan) เช่น เราจะทำการศึกษาอะไร เก็บตัวแปรใดบ้าง ใช้เครื่องมือทางสถิติอย่างไร กับกลุ่มประชากรไหน และมีผลลัพธ์ที่คาดหวังอะไรบ้าง โดยสามารถลงทะเบียนในเว็บไซต์อย่าง Open Science Framework
จากทั้ง 3 ปัญหาข้างต้น ทำให้เทรนด์งานวิจัยในปัจจุบัน นอกจากจะเรียกร้องความโปร่งใสตรวจสอบได้ที่เข้มข้นขึ้นแล้ว ยังมีการตั้งคำถามต่องานวิจัยที่เคยเป็น ‘ของขึ้นหิ้ง’ ในอดีต และนำมารื้อสร้างเพื่อสอบทานว่าความเข้าใจดั้งเดิมที่เป็นรากฐานของวิทยาศาสตร์ในปัจจุบันนั้น ‘น่าเชื่อถือ’ มากน้อยเพียงใด
เทรนด์ดังกล่าวก็ทำให้โลกอยู่ยากขึ้นอีกระดับ เพราะนอกจากเราจะต้องใช้วิจารณญาณในการเสพสื่อบนโลกออนไลน์แล้ว ยังต้องเผื่อวิจารณญาณดังกล่าวมาคิดวิเคราะห์ว่างานวิจัยที่ถูกใช้อ้างอิงกันมากมายหลากหลายจนเกิดเป็น ‘วิทยาศาสตร์’ นั้นน่าเชื่อถือเพียงใด
แต่องค์ความรู้ที่เปลี่ยนแปลงและตรวจสอบได้ไม่ใช่หรือ คือสิ่งที่เราควรจะเรียกว่าวิทยาศาสตร์?
เอกสารประกอบการเขียน
- 1,500 scientists lift the lid on reproducibility
- The Experiment Experiment
- Research Transparency – Designing and Running Randomized Evaluations
- Publication bias in the social sciences: Unlocking the file drawer
- Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect
- Revisiting the Marshmallow Test: A Conceptual Replication Investigating Links Between Early Delay of Gratification and Later Outcomes
- Famed impulse control ‘marshmallow test’ fails in new research