งานวิจัยที่ตั้งคำถามว่าเราเชื่องานวิจัยได้แค่ไหน ?

ในโลกยุค Big Data ที่เชื่อมต่อโลกทั้งใบด้วยอินเทอร์เน็ต ความรู้ที่เคยเป็นของหายากกลับมาหาง่ายเพียงปลายนิ้ว จึงไม่น่าแปลกใจเท่าไรนัก ที่หลากเว็บไซต์และเหล่านักเขียน (รวมถึงตัวผมด้วย) ต่างหยิบจับผลงานวิจัยอ่านยากมาย่อยให้ง่ายเพื่อนำเสนอความรู้ใหม่ๆ ประเภท ‘ผลการวิจัยล่าสุดระบุว่า . . . .’

แต่ถ้าวันหนึ่ง วารสารจิตวิทยาชั้นนำตีพิมพ์งานวิจัยยืนยันว่ามนุษย์ ‘สามารถสัมผัสถึงอนาคตได้’ โดยอ้างอิงจากการทดลอง ‘ทางวิทยาศาสตร์’ ถึง 9 ครั้ง คุณจะทำอย่างไร ?

ผมมีให้สองทางเลือกครับ หนึ่ง คือตื่นเต้นไปกับการค้นพบครั้งใหม่ และเตรียมตัวส่งลูกหลานเข้าสถาบันฝึกพลังจิตอ่านอนาคต หรือสอง กลับมาตั้งคำถามว่างานวิจัย ซึ่งหมายถึงองค์ความรู้ที่เกิดขึ้นจากการศึกษาอย่างเป็นระบบ สามารถเชื่อถือได้มากน้อยแค่ไหน

ไบรอัน โนเสก (Brian Nosek) อาจารย์ด้านจิตวิทยาจากมหาวิทยาลัยเวอร์จิเนีย เลือกทางที่สองและเริ่มตั้งคำถามกับสิ่งที่เราเรียกว่า ‘วิทยาศาสตร์’ โดยริเริ่ม ‘การทดลองของการทดลอง’ ซึ่งนำการศึกษา 100 ชิ้นที่ได้รับการตีพิมพ์ในวารสารชั้นนำด้านจิตวิทยา มาทดลองซ้ำโดยเลียนแบบทุกขั้นตอนให้ใกล้เคียงกับการวิจัยดั้งเดิมมากที่สุด แล้วพิจารณาดูว่า การทดลองที่เลียนแบบขึ้นนั้นให้ข้อสรุปใกล้เคียงกับงานวิจัยที่ตีพิมพ์หรือไม่

อ่านผลการทดลองแล้วน่าใจหายนะครับ เพราะมีงานวิจัยเพียง 63 เปอร์เซ็นต์เท่านั้นที่ได้ผลลัพธ์ซึ่งมีนัยสำคัญทางสถิติ ในขณะที่งานวิจัยต้นแบบมีผลการวิจัยถึง 97 เปอร์เซ็นต์ที่มีนัยสำคัญทางสถิติ แน่นอนครับว่าผลการทดลองดังกล่าวทำให้เกิดกระแสวิกฤตการทำซ้ำ (Reproducibility Crisis) ในแทบทุกวงการ ทั้งเคมี ฟิสิกส์ ชีววิทยา เศรษฐศาสตร์ รวมถึงการทดลองทางการแพทย์ ในขณะที่ผู้เชี่ยวชาญบางรายตั้งคำถามกับผลการทดลองของไบรอันว่า ‘เลียนแบบ’ ได้อย่างถูกต้องเหมาะสมหรือเปล่า

ผลการวิจัยฉบับดังกล่าวเขียนไว้อย่างชัดเจนว่า ไม่มีการนิยามความสำเร็จในการลอกเลียนแบบการทดลองต้นฉบับ แต่ก็คงเป็นไปไม่ได้ที่สาเหตุของผลการทดลองที่ไม่สอดคล้องกันนั้น เกิดจากการเลียนแบบที่ไม่เหมาะสมทั้งหมด

งานวิจัยที่ไม่สามารถนำมาทำซ้ำได้ ก็เปรียบเสมือน ‘ความฟลุก’ ที่เกิดขึ้นครั้งเดียวในห้องทดลอง ยกตัวอย่างเช่น หากผมทดลองจั่วไพ่ออกจากกอง 10 ใบ แล้ววันนั้นโชคชะตาเกิดเล่นตลก เพราะทั้ง 10 ใบที่ผมจั่วได้เป็นไพ่โพธิ์ดำทั้งหมด ผมก็สามารถนำผลการทดลองดังกล่าวไปตีพิมพ์ได้ในวารสารการจั่วไพ่ศาสตร์อย่างรู้เท่าไม่ถึงการณ์ โดยอาจใช้ชื่อว่า ‘ข้อค้นพบใหม่ ค่าผิดปกติของความน่าจะเป็นจากการจั่วไพ่ 10 ใบ กรณีศึกษาชายชาติพันธุ์ไทย’

น่าเสียดาย เพราะสิ่งที่ดูเหมือนจะเป็นวิทยาศาสตร์กลับเป็นแค่ความแรนดอมที่เกิดขึ้นได้เพียงนานๆ ครั้ง

งานวิจัยที่ไม่สามารถนำมาทำซ้ำได้ ก็เปรียบเสมือน ‘ความฟลุก’ ที่เกิดขึ้นครั้งเดียวในห้องทดลอง

เมื่อ พ.ศ. 2559 วารสารวิทยาศาสตร์ชื่อดังอย่าง Nature ให้เผยแพร่ผลสำรวจความคิดเห็นของนักวิทยาศาสตร์จากหลากแขนงจำนวน 1,576 คน โดยผู้ตอบแบบสอบถาม 52 เปอร์เซ็นต์มองว่าเรากำลังอยู่ในภาวะวิกฤติการทำซ้ำ อย่างไรก็ดี 72 เปอร์เซ็นต์ยังมองโลกในแง่ดี เพราะคิดว่าอย่างน้อยครึ่งหนึ่งของงานวิจัยที่ได้รับการตีพิมพ์ในสายอาชีพของตนสามารถเชื่อถือได้

อ่านไม่ผิดหรอกครับ นักวิจัยเหล่านั้นมองว่าอย่างน้อย ครึ่งหนึ่ง ของงานวิจัยสามารถเชื่อถือได้

สำหรับคนธรรมดาหาเช้ากินค่ำอย่างเราๆ ท่านๆ อ่านแล้วก็คงได้แต่มองตาปริบๆ เพราะความรู้ทางวิทยาศาสตร์ที่ได้รับการกลั่นกรองจากคณะกรรมการผู้ทรงคุณวุฒิเพื่อตีพิมพ์ในวารสารชื่อดัง อาจไม่สามารถเชื่อถือได้แบบ 100 เปอร์เซ็นต์ นำไปสู่คำถามต่อไปว่า แล้วปัญหาอยู่ที่ตรงไหน?

จากการถกเถียงในแวดวงนักวิจัย ผู้เขียนพอจะสรุปปัญหาใหญ่ๆ ได้ 3 ข้อ ดังนี้ครับ

1. การทำซ้ำการทดลองโดยนักวิจัยคนอื่น

ปัญหานี้เป็นตัวจุดระเบิดการถกเถียงในแวดวงวิชาการตามที่ผมได้สาธยายไปแล้วด้านบน ผู้เชี่ยวชาญหลายคนเสนอว่าทางออกของปัญหาดังกล่าวคือการเปิดเผยข้อมูลดิบของงานวิจัยในฐานข้อมูลสาธารณะ เช่น Harvard Dataverse ที่ปัจจุบันมีการจัดเก็บฐานข้อมูลของงานวิจัยร่วม 80,000 ชิ้นที่ผู้สนใจสามารถเข้าไปดาวน์โหลดเพื่อนำมาทำซ้ำได้แบบฟรีๆ จนเกิดเป็นเทรนด์ของวารสารวิชาการที่เริ่มตั้งเงื่อนไขว่านักวิจัยทุกคนต้องเผยแพร่ข้อมูลบนฐานข้อมูลสาธารณะก่อนการตีพิมพ์

การเผยแพร่ข้อมูลดังกล่าว นอกจากจะช่วยเพิ่มความโปร่งใส และลดปัญหางานวิจัยที่เกิดจากความฟลุกแล้ว นักศึกษา หรือผู้สนใจยังสามารถหยิบข้อมูลเหล่านี้เพื่อต่อยอดในการศึกษาปัญหาที่ใกล้เคียงกันในแง่มุมอื่นได้อีกด้วย

2. การซุกผลวิจัย และอคติของผลงานที่ได้รับการตีพิมพ์

หากใครเคยผ่านตางานวิจัยบ้าง อาจจะมีข้อสงสัยว่าทำไมงานวิจัยส่วนใหญ่ที่ได้รับการตีพิมพ์ถึง ‘มีนัยสำคัญทางสถิติ’ แทบทั้งหมด เหตุผลเบื้องลึกเบื้องหลังคือ นักวิจัยส่วนใหญ่มัก ‘ซุก’ ผลการวิจัยที่ไม่มีนัยสำคัญทางสถิติ เช่น หากผู้เขียนทำงานวิจัยโดยทดลองว่าการนั่งสมาธิจะช่วยเพิ่มผลิตภาพของการทำงานได้หรือไม่ แต่ผลการศึกษาคือ ‘ไม่มีข้อสรุป’ หรือ ‘ไม่มีนัยสำคัญทางสถิติ’ แทนที่ผมจะทุ่มแรงกายแรงใจเขียนออกมาเป็นความเรียงสวยงามพร้อมที่จะส่งให้วารสารตีพิมพ์ สู้เอาผลลัพธ์ที่ได้แช่ไว้ในโฟลเดอร์ แล้วทำงานวิจัยใหม่เพื่อหาผลลัพธ์ที่น่าตื่นเต้นกว่าไม่ดีกว่าหรือ?

แอนนี ฟรานโก (Annie Franco) และคณะวิจัยจากมหาวิทยาลัยแสตนฟอร์ด เผยแพร่การศึกษาผลของอคติดังกล่าว โดยสำรวจงานวิจัยทางสังคมศาสตร์ที่ได้รับทุนวิจัยรวมทั้งสิ้น 249 ชิ้น และได้ข้อสรุปว่า ผลการวิจัยที่มีนัยสำคัญทางสถิติจะมีโอกาสถูกนำมาเรียบเรียงเพื่อส่งวารสารวิชาการมากกว่างานวิจัยที่ไม่มีนัยสำคัญทางสถิติถึง 60 เปอร์เซ็นต์ และมีโอกาสได้รับการตีพิมพ์มากกว่าถึง 40 เปอร์เซ็นต์

ตารางแสดงข้อมูลโดยสรุปจากงานวิจัย Publication bias in the social sciences: Unlocking the file drawer จะเห็นว่างานวิจัยที่ไม่ได้มีผลลัพธ์ที่มีนัยสำคัญทางสถิติ (Null Results) จะไม่ถูกเขียนสรุป และมีเพียง 10 ชิ้นจาก 49 ชิ้นเท่านั้นที่ได้รับการตีพิมพ์ ในขณะที่งานวิจัยซึ่งผลวิจัยมีนัยสำคัญทางสถิติ (Strong Results) แทบทั้งหมดจะถูกนำมาเขียนสรุป และมีจำนวนถึง 40 ชิ้นจาก 86 ชิ้นที่ได้รับการตีพิมพ์

จะเห็นว่าปัญหามีทั้งจากต้นทางคือนักวิจัยที่ไม่ได้ให้ความสำคัญนักกับผลวิจัยที่ไม่ได้มีนัยสำคัญทางสถิติ และปลายทางคือคณะกรรมการวารสารเองก็มีอคติที่จะตีพิมพ์งานวิจัยที่ได้ผลวิจัยซึ่งมีนัยสำคัญทางสถิติมากกว่า ทางออกของปัญหาดังกล่าวคือการ ‘ลงทะเบียน’ งานวิจัยเสียก่อน และต่อให้งานวิจัยดังกล่าวจะมีผลการศึกษาเป็นอย่างไร จะได้ตีพิมพ์ลงในวารสารหรือไม่ อย่างน้อยผลการศึกษาดังกล่าวก็จะมีที่เผยแพร่ซึ่งสาธารณชนเข้ามาอ่านดูได้

ยกตัวอย่างเช่นงานวิจัยว่าด้วยการนั่งสมาธิกับผลิตภาพในการทำงาน หากผมรวมถึงเพื่อนนักวิจัยทำการลงทะเบียนในเว็บไซต์เสียก่อน ต่อให้ผลการวิจัยจะไม่ได้รับการตีพิมพ์ แต่เราก็อาจไปค้นเจอว่ามีงานวิจัยในลักษณะนี้ราว 4 ถึง 5 ชิ้นที่ไม่พบความสัมพันธ์ระหว่างสองตัวแปรอย่างมีนัยสำคัญ หากวันดีคืนดี เราไปอ่านวารสารวิชาการแล้วพบ ‘งานวิจัยเผย นั่งสมาธิช่วยเพิ่มผลิตภาพในการทำงาน’ เราก็สามารถตั้งข้อสงสัยไว้ก่อนได้ว่าผลการศึกษาดังกล่าวอาจเกิดจากความฟลุก

3. การล้วง แคะ แกะ ข้อมูลเพื่อให้ได้ความสัมพันธ์ที่มีนัยสำคัญ

ปัญหานี้ต่อเนื่องจากข้อ 2 เมื่อนักวิจัยและวารสารวิชาการต่างก็มองหางานวิจัยที่นำเสนอผลการศึกษาที่มีนัยสำคัญทางสถิติ ทำให้นักวิจัยเกิด ‘แรงจูงใจ’ ที่จะล้วง แคะ แกะ ข้อมูล และเปลี่ยนสารพัดเทคนิควิธีทางสถิติเพื่อทำอย่างไรก็ได้ให้ความสัมพันธ์ดังกล่าวนั้น ‘มีนัยสำคัญ’ หรืออาจเรียกว่าการทำเหมืองข้อมูล (Data Mining)

ยิ่งฐานข้อมูลขนาดใหญ่ และตัวแปรเยอะมากแค่ไหน โอกาสที่อัลกอริธึมจะสามารถค้นหาความสัมพันธ์ได้ก็ยิ่งมากขึ้นเท่านั้น แต่ความสัมพันธ์ดังกล่าวอาจเป็นความสัมพันธ์ลวงๆ (Spurious Relationship) เนื่องจากมีตัวแปรสำคัญบางตัวที่ไม่ได้ถูกรวมในการศึกษา

เพื่อให้เห็นภาพ ผู้เขียนขอยกตัวอย่างงานวิจัยขำๆ เช่น ความสัมพันธ์ระหว่างยอดขายของไอศกรีมกับปริมาณของคนจมน้ำตายที่สระว่ายน้ำซึ่งพบว่ามีนัยสำคัญทางสถิติ ซึ่งอาจนำไปสู่ข้อสรุปผิดๆ ว่า ‘การกินไอศกรีมก่อนลงเล่นน้ำอาจมีอันตรายถึงชีวิต’ แต่หากอ่านระหว่างบรรทัด สองเรื่องนี้มีตัวแปรที่เชื่อมโยงกันแต่อาจไม่ได้ถูกรวมในการศึกษา และตัวแปรนั้นก็คือ ‘อุณหภูมิ’ นั่นเอง เพราะในวันที่อากาศร้อนจัด นอกจากจะทำให้ไอศกรีมขายดิบขายดีแล้ว ผู้เล่นกีฬากลางแจ้งยังมีโอกาสที่จะเสียชีวิตจากฮีทสโตรก

แม้แต่การศึกษาชื่อดังอย่าง ‘มาร์ชเมลโลว์ เทสต์’ ก็ยังถูกตั้งคำถาม โดยการทดลองดั้งเดิมจะให้เด็กอายุ 4 ขวบอดทนไม่กินมาร์ชเมลโลว์เป็นระยะเวลา 10 นาที โดยนักวิจัยสัญญาว่าหากรอได้จะให้มาร์ชเมลโลว์เพิ่มอีกหนึ่งชิ้น ผลการวิจัยดังกล่าวเป็นที่พูดถึงอย่างกว้างขวาง เพราะนักวิจัยได้ติดตามความสำเร็จของเด็กกลุ่มดังกล่าวประมาณ 10 ปีให้หลัง และพบว่าเด็กที่สามารถอดทนรอได้จะมีโอกาสประสบความสำเร็จทางวิชาการสูงกว่าเด็กที่ไม่สามารถอดทนรออย่างมีนัยสำคัญ

งานวิจัยซึ่งเผยแพร่เมื่อเดือนพฤษภาคมที่ผ่านมากลับพบความสัมพันธ์ใหม่ที่แตกต่างจากงานวิจัยดั้งเดิมอย่างสิ้นเชิงหลังจากใส่ตัวแปรซึ่งเกี่ยวข้องกับสถานะทางเศรษฐกิจและสังคมของครอบครัว เช่น วุฒิการศึกษาของพ่อแม่ หรือสิ่งแวดล้อมภายในบ้าน ซึ่งตัวแปรเหล่านี้จะส่งผลอย่างมีนัยสำคัญทางสถิติต่อความสำเร็จของเด็กๆ ในขณะที่เวลาในการรอกินมาร์ชเมลโลว์นั้นแทบไม่มีผลใดๆ ความเข้าใจดั้งเดิมที่ว่าบุคลิกของเด็กจะส่งผลต่อความสำเร็จในการศึกษา ก็เป็นเพียงเปลือกที่เคลือบปัญหาความเหลื่อมล้ำทางสังคมที่เด็กที่มีฐานะดี ย่อมมีโอกาสประสบความสำเร็จสูงกว่าเด็กที่มีพื้นฐานทางครอบครัวด้อยกว่า

สถานะทางเศรษฐกิจและสังคมของครอบครัว ส่งผลอย่างมีนัยสำคัญทางสถิติต่อความสำเร็จของเด็กๆ ในขณะที่เวลาในการรอกินมาร์ชเมลโลว์นั้นแทบไม่มีผลใดๆ

ทางออกที่จะป้องกันไม่ให้นักวิจัย ‘ตุกติก’ กับข้อมูลได้ คือการลงทะเบียนแผนการวิเคราะห์ก่อนทำการวิจัย (Pre-analysis Plan) เช่น เราจะทำการศึกษาอะไร เก็บตัวแปรใดบ้าง ใช้เครื่องมือทางสถิติอย่างไร กับกลุ่มประชากรไหน และมีผลลัพธ์ที่คาดหวังอะไรบ้าง โดยสามารถลงทะเบียนในเว็บไซต์อย่าง Open Science Framework

จากทั้ง 3 ปัญหาข้างต้น ทำให้เทรนด์งานวิจัยในปัจจุบัน นอกจากจะเรียกร้องความโปร่งใสตรวจสอบได้ที่เข้มข้นขึ้นแล้ว ยังมีการตั้งคำถามต่องานวิจัยที่เคยเป็น ‘ของขึ้นหิ้ง’ ในอดีต และนำมารื้อสร้างเพื่อสอบทานว่าความเข้าใจดั้งเดิมที่เป็นรากฐานของวิทยาศาสตร์ในปัจจุบันนั้น ‘น่าเชื่อถือ’ มากน้อยเพียงใด

เทรนด์ดังกล่าวก็ทำให้โลกอยู่ยากขึ้นอีกระดับ เพราะนอกจากเราจะต้องใช้วิจารณญาณในการเสพสื่อบนโลกออนไลน์แล้ว ยังต้องเผื่อวิจารณญาณดังกล่าวมาคิดวิเคราะห์ว่างานวิจัยที่ถูกใช้อ้างอิงกันมากมายหลากหลายจนเกิดเป็น ‘วิทยาศาสตร์’ นั้นน่าเชื่อถือเพียงใด

แต่องค์ความรู้ที่เปลี่ยนแปลงและตรวจสอบได้ไม่ใช่หรือ คือสิ่งที่เราควรจะเรียกว่าวิทยาศาสตร์?

เอกสารประกอบการเขียน

Tags: วิทยาศาสตร์, งานวิจัย, วารสารวิชาการ, วารสาร Nature