เมื่อปี 2016 การรั่วไหลของเอกสารทางการเงินของบริษัทกฎหมายแห่งหนึ่งในปานามา ทำให้เรื่องแดงขึ้นมาว่า มีบุคคลสำคัญทั่วโลกใช้บริการซุกซ่อนเงินเพื่อหลบเลี่ยงภาษี จนทำให้ผู้นำบางประเทศต้องประกาศลาออกเพื่อแสดงความรับผิดชอบ ข้อมูลจำนวน 2.6 เทราไบต์ที่หากปรินต์ลงกระดาษก็จะวางเรียงกันได้เทียบเท่าตึก 21 ชั้นนี้จะไม่เป็นประเด็นเลย หากนักข่าวเพียงแค่ได้รับกองเอกสารข้อมูลที่เล็ดรอดออกมา แต่ไม่รู้จะจัดการกับทะเลข้อมูลนั้นอย่างไร
กรณีดังกล่าวรู้จักกันในนาม ‘ปานามาเปเปอร์ส’ เหตุการณ์ใหญ่ของโลกที่เอกสารการเงินจากบริษัทกฎหมายมอสแซค ฟอนเซกา ถูกปล่อยออกมา ถือเป็นการเปิดเผยเอกสารลับครั้งใหญ่ หนังสือพิมพ์เยอรมัน ซุดดอยเชอร์ (Süddeutsche Zeitung) เป็นผู้ได้กองข้อมูลนี้มา แล้วส่งต่อให้สมาคมผู้สื่อข่าวสืบสวนสอบสวนนานาชาติ (International Consortium of Investigative Journalists – ICIJ) ที่มีเครือข่ายผู้สื่อข่าวมากกว่า 100 แห่งทั่วโลก
จากข้อมูลเหล่านี้ทำให้พบการซุกซ่อนทรัพย์สินที่บางกรณีอาจเข้าข่ายหลบเลี่ยงภาษี ลูกค้าของสำนักงานกฎหมายแห่งนี้มีทั้งเศรษฐี นักการเมือง และภาคเอกชนที่มาใช้บริการ ผลจากการเปิดโปงครั้งนี้ ทำให้บุคคลสาธารณะจำนวนมากหน้าชากันไป ไม่ว่าจะเป็นอดีตนายกรัฐมนตรีสหราชอาณาจักร เดวิด คาเมรอน ประธานาธิบดีรัสเซีย วลาดิเมียร์ ปูติน และยังนำมาสู่การลาออกเพื่อแสดงความรับผิดชอบของผู้นำไอซ์แลนด์ด้วย
การได้มาซึ่งเนื้อหาแบบนี้จะเกิดขึ้นไม่ได้เลยถ้าไม่มีการประมวลผลหรือหาวิธีช่วยอ่านข้อมูล เอกสารทั้งหมดมีความจุ 2.6 เทราไบต์ ซึ่งมาจากเอกสารจำนวน 11.5 ล้านชิ้น เป็นข้อมูลที่มีลักษณะกระจัดกระจาย และมาในรูปแบบที่ดิบมาก ไม่ใช่ฐานข้อมูลที่มีระเบียบ ที่เพียงแค่อ่านแล้วจะเห็นประเด็นอะไรได้
ทักษะสำคัญของงานนี้จึงวัดกันที่งาน ‘วารสารศาสตร์เชิงข้อมูล’ หรือ ‘Data Journalism’
สื่อต่างก็เร่งปรับตัวให้เข้ากับเทคโนโลยีใหม่ซึ่งมักเป็นเรื่อง ‘ปลายทาง’ ของการสื่อสาร
แต่โลก Big data สร้างโอกาสในการสืบค้นเรื่องราวสำคัญที่เป็น ‘ต้นทาง’ ของเนื้อหา
สิ่งที่สมาคมผู้สื่อข่าวสืบสวนสอบสวนนานาชาติทำ คือให้นักข่าวทำงานร่วมกับฝ่ายเทคนิค โดยใช้โปรแกรมโอเพนซอร์ส 3 โปรแกรม คือ Apache Tika เพื่อสกัดข้อความและข้อมูลอื่นๆ ออกมาจากอีเมลและไฟล์อิเล็กทรอนิกส์ Tesseract เพื่อแปลงข้อความที่ฝังอยู่ในรูปภาพมาเป็นข้อความในแบบที่คอมพิวเตอร์ประมวลผลได้ และ Apache Solr เพื่อจัดระเบียบข้อมูลและทำดัชนีเพื่อการค้นหา
ทีมงานฝ่ายเทคนิคเลือกใช้ฐานข้อมูลแบบ SQL (Structured Query Language) มาวางโครงสร้างให้เห็นว่าข้อมูลแต่ละชิ้นมีที่มาจากไหน และถ้าจะดึงข้อมูลที่เกี่ยวข้องจะไปเอามาอย่างไร ขั้นตอนต่อมาก็ใช้โปรแกรมที่ช่วยแสดงผลให้เห็นความเชื่อมโยงระหว่าง คน กับ องค์กร ที่พาดพิงถึงในเอกสาร โดยการแสดงผลนี้มีลักษณะแบบอินเทอร์แอ็กทีฟ ที่เมื่อผู้ใช้กดไปที่ข้อมูลหนึ่ง มันจะแสดงให้เห็นว่ามีใครที่เกี่ยวข้องบ้าง และคนคนนั้นเกี่ยวข้องกับหน่วยงานอื่นใด ซึ่งจะช่วยให้นักข่าวเห็นความเชื่อมโยงแล้วไล่ตามเบาะแสได้
เมื่อการ Coding ควรอยู่ในหลักสูตรสอนนักข่าว
ความแพรวพราวของเทคโนโลยีและพื้นที่เล่าเรื่องใหม่ๆ ทำให้นักสื่อสารส่วนใหญ่พุ่งความสนใจไปที่การเล่าเรื่องด้วยวิธีหรรษา เช่น ใช้อินโฟกราฟิก ทำข้อมูลอินเทอร์แอ็กทีฟ ฯลฯ หรือกล่าวได้ว่าเป็นยุคที่เราได้เห็นงานเชิง data visualisation ออกมาจำนวนมาก
ขณะที่สื่อต่างก็เร่งปรับตัวให้เข้ากับเทคโนโลยีใหม่ ซึ่งมักเป็นเรื่อง ‘ปลายทาง’ ของการสื่อสารว่าด้วยการเล่าเรื่องเสียเป็นส่วนใหญ่ แต่สิ่งที่มากับเทคโนโลยีก็คือโลก Big data ที่สร้างโอกาสในการสืบค้นเรื่องราวสำคัญที่เป็น ‘ต้นทาง’ ของเนื้อหา แต่จะทำได้ก็ต่อเมื่อรู้วิธีประมวลผลและวิเคราะห์ข้อมูลดิจิทัลเหล่านั้น คำว่า Data Journalism จึงเป็นคำที่วงการสื่อสารมวลชนได้ยินบ่อยขึ้นเรื่อยๆ ว่าหมายถึงการค้นหาประเด็นข่าวที่มากับกองข้อมูลขนาดใหญ่ ซึ่งจำเป็นต้องอาศัยวิธีการหรือเครื่องมือทางเทคโนโลยีมาจัดระเบียบข้อมูล
แต่ไม่ว่าจะเป็นต้นทางหรือปลายทางของข้อมูล คนทำงานสื่อมวลชนไม่ช้าก็เร็วต่างก็ต้องปรับตัวให้ทันสมัย ทั้งวงการวิชาชีพและหลักสูตรการเรียนการสอนด้านสื่อสารมวลชนในต่างประเทศต่างต้องเริ่มคิดเปิดคอร์สให้ผู้เรียนสื่อรู้จักการเขียน Code พื้นฐาน รวมถึงหน่วยงานบางแห่งในสหรัฐอเมริกาที่ทำงานสนับสนุนนักข่าวและพัฒนานวัตกรรมเพื่องานสื่อสาร อย่าง Knight Foundation ในปีนี้ก็มีเปิดคอร์สการใช้ภาษาไพทอนสำหรับนักวารสารศาสตร์เชิงข้อมูล (Python for Data Journalists) โดยเน้นไปที่การวิเคราะห์การเงินที่อยู่เบื้องหลังการเลือกตั้ง
เทรนด์ของโลกในยุค Big Data กำลังบอกว่า นักข่าวเองนั่นล่ะที่จะเป็นผู้มองประเด็นแล้ววิเคราะห์ข้อมูลได้ในทีมตัวเอง
หลักสูตรที่ว่านี้สอนให้ใช้ภาษาไพทอนเพราะเป็นภาษาที่นิยมในงานวิจัยด้านวิทยาศาสตร์เชิงคำนวณ การประมวลผลข้อความชีวสารสนเทศ และปัญญาประดิษฐ์ สิ่งที่น่าดึงดูดของภาษาไพทอนคือมันใช้ง่ายและทำงานกับข้อความได้สะดวก ซึ่งชุดพัฒนาซอฟต์แวร์ด้านปัญญาประดิษฐ์หรือการเรียนรู้เชิงลึกที่กูเกิล ไมโครซอฟต์ และเฟซบุ๊กใช้ ต่างก็เรียกใช้ผ่านภาษาไพทอน
อาจฟังดูเหมือนเป็นเรื่องห่างไกล แต่คอร์สเหล่านี้ไม่ได้เรียกร้องให้คนที่จะทำได้ต้องมีดีกรีวิศวะหรือวิทยาศาสตร์คอมพิวเตอร์ แต่เป็นคนทั่วๆ ไป ที่สำคัญ มันถือเป็นทักษะที่ห้องข่าวทั่วโลกกำลังต้องการเป็นอย่างมาก
องค์กรข่าวในสหรัฐอเมริกาอย่างโปรพับลิกา (ProPublica) ลอสแองเจลิสไทมส์ (Los Angeles Times) หรือกระทั่งบัซฟีด (Buzz Feed) ต่างก็ใช้ภาษาไพทอนในการทำงานเชิงสืบสวนสอบสวนเชิงลึกด้วยกันทั้งนั้น
ตัวอย่างหนึ่งเห็นได้ในรายงานว่าด้วยสถานการณ์แรงงานภายหลังนโยบายกีดกันคนเข้าเมืองของโดนัลด์ ทรัมป์ ที่หนังสือพิมพ์ Los Angeles Times ดึงข้อมูลดิบย้อนหลัง 25 ปีมาจากสำนักสถิติแรงงาน ซึ่งหน้าตาของข้อมูลช่างไม่เป็นมิตรเอาเสียเลย เพราะข้อมูลแยกย่อยกระจัดกระจาย แต่สุดท้าย ทีมข่าวของลอสแองเจลิสไทมส์ก็วิเคราะห์ข้อมูลเหล่านี้ และทำให้เจอข้อค้นพบ เช่น พบว่าค่าแรงของเกษตรกรไร่องุ่นแคลิฟอร์เนียพุ่งสูงขึ้น 50 เปอร์เซ็นต์ในรอบสองทศวรรษที่ผ่านมา แต่แม้ค่าแรงจะมากเท่าใด การหาแรงงานมาทำงานก็แสนยากภายใต้นโยบายโดนัลด์ ทรัมป์ ซึ่งเป็นข้อมูลส่วนหนึ่งที่มาประกอบในสกู๊ปเชิงลึกชิ้นสมบูรณ์
หากเป็นแต่ก่อน ถ้ามีข้อมูลลักษณะนี้ในมือ นักข่าวที่ขยันระดับหนึ่งก็อาจจะวิ่งไปหานักวิชาการ นักวิจัย หรือผู้กำหนดนโยบายให้ช่วยตอบ แต่เทรนด์ของโลกในยุค Big Data กำลังบอกว่า นักข่าวเองนั่นล่ะที่จะเป็นผู้มองประเด็นแล้ววิเคราะห์ข้อมูลได้ในทีมตัวเอง
แม้ข้อมูลดังที่ทีมงาน ลอสแองเจลิสไทมส์ ต้องจัดการด้วยจะดูไม่เป็นมิตร แต่อย่างน้อย พื้นฐานสำคัญของมันก็คือ มีข้อมูลที่เข้าถึงได้ อยู่ในรูปแบบที่คอมพิวเตอร์อ่านได้ สถานการณ์ที่ยากขึ้นไปอีกหน่อยคือ กรณีที่มีข้อมูล แต่เอกสารเหล่านั้นดันเป็นกระดาษหรือไฟล์ภาพที่ต้องหาวิธีแปลงให้คอมพิวเตอร์อ่านได้ โดยพิมพ์ลงในรูปแบบดิจิทัลเสียก่อน เช่น หน่วยงานรัฐบางแห่งมีไฟล์ข้อมูล แต่เป็นไฟล์สแกนแบบภาพ ไม่ใช่ไฟล์ดิจิทัล แม้ปัจจุบันพอจะมีโปรแกรมที่ช่วยแปลงอ่านข้อความภาพให้เป็นดิจิทัลแล้ว แต่ก็ยังใช้งานไม่สะดวกนัก
แม้จะขึ้นชื่อว่าเป็น ‘ข้อมูล’ แต่ก็มีมายาในตัวข้อเท็จจริงเช่นกัน
ส่วนที่ยากที่สุดคือสถานการณ์ที่ข้อมูลทั้งหมดไม่ถูกนำมาเปิดเผยให้คนทั่วไปเข้าถึงได้ เช่นในประเทศไทย ข้อมูลหลายเรื่องมีอยู่แต่ต้องร้องขอ ซึ่งกว่าจะไปถึงขั้นตอนที่ได้ข้อมูลมา ก็ต้องยื่นขอเอกสารโดยอ้าง พ.ร.บ.ข้อมูลข่าวสารของราชการ ที่กว่าจะได้มาก็อาจจะต้องรอจนลูกโตเสียก่อน
อย่างไรก็ดี แม้จะขึ้นชื่อว่าเป็น ‘ข้อมูล’ แต่ก็มีมายาในตัวข้อเท็จจริงเช่นกัน คนมักเผลอนึกไปว่า ข่าวที่อิงข้อมูลเชิงตัวเลขหรือสถิติคือการรายงานข้อเท็จจริง แต่หากยอมรับกันตรงๆ ก็จะเห็นได้ว่าข้อเท็จจริงไหนๆ ก็ล้วนถูกประมวลมาจากฐานคิดที่มีอคติบางอย่าง ซึ่งเป็นเรื่องที่ไม่มีใครหลีกหนีได้ไม่ว่าจะเป็นนักข่าวหรือนักวิจัยที่ซื่อตรงต่อระเบียบวิธีวิจัยแค่ไหนก็ตาม เพราะอย่างน้อยที่สุด อคติมักดึงดูดให้เรามองเห็นประเด็นที่สนใจและเชื่อมากกว่าเรื่องอื่นๆ
ที่เป็นแบบนี้ เพราะข้อมูลมันพูดด้วยตัวเองไม่ได้ แต่ต้องรอการตีความ ตัวอย่างกรณีปานามาเปเปอร์สจึงทำให้เห็นว่า ในงานข่าว ไม่ใช่เพียงการทำงานร่วมกันในห้องข่าวที่ต้องมีทั้งส่วนประกอบจากนักข่าวและนักพัฒนาเท่านั้น แต่หัวใจสำคัญคือการอาศัยการทำงานแบบเครือข่ายความร่วมมือจากองค์กรข่าวทั่วโลก แทนที่จะเป็นเพียงโต๊ะข่าวของสื่อสำนักเดียว
เพราะความหลากหลายของการตีความข้อมูลนี้เอง ที่จะช่วยถ่วงดุลอคติทั้งในหมู่คนข่าวเองและเป็นประโยชน์ต่อคนอ่านด้วย
Tags: Data Journalism, วารสารศาสตร์เชิงข้อมูล, Panama Papers, ปานามาเปเปอร์ส, Tax Haven, Investigative Journalism, Code, Coding