“บางอย่างในชีวิต เหมือนรู้จักกันดี แต่แท้จริงแล้ว เหมือนเราแทบไม่รู้จักกันเลย” 

นี่ไม่ใช่เรื่องราวความรักอันเจ็บปวด แต่เป็นนิยามบทเรียนของวันที่ 4 ของการอบรม ‘Data Journalism Workshop’ ที่เดินมาถึงครึ่งทางของการอบรมแล้ว โดยไม่ใช่แค่เรื่องการเรียนการสอนเท่านั้น แต่ยังรวมไปถึงผลงานของแต่ละกลุ่ม ซึ่งเริ่มเป็นรูปเป็นร่าง เริ่มมี Database ที่จะนำมาลงมือวิเคราะห์และสรุปข้อมูลต่อได้ 

เมื่อเรามีข้อมูลในมือ ขั้นตอนสำคัญต่อไปจึงเป็นการนำข้อมูลที่อาจจะมาแบบ ‘สกปรก มอมแมม’ มาอาบน้ำ แต่งตัวให้กลายเป็นข้อมูลที่สมบูรณ์ และนำไปสื่อสารเป็นประเด็นข่าวต่อไป ซึ่งการอบรมในวันที่ 3 ทุกคนเข้าใจวิธีจัดการข้อมูลด้วยสถิติเบื้องต้นไปแล้วใน ‘Data Journalism Workshop #3 : รู้ ‘สถิติ’ ก็เหมือนการรู้ภาษาอีกภาษาหนึ่ง’ 

สำหรับวันนี้  ‘ศิระ เอกบุตร’ ผู้ก่อตั้งเว็บไซต์และแฟนเพจ ‘เทพเอ็กเซล : Thep Excel’ ที่มีผู้ติดตามมากกว่า 8 หมื่นคน เข้ามารับหน้าที่เป็นวิทยากร สอนทุกคนให้สู้รบกับ ‘ข้อมูลเน่า’ ด้วย ‘Microsoft Excel’ โปรแกรมสามัญประจำเครื่องที่ทำอะไรได้หลายอย่างครอบจักรวาล แต่เป็นดั่งฮีโร่ในการช่วยจัดการและวิเคราะห์ข้อมูลดิบ ให้กลายเป็นประเด็นเด็ด 

Microsoft Excel ที่คุ้นเคยกับแง่มุมที่ (อาจ) ไม่เคยรู้

เริ่มแรกของการอบรม ศิระอธิบายภาพรวมให้ทราบตรงกันก่อนว่าเราจะหยิบ Microsoft Excel มาใช้วิเคราะห์ข้อมูลได้อย่างไรบ้าง ซึ่งสามารถทำได้สามส่วนหลักๆ  คือ การจัดเตรียม การคำนวนผลสรุป และการแสดงผลให้เป็นในรูปแบบของภาพ ซึ่งบทเรียนในวันนี้ เน้นหนักไปที่เรื่องการจัดเตรียมและการคำนวนผลสรุปเป็นหลัก 

“เนื้อหาที่เราเรียนไปในสัปดาห์ก่อนๆ ตั้งแต่แนวคิดว่าข้อมูลคืออะไร หาข้อมูลจากแหล่งไหนบ้าง หรือการใช้สถิติตีความหมายของข้อมูล สิ่งเหล่านั้นจะทำได้ก็ต่อเมื่อเราเตรียมข้อมูลและสรุปข้อมูลให้เรียบร้อยแล้ว ถ้าเราทำสองส่วนนี้ไม่ได้ ส่วนอื่นก็จบ” 

ศิระเน้นให้รู้ว่า การเตรียมและสรุปข้อมูลนั้นสำคัญมาก ก่อนจะเข้าบทเรียนต่อไปด้วยการปูพื้นฐานเรื่องหน้าตาและองค์ประกอบของ Microsoft Excel ตั้งแต่ Column คือแถวแนวตั้ง, Row คือแถวแนวนอน, Cell คือช่องว่าง โดยในแต่ละช่องมีค่าเท่ากับหนึ่งตัวแปร รวมถึงการใส่สูตรเครื่องหมายบวก ลบ คูณ หาร ใน Microsoft Excel ว่าตั้งใจใช้สัญลักษณ์อะไรแทนค่า เพราะแม้เราจะคุ้นหน้าคุ้นตากับมันดี แต่เราก็อาจไม่รู้ว่า เครื่องมือนี้มีชื่ออะไร และมีหน้าที่อะไร ซึ่งถือเป็นพื้นฐานขั้นต้นที่สำคัญก่อนเราจะลงลึกไปถึงการใส่สูตรหรือใช้เครื่องมือต่างๆ ในการสรุปข้อมูล 

“ ในหนึ่ง Cell หรือ ช่อง ประกอบไปด้วยสองส่วนด้วยกันคือ เนื้อหา (Content) และ รูปแบบ (Format) ในเนื้อหาเองก็สามารถแบ่งได้สองแบบย่อย ก็คือค่าคงที่กับสูตร ค่าคงที่คือสิ่งที่เราพิมพ์ไปเองในช่องนั้นไม่ว่าจะเป็นตัวเลขหรือตัวหนังสือก็ตาม แต่สูตรคือการเขียนอยู่หลังเครื่องหมาย ‘= เท่ากับ’ แต่ไม่ว่าจะเป็นค่าคงที่หรือสูตร สุดท้ายจะถูกคำนวนออกมาเป็นค่าที่แท้จริงที่เรียกว่า Value ”

สิ่งสำคัญในเรื่องของเนื้อหาและรูปแบบ คือการแก้ไขรูปแบบจะไม่ส่งกระทบต่อเนื้อหา เช่น การปรับเพิ่มหรือลดจุดทศนิยม เพราะตามหลักคณิตศาสตร์ ทศนิยมตั้งแต่ 0.5 ขึ้นไปจะปัดเศษขึ้น แต่ตัวเลขที่ถูกปัดเศษขึ้นนั้นจะยังคงเป็นค่าที่แท้จริงอยู่ ซึ่งเวลาโปรแกรมคำนวน จะนำค่าที่แท้จริงไปคำนวนเท่านั้น ศิระย้ำว่า เรื่องนี้ แม้แต่คนที่ใช้ Micosoft Excel มานานก็อาจจะไม่ได้ให้ความสำคัญกับมันเท่าไหร่นัก 

Flash Fill เครื่องมือแสนโกงที่จัดการข้อมูลได้ทันใจ 

ปกติ เวลาจะคำนวนค่าอะไรสักอย่างใน Micosoft Excel หลายคนทราบดีว่าต้องใส่สูตรต่างๆ โดยเริ่มต้นด้วยเครื่องหมายเท่ากับ แต่สำหรับคนที่จำสูตรไม่ได้ ศิระมีวิธีง่ายกว่านั้นมาช่วยอำนวยความสะดวกให้เรา 

วิธีแรก แค่นำเมาส์ไปไฮไลต์ในพื้นที่ที่ต้องการหาค่าต่างๆ ตามด้วยคลิกขวาที่ Status bar มันจะแสดงผลทันทีเลยว่าจะมีผลรวม ค่าสูงสุด ค่าต่ำสุด ค่าเฉลี่ย ค่ามัธยฐานเท่าไหร่ โดยไม่ต้องเขียนสูตรให้ยุ่งยาก แต่การเขียนสูตรก็มีข้อดีตรงที่ว่า เราสามารถเอาตัวเลขไปต่อยอดอย่างอื่นได้ ส่วนอีกวิธีหนึ่งเป็นการใช้เครื่องมือที่เรียกว่า ‘Flash Fill’ 

“ เครื่องมือ Flash Fill  ผมว่ามันเป็นเครื่องมือขี้โกงสำหรับคนที่เขียนสูตรไม่เก่งมาก และเหมาะกับคนที่อยากทำงานให้เสร็จอย่างรวดเร็ว เพราะหลักการของ Flash Fill นั้น แค่เราพิมพ์ตัวอย่างผลลัพธ์ที่ต้องการลงไป มันก็จะแสดงค่านั้นออกมาให้เราเลยทันที เหมือนเป็น AI ที่พยายามหาให้ว่าเราต้องการอะไร ” 

ศิระนำข้อมูล ชื่อ-นามสกุล มากกว่า 10 รายชื่อมาทดลองแสดงให้เห็นถึงความสามารถของ Flash Fill ที่เพียงพิมพ์ผลลัพธ์ที่ต้องการลงไปบรรทัดเดียว ตามด้วยกด Ctrl+E ก็จะแสดงผลลัพธ์ที่เหลือให้อัตโนมัติดั่งในภาพ 

(ภาพตัวอย่างผลลัพธ์การใช้เครื่องมือ Flash Fill จัดการกับข้อมูล)

แต่ศิระย้ำว่าต้องระวังเรื่องข้อมูลที่ตัวขึ้นต้นที่ซ้ำกัน ซึ่งอาจทำให้ Flash Fill ประมวลผลลัพธ์อย่างเข้าใจผิดได้ แต่มีวิธีแก้อยู่ 2 วิธีด้วยกัน คือแก้ตัวที่ผิดให้ถูก ตัวอื่นก็จะถูกตามทันที อีกวิธีคือให้ตัวอย่างที่ไม่สับสน ด้วยการเพิ่มอีกตัวอย่างเข้าไปเป็น 2 หรือ 3 ตัวอย่าง เพราะในบางครั้ง ตัวอย่างเดียวอาจจะไม่เพียงพอ โดยเฉพาะหากข้อมูลที่เราใช้มีทั้งตัวอักษรและตัวเลขปนกันอยู่

“วันนี้หากจำอะไรไม่ได้เลย จำเครื่องมือนี้ไปตัวเดียวก็พอ เพราะมันทำได้หลากหลายพอสมควร แต่ไม่เหมาะกับการมีข้อมูลใหม่มาเพิ่มเพราะ Flash Fill ไม่ใช่สูตร ทุกอย่างที่เราทำได้นั้นขึ้นอยู่กับ Database ที่เรานำมาใช้ในครั้งแรก แต่ถ้าเป็นเครื่องมือ Power Query เราสามารถเพิ่มข้อมูลใหม่ได้” 

 

ส่งต่อข้อมูลที่สมบูรณ์ มาคำนวนผลสรุปต่อด้วย ‘Pivot Table’ 

หลังจากเข้าใจหน้าตาและองค์ประกอบของ Microsoft Excel ไปคร่าวๆ พร้อมกับลงมือจัดการกับข้อมูลส่วนหนึ่งด้วย Flash Fill ก็มาถึงอีกสเต็ปหนึ่ง คือการนำข้อมูลที่มีหน้าตาสมบูรณ์ไปคำนวนต่อเพื่อสรุปผล 

“ในชีวิตจริงเราจะเจอแต่ข้อมูลเน่า ถ้าเราไปสำรวจดูจะรู้ว่ามันเน่าโดยแท้จริง และเราต้องพยายามดัดแปลงข้อมูลเน่าให้เป็นข้อมูลที่ถูกต้องเสียก่อน”

ศิระอธิบายว่า ในสมัยก่อน การเปลี่ยนข้อมูลเน่าให้กลายเป็นข้อมูลที่ถูกต้องมีหลากหลายวิธี แต่ในสมัยใหม่ ความสามารถของ Microsoft Excel เพิ่มขึ้น และเครื่องมือใหม่ตัวหนึ่งที่มาช่วยกันแปลงข้อมูลเน่าให้กลายเป็นข้อมูลที่ถูกต้องได้ดีมีชื่อว่า ‘Power Query’ โดยที่ไม่ต้องใช้ทักษะเฉพาะในด้านนี้มากนัก ไม่ต้องเขียนโปรแกรม ไม่ต้องเขียนสูตร และกดปุ่มแค่ไม่กี่คลิก 

เมื่อเราได้ Database ที่ถูกต้องแล้ว ก็จะสามารถคำนวนให้กลายเป็นข้อมูลสรุปได้ด้วยเครื่องมือชื่อว่า ‘Power Query’ ซึ่งศิระย้ำว่าเป็นเครื่องมือที่ง่ายที่สุดแล้วในการสรุปข้อมูล แต่ศิระเลือกที่จะสอน ‘Pivot Table’ ก่อน เพื่อให้เข้าใจกระบวนการสรุปข้อมูล 

“เมื่อเราเข้าใจกระบวนการสรุปข้อมูล เราจะคิดย้อนกลับได้ว่า ข้อมูลที่ถูกต้อง แบบที่เราต้องการนั้นหน้าตาเป็นอย่างไร ”

สำหรับการใช้งาน Pivot Table นั้น วิธีเบื้องต้น เราจะต้องเตรียมข้อมูลให้อยู่ในลักษณะที่เป็น Database เสียก่อน ก็คือจะต้องมีหัวตารางแค่บรรทัดเดียวเท่านั้น และหัวตารางต้องเป็นตัวบอกว่าข้อมูลแต่ละคอลัมน์เป็นเรื่องอะไร รวมถึงต้องไม่มีบรรทัดรวมข้อมูลใดๆ ทั้งสิ้น เรียกว่ามาแบบดิบๆ ดีที่สุด 

วิธีการใช้งานแค่คลิกส่วนใดส่วนหนึ่งของตารางแล้วกด Insert ตามด้วย Tables และ Pivot Table เมื่อกดเข้าไป Pivot Table จะเลือกข้อมูลทั้งหมดให้เอง ซึ่งหัวตารางของ Database จะกลายมาเป็น ‘Pivot Table Fields’ ที่มีหน้าตาเป็นกล่องสี่กล่องด้วยกัน โดยแต่ละกล่องก็มีความสามารถที่ต่างกันไป 

(ภาพการแสดงผลข้อมูลจากการลากหัวตารางใส่หน้าต่างของ Pivot Table Fields)

  1. Report Filter ทำหน้าที่คัดกรองข้อมูล ให้แสดงเฉพาะข้อมูลที่สนใจ
  2. Columns นำข้อมูลหัวตารางที่เลือกจัดกลุ่มแบบคอลัมน์ 
  3. Rows นำข้อมูลหัวตารางที่เลือกทั้งหมดมาจัดกลุ่มแบบแถวโดยไม่ซ้ำกัน
  4. Values เป็นการคำนวนสรุปข้อมูลแบบต่างๆ ตั้งแต่การหาผลรวม (SUM) , นับจำนวนข้อมูล (Count) , หาค่าเฉลี่ย (Average) ,หาค่ามากสุด (Max), หาแค่น้อยสุด (Min) เรียงจากมากไปน้อย (Median) และหาค่าที่เจอบ่อยที่สุด (Mode)

แน่นอนว่า กล่องสำคัญที่สุดก็คือ Value หากจะสรุปข้อมูลหัวตารางอะไร ก็แค่ลากมาไว้ที่ช่องนี้เท่านั้น ส่วน Columns และ Row เป็นเรื่องเดียวกัน เพียงแต่แสดงข้อมูลคนละทิศทาง โดยทั่วไป การลากไปที่  Rows จะอ่านง่ายกว่า และเราสามารถปรับแต่งการแสดงผลด้วยการลองลากสลับกันระหว่างทั้งสอง 

นอกจากนั้น เรายังสามารถลากหัวตารางลงไปใส่ในช่อง Values ซ้ำได้มากกว่าหนึ่งครั้ง และเปลี่ยนรูปแบบการแสดงผลได้ตามต้องการ เช่น รอบแรกเป็นการหาผลรวม รอบที่สองลากลงไปเพื่อหาค่าสูงสุด ซึ่งก็ต้องลองลากเข้าลากออกเพื่อให้ได้หน้าตาแบบที่เราต้องการ

หลังจากได้ผลการคำนวนข้อมูลมาเรียบร้อย ศิระสอนการตีความผลการสรุปข้อมูลต่อ โดยเน้นว่าการที่จะตีความตัวเลขได้ เราต้องเริ่มเข้าใจว่าตัวเลขนั้นๆ ว่าคำนวนมาอย่างไร ซึ่งเป็นสิ่งสำคัญมาก ไม่เช่นนั้น เราจะตีความผิดเพี้ยนไป และถึงแม้ Pivot Table จะใช้ง่าย แต่ก็มีข้อจำกัดเรื่องการเปลี่ยนแปลงข้อมูล หากเราเพิ่มข้อมูลใหม่ลงไปในฐานข้อมูลอันเดิม จะต้องกด Refresh ทุกครั้งเพื่อให้ Pivot Table ดึงข้อมูลใหม่เข้ามา 

Power Query เครื่องมือมหัศจรรย์ที่ช่วยจัดระเบียบข้อมูลเน่าให้กลายเป็นข้อมูลชั้นเยี่ยม 

หลังจากที่เราเห็นหน้าตาของข้อมูลที่ถูกต้องไปแล้วว่า ถ้าผ่านการคำนวนออกมานั้นจะเป็นเช่นไร ขั้นถัดไปถึงคิวของ ‘Power Query’ เครื่องมือที่ศิระเกริ่นเอาไว้ตั้งแต่ช่วงเช้าว่า สามารถดึงข้อมูลได้อย่างทรงพลัง ไม่ว่าจะเป็นการดึงข้อมูลที่หลากหลาย หรือการปรับเปลี่ยนรูปร่างหน้าตาของข้อมูลให้ได้ตรงตามที่ใจเราต้องการ ซึ่งผลลัพธ์สุดท้ายจะออกมาเป็นตารางให้เราสามารถนำไปใช้งานต่อได้อย่างง่ายดาย ไม่ว่าจะเอาไปใช้ใน PivotTable เขียนสูตรใน Micorsoft  Excel ต่อ หรือขึ้นรูปร่างเป็นกราฟก็ได้เช่นกัน โดยเครื่องมือนี้อยู่ในแถบ Data ส่วน Get & Transform Data แต่จะมีแค่เฉพาะใน Excel เวอร์ชั่น 2016 ขึ้นไป หรือใน Office 365 เท่านั้น

สิ่งที่ยุ่งยากที่สุดของ Power Query ก็คือขั้นตอนรวบรวมเชื่อมต่อข้อมูล ถ้ามีข้อมูลหลายไฟล์ หลายแหล่งข้อมูลอาจต้องเชื่อมต่อหลายครั้ง แต่หากข้อมูลมาในรูปของตารางอยู่แล้ว ก็สามารถกด ‘Get Data From Table/ Range’ ได้เลย ซึ่งจะเข้าไปสู่หน้าต่าง ‘Query Editor’

ความเจ๋งอย่างหนึ่งของ Query Editor คือ เมื่อเราทำอะไรใน Power Query ก็ตาม มันจะถูกบันทึกเอาไว้เป็นขั้นตอนที่สามารถแก้ไข ลบ หรือสลับขั้นตอนต่างๆ ได้ ทั้งยังสามารถดูสูตรแต่ละขั้นตอนเพื่อใช้ต่อยอดอย่างอื่นได้ด้วย

ศิระให้เราลองใช้ Power Query จัดการกับตัวอย่างข้อมูลเน่าในแบบต่างๆ ตั้งแต่การจัดการโครงสร้างตาราง จัดการแถว จัดการคอลัมน์ และสอนการใช้เครื่องมือแก้ไขข้อมูลในแต่ละช่อง ไม่ว่าเป็น ‘Replace Values’ ที่ช่วยแทนค่าข้อมูลที่กำหนดด้วยข้อมูลอีกตัว หรือการถมค่าช่องว่างด้วย ‘Fill’ 

อีกทั้งยังสามารถจัดการกับหน้าตาของตารางที่เป็นปัญหาได้หลายวิธี เช่น ‘Merge Queries’ เอาคอลัมน์มาจากอีกตารางที่เกี่ยวข้องกัน หรือ ‘Unpivot Columns’ พลิกเอาข้อมูลที่แยกอยู่หลายคอลัมน์ให้มาอยู่ในคอลัมน์เดียวแต่หลายบรรทัดแทน โดยหลังจากแก้ข้อมูลเสร็จแล้วให้เลือก Close & Load To เพื่อให้เกิดความยืดหยุ่นสูงที่สุดในการนำไปใช้ต่อ ซึ่งสามารถสร้างตารางใหม่แยกออกมาหรือส่งเข้า Pivot Table โดยตรงได้เลย

นอกจากนั้น ศิระยังยกตัวอย่างปัญหาของข้อมูลที่มักจะเจออยู่บ่อยๆ จากข้อมูลที่ยังไม่ได้มาในรูปของ Database เช่น ติดข้อมูลที่ไม่เกี่ยวข้องมา, ข้อมูล Error, คอลัมน์เดียวกันปนมาหลายเรื่อง รวมถึงข้อมูลที่มีหลายตาราง 

แต่ทุกปัญหาย่อมมีทางออก ศิระให้แนวทางแก้ไขปัญหาทั้งหมดนั้นด้วยการใช้เครื่องมือต่างๆ ใน Power Query ซึ่งมีรายละเอียดที่ค่อนข้างเยอะพอสมควร แต่โดยรวมแล้ว บทเรียนทั้งหมดตลอดวันที่ว่าด้วยเรื่องของ Micorsoft Excel นั้น เปิดโลกทัศน์ให้เห็นว่า โปรแกรมนี้ที่เราอาจจะเผลอมองข้ามมาตลอด กลายมาเป็นฮีโร่ตัวสำคัญที่จะมาช่วยเปลี่ยนข้อมูลชวนปวดหัว ให้กลายเป็นข้อมูลพร้อมใช้สำหรับเข้าสู่ขั้นตอน ‘Data visualization’ ในการอบรมครั้งถัดไป

Fact Box

งานอบรม Data Journalism Workshop จัดขึ้นบนความร่วมมือของ The Momentum, คณะวารสารศาสตร์และสื่อสารมวลชน มหาวิทยาลัยธรรมศาสตร์, ป่าสาละ, สถาบันวิจัยเพื่อการพัฒนาประเทศไทย หรือ TDRI, พันช์อัป และดีแทค เพื่อพัฒนาทักษะการวิเคราะห์ข้อมูลและวิธีการเล่าเรื่องที่ทันสมัย โดยใช้นวัตกรรมใหม่ๆ มาส่งเสริมการทำเนื้อหาเชิงลึกของสื่อมวลชน

Tags: , , , ,