การเก็บรวบรวมข้อมูลและสำรวจข้อมูล (วิทยาการคำนวณ ม.5)

“ข้อมูลเป็นสิ่งที่มีมูลค่ามหาศาลในปัจจุบัน จึงมีการนำข้อมูลมาวิเคราะห์หรือประมวลผลให้เกิดประโยชน์กับบุคคล หรือองค์กร แต่การได้มาซึ่งข้อมูลที่เป็นประโยชน์นั้น กระบวนการในการเก็บรวบรวมข้อมูล นับว่าเป็นสิ่งสำคัญ ดังประโยคที่ว่า garbage in garbage out ซึ่งได้กล่าวไว้ในขั้นตอนของกระบวนการวิทยาการข้อมูล สำหรับขั้นตอนของการเก็บรวบรวมข้อมูลที่จะกล่าวถึงนั้น เป็นการเก็บรวบรวมข้อมูลทุติยภูมิ โดยต้องกำหนดเป้าหมายให้ชัดเจนว่า จะนำข้อมูลที่รวบรวมได้ไปใช้ในเรื่องใด และจะวิเคราะห์อย่างไร เพื่อให้ได้ผลลัพธ์ตามที่ต้องการ โดยเป้าหมายนั้นสามารถบอกได้ว่าข้อมูลที่ต้องการ รวบรวมได้จากที่ใด และวิธีการใด”

หนังสือเรียนเทคโนโลยี (วิทยาการคำนวณ) ม.5

ทบทวนเรื่องข้อมูล

ข้อมูลแบ่งตามลักษณะของการได้มา ดังนี้

  1. ข้อมูลปฐมภูมิ (primary data) – ข้อมูลที่ได้จากแหล่งกำเนิดข้อมูลหรือจุดเริ่มต้นของข้อมูล เช่น ข้อมูลจากการทดลอง การค้นพบทางวิทยาศาสตร์ เหตุการณ์ประวัติศาสตร์ ภูมิปัญญา ความคิดเห็นของผู้เชี่ยวชาญ โดยข้อมูลปฐมภูมิเป็นข้อมูลที่เกิดขึ้นจากการกระทำ หรือการจดบันทึกของผู้มีส่วนร่วมในเรื่องราวหรือเหตุการณ์เหล่านั้น
  2. ข้อมูลทุติยภูมิ (secondary data) – ข้อมูลที่ไม่ได้มาจากแหล่งกำเนิดโดยตรง แต่ได้มาจากการอ้างอิงถึงข้อมูลปฐมภูมิ หรือนำข้อมูลปฐมภูมิมาวิเคราะห์ ประมวลผล ซึ่งอาจอยู่ในรูปสถิติ บทวิจารณ์ บทความ เอกสารต่างๆ

การนำข้อมูลทุติยภูมิที่มีการจัดเก็บรวบรวมไว้แล้วใช้งาน อาจมีค่าใช้จ่ายและใช้เวลาน้อยกว่าการใช้ข้อมูลปฐมภูมิ อย่างไรก็ตาม ข้อมูลทุติยภูมิที่มีการอ้างอิงหรือส่งต่อกันมาเป็นทอดๆ อาจมีความจริงบางส่วนถูกบิดเบือนไปทั้งโดยเจตนา หรือไม่เจตนา ดังนั้น ในการอ้างอิงข้อมูลทุติยภูมิ ต้องตรวจสอบความถูกต้องและแหล่งที่มาอย่างละเอียดถี่ถ้วน เพื่อให้เกิดความเชื่อมั่นในการนำข้อมูลไปใช้ เพื่อให้เกิดประโยชน์อย่างแท้จริง

วิธีการรวบรวมข้อมูล
Photo by mentatdgt on Pexels.com

วิธีการรวบรวมข้อมูล

  • การสัมภาษณ์ (interview) – สัมภาษณ์โดยตรงหรือผ่านการสื่อสารอื่น เช่น โทรศัพท์ สื่อสังคมออนไลน์ ต้องใช้คำถามที่ชัดเจน ตรงประเด็น เป็นลักษณะคำถามปลายเปิด นิยมใช้รวบรวมข้อมูลเชิงคุณภาพ เช่น ความเห็นของนักเรียนต่อระเบียบปฏิบัติในห้องเรียน ความรู้สึกของผู้บริโภคเกี่ยวกับผลิตภัณฑ์ใหม่
  • การสำรวจ (survey) – ใช้แบบสำรวจที่มีการกำหนดคำถาม เพื่อค้นหาข้อมูล หรือความเห็นที่ต้องการ เช่น ความพึงพอใจของการบริหารงานของสภานักเรียน แหล่งท่องเที่ยวที่นักท่องเที่ยวสนใจ
  • การสังเกต (observe) – รวบรวมข้อมูลจากเหตุการณ์ สถานการณ์ หรือพฤติกรรมที่เปลี่ยนแปลงไป เช่น สังเกตพฤติกรรมของนักเรียนระหว่างรับประทานอาหาร พฤติกรรมการทิ้งขยะของคนในองค์กร
  • การทดลอง (experiment) – รวบรวมข้อมูลจากการทดลองหรือทดสอบที่มีการควบคุมปัจจัยบางประการ เช่น การบันทึกผลการเจริญเติบโตของถั่วงอกเมื่อมีแสงแดดและไม่มีแสงแดด
  • การทบทวนเอกสาร (document/literature review) – เป็นการรวบรวมข้อมูลจากเอกสาร รายงาน บทความ หรือแบบฟอร์มการรวมรวบข้อมูล เช่น แบบบันทึกการเข้าเรียนของนักเรียน รายงานประจำปี รายงานการประชุม จดหมายข่าว แบบฟอร์มลงเวลาปฏิบัติงาน
  • การสำมะโน (census) – รวบรวมข้อมูลด้วยการสำรวจจากประชากรเกี่ยวกับเรื่องที่กำหนด เช่น สำนักงานสถิติแห่งชาติมีการสำมะโนประชากรและเคหะเป็นประจำทุกๆ 10 ปี

การเก็บรวบรวมข้อมูล (Data Collection)

ในปัจจุบัน แหล่งข้อมูลทุติยภูมิมีการเผยแพร่บนอินเทอร์เน็ตและอยู่ในหลายรูปแบบ (format) ในการนำไปใช้งานอาจมีวิธีจัดการข้อมูลที่แตกต่างกัน ขึ้นกับรูปแบบที่เผยแพร่ดังนี้

  • ไฟล์ – ไฟล์ข้อมูล เช่น ไฟล์ที่ได้จากโปรแกรมตาราทำงาน (นามสกุล .xls, .xlsx, .odp) หรือไฟล์แบบข้อความ (text) (นามสกุล .csv) สามารถดาวน์โหลดไปใช้งานได้โดยไม่ต้องอาศัยขั้นต้อนซับซ้อนในการแปลงข้อมูล ส่วนไฟล์นามสกุล .pdf สามารถดาวน์โหลดได้แต่มีกระบวนการซับซ้อนในการแปลงข้อมูลให้อยู่ในรูปแบบที่นำไปใช้คำนวณ นอกจากนี้ ยังมีข้อมูลที่อยู่ในรูปแบบที่ต้องเขียนคำสั่งในการนำข้อมูลเหล่านั้นมาใช้งาน เช่น ข้อมูลจาก Facebook, Twitter ต้องเขียนคำสั่งผ่านวิธีการเชื่อมต่อเฉพาะ (API: Application Programming Interface)
  • รายงานหรือตารางบนเว็บไซต์ – เป็นข้อมูลที่ผ่านการสรุปมาแล้ว ไม่มีข้อมูลดิบประกอบ ทำให้ยากในการนำข้อมูลไปวิเคาาะห์ในประเด็นอื่น เช่น ข้อมูลสรุปจำนวนผู้ติดเชื้อและเสียชีวิตในช่วงการแพร่ระบาดของโรคโควิด-19 ซึ่งไม่มีรายละเอียดของแต่ละบุคคล แต่ละภูมิภาค ทำให้ไม่สามารถวิเคราะห์ถึงช่วงอายุ หรือภูมิภาคของผู้ติดเชื้อหรือเสียชีวิต
วิธีการรวบรวมข้อมูล
Photo by Oleg Magni on Pexels.com

แหล่งข้อมูลทุติยภูมิ

data.go.th เป็นแหล่งข้อมูลทุติยภูมิสถิติจากศูนย์กลางข้อมูลภาครัฐ เพื่อประโยชน์ต่อสาธารณชนและหน่วยงานทั้งภาครัฐและเอกชน สามารถค้นหาและเข้าถึงข้อมูลที่มีคุณภาพของภาครัฐได้โดยสะดวก ซึ่งมีให้ดาวน์โหลดไฟล์ในรูปแบบ .xls และรูปแบบ .csv นอกจากนี้ยังสามารถดาวน์โหลดไฟล์คำอธิบายข้อมูล (metadata) ได้

ตัวอย่างข้อมูลรายได้เฉลี่ยต่อเดือนต่อครัวเรือน จาก www.data.go.th นี้ จำแนกตามภาค และจังหวัด ซึ่งข้อมูลดังกล่าว มีคุณลักษณะหรือแอตทริบิวต์ (attribute) ได้แก่ รายได้เฉลี่ยต่อเดือนต่อครัวเรือน ซึ่งได้ทำการเก็บรวบรวมเป็นรายปี ตั้งแต่ปี พ.ศ.2541 ถึง พ.ศ.2558 (18 ปี) สามารถนำมาประมวลผลเพื่อแบ่งกลุ่มจังหวัดที่มีรายได้เฉลี่ยมาก ปานกลาง หรือน้อย เพื่ออธิบายภาพรวมรายได้เฉลี่ยประชากรของประเทศ ทำให้สามารถวางนโยบายที่เหมาะสมในการบริหารงาน หรือพัฒนาจังหวัดต่างๆ

แหล่งข้อมูลทุติยภูมิที่เผยแพร่ของประเทศไทย

แหล่งข้อมูลทุตยภูมิที่เผยแพร่ของต่างประเทศ

ความเหมาะสมของแหล่งข้อมูล

การเลือกใช้แหล่งช้อมูลที่มีการบิดเบือน ขาดความน่าเชื่อถือ อาจทำให้ข้อสรุปที่ได้เกิดความผิดพลาดหรือชี้นำไปในทางที่ผิด นอกจากนี้อาจเกิดอันตรายและสร้างความเสียหาย ดังนั้นก่อนเลือกใช้แหล่งข้อมูล ควรพิจารณาความเหมาะสมของแหล่งข้อมูลตามมุมมองดังนี้

  1. จุดมุ่งหมายของแหล่งข้อมูล (purpose) – ข้อมูลถูกพัฒนาขึ้นเพื่อเป้าหมายใด
  2. ความทันสมัยของข้อมูล (currency) – ข้อมูลเผยแพร่เมื่อใด
  3. ความสอดคล้องกับการใช้งาน (relevance) – ข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่
  4. ความน่าเชื่อถือของแหล่งข้อมูล (authority) – แหล่งข้อมูลหรือผู้เผยแพร่น่าเชื่อถือหรือไม่
  5. ความถูกต้องแม่นยำ (accuracy) – ข้อมูลมีการยืนยันความถูกต้อง มีการถูกอ้างอิงถึงหรือไม่

การเตรียมข้อมูล (Data Preparation)

หลังจากเลือกแหล่งข้อมูลและรวบรวมข้อมูลเรียบร้อยแล้ว ขั้นตอนต่อไปคือการเตรียมข้อมูล เพื่อทำให้ข้อมูลมีความถูกต้อง ครบถ้วน สมบูรณ์ ไม่มีค่าผิดปกติ เพื่อเตรียมพร้อมสำหรับการประมวลผลข้อมูล

การทำความสะอาดข้อมูล (Data Cleansing)

ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาดซึ่งไม่เหมาะต่อการนำไปประมวลผล ได้แก่

  • มีค่าว่าง
  • มีค่าที่อยู่นอกขอบเขตจากค่าที่เป็นไปได้
  • ใช้หน่วยนับผิด
  • เป็นค่าผิดปกติ (outlier)
  • ใช้รูปแบบข้อมูลแตกต่างกัน
  • พิมพ์ผิด

ซึ่งสาเหตุเกิดจากผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูล

การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาด สามารถทำได้โดยการแก้ไขให้ถูกต้อง หรือลบข้อมูลที่ไม่ส่งผลกระทบต่อการประมวลผล หากข้อมูลมีจำนวนไม่มาก สามารถใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูล แต่หากข้อมูลมีจำนวนมาก ต้องอาศัยโปรแกรมคอมพิวเตอร์ในการดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไข และรูปแบบข้อมูลที่กำหนดในโปรแกรม

การแปลงข้อมูล (Data Transformation)

เป็นการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานนั้น แต่ละแถว (บรรทัด) คือข้อมูล 1 รายการ และแต่ละคอลัมน์ (หลัก) คือ คุณลักษณะ หรือแอตทริบิวต์

ตัวอย่างตาราง แสดงตำแหน่งของแถวและคอลัมน์
ตัวอย่างตาราง แสดงตำแหน่งของแถวและคอลัมน์

การเชื่อมโยงข้อมูล (Data Combining)

กรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือมีหลายไฟล์ข้อมูล ต้องทำการเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน โดยใช้คุณลักษณะหรือแอตทริบิวต์ ที่มีอยู่รวมกันของหลายแหล่งข้อมูล เป็นตัวเชื่อมโยง

ตัวอย่างการเชื่อมโยงข้อมูลจาก 2 ตาราง ที่มีคุณลักษณะ "ชื่อ" ร่วมกัน
ตัวอย่างการเชื่อมโยงข้อมูลจาก 2 ตาราง ที่มีคุณลักษณะ “ชื่อ” ร่วมกัน

การสำรวจข้อมูล (Data Exploration)

กระบวนการสำรวจข้อมูล มีขั้นตอนหลักๆ คือการวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่างๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจข้อมูลอาจพบข้อผิดพลาดหรือปัญหาอื่นจากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งต้องกลับไปดำเนินการแก้ไขข้อมูลให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ผิดรูปแบบ มีค่าผิดปกติ

เครื่องมือพื้นฐานในการสำรวจข้อมูล

ในกรณีที่ข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผล ต้องอาศัยวิธีการนำเข้าและประมวลผลข้อมูลผ่านโปรแกรมภาษา หรือโปรแกรมสำเร็จรูปเฉพาะด้านวิทยาการข้อมูล (เช่น ภาษา R, ภาษา Python) โดยมีการนำเข้าไฟล์ข้อมูลประเภท .xls หรือ .csv เพื่อสร้างเป็นโครงสร้างข้อมูลที่มีลักษณะคล้ายตาราง แล้วจึงสามารถประมวลผลข้อมูลเพื่อแสดงผลเป็นภาพ


ข้อมูลส่วนบุคคล (Personal Information)

ข้อมูลส่วนบุคคล เป็นข้อมูลเกี่ยวกับสิ่งที่เฉพาะตัวของบุคคล เช่น การศึกษา ฐานะการเงิน ประวัติสุขภาพ ประวัติอาชญากรรม ประวัติการทำงาน หรือประวัติกิจกรรมต่างๆ ที่มีชื่อของบุคคลนั้นหรือมีหมายเลขรหัส หรือสิ่งที่บอกลักษณะอื่นที่ทำให้รู้ตัวตนบุคคลนั้นได้ เช่น ลายนิ้วมือ ข้อมูลเสียง รูปถ่าย เป็นต้น

ข้อมูลเหล่านี้หากมีผู้อื่นทราบนอกจากเจ้าของข้อมูล อาจทำให้เกิดการปลอมแปลงตัวตน จึงต้องระมัดระวังไม่ให้คนอื่นนำข้อมูลไปใช้ได้ อีกทั้งข้อมูลส่วนบุคคลเหล่านี้ มีประโยชน์และมูลค่าทางธุรกิจ เช่น บริษัทสินเชื่อสามารถใช้ข้อมูลฐานะการเงินเพื่อนำเสนอผลิตภัณฑ์ที่ตรงความต้องการของลูกค้า, บริษัทขายยามีประวัติสุขภาพ สามารถโฆษณายาที่เกี่ยวข้องกับประวัติการเจ็บป่วยของเจ้าของข้อมูล

ข้อมูลส่วนบุคคลหลายคุณลักษณะ อาจบ่งชี้ถึงทัศนคติและความเชื่อ เช่น ข้อมูลการกดชื่นชอบ (like) ต่อเรื่องต่างๆ ในระบบเครือข่ายสังคม ชี้ให้เห็นว่าประเด็นสังคมด้านใดที่กำลังอยู่ในความสนใจ หากทีมงานหาเสียงของพรรคการเมืองต่างๆ สามารถเข้าถึงข้อมูลเหล่านี้ ก็จะสามารถออกแบบนโยบายของผู้สมัครรับการเลือกตั้งที่เหมาะสมกับความต้องการของสังคม ณ ขณะนั้น ทำให้มีโอกาสที่ผู้สมัครรายนั้นจะได้รับคะแนนการเลือกตั้งที่สูงขึ้น

ปกติแล้วผู้ให้บริการต้องเก็บข้อมูลส่วนตัวของผู้ใช้อย่างเป็นความลับ แต่ในบางกรณีข้อมูลอาจถูกเข้าถึงได้โดยบุคคลภายนอก เนื่องจากความผิดพลาดของการรักษาความปลอดภัย หรือความประมาทเลินเล่อของเจ้าของข้อมูล


อ้างอิง

สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี กระทรวงศึกษาธิการ, หนังสือเรียนรายวิชาพื้นฐานวิทยาศาสตร์และเทคโนโลยี เทคโนโลยี (วิทยาการคำนวณ) ชั้นมัธยมศึกษาปีที่ 5

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s