บิ๊กดาต้า คืออะไร? ใช้ทำอะไร?

บิ๊กดาต้า คืออะไร? ใช้ทำอะไร? คำยอดฮิตในแวดวงไอที ช่วงปีที่ผ่านมาต้องยกให้กับ บิ๊กดาต้า โดยคำว่า Big เราก็เข้าใจกันดีว่าหมายถึงอะไรที่ “มหาศาล” หรือใหญ่โตเป็นพิเศษ ส่วน Data แปลได้ตรงตัวว่า “ข้อมูล” โดยหมายถึงข้อมูลที่ไม่จำกัดรูปแบบ ประเภท รวมถึงแหล่งที่มา ว่าแต่… Big Data วัดจากอะไร และใหญ่ขนาดไหน ?

ความหมายของ Big Data ตามพจนานุกรม
เว็บไซต์ดิกชันนารีของ Cambridge ได้ให้ความหมายของ Big Data ไว้ว่าเป็น “ชุดของข้อมูลขนาดใหญ่ซึ่งถูกสร้างขึ้นจากการใช้งานระบบอินเตอร์เน็ตของมนุษย์ มันจะสามารถถูกจัดเก็บ ทำความเข้าใจ และนำมาใช้งาน ด้วยความสามารถของเครื่องมือที่มีศักยภาพสูง”

ผู้เชี่ยวชาญส่วนใหญ่เห็นตรงกันว่า ดัชนีที่ใช้ชี้วัดความเป็น Big Data นั้นต้องมีองค์ประกอบของ 3V เป็นอย่างน้อย ได้แก่

Volume คือ ข้อมูลต้องมีปริมาณมาก ปัจจุบัน ข้อมูลที่เกิดขึ้นบนโลกอินเตอร์เน็ตนั้นมีมากกว่าข้อมูลที่ถูกจัดเก็บเมื่อ 20 ปีที่แล้วหลายเท่าตัว นอกจากนี้การทำธุรกรรมของผู้บริโภคแต่ละคนก็ก่อให้เกิดข้อมูลมหาศาลตลอดเวลาในทุกๆ วัน บางตำรากล่าวไว้ว่าปริมาณและความซับซ้อนของ Big Data ต้องใช้โปรแกรมเทพๆ อย่าง Hadoop เพราะโปรแกรมทั่วไป เช่น Microsoft Excel สามารถจัดการข้อมูลได้เพียง 1,048,576 rows และ 16,384 columns ซึ่งไม่เพียงพอ

Velocity คือ ความเร็ว ทั้งในแง่ของการผลิตข้อมูล วิเคราะห์ข้อมูล ประมวลผลข้อมูล และแสดงผลลัพธ์ เนื่องจากข้อมูลเกิดขึ้นตลอดเวลา ดังนั้น Big Data จึงถูกนำมาใช้งานอย่างรวดเร็วและเรียลไทม์ เช่น การทำ Fault Detection ในระบบการธนาคาร ที่ต้องดึงข้อมูลมาจากหลายแหล่ง และต้องทำอย่างต่อเนื่องในขณะนั้น ที่เห็นได้ชัดเจนคือหลายแอพพลิเคชั่นให้ความสำคัญกับ “ความเร็ว” มากกว่า “ปริมาณ” ข้อมูล เพราะธุรกิจใดที่สามารถเข้าถึงและจัดการข้อมูลได้ทันทีก็ย่อมได้เปรียบคู่แข่ง

Variety คือ ข้อมูลต้องมีความหลากหลาย และแตกต่างกันในรายละเอียด ไม่ว่าจะเป็นรูปแบบข้อมูลหรือชนิดของข้อมูล เช่นข้อความ ตัวเลข วิดีโอ รูปภาพ สัญญาณสัญญาณจีพีเอส ข้อมูลจากเซนเซอร์ รวมถึงแหล่งของข้อมูลที่มีช่องทางเพิ่มขึ้นเรื่อยๆ ตั้งแต่ sms จากโทรศัพท์มือถือ ข้อความจาก Twitter สตอรี่ใน Instagram รายการสดใน Facebook ไปจนถึงเสียงเพลงจากแอพ TikTok เป็นต้น

โดย Big Data นั้นสามารถแบ่งเป็นหมวดหมู่ตามโครงสร้างของชุดข้อมูลได้ดังนี้

ข้อมูลที่มีโครงสร้างชัดเจน (Structured Data)

หมายถึง ชุดข้อมูลที่มีการจัดเรียงโครงสร้างอย่างเป็นระเบียบ มีความชัดเจน หรือระบุได้ด้วยตัวเลข พร้อมใช้งานได้ทันที เช่น จำนวนการซื้อขายกับลูกค้า เปอร์เซ็นต์ความเคลื่อนไหวภายในตลาดหุ้น ฯลฯ

ข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data)

หมายถึง ชุดข้อมูลที่มีโครงสร้างไม่ชัดเจน หรือไม่สามารถระบุความแน่นอนของข้อมูลนั้นๆ ได้ ยังไม่สามารถประมวลผลเพื่อนำไปใช้ได้ทันที อย่างเช่น บทสนทนาโต้ตอบกับลูกค้าทาง Social Media

ข้อมูลกึ่งมีโครงสร้าง (Semi-Structured Data)

หมายถึง ชุดข้อมูลที่มีโครงสร้างระดับหนึ่งแต่ยังไม่สมบูรณ์ เช่น สเตตัสใน Social Media เป็นข้อมูลที่ไม่มีโครงสร้าง แต่ในกรณีที่มี Hashtag (#) เข้ามาช่วยในการจัดหมวดหมู่ จะทำให้ข้อมูลมีความเป็นระเบียบขึ้นมาเล็กน้อย