ใช้หรือทำเสีย: การค้นหาความรู้แจ้งในข้อมูลมืด

ใช้หรือทำเสีย: การค้นหาความรู้แจ้งในข้อมูลมืด

ข้อมูลขนาดใหญ่เป็นข่าวใหญ่ในทุกวันนี้ แต่องค์กรส่วนใหญ่จบลงด้วยการกักตุนข้อมูลจำนวนมหาศาล ปล่อยให้มีที่เก็บข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้างหรือ “มืด” ซึ่งไม่เป็นประโยชน์สำหรับทุกคน เมื่อพิจารณาถึงประโยชน์ที่เป็นไปได้ของข้อมูลขนาดใหญ่ สิ่งสำคัญคือเราต้องหาวิธีที่ดีกว่าในการรวบรวม จัดเก็บ และวิเคราะห์ข้อมูลเพื่อใช้ประโยชน์สูงสุดจากข้อมูลดังกล่าว เรื่องราวของความสำเร็จของข้อมูลขนาดใหญ่ได้ก่อให้เกิดการลงทุนที่สำคัญในการริเริ่มข้อมูลขนาดใหญ่ สิ่งนี้กระตุ้นให้หลายองค์กร

รวบรวมข้อมูลภายนอกและภายในในปริมาณมากที่เรียกว่า “ ดาต้าเลค ” 

เหล่านี้เป็นที่เก็บข้อมูลที่มีข้อมูลในรูปแบบต่างๆ ไม่ว่าจะเป็นแบบมีโครงสร้าง เช่น ฐานข้อมูล หรือไม่มีโครงสร้าง เช่น อีเมล หรือเสียงและวิดีโอ

ส่งผลให้จำนวนข้อมูลที่ถูกสร้างขึ้น รวบรวม และจัดเก็บเพิ่มขึ้นอย่างต่อเนื่องในอัตราทวีคูณ

สนับสนุนการทำข่าวที่เป็นกลางด้วยการวิจัย

แต่จากการศึกษาล่าสุดของไอบีเอ็มพบว่ามากกว่า 80% ของข้อมูลทั้งหมดไม่มีการใช้งาน ไม่มีการจัดการ มักไม่มีโครงสร้าง ไม่มีข้อมูลเมตาที่มีความหมาย และแม้แต่องค์กรก็ไม่รู้จัก สัดส่วนของข้อมูลมืดนี้คาดว่าจะสูงถึง 93% ภายในปี 2563

ตัวอย่างเช่น ข้อมูลที่สร้างขึ้นจากอุปกรณ์ออนบอร์ดของยานพาหนะสามารถคาดการณ์ได้ถึง 350MB ของข้อมูลทุกวินาที ข้อมูลทั้งหมดนี้ไปอยู่ที่ไหนและใครเป็นคนใช้?

องค์กรยังสามารถสร้างข้อมูลภายในที่สำคัญได้อีกด้วย ตัวอย่างเช่นการศึกษาเมื่อเร็วๆ นี้พบว่าบริษัทที่มีพนักงาน 1,500 คนมีสเปรดชีตประมาณ 2.5 ล้านสเปรดชีต ซึ่งแต่ละสเปรดชีตมีผู้ใช้โดยเฉลี่ย 12 คนเท่านั้น

ยิ่งไปกว่านั้น มีหลักฐานของข้อมูลที่ไม่มีโครงสร้างที่หลากหลาย เช่น เวอร์ชันเอกสาร บันทึกโครงการ และอีเมลที่ตกค้างจากกระบวนการขององค์กร และต่อมาก็หยุดอยู่ในเซิร์ฟเวอร์ข้อมูล

บทเรียนที่ได้รับจากการวิจัยหลายปีเกี่ยวกับการใช้ระบบสารสนเทศแสดงให้เห็นว่าข้อสันนิษฐานที่ว่า “ยิ่งมากยิ่งดี” เมื่อพูดถึงข้อมูลนั้นไม่มีมูลความจริง แม้แต่ในโครงการไอทีแบบดั้งเดิมที่ติดตามการวิเคราะห์และออกแบบวงจรชีวิตอย่างระมัดระวัง ความไม่สอดคล้องกันระหว่างมูลค่าที่รับรู้และมูลค่าที่แท้จริงนั้นเป็นปัญหาที่ยากอย่างฉาวโฉ่ ซึ่งมักจะนำไปสู่ผลตอบแทนจากการลงทุนที่ไม่ดี

ในโครงการข้อมูลขนาดใหญ่ ข้อมูลมักจะมาจากภายนอกโดย

มีความรู้เพียงเล็กน้อยหรือไม่มีเลยเกี่ยวกับสคีมาตา คุณภาพ หรือยูทิลิตี้ที่คาดหวัง ดังนั้นความเสี่ยงของการลงทุนที่จะไม่ส่งมอบจึงเพิ่มสูงขึ้นอย่างมาก

สุภาษิตโบราณที่ว่า “ใช้หรือทำหาย” นั้นไม่เคยล้าสมัย และนำความสนใจกลับไปที่วัตถุประสงค์ของวิธีที่เราใช้ข้อมูลขนาดใหญ่ องค์กรอาจเก็บรักษาข้อมูลด้วยเหตุผลหลายประการ รวมถึงกฎข้อบังคับในการเก็บรักษาข้อมูลแต่โดยทั่วไปแล้ว การรับรู้มูลค่าในอนาคตคือเหตุผลหลัก

แม้ว่าสตอเรจจะค่อนข้างถูก แต่เมื่อพิจารณาจากปริมาณข้อมูลที่ถูกรวมเข้าด้วยกัน การบำรุงรักษาและการใช้พลังงานของศูนย์ข้อมูลก็ไม่ใช่เรื่องเล็กน้อย นอกจากนี้ยังมีค่าใช้จ่ายและความเสี่ยงที่เกี่ยวข้องกับความปลอดภัยของข้อมูลที่ไม่ได้รับการจัดการดังกล่าว

ดังนั้น การกำหนดวัตถุประสงค์จึงเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าการลงทุนข้อมูลขนาดใหญ่มีเป้าหมายไปที่ปัญหาที่มีความหมาย และการรวบรวมและจัดเก็บข้อมูลก็มีเหตุผลที่ดี

แนวทางต่างๆ เช่นการคิดเชิงออกแบบซึ่งกระตุ้นให้ผู้คนใช้การคิดเชิงแก้ปัญหาอย่างสร้างสรรค์ ได้รับการพิสูจน์แล้วว่าประสบความสำเร็จอย่างสูงในการกำหนดปัญหาที่แท้จริงสำหรับข้อมูลขนาดใหญ่

เมื่อนำไปใช้อย่างเหมาะสม การคิดเชิงออกแบบจะช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถรวบรวมความต้องการ (ความต้องการของลูกค้า) และความมีชีวิต (มูลค่าทางธุรกิจ) เข้ากับความเป็นไปได้ทางเทคโนโลยี และด้วยเหตุนี้จึงเป็นแนวทางให้พวกเขาพัฒนาโซลูชันที่มีความหมาย

ขยะเข้าขยะออก

เมื่อช่องว่างระหว่างการสร้างข้อมูลและการใช้งานมีขนาดใหญ่ขึ้น ทำให้มีโอกาสมากขึ้นที่คุณภาพข้อมูลจะลดลง ซึ่งหมายความว่าองค์กรจะต้องใช้ความพยายามอย่างมากในการล้างข้อมูลเก่า หากต้องการใช้งานในวันนี้

เมื่อต้นปีที่ผ่านมา กลุ่มผู้นำทางความคิดระดับโลกจากชุมชนวิจัยฐานข้อมูลได้กล่าวถึงความท้าทายที่ยิ่งใหญ่ในการรับมูลค่าจากข้อมูลขนาดใหญ่ ข้อความสำคัญคือความจำเป็นในการพัฒนาความสามารถในการ “เข้าใจว่าคุณภาพของข้อมูลนั้นส่งผลต่อคุณภาพของข้อมูลเชิงลึกที่เราได้รับจากข้อมูลนั้นอย่างไร”

หลักการทองของ “ขยะเข้า ขยะออก” ยังคงเป็นจริงในบริบทของข้อมูลขนาดใหญ่ หากไม่มีความรู้ที่น่าเชื่อถือทางวิทยาศาสตร์ที่ให้ความสามารถในการประเมินลักษณะคุณภาพพื้นฐานของข้อมูลได้อย่างมีประสิทธิภาพ มีความเสี่ยงที่สำคัญที่องค์กรและรัฐบาลจะรวบรวมข้อมูลจำนวนมากที่มีความหนาแน่นต่ำหรือลงทุนในผลิตภัณฑ์ข้อมูลที่มีผลตอบแทนจากการลงทุนต่ำ

นอกจากนี้ การขาดความรู้เกี่ยวกับข้อมูลพื้นฐาน (การกระจาย ความหมาย และความแตกต่างอื่นๆ) อาจส่งผลให้เกิดกับดักการวิเคราะห์ซึ่งการวิเคราะห์ข้อมูลสามารถนำไปสู่ข้อสรุปที่ผิดพลาดและอาจเป็นอันตรายได้

การสำรวจข้อมูลกำลังกลายเป็นแนวทางที่มีแนวโน้มในการเพิ่มศักยภาพให้ผู้ใช้ด้วยความสามารถในการสำรวจเพื่อตรวจสอบคุณภาพของข้อมูลและรับรู้ข้อบกพร่องของข้อมูลในแง่ของการใช้งานตามวัตถุประสงค์ และดำเนินการก่อนที่จะลงทุนในงานล้างข้อมูลและดูแลจัดการข้อมูลที่มีราคาแพง

การค้นหาความรู้แจ้งจากข้อมูลท่วมท้นจะใช้พลังงานและการลงทุนของสังคมที่ขับเคลื่อนด้วยข้อมูลในอนาคตอันใกล้ ในขณะที่ขนาดของข้อมูลมีพลังมหาศาล เมื่อปล่อยทิ้งไว้โดยไม่มีใครดูแล จะขับเคลื่อนองค์กรต่างๆ ไปสู่ก้นบึ้งของข้อมูลที่มืดมิด

ทั้งหมดนี้เน้นย้ำถึงความต้องการที่เพิ่มขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลที่ได้รับการฝึกฝนมาเป็นอย่างดีซึ่งมีความสามารถในการระบุวัตถุประสงค์ทางธุรกิจ วิทยาศาสตร์ หรือสังคมที่สมเหตุสมผล และสอดคล้องกับความพยายามทางเทคโนโลยีสำหรับการรวบรวม การจัดเก็บ การจัดการ และการวิเคราะห์ข้อมูล

ufabet