วิธีทำให้ข้อมูลของคุณมีขนาดใหญ่เกินไป

ภาพ: iStock / iSergey

Karthik Ramasamy CEO ของ Streamlio ได้สอบถามในเดือนมีนาคม 2019 ว่าถึงเวลาที่จะระบายข้อมูลในทะเลสาบแล้วหรือยัง ในโพสต์ DATAVERSITY Ramasamy เขียนว่าปัญหาเกี่ยวกับทะเลสาบ ได้แก่ ความซับซ้อนของกระบวนการความเกียจคร้านในการรับข้อมูลและความต้องการความสามารถด้านไอทีที่แยกออกจากโครงการสำคัญอื่น ๆ ปัจจัยทั้งหมดเหล่านี้มีส่วนทำให้ข้อมูลเพิ่มเติมกลายเป็น "data swamps" ซึ่งเป็นข้อมูลที่ไม่เป็นระเบียบซึ่ง บริษัท ต่าง ๆ ไม่ประสบความสำเร็จในการขุดเพื่อเจาะลึก

ในขณะที่บทความอย่าง Ramasamy ยังไม่เพียงพอที่จะห้ามไม่ให้องค์กรใช้ข้อมูลทะเลสาบในการวิเคราะห์ แต่พวกเขาก็จะหยิบยกประเด็นสำคัญที่องค์กรยังคงเผชิญต่อไปเนื่องจากพวกเขาพยายามที่จะใช้ประโยชน์จากทะเลสาบและการวิเคราะห์ข้อมูลให้ได้ประโยชน์สูงสุด

60 วิธีในการรับประโยชน์สูงสุดจากโครงการข้อมูลขนาดใหญ่ของคุณ (PDF ฟรี) (TechRepublic)

บริษัท ต้องการเห็นทะเลสาบข้อมูลที่มีข้อมูลใหม่ลดค่าใช้จ่ายของเงินและทรัพยากรเพื่อพัฒนาทะเลสาบเหล่านี้นำเสนอเวลาที่เร็วกว่าสู่ตลาดสำหรับการวิเคราะห์และข้อมูลเชิงลึกทางธุรกิจและทำให้ทุกคนไม่ใช่แค่นักวิทยาศาสตร์ด้านข้อมูลเพื่อค้นหาและรับค่า จากข้อมูล เป้าหมายทั้งหมดเหล่านี้ยังคงดำเนินการอยู่สำหรับองค์กรส่วนใหญ่

Tomer Shiran ซีอีโอและผู้ก่อตั้ง Dremio กล่าวว่างานที่เกี่ยวข้องกับการสร้างดาต้าเลกนั้นซับซ้อนและใช้เวลาและทรัพยากรอย่างมาก "บ่อยครั้งที่ไอทีต้องสร้าง data cube และ data data สำหรับข้อมูลที่ถูกดึงออกมาเพื่อสร้าง data lake repositories กระบวนการนี้อาจประกอบด้วยหลายขั้นตอนและอาจซับซ้อนมากเพราะในทางที่มีการจัดการข้อมูลที่อาจเกิดขึ้น ปัญหาที่เกิดขึ้น."

ปัญหาจะรุนแรงขึ้นเนื่องจากข้อมูลกึ่งโครงสร้างหรือไม่มีโครงสร้างต้องได้รับการดูแลรักษาและฟื้นฟูในทะเลสาบข้อมูลเหล่านี้

Shiran เห็นว่าการวางทะเลสาบข้อมูลทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างลงในคลาวด์โดยตรงเช่น S3 / AWS และ Microsoft Azure เป็นส่วนหนึ่งของโซลูชัน

"เมฆสามารถปรับขนาดได้และช่วยให้คุณสามารถเพิ่มหรือลดการคำนวณและกลุ่มเซิร์ฟเวอร์ของคุณได้ตามต้องการซึ่งช่วยลดต้นทุน" Shiran กล่าว

นี่เป็นแนวคิดทางสถาปัตยกรรมที่ บริษัท อย่าง Dremio ไว้วางใจ บริษัท เหล่านี้จัดหาตัวเชื่อมต่อกับคลาวด์และเคียวรีต่างๆที่ช่วยให้องค์กรสามารถไปยังคลาวด์เพื่อรับข้อมูลได้โดยตรงโดยไม่จำเป็นต้องสร้างคิวบ์ข้อมูลและคลังข้อมูลแยกต่างหาก

ดังนั้นสิ่งนี้ทำงานอย่างไร ด้วยการใช้ซอฟต์แวร์ที่มาพร้อมกับชุดเชื่อมต่อที่สมบูรณ์ไปยังแพลตฟอร์มคลาวด์เชิงพาณิชย์ฐานข้อมูลคลังข้อมูลและเครื่องมือสืบค้นข้อมูลทั่วไปเช่น SQL, Snowflake และ Salesforce ทำให้องค์กรต่างๆสามารถหลีกเลี่ยงความน่าเบื่อของการพัฒนาอินเทอร์เฟซเหล่านี้ได้ นอกจากลูกบาศก์ข้อมูลและทะเลสาบข้อมูลของตัวเอง แต่องค์กรสามารถไปที่ Cloud เพื่อให้ซอฟต์แวร์ทำงานและส่งมอบบริการสืบค้นข้อมูลได้เร็วขึ้น

"โดยพื้นฐานแล้วคุณมีกระเป๋าเครื่องมือของตัวเชื่อมต่อหลายตัวที่พัฒนาไว้ล่วงหน้าในฐานข้อมูลเครื่องมือสืบค้นและคลาวด์เช่น AWS และ Azure ที่ช่วยให้คุณสามารถใช้ประโยชน์จากต้นทุนและทรัพยากรที่ปรับขนาดได้ของระบบคลาวด์ ทรัพยากรและงบประมาณเนื่องจากคุณไม่ต้องดำเนินการตั้งค่ากลางทั้งหมดสำหรับคิวรีและการเชื่อมต่อ data data ด้วยตัวคุณเอง "Shiran กล่าว

ชุดเครื่องมือเหล่านี้ยังสามารถเพิ่มประสิทธิภาพหน่วยความจำเพื่อให้ข้อมูลที่เข้าถึงบ่อยที่สุดอยู่ในหน่วยความจำที่เร็วที่สุด - ความเร็วในการดึงข้อมูลและลดเวลาในการทำตลาดเชิงลึกทางธุรกิจ นอกจากนี้เครื่องมือยังมีระบบการสืบค้นข้อมูลแบบคาดการณ์ล่วงหน้าในตัวซึ่งช่วยให้พวกเขาประเมินว่าข้อมูลประเภทใดที่เข้าถึงบ่อยที่สุดเพื่อให้ข้อมูลสามารถกำหนดให้กับหน่วยความจำที่รวดเร็วซึ่งสามารถดึงข้อมูลได้อย่างรวดเร็วที่สุด

"องค์ประกอบอื่น ๆ ที่เราเพิ่มคือความหมาย" Shiran กล่าว "อีกนัยหนึ่งเราสร้างอินเทอร์เฟซผู้ใช้ที่ทำให้ผู้ใช้ทุกวันที่ต้องการเรียกใช้แบบสอบถามข้อมูลสามารถทำคิวรีเหล่านี้ได้อย่างง่ายดายโดยไม่จำเป็นต้องขอความช่วยเหลือจากนักวิทยาศาสตร์ด้านข้อมูล"

วิธีการเช่นนี้ช่วยให้องค์กรสามารถเพิ่มประสิทธิภาพข้อมูลได้หรือไม่? ศักยภาพอยู่ที่นั่นตราบใดที่องค์กรยังทำสองสิ่งนี้

  1. ประเมินทะเลสาบข้อมูลที่มีอยู่เพื่อประสิทธิผล: สิ่งนี้อาจเกี่ยวข้องกับการพิจารณาว่าทะเลสาบข้อมูลใดกำลังทำงานอยู่และกำลังนิ่ง สำหรับทะเลสาบที่มีข้อมูลนิ่งหรือใกล้ถึงจุดที่ไม่มีผลตอบแทนจากการลงทุนควรทำการตัดสินใจว่าจะทำการปรับปรุงใหม่หรือเพียงแค่ตกดินและเริ่มต้นใหม่
  2. ประเมินสถาปัตยกรรมข้อมูลระบบคลาวด์และภายในองค์กรของคุณ: เครื่องมือเพิ่มประสิทธิภาพตัวเชื่อมต่อและดาต้าดาต้าจะมีประสิทธิภาพเท่ากับความสามารถในการเข้าใจความต้องการดาต้าและแบบสอบถามของคุณและวิธีที่พวกเขาเชื่อมโยงไปยังข้อมูลในสถานที่และบนคลาวด์ เมื่อคุณเข้าใจวิธีการเชื่อมโยงข้อมูลและที่อยู่คุณสามารถค้นหาเครื่องมือตัวเชื่อมต่อที่ช่วยกำจัดงานด้วยตนเอง

ข้อมูล, Analytics และจดหมายข่าวของ AI

รับเคล็ดลับจากผู้เชี่ยวชาญเกี่ยวกับการเรียนรู้พื้นฐานของการวิเคราะห์ข้อมูลขนาดใหญ่และติดตามพัฒนาการล่าสุดของปัญญาประดิษฐ์ จัดส่งวันจันทร์

สมัครวันนี้

© Copyright 2020 | mobilegn.com