داده کاتالوگ چه اطلاعاتی است؟
کاتالوگ داده یک موجودی منظم و منظم از دارایی های داده در تمام منابع داده شما است - مکانی که داده های شما ، متادیتای مرتبط با آن و ابزار مدیریت و کشف داده ها برای کاربران داده سازمان و نیازهای تجاری سازمان شما ترتیب داده می شوند ، نمایه می شوند و به راحتی در دسترس هستند.
در اینجا یک داستان کوتاه برای کمک به شما در درک تعریف و ارزش فهرست داده ها آورده شده است.
دو دانشمند داده در پایان یک روز طولانی وارد کتابخانه می شوند ....
دانشمند شماره 1 داده ها: "آیا می توانم نسخه ای از این کتاب درباره روش های آماری را تهیه کنم؟"
دانشمند شماره 2: "این کتاب بسیار مبهم است. آنها هرگز قادر به یافتن آن نخواهند بود. "
کتابدار (چند ثانیه قبل از جواب دادن روی صفحه کلید دور می زند): «پیداش کردی! در اینجا جزئیات نویسنده ، انتشارات و تاریخ استقراض آن آورده شده است. اوه ، و کسی نظر خود را ترک کرد و گفت که آنها برای درک رگرسیونهای لجستیک بسیار مفید هستند. من می توانم آن را برای شما در یک لحظه گرفتن. "
دانشمند شماره 1 داده ها: "اومم ... چرا نمی تواند همین اتفاق در داده های ما بیفتد؟"
اما اگر می شد چه؟ و مشخص شد ، این دقیقاً همان چیزی است که فهرست داده می تواند به شما در انجام داده ها کمک کند.
خوب ، به اندازه کافی توضیحات ساده. در اینجا پاسخ جدی تری به این س ،ال وجود دارد: "فهرست داده چیست؟"
"یک کاتالوگ داده از طریق کشف ، توصیف و سازماندهی مجموعه داده های توزیع شده ، موجودی داده ها را ایجاد و نگهداری می کند. کاتالوگ داده زمینه ای را برای فعال کردن مهمانداران داده ، تحلیلگران داده / تجارت ، مهندسان داده ، دانشمندان داده و سایر مشاغل فراهم می کند (LOB ) مصرف کنندگان داده برای یافتن و درک مجموعه داده های مربوطه به منظور استخراج ارزش تجاری. "
- Gartner، Augmented Data Catalogs 2019. (دسترسی فقط برای مشترکین Gartner.)
چرا کاتالوگ های داده مهم هستند؟
طبق Booz Allen Hamilton’s Data Science Playbook ، مشاغلی که در اکثر سازمان ها تجزیه و تحلیل مستقر می کنند ، عملیات روزانه را با اهداف مدیریت ارشد هماهنگ می کنند و داده های کلان را در اختیار دارند ، افزایش 1000 درصدی در بازگشت سرمایه دارند.
همه ما می دانیم که داده ها مهم هستند. اما امروزه ، داشتن داده کافی نیست. انتظار می رود تنها شرکتهایی که می توانند از قدرت عظیم داده ها استفاده کنند ، پیروز شوند.
درد داده های گمشده و گمشده واقعی است و در سازمان ها احساس می شود. این چیزی است که ما در Reddit دیدیم:
چالش های فهرست نویسی داده ها - داده های بدون سرپرستی
مشکل کمبود سطح داده ها حسن نیت ارائه می دهد تصویر: Reddit
اطمینان از اینکه تیم ها می توانند به راحتی داده های مورد نیاز خود را کشف ، درک واقعی و به طور م effectivelyثر مصرف کنند ، استفاده موثر از داده ها یک چالش بزرگ است. راه حل؟ فهرست داده ها
"دو بزرگترین چالش در مدیریت داده ها مربوط به کاتالوگ های داده است - یافتن و شناسایی داده هایی که ارزش را ارائه می دهند و پشتیبانی از حاکمیت داده ها ، حریم خصوصی داده ها و امنیت داده ها."
- گارتنر ، نظرسنجی استراتژی مدیریت داده های گارتنر 2017
آیا به فهرست داده نیاز دارید؟
در اینجا یک لیست چک شش مرحله ای وجود دارد تا بفهمید آیا به فهرست داده احتیاج دارید.
- آیا شما بیشتر از زمانی که برای استفاده از آن صرف می کنید ، به جستجوی داده های مورد نیاز خود می پردازید؟
- آیا اطلاعات شما کمتر از آن چیزی است که فکر می کنید باید بدانید؟
- آیا منبع داده های خود را می دانید؟
- آیا از کیفیت داده ها اطلاع دارید؟
- آیا می توانید دارایی های داده خود را ارزیابی کنید؟
- آیا می توانید به راحتی و با اطمینان دسترسی به داده ها را بدست آورید؟
اگر پاسخ شما به هر یک از موارد بالا "UMMMMM" بزرگ باشد ، نوشتن روی دیوار است. وقت آن است که یک کاتالوگ داده دریافت کنید.
کاتالوگ داده به حل پیامهای تیمی مانند این موارد کمک می کند:
- من 7 روز پیش درخواست دسترسی به این داده ها را داشتم. آیا می توانید به من دسترسی دهید؟
- این نام ستون به چه معناست؟
- 4 نسخه از پرونده های داده وجود دارد. کدام یک نهایی است؟
- آیا می توانید گزارش را دوباره تهیه کنید تا بتوانیم آن را برای رئیس ارسال کنیم؟
- خط لوله از کار افتاده است. برای رفع آن کمی زمان لازم دارم.
چگونه یک فهرست داده می تواند کمک کند؟
در اینجا مزایای یک فهرست داده وجود دارد:
- با استفاده از بهره وری و بهبود نظارت بر دارایی داده ، پس انداز کنید.
- در وقت صرفه جویی کنید - پروژه های داده بیشتر با 30٪ زمان تیم داده کمتر تحویل دهید.
- برای تصمیم گیری بهتر در زمینه کسب و کار ، کیفیت داده را افزایش دهید.
- با امکان دسترسی سلف سرویس به داده ها ، وابستگی ها را کاهش داده و در وقت تیم IT صرفه جویی کنید.
- فرهنگ داده را برای حفظ بیشتر متخصصان داده با کیفیت بهبود ببخشید.
- با بهبود انطباق با GDPR ، PII ، خطر داده را کاهش دهید.
کاتالوگ های داده به مدیریت فراداده کمک می کنند. آنها به شما امکان می دهند به راحتی به داده های خود و زمینه مهم کسب و کار آن دسترسی پیدا کنید. و این نیز از طریق تمام منابع داده شما ، از cloud گرفته تا ابزار BI شما.
معنای آن در یک زمینه مدرن در اینجا است:
کاتالوگهای داده افزوده شده با یادگیری ماشینی ، کارهای خسته کننده مختلفی را درگیر در فهرست نویسی داده ها انجام می دهند ، از جمله کشف متادیتا ، بلع ، ترجمه ، غنی سازی و ایجاد روابط معنایی بین فراداده. بنابراین این کاتالوگ های داده های نسل بعدی می توانند پروژه های مدیریت فراداده سازمانی را با اجازه دادن به کاربران تجاری برای درک ، غنی سازی و استفاده از فراداده برای اطلاع رسانی و پیشبرد ابتکارات داده و تجزیه و تحلیل خود ، پیش ببرند. "
- Gartner، Augmented Data Catalogs 2019. (دسترسی به فقط مشترکین tner.)
- این چیزی است که یک کاتالوگ داده واقعا قدرتمند می تواند انجام دهد:
- مخزن تمام داده های خود را از منابع مختلف داده ایجاد کنید ، از جمله یادداشت ها در مورد ساختار ، کیفیت ، تعاریف و کاربرد مجموعه داده ها.
- به کاربران اجازه دهید در کنار خود داده به فراداده دسترسی داشته باشند.
- نسب داده ها - از جمله منبع داده ، تحولات اعمال شده و افرادی که از آنها استفاده کرده اند را مشاهده و درک کنید.
- با به روزرسانی خودکار خود ، از انسجام و صحت داده ها اطمینان حاصل کنید ، در حالی که به انسان امکان ویرایش و حلقه را می دهید.
- با ارائه نمایش گرافیکی از نسب دارایی های داده - ردیابی آن در طول چرخه عمر ، حاکمیت و انطباق داده ها را ساده کنید.
نمونه هایی از ابزارهای فهرست اطلاعات
برای حل مشکلات داخلی مدیریت داده ها ، تعدادی از شرکت های بزرگ راه حل های کشف و فهرست بندی خود را ایجاد کرده اند. این شامل مواردی مانند Facebook’s Nemo و Shopify’s Artifact است. تعدادی از این ابزارها حتی به صورت کاتالوگ داده های منبع باز رایگان مانند Linkedin’s DataHub ، Lyft’s Amundsen و WeWork’s Marquez در دسترس قرار گرفته اند.
اگرچه این ابزارها رایگان هستند ، اما با چالشهای خاص خود روبرو هستند - مانند دشواری در استقرار ، نیاز به منابع مهندسی برای راه اندازی ، کمبود تیمهای فناوری اطلاعات برای مدیریت نگهداری و پشتیبانی.
از طرف دیگر ، ابزارهای پرداخت داده شده وجود دارد که بیشتر این چالش ها را برطرف می کنند ، اما ممکن است جنبه های منفی دیگری مانند قیمت های سنگین پیش پرداخت و قفل های مجاز مجوز داشته باشند.
اعم از منبع باز یا پولی ، بیشتر این ابزارها ارائه می دهند که همان ویژگی های بسیار ستودنی را ارائه می دهند:
کاتالوگ داده ها و فراداده های شما در یک مکان
مکانیزم هایی برای کنترل داده های شما و استفاده از آنها
با این حال ، فراموش نکنید که به سادگی اتصال یک ابزار جداگانه در دریاچه داده شما ممکن است پاسخی برای مشکلات داده شما نباشد. مشکل بسیاری از این ابزارهای کاتالوگ داده این است که آنها نتوانند قول دموکراتیزه کردن داده ها را بدهند.
در حالی که آنها داده ها و فراداده های شما را در یک مکان قرار می دهند ، اما تجربه کلی داده ها بسیار مطلوب نیست. غالباً ویژگی های فنی به قیمت قابلیت جابجایی ساخته می شوند و کاربران متنوع و غیر فنی داده در سازمان پذیرش آنها را دشوار می دانند. بنابراین این ابزارها بسیار محتمل (و از قضا) محکوم به تبدیل شدن به خود ابزار سیلینگ شدن هستند!
پس شما چه جوابی دارید ، می پرسید؟ دو برابر است ابتدا کاتالوگ داده مناسب را انتخاب کنید - کاتالیستی که هم برای کاربران فنی و هم برای کاربران غیر فنی ساخته شده است. دوم ، فرهنگ سازی ، نه فقط ابزار ، پیرامون داده ها.
"بسیاری از شرکت ها به عنوان اولین گام برای تبدیل شدن به داده محور ، در زمینه فناوری سرمایه گذاری زیادی کرده اند ، اما این به وضوح کافی نیست. شرکت ها باید واقعاً جدی تر و خلاقانه تر در مورد پرداختن به بخش داده های انسانی عمل کنند ، اگر واقعاً انتظار کسب و کار معنادار را دارند. فواید."
- رندی بین و توماس اچ. داونپورت ، HBR
به خاطر داشته باشید که کاربران داده های شما انسان هستند و از هر دو کاربر فنی و غیر فنی تشکیل شده اند. نیازها و چالش های مربوطه را در نظر داشته و فرهنگ داده ای بسازید که از تیم های داده پشتیبانی کرده و به موفقیت آنها کمک کند.Gar