دیتا والت (Data vault) چیست؟

تهیه‌کننده مقاله : حامد هرمزی

دسته بندی: هوش تجاری
5 دقیقه زمان مطالعه
1400/03/19
0 نظر

مدل دیتا والت data vault یکی از روش‌های مدل‌ سازی پایگاه داده است که برای ذخیره‌ سازی داده‌های فراوان همراه با تاریخچه آن‌ها، از سیستم‌های مختلف عملیاتی طراحی شده است. در این روش امکان حسابرسی و ردیابی داده‌ها و همچنین زمان و مدت لود داده‌ها مورد توجه قرار گرفته است، به این معنا که تمامی سطرهای داده در data vault باید حاوی اطلاعات ارتباط با منبع داده (برای ردیابی داده در منابع داده) و همچنین مشخصات لود در دیتا والت باشند.

در این مطلب ابتدا بررسی می‌کنیم که دیتا والت چیست و سپس به معرفی تاریخچه و فلسفه آن می‌پردازیم.

منظور از دیتا والت data vault چیست؟

در مدل‌سازی انبار داده تا پیش از این دو روش مهم برای لایه ذخیره‌ساز داده وجود داشت:
• مدل‌سازی بر اساس روش کیمبال (Ralph Kimball) بر پایه ابعاد سازگار (Conformed dimensions) و باس داده‌های سازمانی (Enterprise data bus)
•مدل سازی بر اساس روش اینمن (Bill Inmon) بر پایه طراحی نرمال
هر دو روش هنگام مواجهه با تغییرات در منابع تغذیه داده‌های انبار داده دچار مشکل می‌شوند. همچنین در روش ابعادی (Kimball) داده‌ها باید تمیز شوند (Data cleansing) که این در بعضی از موارد نامطلوب است زیرا باعث از دست دادن بعضی داده‌های موجود در سیستم‌های عملیاتی در انبار داده می‌شود. دیتا والت برای جلوگیری از این تاثیر، تمیز کردن داده‌ها را به خارج از مرحله‌ای که وظیفه نگهداری تاریخچه داده‌های سازمانی را دارد انتقال داده است. همچنین برای کاهش اثرات تغییر در منابع تغذیه داده‌های انبار داده دیتا والت آیتم‌های ساختاری (کلیدهای کسب و کار و ارتباط بین آن‌ها) را از آیتم‌های توصیفی جدا کرده است.
Dan Linstedt به عنوان خالق دیتا والت آن را به این صورت تعریف می‌کند:
«دیتا والت مجموعه‌‏ای است از جداول نرمال‌سازی شده که به یک دیگر لینک شد‌ه‌اند و قابلیت ردیابی تاریخچه تمام جزییات داده‌ها را در یک یا چند بخش کاربردی کسب و کار فراهم می‌کنند. دیتا والت یک رویکرد ترکیبی است که بهترین ویژگی‏های الگوهای ۳nf و استار را در بر می‏گیرد. این طراحی انعطاف‌پذیر، مقیاس‌پذیر و سازگار با نیازهای سازمان است. همچنین دیتا مدلی است که به طور خاص برای پاسخگویی به نیازهای انبار داده‏های اینترپرایز امروزی معماری شده است.»
در مدل دیتا والت تفاوتی میان داده‌های خوب و بد وجود ندارد (داده بد به معنی داده‌ای که با قواعد کسب و کار Business Rule مطابقت نداشته باشد). در سایر روش‌های انبار داده تاکید بر نگهداری یک نسخه از حقیقت است و داده‌هایی که با قواعد کسب و کار تطابق ندارند اصلاح یا حذف می‌شوند اما دیتا والت تمام داده‌ها را در تمام زمان‌ها نگه می‌دارد. در این روش اطلاعات ساختاری کاملا از اطلاعات توصیفی جدا هستند. دیتا والت به نحوی طراحی شده است که لود همزمان (Parallel loading) در آن امکان‌پذیر است.

فلسفه و تاریخچه Data Vault

مبحث دیتا والت توسط Dan Linstedt در سال ۱۹۹۰ مطرح و در سال ۲۰۰۰ به عنوان یک روش مدل‌سازی عمومی ارائه شد. این مبحث در قالب پنج مقاله درData Administration Newsletter به چاپ رسید. در این مقالات، قواعد و مفاهیم دیتا والت و همچنین اجزاء مدل و بهترین روش‌های لود داده در مدل برای عموم تشریح شد. همچنین دیتا والت ۲٫۰ در سال ۲۰۱۳ ارائه شد. 

 دیتا والت

فلسفه Data Vault این است که تمامی داده‌ها معتبر هستند حتی اگر با قوانین کسب و کار (Business Rule) مطابقت نداشته باشند. اگر داده‌ها با قواعد کسب و کار تعریف‌شده هم‌خوانی ندارند، این مشکل کسب و کار است نه انبار داده.
تعیین این که داده‌ای اشتباه است یا نه به زاویه دید ما بستگی دارد، یک تفسیر از یک نوع دیدگاه خاص است و ممکن است برای همه و در همه زمان‌ها معتبر نباشد بنابراین دیتا والت باید همه داده‌ها را ذخیره کند و تنها هنگام گزارش یا استخراج داده‌ها، امکان تفسیر آن‌ها را بدهد.
مسئله دیگری که در دیتا والت مورد توجه قرار می‌گیرد امکان ردیابی تمام داده‌ها در انبار داده است، از این رو، در هر پیاده‌سازی از دیتا والت تمرکز روی قابلیت اطمینان داده‌ها و امکان ردیابی داده است.

Data Vault 2/0

دیتا والت ۲٫۰ مجموعه‌ای است که بهترین روش‌های پیاده‌سازی، معماری و مدل‌سازی را توصیف می‌کند. در دیتا والت ۲٫۰ تمرکز روی مواردی مانند Big Data و NoSQL و همچنین بهبود پرفورمنس لود در مدل دیتا والت است، در حالی که در دیتا والت ۱٫۰ تمرکز روی مدل‌سازی و تعریف آن بود.

Data Vault چگونه عمل می‌کند؟

طبق گفته دن لینستد (Dan Linstedt) مدل داده دیتا والت، از سیستم عصبی (نورون‌ها، دندریت‌ها و سیناپس‌ها) الهام گرفته است. هاب و هاب ستلایت‌ها مانند نورون‌ها، لینک‌ها مانند دندریت‌ها (بردارهای اطلاعات) و لینک‌های دیگر مانند سیناپس‌ها (بردارهایی در جهت مخالف)، عمل می‌کنند. با استفاده از مجموعه‌ای از الگوریتم‌های دیتا ماینینگ (Data Mining)، لینک‌ها می‌توانند بر اساس اعتبار و استحکام طبقه‌بندی شوند.
مدل دیتا والت، یک جهان‌بینی سازمانی ایجاد می‌کند. به این معنی که اصطلاحات را در دامنه سازمانی (هاب‌ها)، روابط میان آن‌ها (لینک‌ها) و با اضافه کردن ویژگی‌های توصیفی (ستلایت) در صورت لزوم، تعریف می‌کند. همچنین می‌توانیم دیتا والت را مانند یک گراف ببینیم. مدل دیتا والت، توسط هاب‌ها و ارتباط‌ها در دنیای پایگاه داده‌ی پیوندی، در واقع یک مدل گراف می‌سازد.
دیتا والت تلاش می‌کند مشکل تغییرات شرایط را که از بزرگترین مشکلات در ساخت انبارهای داده است، با تعریف کلیدهای کسب وکار (Business Keys) جداگانه (که اغلب تغییر نمی‌کنند، چرا که هر کدام شناسه یک مفهوم کسب و کار هستند) و ارتباط بین آن کلیدها حل کند. 
کلیدهای کسب وکار و ارتباطات آن‌ها ویژگی‌های ساختاری هستند که اسکلت مدل داده را تشکیل می‌دهند. یکی از اصول اساسی دیتا والت این است که کلیدهای کسب و ‌کار تغییر نمی‌کنند مگر این که کسب و‌ کار تغییر کند. به این ترتیب آن‌ها پایدارترین عناصر هستند که ساختار یک پایگاه داده تاریخی را می‌سازند. اگر این کلیدها را مانند ستون فقرات یک انبار داده استفاده کنید، می‌توانید سایر داده‌ها را در اطراف آن نظم دهید. به این ترتیب، انتخاب کلیدهای صحیح کسب و‌ کار، اهمیت بسیاری در پایداری مدل شما خواهد داشت. کلیدها در جدول‌هایی با ساختارهای ساده طبقه‌بندی شده‌اند. این جدول‌ها هاب (Hub) نام دارند. در مقالات بعدی، عناصر دیتا والت را به تفصیل بررسی می‌کنیم. 

جمع‌بندی

در این مقاله بررسی کردیم که data vault چیست و چگونه عمل می‌کند؛ یکی از روش‌های مدل‌ سازی پایگاه داده که برای ذخیره‌ سازی حجم زیادی از داده‌ها به همراه تاریخچه آن‌ها، طراحی شده است. در مقالات بعدی، جزئیات بیشتری را در این زمینه بررسی خواهیم کرد. همچنین پیشنهاد می‌کنیم مقاله «عناصر مدل داده دیتا والت» را بخوانید.

مشاهده فرصت‌های شغلی در آسا مشاهده فرصت‌های شغلی در آسا