وقتی به دادههایی که آلوده شدهاند نگاه میکنید، در باتلاقی از سردرگمی و سرخوردگی رها میشوید.
چیزی که در مورد دادهها وجود دارد این است که آنها کاملاً درباره واقعیتها هستند. اما وقتی خراب میشوند، اثری از واقعیت باقی نمیماند. دادههای کثیف تجلی این حقیقت است. دادهها در حجمها و مدهای مخلفی ارائه میشوند. وقتی به دادههایی که آلوده شدهاند نگاه میکنید، در باتلاقی از سردرگمی و سرخوردگی رها میشوید. و حتی ذرهای اغراق در این جمله وجود ندارد. طبق گزارشی از Experian، «سازمانهای ایالات متحده بر این باوراند که به طور میانگین 32 درصد از دادههای آنها نادرست است، که این آمار 28 درصد نسبت به رقم 25 درصدی سال گذشته افزایش داشته است.» تا زمانی که درک روشنی از ابزارها و برنامههای پاکسازی داده نداشته باشید، استراتژی ترسیم شده مبتنی بر داده، هر چقدر هم که دقیق باشد، هرگز به شما کمک نخواهد کرد.
در این جا 5 نوع مهم از دادههای کثیف و ابزارهای پاکسازی هوش مصنوعی برای قابل استفاده کردن دادهها در فرمت مناسب، آورده شده است.
1-دادههای تکراری
دادههای تکراری چیزی شبیه به داشتن یک دوقلوی همسان و از نظر ژنتیکی مشابه دیگری است که به هیچ دردی هم نمیخورد. این اتفاق به طرق مختلف رخ میدهد. از جمله این اتفاقات که بیشترین تأثیر را در رخ دادن آن دارند میتوان به انتقال داده، تبادل داده، ادغام دادهها، کانکتورهای شخص ثالث، ورود دسته و ایمپورت دستهای اشاره کرد. این کار باعث افزایش دفعات ذخیرهسازی، گردش کار ناکارآمد و ریکاوری دادهها میشود. معیارها و تجریه و تحلیلهای دارای عامل انحرافی و ضعف نرمافزاری به دلیل عدم دسترسی به دادهها، کاهش فاکتور ROI در CRM و سیستمهای اتوماسیون بازاریابی از جمله پیامدهای این آلودگی داده است.
2-دادههای قدیمی
افرادی که از GPS استفاده میکنند، تقریباً میدانند که داشتن دادههای قدیمی چه معنایی دارد. رسیدن به مسیر بنبست در پی آدرسی که GPS طبق دادههای قدیمی پیشنهاد کرده است، تجربهای نیست که کسی بخواهد داشته باشد. البته فقط برخی از گزارشهای داده در این دسته قرار میگیرند. این تقریباً مثل این است که اصلاً دادهای در اختیار ندارید یا حتی بدتر. همه چیز بستگی به این دارد که چقدر سریع بتوانید آن را شناسایی کرده و از بین ببرید. چه این اتفاق به دلیل جابجایی نقشها و شرکتها توسط افراد رخ دهد، و چه به دلیل تغییر نام شرکتها و یا سیستمهایی که در طول زمان بداههسازی میکنند، هرگز نباید از دادههای قدیمی برای ایجاد آگاهی در موقعیتهای فعلی استفاده کرد.
3-دادههای ناامن
با توجه به اینکه دولتها شدیداً در حال اعمال قوانین حفظ حریم خصوصی دادهها هستند و برای رعایت این قوانین تشویقهای مالی ارائه میکنند، شرکتها به سرعت در برابر دادههای ناامن آسیبپذیر میشوند. مکانیسمهایی با محوریت مصرفکننده و برای اطمینان از حفظ حریم خصوصی دیجیتال، مانند رضایتنامههای دیجیتال، عضویت در خبرنامه ایمیلی و ناتیفیکیشنهای حفظ حریم خصوصی نقش بیسابقهای در فرآیند قراردهی دادهها در برخی استفادههای تجاری یا اجتماعی داشتهاند.
GDPR در اتحادیه اروپا، قانون حفظ حریم خصوصی مصرفکننده در کالیفرنیا (CCPA) و قانون Maine برای محافظت از حریم خصوصی اطلاعات مصرفکننده آنلاین چند مورد از این قوانین هستند. برای مثال، زمانی که فردی ترجیح میدهد از دیتابیس مصرفکننده شرکت خارج شود، عدم پایبندی به خطمشیهای حفظ حریم خصوصی دادههای مصرفکننده در بخشی از شرکتها باعث میشود که او در قبال اقدامات قانونی مسئول باشد. این معمولاً به این دلیل اتفاق میافتد که شرکتها دادههای زیادی را انباشته میکنند، و امنیت آنها نیز در خطر قرار میگیرد. پایبندی به قوانین حفاظت از حریم خصوصی دادهها با داشتن یک دیتابیس پاکسازیشده آسان میشود.
4-دادههای متناقض
دادههای مشابهی که در مکانهای مختلف ذخیره میشوند، منجر به ناسازگاری میشوند که به آن افزونگی داده نیز میگویند. برای مثال میتوان به دادههای سینکنشده ودادههای مشابه که با نامهای مختلفی در مکانهای مختلف ذخیره شدهاند، منجر به ایجاد ناسازگاری میشوند. فرض کنید متغیری که دادههای همه مدیران عامل و راهبران استارتآپ را ذخیره میکند به نامهای مختلفی مانند CEO، C.E.O، C.e.o و غیره به خود میگیرد، در فرمتکردن دادهها اختلاف ایجاد میکند و تقسیمبندی را دشوار میسازد. وجود بهترین روشهای پاکسازی دادهها میتواند تا حد زیادی به حل این مشکل کمک کند. شرکتها باید یک ایده واضح از اینکه یک دیتابیس ایده آل با KPIهای مناسب چیست، داشته باشند.
5-دادههای ناقص
دادههای ناقص فاقد فیلدهای کلیدی مورد نیاز برای پردازش داده هستند. به عنوان مثال، اگر قرار است دادههای کاربران تلفن همراه برای تبلیغ یک برنامه ورزشی مورد تجزیه و تحلیل قرار گیرد، ندانستن جنسیت این کاربران تأثیر منفی زیادی بر این کمپین بازاریابی خواهد داشت. هر چه تعداد نقاط داده در یک رکورد بیشتر باشد، بینش بیشتری از آن قابل کسب است. فرآیندهای داده مانند دنبال کردن سرنخ، امتیازدهی و تقسیمبندی به مجموعهای از زمینههای کلیدی برای عملیات بستگی دارد. تنها راه حلی که برای حل این مشکل وجود دارد، بررسی دستی دادهها برای یافتن فیلدهای ناقص و یا خودکارسازی فرآیند برای اطمینان از کامل بودن پروفایلهای مشتریان هدف است.
اما چه ابزارهایی برای پاکسازی دادهها وجود دارند؟
ابزارهای پاکسازی دادهها
Open Refine
با استفاده از Open Refine، نه تنها میتوانید ارورها را پاکسازی کنید، بلکه میتوانید دادهها را اصلاح و تاریخچه آنها را سیو کنید. با استفاده از این ابزار، لازم نیست عملکرد یک عملیات خاص را آزمایش کنید. چرا که این ابزار در طیف وسیعی از عملیاتهای گوناگون کار میکند. همچنین پشتیبانی اصلاحی از سرویسهای وب را تسهیل میکند. همه این چیزی که گفتیم، در مورد بخش تجزیه و تحلیل مجموعه دادهها بود. به جز این، میتوانید مجموعه دادههای خود را تنها در چند مرحله به وب پیوند دهید. OpenRefine همچنین پشتیبانی از بسیاری از سرویسهای دیگر تحت وب را آسانسازی میکند.
Winpure Clean & Match
با یک رابط کاربری بصری، میتواند دادهها را فیلتر، مطابقت و حذف کند. همچنین بدون نگرانی از امنیت دادهها، میتواند به صورت محلی نصب شود. ویژگی امنیتی مشخصه اصلی این ابزار و دلیلی برای استفاده از آن برای پردازش مدیریت CRM و دادههای لیست پستی است. ویژگی منحصر به فرد Winpure، کاربرد آن در طیف گستردهای از دیتابیسها از جمله برگههای گسترده، CSVها، سرورهای SQL به عنوان salesforce و Oracle نهفته است. این ابزار پاکسازی دارای ویژگیهای مفیدی مانند تطبیق فازی (Fuzzy) و برنامه نویسی قانونمند است.
TIBCO Clarity
self-service یک ابزار پاکسازی داده سلفسرویس است که هم به عنوان سرویس ابری و هم به عنوان برنامه دسکتاپ موجود است. این ابزار میتواند دادهها را به منظور اهداف مختلفی پاکسازی کند. به عنوان مثال، از جمله کارهایی که TIBCO Clarity میتواند انجام دهد میتوان به پاکسازی دادههای مشتری در Spotfire و آمادهسازی دادهها برای ادغام در یک راه حل اصلی مدیریت داده اشاره کرد. این ابزار دارای چندین برنامه کاربردی مانند اعتبارسنجی دادهها، حذف دادههای تکراری، استانداردسازی، تبدیل و به تصویر کشیدن دادهها برای پشتیبانی از پاکسازی آنها در پلتفرمهای مختلف مانند Cloud، Spotfire، Jaspersoft، ActiveSpaces، MDM، Marketo و Salesforce است.
Parabola
Parabola یک ابزار خط لوله داده بدون کد است که دادهها را از منابع داده خارجی به گردش کار داده شما منتقل میکند. با استفاده از این ابزار میتوانید در یک دنباله گره ایجاد کنید و دادههای خود را پاکسازی کنید. عملکردهای یوزر برای کار به عنوان یک ابزار چسباننده به منظور انتقال دادهها از مکانی به مکان دیگر، بسیار خوب هستند. بااین حال، به دست آوردن دادههای مناسب، پاکسازی و محاسبه در زمان نیاز دشوار است. نقطه قوت این ابزار در مقیاسپذیری و قدرت دیدی است که برای کارمندان فراهم میکند.
Data Ladder
Data Ladder ابزار پاکسازی دادههاست که دیتا را از منابع اکسل، فایلهای TXT و غیره به هم متصل میکند، خطاها را به طور مؤثر شناسایی و آنها را حذف میکند تا دادهها در یک مجموعه داده یکپارچه ادغام شوند. این ابزار در کاربردهایی مانند کپی کردن دادهها برای آژانسهای آماری مختلف، به ویژه برای تصحیح دادههای حساس در مراقبتهای بهداشتی و مالی، و کشف تقلب و جرم، ابزاری شناخته شده است. Data Ladder یک ابزار پاکسازی دقیق، شدیداً کاربرپسند و همه چیز تمام است و میتواند یک ابزار جامع برای پاکسازی دادهها حساب شود.
منبع: analyticsinsight
Leave feedback about this