Data Mining یا داده کاوی فرآیند مرتبسازی (Sorting) از طریق مجموعه دادههای بزرگ برای شناسایی الگوها و روابطی است که میتوانند با تجزیه و تحلیل دادهها، به حل مشکلات تجاری کمک کنند. تکنیکها و ابزارهای Data Mining شرکتها را قادر میسازد تا ترندهای آینده را پیشبینی کرده و تصمیمات تجاری آگاهانهتری اتخاذ کنند.
Data Mining بخش کلیدی تجزیه و تحلیل دادههای کلی و یکی از رشتههای اصلی در علم داده است که از تکنیکهای تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه دادهها استفاده میکند. در یک سطح جزئیتر، Data Mining گامی در فرآیند کشف دانش در پایگاههای داده (KDD) است، یک روش علم داده برای جمع آوری، پردازش و تجزیه و تحلیل دادهها. Data Mining و KDD گاهی اوقات به جای هم نام برده میشوند، اما معمولاً جدا از هم هستند.
چرا Data Mining مهم است؟
Data Mining جزء حیاتی ابتکارات تحلیلی موفق در سازمآنها است. اطلاعاتی که این فرآیند تولید میکند، میتواند در هوش تجاری (BI) و برنامههای تحلیلی پیشرفته که شامل تجزیه و تحلیل دادههای تاریخی هستند، و همچنین برنامههای تحلیلی بلادرنگ که دادههای جریانی را هنگام ایجاد یا جمعآوری بررسی میکنند، استفاده شود.
Data Mining موثر در جنبههای مختلف برنامه ریزی استراتژیهای تجاری و مدیریت عملیات کمک میکند. این شامل کارکردهای مواجهه با مشتری مانند بازاریابی، تبلیغات، فروش و پشتیبانی مشتری، به علاوه تولید، مدیریت زنجیره تامین، امور مالی و منابع انسانی است. Data Mining از کشف تقلب، مدیریت ریسک، برنامه ریزی امنیت سایبری و بسیاری دیگر از موارد حیاتی استفاده تجاری پشتیبانی میکند. همچنین نقش مهمی در مراقبتهای بهداشتی، دولتی، تحقیقات علمی، ریاضیات، ورزش و غیره ایفا میکند.
فرآیند Data Mining : چگونه کار میکند؟
Data Mining معمولا توسط مدیران ارشد داده و سایر متخصصان ماهر در زمینههای BI و تجزیه و تحلیل پیشرفته انجام میشود. اما میتواند توسط تحلیلگران کسبوکار، مدیران اجرایی و کارمندانی که بهعنوان مدیر ارشد دادههای شهروندی در یک سازمان کار میکنند نیز انجام شود.
عناصر اصلی آن شامل یادگیری ماشین و تجزیه و تحلیل آمار، همراه با وظایف مدیریت دادهها به منظور آماده سازی آنها برای تجزیه و تحلیل است. استفاده از الگوریتمهای یادگیری ماشین و ابزارهای هوش مصنوعی (AI) بیشتر این فرآیند را خودکار کرده و استخراج مجموعه دادههای عظیم، مانند پایگاههای اطلاعاتی مشتریان، سوابق تراکنشها و فایلهای گزارش را از سرورهای وب، اپلیکیشنهای موبایل و حسگرها آسانتر کرده است.
این فرآیند را میتوان به چهار مرحله اصلی تقسیم کرد:
جمع آوری اطلاعات: دادههای مربوط به یک برنامه تحلیلی شناسایی و جمع آوری میشود. دادهها ممکن است در سیستمهای منبع مختلف، یک انبار داده (data warehouse) یا یک دریاچه داده (data lake)، – یک مخزن رایج در محیط های کلانداده که حاوی ترکیبی از دادههای ساختاریافته و بدون ساختار است – واقع شوند. ممکن است از منابع داده خارجی نیز استفاده شود. دادهها از هر کجا که بیایند، اغلب یک مدیر ارشد داده آنها را برای مراحل باقیمانده فرآیند به data lake منتقل میکند.
آماده سازی دادهها: این مرحله شامل مجموعهای از مراحل به منظور آماده سازی دادهها برای استخراج است. این کار با کاوش دادهها، پروفایلسازی و پیشپردازش آغاز شده و پس از آن، کار پاکسازی دادهها برای رفع خطاها و سایر مشکلات کیفیت دادهها انجام میشود. تبدیل دادهها همچنین برای سازگاری مجموعه دادهها انجام میشود، مگر اینکه یک مدیر ارشد داده به دنبال تجزیه و تحلیل دادههای خام فیلتر نشده برای یک برنامه خاص باشد.
استخراج دادهها: هنگامی که دادهها آماده شدند، یک مدیر ارشد داده تکنیک Data Mining مناسب را انتخاب میکند. و سپس یک یا چند الگوریتم را برای انجام استخراج پیاده سازی میکند. در اپلیکیشنهای یادگیری ماشین، الگوریتمها معمولاً باید بر روی مجموعه دادههای نمونه، آموزش داده شوند. تا قبل از اجرای الگوریتم با مجموعه کامل دادهها، بیاموزند که به دنبال اطلاعات کارآمد باشند.
تجزیه و تحلیل و تفسیر دادهها: نتایج Data Mining برای ایجاد مدل های تحلیلی استفاده میشود که میتواند به تصمیم گیری و سایر اقدامات تجاری کمک کند. مدیر ارشد داده یا یکی دیگر از اعضای یک تیم علم داده نیز باید یافتهها را به مدیران تجاری و کاربران، اغلب از طریق تجسم دادهها (data visualization) و استفاده از تکنیکهای داستان سرایی داده، در میان بگذارد.

انواع تکنیکهای Data Mining
تکنیکهای مختلفی را میتوان به منظور استخراج دادهها برای کاربردهای مختلف علم داده استفاده کرد. تشخیص الگو یک مورد رایج استفاده در Data Mining است که با تکنیک های متعددی فعال میشود. یکی از این تکنیکها، تشخیص ناهنجاری (anomaly detection) است که هدف آن شناسایی مقادیر outlier در مجموعه دادههاست. تکنیک های رایج Data Mining شامل موارد زیر هستند:
استخراج قانون انجمن (Association rule mining): در Data Mining، قواعد انجمن همان عبارات if-then هستند که روابط بین عناصر داده را مشخص میکنند. معیارهای پشتیبانی و اطمینان (Support and confidence criteria) برای ارزیابی روابط، مورد استفاده قرار میگیرند. پشتیبانی تعداد دفعات ظاهر شدن عناصر مرتبط در یک مجموعه داده را اندازهگیری میکند. در حالی که اطمینان نشاندهنده تعداد دفعاتی است که یک عبارت if-then دقیق است.
طبقه بندی (Classification): این رویکرد، عناصر موجود در مجموعه دادهها را به دستههای مختلفی که به عنوان بخشی از فرآیند Data Mining تعریف شدهاند، اختصاص میدهد. Decision trees ، Naive Bayes classifiers ، k-nearest neighbor و logistic regression نمونههایی از روشهای طبقهبندی هستند.
خوشه بندی (Clustering): در این مورد، عناصر دادهای که ویژگیهای خاصی را به اشتراک میگذارند. به عنوان بخشی از برنامههای Data Mining، در خوشههایی گروهبندی میشوند. نمونههای آن شامل k-means clustering ، hierarchical clustering و Gaussian mixture models است.
رگرسیون
Regression: این روش دیگری برای یافتن روابط در مجموعه دادهها با محاسبه مقادیر دادههای پیش بینی شده بر اساس مجموعهای از متغیرها است. رگرسیون خطی (Linear regression) و رگرسیون چند متغیره (multivariate regression) نمونههای آن هستند. Decision trees و برخی روشهای classification دیگر نیز میتوانند برای انجام رگرسیون استفاده شوند.
تحلیل توالی و مسیر (Sequence and path analysis): همچنین میتوان دادهها را به شیوهای استخراج کرد. که با آن شیوه به دنبال الگوهایی بگردند که در آن مجموعه خاصی از رویدادها یا ارزشها به رویدادهای بعدی منتهی میشوند.
شبکههای عصبی (Neural networks): شبکه عصبی مجموعهای از الگوریتمهایی است که فعالیت مغز انسان را شبیهسازی میکند. شبکههای عصبی بهویژه در کاربردهای پیچیده تشخیص الگو مثل یادگیری عمیق (شاخه پیشرفتهتر یادگیری ماشین)، مفید هستند.
نرم افزارها و ابزارهای Data Mining
ابزارهای Data Mining از تعداد زیادی از ارائهکنندگان (Vendors) قابل دریافت هستند. این ابزارها معمولاً به عنوان بخشی از پلتفرمهای نرم افزاری کار میکنند که شامل انواع دیگری از ابزارهای علم داده و تجزیه و تحلیل پیشرفته نیز میشود. ویژگیهای کلیدی ارائه شده توسط نرمافزار Data Mining شامل قابلیتهای آمادهسازی داده، الگوریتمهای داخلی، پشتیبانی از مدلسازی پیشبینیکننده، یک محیط توسعه مبتنی بر رابط کاربری گرافیکی، و ابزارهایی برای استقرار مدلها و امتیازدهی به نحوه عملکرد آنها است.
ارائهدهندگانی که ابزارهایی را برای Data Mining ارائه می دهند عبارتند از Alteryx، AWS، Databricks، Dataiku، DataRobot، Google، H2O.ai، IBM، Knime، Microsoft، Oracle، RapidMiner، SAP، SAS Institute و Tibco Software و غیره.
انواع فناوریهای اپن سورس رایگان نیز می توانند برای استخراج دادهها استفاده شوند، از جمله DataMelt، Elki، Orange، Rattle، scikit-learn و Weka. برخی از ارائهدهندگان نرم افزار گزینههای اپن سورس را نیز ارائه میدهند. به عنوان مثال، Knime برای مدیریت برنامههای علم داده، یک پلتفرم تجزیه و تحلیل اپن سورس را با یک نرم افزار تجاری ترکیب میکند. در حالی که شرکتهایی مانند Dataiku و H2O.ai نسخههای رایگان ابزارهای خود را ارائه میدهند.
مزایای Data Mining
به طور کلی، مزایای تجاری Data Mining از افزایش توانایی برای کشف الگوهای پنهان، ترندها، همبستگیها و ناهنجاریهای موجود در مجموعه دادهها ناشی میشود. این اطلاعات را می توان برای بهبود تصمیم گیری تجاری و برنامه ریزی استراتژیک از طریق ترکیبی از تجزیه و تحلیل مرسوم دادهها و تجزیه و تحلیل پیشبینیکننده استفاده کرد.
مزایای خاص Data Mining شامل موارد زیر است:
بازاریابی و فروش موثرتر: Data Mining به بازاریابان کمک میکند رفتار و ترجیحات مشتری را بهتر درک کنند. این ویژگی آنها را قادر می سازد تا کمپین های بازاریابی و تبلیغات هدفمند ایجاد کنند. به طور مشابه، تیمهای فروش می توانند از نتایج Data Mining برای بهبود نرخ تبدیل و فروش محصولات و خدمات اضافی به مشتریان فعلی استفاده کنند.
خدمات بهتر به مشتریان: به لطف Data Mining، شرکتها میتوانند مشکلات بالقوه خدمات مشتری را سریعتر شناسایی کنند. و اطلاعات بهروز را در اختیار نمایندگان مرکز تماس قرار دهند تا از آنها در تماسها و چتهای آنلاین با مشتریان استفاده کنند.
بهبود مدیریت زنجیره تامین: سازمانها میتوانند ترندهای بازار را شناسایی کرده و تقاضای محصول را با دقت بیشتری پیشبینی کنند. این ویژگی به آنها امکان مدیریت بهتر موجودی کالاها و محصولات را میدهد. مدیران زنجیره تامین همچنین می توانند از اطلاعات Data Mining برای بهینه سازی انبارداری، توزیع و سایر عملیاتهای لجستیکی خود استفاده کنند.
افزایش زمان تولید: استخراج دادههای عملیاتی از حسگرهای ماشینهای تولیدی و سایر تجهیزات صنعتی، از برنامههای تعمیر و نگهداری پیشبینیکننده برای شناسایی مشکلات احتمالی قبل از وقوع پشتیبانی میکند و به جلوگیری از خرابی برنامهریزی نشده کمک میکند.
مدیریت ریسک قویتر: مدیران ریسک و مدیران کسبوکار میتوانند از این طریق ریسکهای مالی، حقوقی، امنیت سایبری و سایر ریسکهای یک شرکت را بهتر ارزیابی کرده و برای مدیریت آنها برنامهریزی کنند.
هزینه های پایینتر: Data Mining از طریق کارایی عملیاتی در فرآیندهای تجاری و کاهش افزونگی و اتلاف در مخارج شرکت، به صرفه جویی در هزینهها کمک میکند.
در نهایت، ابتکارات داده کاوی میتواند منجر به درآمد و سود بالاتر و همچنین مزیتهای رقابتی شود که شرکتها را از رقبای تجاری خود متمایز میکند.
نمونههای صنعتی
در اینجا نحوه استفاده سازمانها و صنایع از Data Mining به عنوان بخشی از برنامههای تحلیلی آمده است:
خرده فروشی: خردهفروشان آنلاین دادههای مشتری و سوابق جریان کلیک اینترنتی را استخراج میکنند. تا به آنها کمک کند در کمپینهای بازاریابی، تبلیغات و پیشنهادات تبلیغاتی را برای خریداران فردی هدف قرار دهند. دادهکاوی و مدلسازی پیشبینیکننده همچنین موتورهای توصیهای را نیرو میدهد. که خریدهای احتمالی و همچنین فعالیتهای مدیریت موجودی و زنجیره تأمین را به بازدیدکنندگان وبسایت پیشنهاد میکنند.
خدمات مالی: بانکها و شرکتهای کارت اعتباری از ابزارهای Data Mining برای ساخت مدلهای ریسک مالی، شناسایی تراکنشهای تقلبی و درخواستهای وام و اعتبار استفاده میکنند. Data Mining همچنین نقش کلیدی در بازاریابی و شناسایی فرصتهای بالقوه برای افزایش فروش فعلی دارد.
بیمه: بیمهگران برای کمک به قیمتگذاری، سیاستهای بیمه و تصمیمگیری در مورد تایید برنامههایی مثل جمله مدلسازی ریسک و مدیریت مشتریان احتمالی، به Data Mining متکی هستند.
تولید: کاربردهای Data Mining برای تولیدکنندگان شامل تلاش برای بهبود زمان و کارایی عملیاتی در کارخانه های تولید، عملکرد زنجیره تامین و ایمنی محصول است.
سرگرمی: سرویسهای استریم دادهکاوی را انجام میدهند تا بر اساس آنچه که کاربران تماشا میکنند یا گوش میدهند، توصیههای شخصیسازیشدهای بر اساس عاداتشان ارائه دهند.
مراقبت های بهداشتی: Data Mining به پزشکان در تشخیص شرایط پزشکی، درمان بیماران و تجزیه و تحلیل اشعه ایکس و سایر نتایج تصویربرداری پزشکی کمک میکند. تحقیقات پزشکی نیز به شدت به داده کاوی، یادگیری ماشین و سایر اشکال تجزیه و تحلیل بستگی دارد.
Data mining vs. Data Analytics and Data Warehousing
Data Mining گاهی اوقات به عنوان مترادف Data Analytics در نظر گرفته میشود. اما عمدتاً به عنوان یک جنبه خاص از تجزیه و تحلیل دادهها در نظر گرفته میشود. که تجزیه و تحلیل مجموعه دادههای بزرگ را برای کشف اطلاعاتی که در غیر این صورت قابل شناسایی نیستند، خودکار میکند. سپس این اطلاعات میتواند در فرآیند علم داده و سایر برنامه های کاربردی BI و تجزیه و تحلیل استفاده شود.
انبار داده با ارائه مخازن برای مجموعه دادهها از تلاش های Data Mining پشتیبانی میکند. دادههای تاریخی به طور سنتی، در انبارهای داده سازمانی یا بازارهای داده کوچکتر که برای واحدهای تجاری منفرد یا برای نگهداری زیرمجموعههای خاصی از دادهها ساخته شدهاند، ذخیره میشوند. با این حال، اکنون برنامههای Data Mining اغلب توسط data lake ها ارائه میشوند که هم دادههای تاریخی و هم دادههای جریانی را ذخیره میکنند. و بر اساس پلتفرمهای کلان داده مانند Hadoop و Spark، پایگاههای داده NoSQL یا سرویسهای cloud object storage ایجاد شدهاند.
Leave feedback about this