5 مهر 1402
تهران، خیابان آزادی، تقاطع قریب
یادگیری ماشین

Data Mining (داده کاوی) چیست؟

Data Mining (داده کاوی) چیست؟

Data Mining یا داده کاوی فرآیند مرتب‌سازی (Sorting) از طریق مجموعه داده‌های بزرگ برای شناسایی الگوها و روابطی است که می‌توانند با تجزیه و تحلیل داده‌ها، به حل مشکلات تجاری کمک کنند. تکنیک‌ها و ابزارهای Data Mining شرکت‌ها را قادر می‌سازد تا ترندهای آینده را پیش‌بینی کرده و تصمیمات تجاری آگاهانه‌تری اتخاذ کنند.

Data Mining بخش کلیدی تجزیه و تحلیل داده‌های کلی و یکی از رشته‌های اصلی در علم داده است که از تکنیک‌های تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه داده‌ها استفاده می‌کند. در یک سطح جزئی‌تر، Data Mining گامی در فرآیند کشف دانش در پایگاه‌های داده (KDD) است، یک روش علم داده برای جمع آوری، پردازش و تجزیه و تحلیل داده‌ها. Data Mining و KDD گاهی اوقات به جای هم نام برده می‌شوند، اما معمولاً جدا از هم هستند.

چرا Data Mining مهم است؟

Data Mining جزء حیاتی ابتکارات تحلیلی موفق در سازمآن‌ها است. اطلاعاتی که این فرآیند تولید می‌کند، می‌تواند در هوش تجاری (BI) و برنامه‌های تحلیلی پیشرفته که شامل تجزیه و تحلیل داده‌های تاریخی هستند، و همچنین برنامه‌های تحلیلی بلادرنگ که داده‌های جریانی را هنگام ایجاد یا جمع‌آوری بررسی می‌کنند، استفاده شود.

Data Mining موثر در جنبه‌های مختلف برنامه ریزی استراتژی‌های تجاری و مدیریت عملیات کمک می‌کند. این شامل کارکردهای مواجهه با مشتری مانند بازاریابی، تبلیغات، فروش و پشتیبانی مشتری، به علاوه تولید، مدیریت زنجیره تامین، امور مالی و منابع انسانی است. Data Mining از کشف تقلب، مدیریت ریسک، برنامه ریزی امنیت سایبری و بسیاری دیگر از موارد حیاتی استفاده تجاری پشتیبانی می‌کند. همچنین نقش مهمی در مراقبت‌های بهداشتی، دولتی، تحقیقات علمی، ریاضیات، ورزش و غیره ایفا می‌کند.

فرآیند Data Mining : چگونه کار می‌کند؟

Data Mining معمولا توسط مدیران ارشد داده و سایر متخصصان ماهر در زمینه‌های BI و تجزیه و تحلیل پیشرفته انجام می‌شود. اما می‌تواند توسط تحلیلگران کسب‌وکار، مدیران اجرایی و کارمندانی که به‌عنوان مدیر ارشد داده‌های شهروندی در یک سازمان کار می‌کنند نیز انجام شود.

عناصر اصلی آن شامل یادگیری ماشین و تجزیه و تحلیل آمار، همراه با وظایف مدیریت داده‌ها به منظور آماده سازی آن‌ها برای تجزیه و تحلیل است. استفاده از الگوریتم‌های یادگیری ماشین و ابزارهای هوش مصنوعی (AI) بیشتر این فرآیند را خودکار کرده و استخراج مجموعه داده‌های عظیم، مانند پایگاه‌های اطلاعاتی مشتریان، سوابق تراکنش‌ها و فایل‌های گزارش را از سرورهای وب، اپلیکیشن‌های موبایل و حسگرها آسان‌تر کرده است.

این فرآیند را می‌توان به چهار مرحله اصلی تقسیم کرد:

جمع آوری اطلاعات: داده‌های مربوط به یک برنامه تحلیلی شناسایی و جمع آوری می‌شود. داده‌ها ممکن است در سیستم‌های منبع مختلف، یک انبار داده (data warehouse) یا یک دریاچه داده (data lake)، – یک مخزن رایج در محیط های کلان‌داده که حاوی ترکیبی از داده‌های ساختاریافته و بدون ساختار است – واقع شوند. ممکن است از منابع داده خارجی نیز استفاده شود. داده‌ها از هر کجا که بیایند، اغلب یک مدیر ارشد داده آن‌ها را برای مراحل باقی‌مانده فرآیند به data lake منتقل می‌کند.

آماده سازی داده‌ها: این مرحله شامل مجموعه‌ای از مراحل به منظور آماده سازی داده‌ها برای استخراج است. این کار با کاوش داده‌ها، پروفایل‌سازی و پیش‌پردازش آغاز شده و پس از آن، کار پاکسازی داده‌ها برای رفع خطاها و سایر مشکلات کیفیت داده‌ها انجام می‌شود. تبدیل داده‌ها همچنین برای سازگاری مجموعه داده‌ها انجام می‌شود، مگر اینکه یک مدیر ارشد داده به دنبال تجزیه و تحلیل داده‌های خام فیلتر نشده برای یک برنامه خاص باشد.

استخراج داده‌ها: هنگامی که داده‌ها آماده شدند، یک مدیر ارشد داده تکنیک Data Mining مناسب را انتخاب می‌کند. و سپس یک یا چند الگوریتم را برای انجام استخراج پیاده سازی می‌کند. در اپلیکیشن‌های یادگیری ماشین، الگوریتم‌ها معمولاً باید بر روی مجموعه داده‌های نمونه، آموزش داده شوند. تا قبل از اجرای الگوریتم با مجموعه کامل داده‌ها، بیاموزند که به دنبال اطلاعات کارآمد باشند.

تجزیه و تحلیل و تفسیر داده‌ها: نتایج Data Mining برای ایجاد مدل های تحلیلی استفاده می‌شود که می‌تواند به تصمیم گیری و سایر اقدامات تجاری کمک کند. مدیر ارشد داده یا یکی دیگر از اعضای یک تیم علم داده نیز باید یافته‌ها را به مدیران تجاری و کاربران، اغلب از طریق تجسم داده‌ها (data visualization) و استفاده از تکنیک‌های داستان سرایی داده، در میان بگذارد.

فرآیند Data Mining را می توان به چهار مرحله اصلی تقسیم کرد:

انواع تکنیک‌های Data Mining

تکنیک‌های مختلفی را می‌توان به منظور استخراج داده‌ها برای کاربردهای مختلف علم داده استفاده کرد. تشخیص الگو یک مورد رایج استفاده در Data Mining است که با تکنیک های متعددی فعال می‌شود. یکی از این تکنیک‌ها، تشخیص ناهنجاری (anomaly detection) است که هدف آن شناسایی مقادیر outlier در مجموعه داده‌هاست. تکنیک های رایج Data Mining شامل موارد زیر هستند:

استخراج قانون انجمن (Association rule mining): در Data Mining، قواعد انجمن همان عبارات if-then هستند که روابط بین عناصر داده را مشخص می‌کنند. معیارهای پشتیبانی و اطمینان (Support and confidence criteria) برای ارزیابی روابط، مورد استفاده قرار می‌گیرند. پشتیبانی تعداد دفعات ظاهر شدن عناصر مرتبط در یک مجموعه داده را اندازه‌گیری می‌کند. در حالی که اطمینان نشان‌دهنده تعداد دفعاتی است که یک عبارت if-then دقیق است.

طبقه بندی (Classification): این رویکرد، عناصر موجود در مجموعه داده‌ها را به دسته‌های مختلفی که به عنوان بخشی از فرآیند Data Mining تعریف شده‌اند، اختصاص می‌دهد. Decision trees ، Naive Bayes classifiers ، k-nearest neighbor و logistic regression نمونه‌هایی از روش‌های طبقه‌بندی هستند.

خوشه بندی (Clustering): در این مورد، عناصر داده‌ای که ویژگی‌های خاصی را به اشتراک می‌گذارند. به عنوان بخشی از برنامه‌های Data Mining، در خوشه‌هایی گروه‌بندی می‌شوند. نمونه‌های آن شامل k-means clustering ، hierarchical clustering و Gaussian mixture models است.

رگرسیون

Regression: این روش دیگری برای یافتن روابط در مجموعه داده‌ها با محاسبه مقادیر داده‌های پیش بینی شده بر اساس مجموعه‌ای از متغیرها است. رگرسیون خطی (Linear regression) و رگرسیون چند متغیره (multivariate regression) نمونه‌های آن هستند. Decision trees و برخی روش‌های classification دیگر نیز می‌توانند برای انجام رگرسیون استفاده شوند.

تحلیل توالی و مسیر (Sequence and path analysis): همچنین می‌توان داده‌ها را به شیوه‌ای استخراج کرد. که با آن شیوه به دنبال الگوهایی بگردند که در آن مجموعه خاصی از رویدادها یا ارزش‌ها به رویدادهای بعدی منتهی می‌شوند.

شبکه‌های عصبی (Neural networks): شبکه عصبی مجموعه‌ای از الگوریتم‌هایی است که فعالیت مغز انسان را شبیه‌سازی می‌کند. شبکه‌های عصبی به‌ویژه در کاربردهای پیچیده تشخیص الگو مثل یادگیری عمیق (شاخه پیشرفته‌تر یادگیری ماشین)، مفید هستند.

نرم افزارها و ابزارهای Data Mining

ابزارهای Data Mining از تعداد زیادی از ارائه‌کنندگان (Vendors) قابل دریافت هستند. این ابزارها معمولاً به عنوان بخشی از پلتفرم‌های نرم افزاری کار می‌کنند که شامل انواع دیگری از ابزارهای علم داده و تجزیه و تحلیل پیشرفته نیز می‌شود. ویژگی‌های کلیدی ارائه شده توسط نرم‌افزار Data Mining شامل قابلیت‌های آماده‌سازی داده، الگوریتم‌های داخلی، پشتیبانی از مدل‌سازی پیش‌بینی‌کننده، یک محیط توسعه مبتنی بر رابط کاربری گرافیکی، و ابزارهایی برای استقرار مدل‌ها و امتیازدهی به نحوه عملکرد آن‌ها است.

ارائه‌دهندگانی که ابزارهایی را برای Data Mining ارائه می دهند عبارتند از Alteryx، AWS، Databricks، Dataiku، DataRobot، Google، H2O.ai، IBM، Knime، Microsoft، Oracle، RapidMiner، SAP، SAS Institute و Tibco Software و غیره.

انواع فناوری‌های اپن سورس رایگان نیز می توانند برای استخراج داده‌ها استفاده شوند، از جمله DataMelt، Elki، Orange، Rattle، scikit-learn و Weka. برخی از ارائه‌دهندگان نرم افزار گزینه‌های اپن سورس را نیز ارائه می‌دهند. به عنوان مثال، Knime برای مدیریت برنامه‌های علم داده، یک پلتفرم تجزیه و تحلیل اپن سورس را با یک نرم افزار تجاری ترکیب می‌کند. در حالی که شرکت‌هایی مانند Dataiku و H2O.ai نسخه‌های رایگان ابزارهای خود را ارائه می‌دهند.

مزایای Data Mining

به طور کلی، مزایای تجاری Data Mining از افزایش توانایی برای کشف الگوهای پنهان، ترندها، همبستگی‌ها و ناهنجاری‌های موجود در مجموعه داده‌ها ناشی می‌شود. این اطلاعات را می توان برای بهبود تصمیم گیری تجاری و برنامه ریزی استراتژیک از طریق ترکیبی از تجزیه و تحلیل مرسوم داده‌ها و تجزیه و تحلیل پیش‌بینی‌کننده استفاده کرد.

مزایای خاص Data Mining شامل موارد زیر است:

بازاریابی و فروش موثرتر: Data Mining به بازاریابان کمک می‌کند رفتار و ترجیحات مشتری را بهتر درک کنند. این ویژگی آن‌ها را قادر می سازد تا کمپین های بازاریابی و تبلیغات هدفمند ایجاد کنند. به طور مشابه، تیم‌های فروش می توانند از نتایج Data Mining برای بهبود نرخ تبدیل و فروش محصولات و خدمات اضافی به مشتریان فعلی استفاده کنند.

خدمات بهتر به مشتریان: به لطف Data Mining، شرکت‌ها می‌توانند مشکلات بالقوه خدمات مشتری را سریع‌تر شناسایی کنند. و اطلاعات به‌روز را در اختیار نمایندگان مرکز تماس قرار دهند تا از آن‌ها در تماس‌ها و چت‌های آنلاین با مشتریان استفاده کنند.

بهبود مدیریت زنجیره تامین: سازمان‌ها می‌توانند ترندهای بازار را شناسایی کرده و تقاضای محصول را با دقت بیشتری پیش‌بینی کنند. این ویژگی به آن‌ها امکان مدیریت بهتر موجودی کالاها و محصولات را می‌دهد. مدیران زنجیره تامین همچنین می توانند از اطلاعات Data Mining برای بهینه سازی انبارداری، توزیع و سایر عملیات‌های لجستیکی خود استفاده کنند.

افزایش زمان تولید: استخراج داده‌های عملیاتی از حسگرهای ماشین‌های تولیدی و سایر تجهیزات صنعتی، از برنامه‌های تعمیر و نگهداری پیش‌بینی‌کننده برای شناسایی مشکلات احتمالی قبل از وقوع پشتیبانی می‌کند و به جلوگیری از خرابی برنامه‌ریزی نشده کمک می‌کند.

مدیریت ریسک قوی‌تر: مدیران ریسک و مدیران کسب‌وکار می‌توانند از این طریق ریسک‌های مالی، حقوقی، امنیت سایبری و سایر ریسک‌های یک شرکت را بهتر ارزیابی کرده و برای مدیریت آن‌ها برنامه‌ریزی کنند.

هزینه های پایین‌تر: Data Mining از طریق کارایی عملیاتی در فرآیندهای تجاری و کاهش افزونگی و اتلاف در مخارج شرکت، به صرفه جویی در هزینه‌ها کمک می‌کند.

در نهایت، ابتکارات داده کاوی می‌تواند منجر به درآمد و سود بالاتر و همچنین مزیت‌های رقابتی شود که شرکت‌ها را از رقبای تجاری خود متمایز می‌کند.

نمونه‌های صنعتی

در اینجا نحوه استفاده سازمان‌ها و صنایع از Data Mining به عنوان بخشی از برنامه‌های تحلیلی آمده است:

خرده فروشی: خرده‌فروشان آنلاین داده‌های مشتری و سوابق جریان کلیک اینترنتی را استخراج می‌کنند. تا به آن‌ها کمک کند در کمپین‌های بازاریابی، تبلیغات و پیشنهادات تبلیغاتی را برای خریداران فردی هدف قرار دهند. داده‌کاوی و مدل‌سازی پیش‌بینی‌کننده همچنین موتورهای توصیه‌ای را نیرو می‌دهد. که خریدهای احتمالی و همچنین فعالیت‌های مدیریت موجودی و زنجیره تأمین را به بازدیدکنندگان وب‌سایت پیشنهاد می‌کنند.

خدمات مالی: بانک‌ها و شرکت‌های کارت اعتباری از ابزارهای Data Mining برای ساخت مدل‌های ریسک مالی، شناسایی تراکنش‌های تقلبی و درخواست‌های وام و اعتبار استفاده می‌کنند. Data Mining همچنین نقش کلیدی در بازاریابی و شناسایی فرصت‌های بالقوه برای افزایش فروش فعلی دارد.

بیمه: بیمه‌گران برای کمک به قیمت‌گذاری، سیاست‌های بیمه و تصمیم‌گیری در مورد تایید برنامه‌هایی مثل جمله مدل‌سازی ریسک و مدیریت مشتریان احتمالی، به Data Mining متکی هستند.

تولید: کاربردهای Data Mining برای تولیدکنندگان شامل تلاش برای بهبود زمان و کارایی عملیاتی در کارخانه های تولید، عملکرد زنجیره تامین و ایمنی محصول است.

سرگرمی: سرویس‌های استریم داده‌کاوی را انجام می‌دهند تا بر اساس آنچه که کاربران تماشا می‌کنند یا گوش می‌دهند، توصیه‌های شخصی‌سازی‌شده‌ای بر اساس عادات‌شان ارائه دهند.

مراقبت های بهداشتی: Data Mining به پزشکان در تشخیص شرایط پزشکی، درمان بیماران و تجزیه و تحلیل اشعه ایکس و سایر نتایج تصویربرداری پزشکی کمک می‌کند. تحقیقات پزشکی نیز به شدت به داده کاوی، یادگیری ماشین و سایر اشکال تجزیه و تحلیل بستگی دارد.

Data mining vs. Data Analytics and Data Warehousing

Data Mining گاهی اوقات به عنوان مترادف Data Analytics در نظر گرفته می‌شود. اما عمدتاً به عنوان یک جنبه خاص از تجزیه و تحلیل داده‌ها در نظر گرفته می‌شود. که تجزیه و تحلیل مجموعه داده‌های بزرگ را برای کشف اطلاعاتی که در غیر این صورت قابل شناسایی نیستند، خودکار می‌کند. سپس این اطلاعات می‌تواند در فرآیند علم داده و سایر برنامه های کاربردی BI و تجزیه و تحلیل استفاده شود.

انبار داده با ارائه مخازن برای مجموعه داده‌ها از تلاش های Data Mining پشتیبانی می‌کند. داده‌های تاریخی به طور سنتی، در انبارهای داده سازمانی یا بازارهای داده کوچک‌تر که برای واحدهای تجاری منفرد یا برای نگهداری زیرمجموعه‌های خاصی از داده‌ها ساخته شده‌اند، ذخیره می‌شوند. با این حال، اکنون برنامه‌های Data Mining اغلب توسط data lake ها ارائه می‌شوند که هم داده‌های تاریخی و هم داده‌های جریانی را ذخیره می‌کنند. و بر اساس پلتفرم‌های کلان داده مانند Hadoop و Spark، پایگاه‌های داده NoSQL یا سرویس‌های cloud object storage ایجاد شده‌اند.

منبع: techtarget

Leave feedback about this

  • کیفیت
  • قیمت
  • خدمات

PROS

+
Add Field

CONS

+
Add Field
Choose Image
Choose Video
X