10 مهر 1402
تهران، خیابان آزادی، تقاطع قریب
یادگیری ماشین

داده‌های کثیف پاکسازی نمی‌شوند، ولی قابل استفاده هستند

داده‌ها هرگز پاکسازی نمی‌شوند، اما می‌توانید آن‌ها را قابل استفاده کنید

تصمیم گیری بر اساس داده‌های کثیف می‌تواند نتایج فاجعه‌باری در پی داشته باشد.  در سال 2016، مایکروسافت Tay را منتشر کرد. یک chatbot هوش مصنوعی که برای تعامل با کاربران توئیتر، پاسخ به سؤالات آن‌ها و یادگیری از پاسخ مجددشان طراحی شده بود. با این حال، بر خلاف دیگر chatbot های آن زمان، در نظر گرفته شده بود که  Tay باید شخصیت داشته باشد، شوخ طبع باشد و «در مکالمات معمولی و فان» شرکت کند.

با این حال، پس از چند ساعت از انتشار، پاسخ‌های او ترسناک به نظر می‌رسید:

4 صبح روز بعد، در حالی که تنها 16 ساعت از انتشار Tay می‌گذشت، مایکروسافت آن را شات داون کرد.

شاید مایکروسافت ایده خوبی داشته است. Tay قرار بود از تعاملات خود بیاموزد و در تعامل با هر کاربر پیشرفت کند. اما ظاهراً آن‌ها یک چیز مهم را در نظر نگفته بودند، این که ممکن است خود داده‌ها بد باشند.

اما آن‌ها فقط شامل hate speech یا حرف‌های بیخودی نیستند. بیشتر از این حرف‌ها هستند. و دانستن نحوه پاکسازی آن‌ها برای اطمینان از قرار گیری داده‌هایتان در مسیر درست، ضروری است.

داده کثیف ( Dirty Data ) چیست؟

Chatbot مایکروسافت، قربانی سوگیری داده‌ها شد. این مشکلی است که بیشتر سیستم‌های هوش مصنوعی و پیش‌بینی با آن مواجه هستند. اگر مجموعه داده‌ای که برای آموزش یک AI استفاده می‌شود گروه‌های خاصی را حذف کند یا دارای تعصبات اجتماعی ذاتی باشد، این سیستم‌ها ممکن است تعصبات اجتماعی را تشدید کنند.

به مجموعه داده بدنام تایتانیک فکر کنید. در عرض چند دقیقه تجزیه و تحلیل داده‌های اکتشافی، متوجه خواهید شد که احتمال زنده ماندن زنان بسیار بیشتر از مردان است. اگر یک شرکت، بیمه مسافرتی سیستم خود را با استفاده از مجموعه داده‌های تایتانیک آموزش دهد، از مردان حق بیمه بسیار بیشتری نسبت به زنان دریافت می‌کند. با این کار سیستم برای ارزیابی ریسک،  به جای مقصد سفر و تعداد افرادی که در سفر هستند، از جنسیت به عنوان معیار خود استفاده می‌کند.

این ممکن است یک مثال تخیلی به نظر برسد، اما بانک‌ها به طور متوسط سود بیشتری از رنگین‌پوستان دریافت می‌کنند. این ممکن است تا حدی ناشی از سیستم‌های هوش مصنوعی باشد که وام‌گیرندگان سیاه‌پوست را خطرناک‌تر می‌دانند.

نحوه (تلاش برای) پاکسازی داده‌های کثیف

درست است که داده‌ها هرگز پاکسازی نخواهند شد و همیشه درصدی از سوگیری و خطا خواهند داشت، اما با ارزیابی سیستماتیک منبع، تازگی و ویژگی‌های داده‌های جمع‌آوری‌شده، سوگیری و خطا را می‌توان به میزان قابل توجهی کاهش داد.

اما چگونه می‌توان این کار را  انجام داد؟ به قول کتی باکستر در مقاله خوبش، می‌توانیم درستی داده‌ها را با پرسیدن این چهار مورد ارزیابی کنیم: کجا؟ چه زمانی؟ چه کسی؟ و چه چیزی؟

کجا؟ آیا منبع داده شما معتبر است؟

کیفیت داده‌های شما مسئله مهمی است. در نتیجه مهم است که در نظر بگیرید داده‌های شما از کجا می‌آیند؟ آیا صحت آن داده‌ها برای منبعشان مهم است؟ ممکن است داده‌ها را ویرایش کرده باشد؟ بسیار مهم است که داده‌های خود را از یک منبع قابل اعتماد و معتبر دریافت کنید.

اگر خودتان دیتا را جمع‌آوری می‌کنید،  آیا برای جمع‌آوری داده‌ها به صورت سیستماتیک از روش‌های مناسبی استفاده کرده‌اید؟ آیا نمونه‌ داده‌های شما دارای سوگیری نیستند؟ همه این‌ها ملاحظات کلیدی و مهم برای اعتبار داده‌های شما هستند.

اگر شروع به یادگیری Data Science کرده‌اید و به دنبال مجموعه داده‌های معتبر و واقعی هستید، مجموعه داده‌های عمومی از بانک جهانی، گوگل و اداره سرشماری ایالات متحده این کار را انجام خواهند داد.

چه زمانی؟ – آیا منبع داده شما جدید است؟

احتمالاً شنیده‌اید که حجم داده‌ها در جهان، هر سال دو برابر می‌شود. این آمار غیر قابل باور است، اما یکی از مشکلات این است که حجم داده‌ها در گذشته نزدیک، بیشتر از گذشته دور است.

به عنوان مثال، یک سازنده bot در زمینه معاملات سهام، نسبت به 5 سال قبل اطلاعات بیشتری در مورد حرکات بازار سهام در ماه گذشته خواهد داشت.

این پدیده تازه‌گرایی یا Recency Bias نامیده می‌شود و در حالی که می‌تواند سیستم هوش مصنوعی شما را در کوتاه‌مدت بهبود ببخشد، ممکن است در دریافت یک تصویر بزرگ از بلند مدت، دچار مشکل شود.

با این حال، عکس این مورد نیز صادق است. یک شرکت بیمه پزشکی که بر اساس داده‌های جمع‌آوری شده از سال‌های 2013-2018 تصمیم می‌گیرد، ممکن همه‌گیری کووید-19 را لحاظ نکند.

شما باید تازگی داده‌های خود را در نظر داشته باشید و تصمیم بگیرید که آیا برای مورد خاص استفاده شما مناسب هستند یا خیر.

چه کسی؟ – آیا منبع داده شما، نماینده شماست؟

مجموعه داده‌های شما باید نماینده کاربران / مشتریان هدف شما باشد. به عنوان مثال، اگر یک شرکت بیمه، مشتریان اروپایی را هدف خود قرار دهد، منطقی نیست که سیستم خود را با مجموعه داده‌ای از مشتریان آمریکایی آموزش دهد.

اما تشخیص این‌که آیا مجموعه داده شما نماینده شماست یا نه، اغلب چندان آسان نیست:

در طول تاریخ، افراد رنگین پوست کمتری در آزمایشات بالینی شرکت داشته‌اند در حالی که آزمایشات واکسن کووید-19 دارای نمونه‌های متنوعی بود، این مورد هنوز هم قابل مشاهده بود. این عمدی نبود. چرا که بیمارستان‌های محله‌های POC ، معمولاً بودجه کافی ندارند و قادر به انجام چنین آزمایشاتی نیستند.

شرکت‌های داروسازی نیز در این آزمایشات، معیار سن را در نظر گرفتند. حتی اگر افراد بالای 65 سال فقط 9 درصد از جمعیت ایالات متحده را تشکیل بدهند، باز هم این حقیقت تغییری نمی‌کند که احتمال مرگ آن‌ها بر اثر کووید-19 بیشتر است. بنابراین شرکت‌های داروسازی از تعداد کمی از افراد مسن در آزمایشات خود استفاده کردند.

چه چیزی؟ – آیا دسته‌بندی داده‌هایی که شما در حال تجزیه و تحلیلشان هستید، ممکن است دارای سوگیری ذاتی باشند؟

دسته‌بندی داده‌ها قطعه‌های مختلف اطلاعات یا متغیرهایی هستند که شما در حال تجزیه و تحلیلشان هستید. مواردی مانند نام، سن یا مکان. این که چه دسته‌بندی‌هایی را برای داده‌ها انتخاب می‌کنید مهم است، زیرا وجود متغیرهای خاص می‌تواند در مجموعه داده‌های شما سوگیری ایجاد کند.

به دلیل قوانین خاص یا ارزش‌های سازمانی، از موارد زیر نباید استفاده شود:

  • سن
  • نژاد
  • جنسیت
  • ملیت
  • گرایش جنسی

استفاده از این متغیرها در زمینه‌های خاصی مانند استخدام افراد یا ارائه خدمات دولتی ممنوع است. سازمان‌ها تمایل دارند از آن‌ها چشم‌پوشی کنند. زیرا نمی‌خواهند به طور ناخواسته، سوگیری ایجاد کنند. به طور کلی توصیه می‌شود که از این ویژگی‌ها دوری کنید. مگر این‌که مورد استفاده شما به طور خاص به آن‌ها مرتبط باشد. (مثلاً برای اهداف تحقیقاتی.)

درست است که داده‌ها هرگز پاکسازی نمی‌شوند، اما این بدان معنا نیست که دیگر مفید نیستند.

هیچ داده‌ای تمیز نیست، اما بیشتر آن‌ها مفید هستند.

دین ابوت

بنابراین به پاکسازی و قابل استفاده کردن داده‌های خود ادامه دهید!

منبع: HackerNoon    نویسنده: دارن داب

Leave feedback about this

  • کیفیت
  • قیمت
  • خدمات

PROS

+
Add Field

CONS

+
Add Field
Choose Image
Choose Video
X