تصمیم گیری بر اساس دادههای کثیف میتواند نتایج فاجعهباری در پی داشته باشد. در سال 2016، مایکروسافت Tay را منتشر کرد. یک chatbot هوش مصنوعی که برای تعامل با کاربران توئیتر، پاسخ به سؤالات آنها و یادگیری از پاسخ مجددشان طراحی شده بود. با این حال، بر خلاف دیگر chatbot های آن زمان، در نظر گرفته شده بود که Tay باید شخصیت داشته باشد، شوخ طبع باشد و «در مکالمات معمولی و فان» شرکت کند.
با این حال، پس از چند ساعت از انتشار، پاسخهای او ترسناک به نظر میرسید:


4 صبح روز بعد، در حالی که تنها 16 ساعت از انتشار Tay میگذشت، مایکروسافت آن را شات داون کرد.
شاید مایکروسافت ایده خوبی داشته است. Tay قرار بود از تعاملات خود بیاموزد و در تعامل با هر کاربر پیشرفت کند. اما ظاهراً آنها یک چیز مهم را در نظر نگفته بودند، این که ممکن است خود دادهها بد باشند.
اما آنها فقط شامل hate speech یا حرفهای بیخودی نیستند. بیشتر از این حرفها هستند. و دانستن نحوه پاکسازی آنها برای اطمینان از قرار گیری دادههایتان در مسیر درست، ضروری است.
داده کثیف ( Dirty Data ) چیست؟
Chatbot مایکروسافت، قربانی سوگیری دادهها شد. این مشکلی است که بیشتر سیستمهای هوش مصنوعی و پیشبینی با آن مواجه هستند. اگر مجموعه دادهای که برای آموزش یک AI استفاده میشود گروههای خاصی را حذف کند یا دارای تعصبات اجتماعی ذاتی باشد، این سیستمها ممکن است تعصبات اجتماعی را تشدید کنند.
به مجموعه داده بدنام تایتانیک فکر کنید. در عرض چند دقیقه تجزیه و تحلیل دادههای اکتشافی، متوجه خواهید شد که احتمال زنده ماندن زنان بسیار بیشتر از مردان است. اگر یک شرکت، بیمه مسافرتی سیستم خود را با استفاده از مجموعه دادههای تایتانیک آموزش دهد، از مردان حق بیمه بسیار بیشتری نسبت به زنان دریافت میکند. با این کار سیستم برای ارزیابی ریسک، به جای مقصد سفر و تعداد افرادی که در سفر هستند، از جنسیت به عنوان معیار خود استفاده میکند.
این ممکن است یک مثال تخیلی به نظر برسد، اما بانکها به طور متوسط سود بیشتری از رنگینپوستان دریافت میکنند. این ممکن است تا حدی ناشی از سیستمهای هوش مصنوعی باشد که وامگیرندگان سیاهپوست را خطرناکتر میدانند.
نحوه (تلاش برای) پاکسازی دادههای کثیف
درست است که دادهها هرگز پاکسازی نخواهند شد و همیشه درصدی از سوگیری و خطا خواهند داشت، اما با ارزیابی سیستماتیک منبع، تازگی و ویژگیهای دادههای جمعآوریشده، سوگیری و خطا را میتوان به میزان قابل توجهی کاهش داد.
اما چگونه میتوان این کار را انجام داد؟ به قول کتی باکستر در مقاله خوبش، میتوانیم درستی دادهها را با پرسیدن این چهار مورد ارزیابی کنیم: کجا؟ چه زمانی؟ چه کسی؟ و چه چیزی؟
کجا؟ – آیا منبع داده شما معتبر است؟
کیفیت دادههای شما مسئله مهمی است. در نتیجه مهم است که در نظر بگیرید دادههای شما از کجا میآیند؟ آیا صحت آن دادهها برای منبعشان مهم است؟ ممکن است دادهها را ویرایش کرده باشد؟ بسیار مهم است که دادههای خود را از یک منبع قابل اعتماد و معتبر دریافت کنید.
اگر خودتان دیتا را جمعآوری میکنید، آیا برای جمعآوری دادهها به صورت سیستماتیک از روشهای مناسبی استفاده کردهاید؟ آیا نمونه دادههای شما دارای سوگیری نیستند؟ همه اینها ملاحظات کلیدی و مهم برای اعتبار دادههای شما هستند.
اگر شروع به یادگیری Data Science کردهاید و به دنبال مجموعه دادههای معتبر و واقعی هستید، مجموعه دادههای عمومی از بانک جهانی، گوگل و اداره سرشماری ایالات متحده این کار را انجام خواهند داد.
چه زمانی؟ – آیا منبع داده شما جدید است؟
احتمالاً شنیدهاید که حجم دادهها در جهان، هر سال دو برابر میشود. این آمار غیر قابل باور است، اما یکی از مشکلات این است که حجم دادهها در گذشته نزدیک، بیشتر از گذشته دور است.
به عنوان مثال، یک سازنده bot در زمینه معاملات سهام، نسبت به 5 سال قبل اطلاعات بیشتری در مورد حرکات بازار سهام در ماه گذشته خواهد داشت.
این پدیده تازهگرایی یا Recency Bias نامیده میشود و در حالی که میتواند سیستم هوش مصنوعی شما را در کوتاهمدت بهبود ببخشد، ممکن است در دریافت یک تصویر بزرگ از بلند مدت، دچار مشکل شود.
با این حال، عکس این مورد نیز صادق است. یک شرکت بیمه پزشکی که بر اساس دادههای جمعآوری شده از سالهای 2013-2018 تصمیم میگیرد، ممکن همهگیری کووید-19 را لحاظ نکند.
شما باید تازگی دادههای خود را در نظر داشته باشید و تصمیم بگیرید که آیا برای مورد خاص استفاده شما مناسب هستند یا خیر.
چه کسی؟ – آیا منبع داده شما، نماینده شماست؟
مجموعه دادههای شما باید نماینده کاربران / مشتریان هدف شما باشد. به عنوان مثال، اگر یک شرکت بیمه، مشتریان اروپایی را هدف خود قرار دهد، منطقی نیست که سیستم خود را با مجموعه دادهای از مشتریان آمریکایی آموزش دهد.
اما تشخیص اینکه آیا مجموعه داده شما نماینده شماست یا نه، اغلب چندان آسان نیست:
در طول تاریخ، افراد رنگین پوست کمتری در آزمایشات بالینی شرکت داشتهاند در حالی که آزمایشات واکسن کووید-19 دارای نمونههای متنوعی بود، این مورد هنوز هم قابل مشاهده بود. این عمدی نبود. چرا که بیمارستانهای محلههای POC ، معمولاً بودجه کافی ندارند و قادر به انجام چنین آزمایشاتی نیستند.
شرکتهای داروسازی نیز در این آزمایشات، معیار سن را در نظر گرفتند. حتی اگر افراد بالای 65 سال فقط 9 درصد از جمعیت ایالات متحده را تشکیل بدهند، باز هم این حقیقت تغییری نمیکند که احتمال مرگ آنها بر اثر کووید-19 بیشتر است. بنابراین شرکتهای داروسازی از تعداد کمی از افراد مسن در آزمایشات خود استفاده کردند.
چه چیزی؟ – آیا دستهبندی دادههایی که شما در حال تجزیه و تحلیلشان هستید، ممکن است دارای سوگیری ذاتی باشند؟
دستهبندی دادهها قطعههای مختلف اطلاعات یا متغیرهایی هستند که شما در حال تجزیه و تحلیلشان هستید. مواردی مانند نام، سن یا مکان. این که چه دستهبندیهایی را برای دادهها انتخاب میکنید مهم است، زیرا وجود متغیرهای خاص میتواند در مجموعه دادههای شما سوگیری ایجاد کند.
به دلیل قوانین خاص یا ارزشهای سازمانی، از موارد زیر نباید استفاده شود:
- سن
- نژاد
- جنسیت
- ملیت
- گرایش جنسی
استفاده از این متغیرها در زمینههای خاصی مانند استخدام افراد یا ارائه خدمات دولتی ممنوع است. سازمانها تمایل دارند از آنها چشمپوشی کنند. زیرا نمیخواهند به طور ناخواسته، سوگیری ایجاد کنند. به طور کلی توصیه میشود که از این ویژگیها دوری کنید. مگر اینکه مورد استفاده شما به طور خاص به آنها مرتبط باشد. (مثلاً برای اهداف تحقیقاتی.)
درست است که دادهها هرگز پاکسازی نمیشوند، اما این بدان معنا نیست که دیگر مفید نیستند.
هیچ دادهای تمیز نیست، اما بیشتر آنها مفید هستند.
دین ابوت
بنابراین به پاکسازی و قابل استفاده کردن دادههای خود ادامه دهید!
منبع: HackerNoon نویسنده: دارن داب
Leave feedback about this