3 مهر 1402
تهران، خیابان آزادی، تقاطع قریب
هوش مصنوعی

هوش مصنوعی داده محور چیست؟

هوش مصنوعی داده محور

عاملی که GPT-3 و Dalle را قدرتمند می‌کند، فقط یک چیز است: داده. مدل‌های هوش مصنوعی به خصوص از نوع داده محور، تشنه داده‌ها هستند. این مدل‌های بزرگ، چه مدل‌های زبانی برای GPT باشند و چه مدل‌های تصویری برای Dalle ، همگی به یک چیز نیاز دارند: داده‌های بسیار زیاد.

هر چه داده‌های شما بیشتر باشد، بهتر است. بنابراین باید مدل‌هایتان را مخصوصاً برای اپلیکیشن‌های real-world ، گسترش دهید.

تغذیه تصاویری که دنیای واقعی را نشان نمی‌دهند، هیچ سودی نخواهد داشت و حتی توانایی مدل را برای تعمیم کاهش می‌دهد. این‌جاست که هوش مصنوعی داده محور وارد عمل می‌شود.

در این ویدئو، توضیحات بیشتری در این خصوص خواهید شنید:

ترجمه ویدئو:

چیزی که GPT-3 و Dall-e را قدرتمند می‌کند، دقیقاً همان  موضوع است که می‌گوید داده‌ها در فیلد کاری ما بسیار مهم هستند و مدل‌های ما به شدت به آن‌ها نیاز دارند.  بنابراین بهتر است آن مدل‌ها را مخصوصاً برای کاربردهای مربوط به دنیای واقعی بزرگ‌تر کنید.

چه مدل‌های زبانی برای GPT باشد و چه مدل‌های تصویری برای دهلی، همه آن‌ها به یک چیز نیاز دارند. و آن چیز داده‌های بسیار زیاد است. متأسفانه شما به داده‌های بیشتر نیاز دارید و برای آن، باید مدل‌ها را مخصوصاً برای اپلیکیشن‌های  real worldگسترش دهید. مدل‌ها می‌توانند برای پیشرفت از مجموعه داده‌های بزرگتری استفاده کنند، فقط در صورتی که داده از تصاویری با کیفیت بالا تغذیه شود.

اگر تصاویر شما کیفیت بالایی داشته باشند، ولی برگرفته از دنیای واقعی نباشند، ممکن است باعث کاهش توانایی مدل هم بشوند. این‌جاست که هوش مصنوعی داده محور وارد عمل می‌شود.

از هوش مصنوعی داده محور، به عنوان software 2.0 نیز یاد می‌شود. و این یک روش فانتزی برای گفتن این است که ما به جای اینکه صرفاً پارامترهای مدل را بر روی یک مجموعه داده ثابت تغییر دهیم، داده‌هایمان را برای به حداکثر رساندن توانایی مدل بهینه می‌کنیم. البته برای رسیدن به بهترین نتیجه، هر دوی این کارها باید انجام شود. ولی داده‌ها در این ویدئو، نقش بسیار بزرگتری ایفا می‌کنند.

من در همکاری با snorkel به این موضوع می‌پردازم که هوش مصنوعی داده مجور چیست و برخی پیشرفت‌های بزرگ در این زمینه را بررسی می‌کنم.  و شما به سرعت متوجه خواهید شد که چرا داده‌ها در یادگیری ماشین، که هدف snorkel است، بسیار مهم اند. (این نقل قولی از بلاگ آن‌ها است که لینک آن در منابع ذکر شده است).

تیم‌ها اغلب به جای درک مشکل خود و حل آن با داده‌ها، وقت خود را صرف نوشتن مدل‌های جدید می‌کنند.

نوشتن یک مدل به صورت عمیق‌تر، پناهگاهی زیبا برای پنهان شدن از آشفتگی درک مشکلات واقعی است و هدف این ویدئو، مبارزه با این رویکرد اشتباه است.

در یک جمله، هدف داده محور بودن، رمزگذاری دانش از داده‌های ما به مدل، همراه با به حداکثر رساندن کیفیت داده‌ها و عملکرد مدل است.

همه چیز در سال 2016 و در استنفورد، با مقاله‌ای به نام برنامه‌نویسی داده آغاز شد. که یک مجموعه آموزش بزرگ، با معرفی سریع الگویی برای لیبل‌گذاری بود.

آموزش این مجموعه داده‌ها، به صورت برنامه‌ریزی شده و نه دستی، صورت می‌گرفت. این کار در آن موقع، فراتر از اندازه‌های هوش مصنوعی در آن زمان بود.

همان‌طور که می‌دانید، امروزه بهترین رویکردها از یادگیری نظارت شده استفاده می‌کنند. در این روش مدل‌ها بر روی داده‌ها و لیبل‌ها آموزش می‌بینند و یاد می‌گیرند که برچسب‌ها را با داده‌ها بازتولید کنند.

به عنوان مثال، شما به یک مدل تصاویر زیادی از سگ‌ها و گربه‌ها را با برچسب‌های مربوط به آن‌ها می‌دهید و از آن‌ها می‌خواهید تشخیص دهند که در هر تصویر چه حیوانی وجود دارد.

سپس بر اساس میزان موفقیت، از back propagation برای آموزش مدل استفاده کنید. البته اگر با back propagation آشنا نیستید.

من از شما دعوت می‌کنم برای تماشای توضیحات یک دقیقه‌ای من، ویدئو را پاوز کنید و سپس به جایی که آن را قطع کرده بودید برگردید.

با بزرگ و بزرگ‌تر شدن مجموعه داده‌ها، مدیریت آن‌ها و حذف داده‌های مضر، برای این‌که مدل تنها بر روی داده‌های مرتبط تمرکز کند، بسیار دشوار می‌شود.

شما نمی‌خواهید به مدل خود آموزش دهید که گربه را وقتی که یک راسو است تشخیص دهد.

وقتی به داده می‌گویم که چیزی را در یاد خود نگه دارد، این موضوع بد تمام می‌شود. حال این داده می‌خواهد هر نوع داده‌ای باشد. تصویری، متنی یا ویدئویی.

اکنون می‌توانید به راحتی یک مدل را برای هر کاری دانلود کنید.

تغییر برای بهبود داده‌ها و بهبود دسترسی موتور اجتناب ناپذیر است. اندازه مجموعه داده‌های اخیر و مدل‌های داده  محور، دلیل وجود چنین پارادایمی برای لیبل‌گذاری است.

در نتیجه آموزش مجموعه داده‌ها به صورت Programming ضروری می‌شود.

اکنون مشکل اصلی ما، لیبل گذاری داده‌هایمان است. داشتن هزاران تصویر از گربه‌ها و سگ‌ها آُان است، اما دانستن این که کدام عکس متعلق به گربه و کدام عکس متعلق به یک سگ است بسیار سخت‌تر است و از آن سخت‌تر، این است که مکان‌های دقیق آن‌ها را برای segmentation ، بر روی تصویر داشته باشید.

به عنوان مثال، مقاله اول یک فریم‌ورک Programming داده‌ را معرفی می‌کند که در آن، کاربر به عنوان یک مهندس یادگیری ماشین یا دانشمند داده، استراتژی‌های نظارتی ضعیفی را به عنوان دستورالعمل‌های لیبل‌گذاری بیان می‌کند.

و این کار را با استفاده از یک مدل تولیدی که زیرمجموعه‌های داده‌ها را برچسب‌گذاری می‌کند و سپس کشف می‌کند که Programming داده ممکن است راه ساده‌تری برای ایجاد مدل‌های یادگیری ماشین، توسط افراد غیر متخصص و در زمانی که داده‌های آموزشی محدود و یا خارج از دسترس هستند، باشد.

به طور خلاصه، آن‌ها نشان می‌دهند که چگونه داده‌ها بدون کار اضافی زیاد و در حالی که مدل یکسان می‌ماند، بهبود پیدا می‌کنند. این هم اکنون یک قدم آشکار اما ضروری است. این یک مقاله اساسی و واقعاً جالب در این زمینه است و ارزش خواندن را دارد.

مقاله دومی که در این‌جا پوشش می‌دهیم، ایجاد داده‌های آموزشی سریع Snorkel با نظارت ضعیف نامیده می‌شود.

این مقاله که یک سال بعد از دانشگاه استنفورد منتشر شد، یک لایه رابط انعطاف‌پذیر برای نوشتن توابع لیبل‌گذاری بر اساس تجربه ارائه می‌کند. و دنباله‌رو این ایده است که داده‌های آموزشی بسیار بزرگ هستند و لیبل‌گذاری آن‌ها دشوار است.

آن‌ها با ایجاد یک گلوگاه (Bottleneck) در عملکرد مدل‌ها،  سیستمی را معرفی می‌کنند که مقاله قبلی را در یک سیستم end to end پیاده‌سازی می‌کند.

این سیستم به متخصصان این دانش، یعنی افرادی که به خوبی داده‌ها را می‌شناسند، اجازه می‌دهد تا به راحتی توابع لیبل‌گذاری را تعریف کنند. تا به جای انجام دستی annotation ، داده‌ها را به صورت خودکار لیبل‌گذاری کنند.

این کار باعث می‌شود ساخت مدل‌ها 2.8 برابر سریع‌تر باشد و همچنین عملکرد پیش‌بینی به طور متوسط تا 45.5 درصد افزایش پیدا کند.

بنابراین این‌بار به جای دوباره نویسی لیبل‌ها، کاربران یا متخصصان این دانش، توابع لیبل‌گذاری را می‌نویسند.

این توابع به سادگی، Insight هایی را در مورد الگوهایی که باید جستجو شوند، یا هر چیزی که متخصص برای طبقه‌بندی داده‌ها استفاده می‌کند، یا هر داده‌ای که به مدل کمک می‌کند فرآیند مشابهی را دنبال کند، به مدل‌ها ارائه می‌دهند.  سپس سیستم، توابع لیبل‌گذاری به تازگی نوشته‌شده را روی داده‌های بدون لیبل ما اعمال می‌کند و یک مدل تولیدی را برای ترکیب آموزش می‌دهد. برچسب‌های خروجی به برچسب‌های احتمالی تبدیل می‌شوند که سپس برای آموزش شبکه Neural عمیق ما استفاده می‌شوند.

Snorkel همه این کارها را به خودی خود انجام می‌دهد و برای اولین بار، کل این فرآیند را تسهیل می‌کند.

آخرین مقاله ما از استنفورد یک سال بعد software 2.0 را معرفی کرد. این مقاله یک صفحه‌ای، بار دیگر با همان رویکرد داده محور یادگیری عمیق با استفاده از توابع لیبل‌گذاری آموزشی، برای مجموعه داده‌های بزرگ بدون برچسب و آموزش مدل نهایی ما که به ویژه برای فضای بزرگ اینترنت مفید است، پیش می‌رود .

مجموعه داده‌های scrap شده مانند آن‌چه در اپلیکیشن‌های گوگل مانند گوگل ادز، جیمیل، یوتیوب و غیره است، برای مقابله با کمبود داده‌های با لیبل دستی مورد استفاده قرار می‌گیرند.

البته این فقط یک نمای کلی از پیشرفت و جهت‌گیری هوش مصنوعی داده محور است. و من قویاً شما را دعوت می‌کنم که اطلاعات موجود در توضیحات زیر را بخوانید تا دید کاملی داشته باشید که هوش مصنوعی داد محور از کجا آمده و به کجا می‌رود.

همچنین می‌خواهم از Snorkel ، برای اسپانسرینگ این ویدئو تشکر کنم و از شما دعوت می‌کنم تا اگرکه هنوز از روش‌های آن‌ها برای استفاده از بسیاری از محصولات مانند گوگل ادز، جیمیل، یوتیوب و سایر محصولات بزرگ استفاده نکرده‌اید، برای دریافت اطلاعات بیشتر، از وب سایت آن‌ها دیدن کنید.

ممنون که این ویدئو را تماشا کردید.

پایان

[موسیقی]

منابع

►Read the full article: https://www.louisbouchard.ai/data-centric-ai/

►Data-centric AI: https://snorkel.ai/data-centric-ai

►Weak supervision: https://snorkel.ai/weak-supervision/

►Programmatic labeling: https://snorkel.ai/programmatic-labeling/

►Curated list of resources for Data-centric AI: https://github.com/hazyresearch/data-centric-ai

►Learn more about Snorkel: https://snorkel.ai/company/

►From Model-centric to Data-centric AI – Andrew Ng: https://youtu.be/06-AZXmwHjo

►Software 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2

Paper 1: Ratner, A.J., De Sa, C.M., Wu, S., Selsam, D. and Ré, C.,

2016. Data programming: Creating large training sets, quickly. Advances

in neural information processing systems, 29.

Paper 2: Ratner, A., Bach, S.H., Ehrenberg, H., Fries, J., Wu, S. and

Ré, C., 2017, November. Snorkel: Rapid training data creation with weak

supervision. In Proceedings of the VLDB Endowment. International

Conference on Very Large Data Bases (Vol. 11, No. 3, p. 269). NIH Public

Access.

Paper 3: Ré, C. (2018). Software 2.0 and Snorkel: Beyond Hand-Labeled

Data. Proceedings of the 24th ACM SIGKDD International Conference on

Knowledge Discovery & Data Mining.

►My Newsletter (A new AI application explained weekly to your emails!): https://www.louisbouchard.ai/newsletter/

منبع: HackerNoon   نویسنده: لوئیس بوچارد

Leave feedback about this

  • کیفیت
  • قیمت
  • خدمات

PROS

+
Add Field

CONS

+
Add Field
Choose Image
Choose Video
X