عاملی که GPT-3 و Dalle را قدرتمند میکند، فقط یک چیز است: داده. مدلهای هوش مصنوعی به خصوص از نوع داده محور، تشنه دادهها هستند. این مدلهای بزرگ، چه مدلهای زبانی برای GPT باشند و چه مدلهای تصویری برای Dalle ، همگی به یک چیز نیاز دارند: دادههای بسیار زیاد.
هر چه دادههای شما بیشتر باشد، بهتر است. بنابراین باید مدلهایتان را مخصوصاً برای اپلیکیشنهای real-world ، گسترش دهید.
تغذیه تصاویری که دنیای واقعی را نشان نمیدهند، هیچ سودی نخواهد داشت و حتی توانایی مدل را برای تعمیم کاهش میدهد. اینجاست که هوش مصنوعی داده محور وارد عمل میشود.
در این ویدئو، توضیحات بیشتری در این خصوص خواهید شنید:
ترجمه ویدئو:
چیزی که GPT-3 و Dall-e را قدرتمند میکند، دقیقاً همان موضوع است که میگوید دادهها در فیلد کاری ما بسیار مهم هستند و مدلهای ما به شدت به آنها نیاز دارند. بنابراین بهتر است آن مدلها را مخصوصاً برای کاربردهای مربوط به دنیای واقعی بزرگتر کنید.
چه مدلهای زبانی برای GPT باشد و چه مدلهای تصویری برای دهلی، همه آنها به یک چیز نیاز دارند. و آن چیز دادههای بسیار زیاد است. متأسفانه شما به دادههای بیشتر نیاز دارید و برای آن، باید مدلها را مخصوصاً برای اپلیکیشنهای real worldگسترش دهید. مدلها میتوانند برای پیشرفت از مجموعه دادههای بزرگتری استفاده کنند، فقط در صورتی که داده از تصاویری با کیفیت بالا تغذیه شود.
اگر تصاویر شما کیفیت بالایی داشته باشند، ولی برگرفته از دنیای واقعی نباشند، ممکن است باعث کاهش توانایی مدل هم بشوند. اینجاست که هوش مصنوعی داده محور وارد عمل میشود.
از هوش مصنوعی داده محور، به عنوان software 2.0 نیز یاد میشود. و این یک روش فانتزی برای گفتن این است که ما به جای اینکه صرفاً پارامترهای مدل را بر روی یک مجموعه داده ثابت تغییر دهیم، دادههایمان را برای به حداکثر رساندن توانایی مدل بهینه میکنیم. البته برای رسیدن به بهترین نتیجه، هر دوی این کارها باید انجام شود. ولی دادهها در این ویدئو، نقش بسیار بزرگتری ایفا میکنند.
من در همکاری با snorkel به این موضوع میپردازم که هوش مصنوعی داده مجور چیست و برخی پیشرفتهای بزرگ در این زمینه را بررسی میکنم. و شما به سرعت متوجه خواهید شد که چرا دادهها در یادگیری ماشین، که هدف snorkel است، بسیار مهم اند. (این نقل قولی از بلاگ آنها است که لینک آن در منابع ذکر شده است).
تیمها اغلب به جای درک مشکل خود و حل آن با دادهها، وقت خود را صرف نوشتن مدلهای جدید میکنند.
نوشتن یک مدل به صورت عمیقتر، پناهگاهی زیبا برای پنهان شدن از آشفتگی درک مشکلات واقعی است و هدف این ویدئو، مبارزه با این رویکرد اشتباه است.
در یک جمله، هدف داده محور بودن، رمزگذاری دانش از دادههای ما به مدل، همراه با به حداکثر رساندن کیفیت دادهها و عملکرد مدل است.
همه چیز در سال 2016 و در استنفورد، با مقالهای به نام برنامهنویسی داده آغاز شد. که یک مجموعه آموزش بزرگ، با معرفی سریع الگویی برای لیبلگذاری بود.
آموزش این مجموعه دادهها، به صورت برنامهریزی شده و نه دستی، صورت میگرفت. این کار در آن موقع، فراتر از اندازههای هوش مصنوعی در آن زمان بود.
همانطور که میدانید، امروزه بهترین رویکردها از یادگیری نظارت شده استفاده میکنند. در این روش مدلها بر روی دادهها و لیبلها آموزش میبینند و یاد میگیرند که برچسبها را با دادهها بازتولید کنند.
به عنوان مثال، شما به یک مدل تصاویر زیادی از سگها و گربهها را با برچسبهای مربوط به آنها میدهید و از آنها میخواهید تشخیص دهند که در هر تصویر چه حیوانی وجود دارد.
سپس بر اساس میزان موفقیت، از back propagation برای آموزش مدل استفاده کنید. البته اگر با back propagation آشنا نیستید.
من از شما دعوت میکنم برای تماشای توضیحات یک دقیقهای من، ویدئو را پاوز کنید و سپس به جایی که آن را قطع کرده بودید برگردید.
با بزرگ و بزرگتر شدن مجموعه دادهها، مدیریت آنها و حذف دادههای مضر، برای اینکه مدل تنها بر روی دادههای مرتبط تمرکز کند، بسیار دشوار میشود.
شما نمیخواهید به مدل خود آموزش دهید که گربه را وقتی که یک راسو است تشخیص دهد.
وقتی به داده میگویم که چیزی را در یاد خود نگه دارد، این موضوع بد تمام میشود. حال این داده میخواهد هر نوع دادهای باشد. تصویری، متنی یا ویدئویی.
اکنون میتوانید به راحتی یک مدل را برای هر کاری دانلود کنید.
تغییر برای بهبود دادهها و بهبود دسترسی موتور اجتناب ناپذیر است. اندازه مجموعه دادههای اخیر و مدلهای داده محور، دلیل وجود چنین پارادایمی برای لیبلگذاری است.
در نتیجه آموزش مجموعه دادهها به صورت Programming ضروری میشود.
اکنون مشکل اصلی ما، لیبل گذاری دادههایمان است. داشتن هزاران تصویر از گربهها و سگها آُان است، اما دانستن این که کدام عکس متعلق به گربه و کدام عکس متعلق به یک سگ است بسیار سختتر است و از آن سختتر، این است که مکانهای دقیق آنها را برای segmentation ، بر روی تصویر داشته باشید.
به عنوان مثال، مقاله اول یک فریمورک Programming داده را معرفی میکند که در آن، کاربر به عنوان یک مهندس یادگیری ماشین یا دانشمند داده، استراتژیهای نظارتی ضعیفی را به عنوان دستورالعملهای لیبلگذاری بیان میکند.
و این کار را با استفاده از یک مدل تولیدی که زیرمجموعههای دادهها را برچسبگذاری میکند و سپس کشف میکند که Programming داده ممکن است راه سادهتری برای ایجاد مدلهای یادگیری ماشین، توسط افراد غیر متخصص و در زمانی که دادههای آموزشی محدود و یا خارج از دسترس هستند، باشد.
به طور خلاصه، آنها نشان میدهند که چگونه دادهها بدون کار اضافی زیاد و در حالی که مدل یکسان میماند، بهبود پیدا میکنند. این هم اکنون یک قدم آشکار اما ضروری است. این یک مقاله اساسی و واقعاً جالب در این زمینه است و ارزش خواندن را دارد.
مقاله دومی که در اینجا پوشش میدهیم، ایجاد دادههای آموزشی سریع Snorkel با نظارت ضعیف نامیده میشود.
این مقاله که یک سال بعد از دانشگاه استنفورد منتشر شد، یک لایه رابط انعطافپذیر برای نوشتن توابع لیبلگذاری بر اساس تجربه ارائه میکند. و دنبالهرو این ایده است که دادههای آموزشی بسیار بزرگ هستند و لیبلگذاری آنها دشوار است.
آنها با ایجاد یک گلوگاه (Bottleneck) در عملکرد مدلها، سیستمی را معرفی میکنند که مقاله قبلی را در یک سیستم end to end پیادهسازی میکند.
این سیستم به متخصصان این دانش، یعنی افرادی که به خوبی دادهها را میشناسند، اجازه میدهد تا به راحتی توابع لیبلگذاری را تعریف کنند. تا به جای انجام دستی annotation ، دادهها را به صورت خودکار لیبلگذاری کنند.
این کار باعث میشود ساخت مدلها 2.8 برابر سریعتر باشد و همچنین عملکرد پیشبینی به طور متوسط تا 45.5 درصد افزایش پیدا کند.
بنابراین اینبار به جای دوباره نویسی لیبلها، کاربران یا متخصصان این دانش، توابع لیبلگذاری را مینویسند.
این توابع به سادگی، Insight هایی را در مورد الگوهایی که باید جستجو شوند، یا هر چیزی که متخصص برای طبقهبندی دادهها استفاده میکند، یا هر دادهای که به مدل کمک میکند فرآیند مشابهی را دنبال کند، به مدلها ارائه میدهند. سپس سیستم، توابع لیبلگذاری به تازگی نوشتهشده را روی دادههای بدون لیبل ما اعمال میکند و یک مدل تولیدی را برای ترکیب آموزش میدهد. برچسبهای خروجی به برچسبهای احتمالی تبدیل میشوند که سپس برای آموزش شبکه Neural عمیق ما استفاده میشوند.
Snorkel همه این کارها را به خودی خود انجام میدهد و برای اولین بار، کل این فرآیند را تسهیل میکند.
آخرین مقاله ما از استنفورد یک سال بعد software 2.0 را معرفی کرد. این مقاله یک صفحهای، بار دیگر با همان رویکرد داده محور یادگیری عمیق با استفاده از توابع لیبلگذاری آموزشی، برای مجموعه دادههای بزرگ بدون برچسب و آموزش مدل نهایی ما که به ویژه برای فضای بزرگ اینترنت مفید است، پیش میرود .
مجموعه دادههای scrap شده مانند آنچه در اپلیکیشنهای گوگل مانند گوگل ادز، جیمیل، یوتیوب و غیره است، برای مقابله با کمبود دادههای با لیبل دستی مورد استفاده قرار میگیرند.
البته این فقط یک نمای کلی از پیشرفت و جهتگیری هوش مصنوعی داده محور است. و من قویاً شما را دعوت میکنم که اطلاعات موجود در توضیحات زیر را بخوانید تا دید کاملی داشته باشید که هوش مصنوعی داد محور از کجا آمده و به کجا میرود.
همچنین میخواهم از Snorkel ، برای اسپانسرینگ این ویدئو تشکر کنم و از شما دعوت میکنم تا اگرکه هنوز از روشهای آنها برای استفاده از بسیاری از محصولات مانند گوگل ادز، جیمیل، یوتیوب و سایر محصولات بزرگ استفاده نکردهاید، برای دریافت اطلاعات بیشتر، از وب سایت آنها دیدن کنید.
ممنون که این ویدئو را تماشا کردید.
پایان
[موسیقی]
منابع
►Read the full article: https://www.louisbouchard.ai/data-centric-ai/
►Data-centric AI: https://snorkel.ai/data-centric-ai
►Weak supervision: https://snorkel.ai/weak-supervision/
►Programmatic labeling: https://snorkel.ai/programmatic-labeling/
►Curated list of resources for Data-centric AI: https://github.com/hazyresearch/data-centric-ai
►Learn more about Snorkel: https://snorkel.ai/company/
►From Model-centric to Data-centric AI – Andrew Ng: https://youtu.be/06-AZXmwHjo
►Software 2.0: https://hazyresearch.stanford.edu/blog/2020-02-28-software2
►Paper 1: Ratner, A.J., De Sa, C.M., Wu, S., Selsam, D. and Ré, C.,
2016. Data programming: Creating large training sets, quickly. Advances
in neural information processing systems, 29.
►Paper 2: Ratner, A., Bach, S.H., Ehrenberg, H., Fries, J., Wu, S. and
Ré, C., 2017, November. Snorkel: Rapid training data creation with weak
supervision. In Proceedings of the VLDB Endowment. International
Conference on Very Large Data Bases (Vol. 11, No. 3, p. 269). NIH Public
Access.
►Paper 3: Ré, C. (2018). Software 2.0 and Snorkel: Beyond Hand-Labeled
Data. Proceedings of the 24th ACM SIGKDD International Conference on
Knowledge Discovery & Data Mining.
►My Newsletter (A new AI application explained weekly to your emails!): https://www.louisbouchard.ai/newsletter/
منبع: HackerNoon نویسنده: لوئیس بوچارد
Leave feedback about this