چکیده متن
- گوگل و OpenAI از جمله شرکتهایی هستند که مدلهای هوش مصنوعی با کارکرد تبدیل متن به تصویر را تولید میکنند.
- استفاده از تصاویر تولید شده توسط ابزار عمومی DALL-E Mini در رسانههای اجتماعی مرسوم شده است.
- مانند سایر فناوریهای هوش مصنوعی، نگرانیهای اجتماعی و اخلاقی زیادی درباره استفاده از این محصول وجود دارد.

DALL-E چیست؟
اگر اهل گشتن در فیدِ شبکههای اجتماعی باشید، احتمال زیادی وجود دارد که این اواخر متوجه تصاویری همراه با زیرنویس شده باشید. آنها توسط DALL-E تولید می شوند و اکنون بسیار محبوب شدهاند. گوگل و OpenAI پشت این ماجرا هستند.
تصاویری که میبینید احتمالاً توسط یک برنامه تبدیل متن به تصویر به نام DALL-E ساخته شده اند. افراد در این برنامه کلماتی را وارد میکنند که توسط مدلهای هوش مصنوعی به تصاویر تبدیل میشوند.
به عنوان مثال، یکی از کاربران توییتر توییتی با این متن منتشر کرد: «بودن یا نبودن، خاخام آووکادو در دست دارد، مجسمه مرمری». تصویر پیوست شده به این توییت که بسیار هم زیباست، مجسمه مرمری مردی ریشو با عبا و کلاه کاسهای را نشان میدهد که آووکادو در دست دارد.
DALL-E چگونه کار میکند؟
مدلهای هوش مصنوعی از نرم افزار Imagen گوگل و همچنین OpenAI استفاده میکنند. OpenAI یک استارت آپ است که توسط مایکروسافت پشتیبانی میشود و DALL-E 2 را توسعه داده است. OpenAI در وبسایتش، DALL-E 2 را اینگونه توصیف میکند: یک سیستم هوش مصنوعی جدید که میتواند تصاویر هنری و واقعی را با یک جمله توصیفی به زبان طبیعی، ایجاد کند.
اما بیشتر اتفاقاتی که در این زمینه میافتد، از دل گروه نسبتاً کوچکی از مردم به وجود میآید که تصاویر خود را به اشتراک میگذارند و در برخی مواقع، engagement بالایی ایجاد میکنند. این به خاطر این است که گوگل و OpenAI این فناوری را به طور گسترده در دسترس عموم قرار ندادهاند.
بسیاری از کاربران اولیه OpenAI ، دوستان و بستگان کارمندان هستند. اگر به دنبال دسترسی به آن هستید، باید وارد لیست انتظار شوید و مشخص کنید که جزو یکی از این دسته افراد هستید: هنرمند حرفهای، توسعهدهنده، محقق دانشگاهی، روزنامهنگار یا online creator هستید.
جوآن جانگ از OpenAI در صفحه راهنمای وب سایت شرکت نوشت:
«ما سخت کار میکنیم تا سریعتر این ابزار را در دسترس عموم قرار دهیم. اما احتمالاً کمی طول میکشد. از 15 ژوئن، ما 10.217 نفر را دعوت کردیم تا DALL-E را تست کنند».
DALL-E Mini
یکی از سیستمهایی که به صورت عمومی در دسترس است، DALL-E Mini است. این ابزار بر کد اپن سورس تیمی از توسعه دهندگان استوار است و اغلب پر از تقاضا برای دسترسی است. تلاش برای استفاده از آن میتواند منجر به مشاهده این پیام شود: “Too much traffic, please try again.”
این اتفاق یادآور سرویس Gmail گوگل است که در سال 2004 افراد را با فضای ذخیرهسازی نامحدود ایمیل جذب خود کرد. افراد در ابتدا فقط میتوانستند با دعوت افراد دیگر وارد آن شوند و میلیونها نفر در صف منتظر بودند. اکنون جیمیل یکی از محبوبترین سرویسهای ایمیل در جهان است.
ایجاد تصویر از متن ممکن است هیچوقت به اندازه ایمیل فراگیر نشود، اما این فناوری مطمئناً خواهد درخشید و بخشی از جذابیت آن در انحصاری بودن آن است.
آزمایشگاه تحقیقاتی خصوصی Midjourney از افراد میخواهد که اگر میخواهند از ربات تولید تصویر در چت آپ Discord استفاده کنند، فرمی را پر کنند. فقط گروهی از افراد مختلف از Imagen استفاده میکنند و تصاویر آن را ارسال میکنند.
سرویسهای تبدیل متن به تصویر، پیچیده هستند. آنها مهمترین بخشهای درخواست کاربر را شناسایی میکنند و سپس بهترین راه را برای نشان دادن تصویر متناسب با آن عبارات حدس میزنند. گوگل مدل Imagen خود را با صدها تراشه هوش مصنوعی بر روی 460 میلیون جفت تصویر-متن داخلی، و همچنین دادههای خارجی، آموزش داد.
رابطهای کاربری ساده هستند. به طور کلی یک تکست باکس، یک دکمه برای شروع فرآیند تولید و یک ناحیه زیرین برای نمایش تصاویر وجود دارد. گوگل و OpenAI برای نشان دادن منبع، واترمارک را در گوشه سمت راست پایین تصاویری که از طریق DALL-E 2 و Imagen تولید شدهاند، اضافه میکنند.
نگرانیهای موجود
شرکتها و گروههای سازنده نرمافزار به طور موجهی نگران این هستند که همه مردم به یکباره به سمت این دروازه حمله کنند. رسیدگی به درخواستهای وب برای اجرای query ها با این مدلهای هوش مصنوعی میتواند گران تمام شود. مهمتر از آن، مدلها بینقص نیستند و همیشه نتایجی تولید نمیکنند که جهان بیرونی را دقیقاً همانطور که هست، نشان دهد.
مهندسان این مدلها را بر روی مجموعههای گستردهای از کلمات و تصاویر وب، از جمله عکسهایی که مردم در Flickr پست کرده بودند، آموزش دادند.

OpenAI که در سانفرانسیسکو مستقر است، پتانسیل آسیبهای مدلی را که نحوه ساخت تصاویر را از طریق جست و جوی وب یاد می گیرد، تشخیص میدهد. برای مقابله با این خطر، کاربران محتوای خشونت آمیز را از دادههای آموزشی حذف کردند. و فیلترهایی وجود دارد که کاربران نمیتوانند خطمشیهای شرکت، از جمله مصادیق پورنوگرافی و برهنگی، خشونت، توطئه و محتوای سیاسی را نقض کنند. فیلترهایی وجود دارد که از تولید چنین تصاویری توسط DALL-E 2 ممانعت میکند.
پرافولا دهیوال، دانشمند حوزه تحقیقات OpenAI گفت:
«یک فرآیند دائمی برای بهبود ایمنی این سیستمها انجام میپذیرد».
سوگیری
عدم سوگیری در نتایج نیز مهم است و همواره یکی از نگرانیهای جدی هوش مصنوعی تلقی میشود. بوریس دایما، توسعهدهندهای از تگزاس و دیگر افرادی که روی DALL-E Mini کار میکردند، این مشکل را این چنین بیان کردند:
«مشاغلی که دارای سطوح تحصیلاتی بالاتر (مانند مهندسان، پزشکان و دانشمندان) یا دارای کار فیزیکی سنگین (مانند صنعت ساختمان) هستند، عمدتاً توسط مردان سفیدپوست نمایندگی میشوند. در مقابل، پرستاران، منشیها یا دستیاران معمولاً زن و سفیدپوست هستند».
گوگل کاستیهای مشابه در مدل Imagen خود را در یک مقاله دانشگاهی توضیح داد.

با وجود خطرات متعدد، OpenAI در مورد چیزهایی که این فناوری میتواند فعال کند، هیجانزده است. دهیوال گفت که این برنامه میتواند فرصتهای خلاقانهای برای افراد ایجاد کند و میتواند به برنامههای تجاری برای طراحی داخلی یا زیباسازی وب سایتشان کمک کند.
نتایج باید در طول زمان بهتر و بهتر شوند. DALL-E 2 که در ماه آوریل معرفی ش، تصاویر واقعیتری نسبت به نسخه اولیه آن که OpenAI در سال گذشته منتشر کرد، تولید میکند. همچنین GPT، مدل تولید عکس بر اساس متن این شرکت، در هر نسل جدید پیچیدهتر شده است.
دهیوال گفت:
«میتوانید انتظار داشته باشید که این اتفاق برای بسیاری از این سیستمها بیفتد».
منبع: cnbc نویسنده: جوردن نووت
Leave feedback about this