10 مهر 1402
تهران، خیابان آزادی، تقاطع قریب
هوش مصنوعی

DALL-E کلمات را به تصویر تبدیل می‌کند! (نحوه استفاده)

DALL-E کلمات را به تصویر تبدیل می‌کند!

چکیده متن

  • گوگل و OpenAI از جمله شرکت‌هایی هستند که مدل‌های هوش مصنوعی با کارکرد تبدیل متن به تصویر را تولید می‌کنند.
  • استفاده از تصاویر تولید شده توسط ابزار عمومی DALL-E Mini در رسانه‌های اجتماعی مرسوم شده است.
  • مانند سایر فناوری‌های هوش مصنوعی، نگرانی‌های اجتماعی و اخلاقی زیادی درباره استفاده از این محصول وجود دارد.
DALL-E MINI
نرم افزار DALL-E Mini که توسط گروهی از توسعه دهندگان اپن سورس طراحی شده است، کامل نیست؛ ولی گاهی اوقات مؤثر است و تصاویری تولید می‌کند که با جزئیات متن وارد شده توسط افراد مطابقت دارد.

DALL-E چیست؟

اگر اهل گشتن در فیدِ شبکه‌های اجتماعی باشید، احتمال زیادی وجود دارد که این اواخر متوجه تصاویری همراه با زیرنویس شده باشید. آن‌ها توسط DALL-E تولید می شوند و اکنون بسیار محبوب شده‌اند. گوگل و OpenAI پشت این ماجرا هستند.

تصاویری که می‌بینید احتمالاً توسط یک برنامه تبدیل متن به تصویر به نام DALL-E ساخته شده اند. افراد در این برنامه کلماتی را وارد می‌کنند که توسط مدل‌های هوش مصنوعی به تصاویر تبدیل می‌شوند.

به عنوان مثال، یکی از کاربران توییتر توییتی با این متن منتشر کرد: «بودن یا نبودن، خاخام آووکادو در دست دارد، مجسمه مرمری». تصویر پیوست ‌شده به این توییت که بسیار هم زیباست، مجسمه مرمری مردی ریشو با عبا و کلاه  کاسه‌ای را نشان می‌دهد که آووکادو در دست دارد.

DALL-E چگونه کار می‌کند؟

مدل‌های هوش مصنوعی از نرم افزار Imagen گوگل و همچنین OpenAI استفاده می‌کنند. OpenAI یک استارت آپ است که توسط مایکروسافت پشتیبانی می‌شود و DALL-E 2 را توسعه داده است. OpenAI در وب‌سایتش، DALL-E 2 را این‌گونه توصیف می‌کند: یک سیستم هوش مصنوعی جدید که می‌تواند تصاویر هنری و واقعی را با یک جمله توصیفی به زبان طبیعی، ایجاد کند.

اما بیشتر اتفاقاتی که در این زمینه می‌افتد، از دل گروه نسبتاً کوچکی از مردم به وجود می‌آید که تصاویر خود را به اشتراک می‌گذارند و در برخی مواقع، engagement بالایی ایجاد می‌کنند. این به خاطر این است که گوگل و OpenAI این فناوری را به طور گسترده در دسترس عموم قرار نداده‌اند.

بسیاری از کاربران اولیه OpenAI ، دوستان و بستگان کارمندان هستند. اگر به دنبال دسترسی به آن هستید، باید وارد لیست انتظار شوید و مشخص کنید که جزو یکی از این دسته افراد هستید: هنرمند حرفه‌ای، توسعه‌دهنده، محقق دانشگاهی، روزنامه‌نگار یا online creator هستید.

جوآن جانگ از OpenAI در صفحه راهنمای وب سایت شرکت نوشت:

«ما سخت کار می‌کنیم تا سریع‌تر این ابزار را در دسترس عموم قرار دهیم. اما احتمالاً کمی طول می‌کشد. از 15 ژوئن، ما 10.217 نفر را دعوت کردیم تا DALL-E را تست کنند».

DALL-E Mini

یکی از سیستم‌هایی که به صورت عمومی در دسترس است، DALL-E Mini است. این ابزار بر کد اپن سورس تیمی از توسعه دهندگان استوار است و اغلب پر از تقاضا برای دسترسی است. تلاش برای استفاده از آن می‌تواند منجر به مشاهده این پیام شود: “Too much traffic, please try again.”

این اتفاق یادآور سرویس Gmail گوگل است که در سال 2004 افراد را با فضای ذخیره‌سازی نامحدود ایمیل جذب خود کرد. افراد در ابتدا فقط می‌توانستند با دعوت افراد دیگر وارد آن شوند و میلیون‌ها نفر در صف منتظر بودند. اکنون جیمیل یکی از محبوب‌ترین سرویس‌های ایمیل در جهان است.

ایجاد تصویر از متن ممکن است هیچوقت به اندازه ایمیل فراگیر نشود، اما این فناوری مطمئناً خواهد درخشید و بخشی از جذابیت آن در انحصاری بودن آن است.

آزمایشگاه تحقیقاتی خصوصی Midjourney از افراد می‌خواهد که اگر می‌خواهند از ربات تولید تصویر در چت آپ Discord  استفاده کنند، فرمی را پر کنند. فقط گروهی از افراد مختلف از Imagen  استفاده می‌کنند و تصاویر آن را ارسال می‌کنند.

 سرویس‌های تبدیل متن به تصویر، پیچیده هستند. آن‌ها مهم‌ترین بخش‌های درخواست کاربر را شناسایی می‌کنند و سپس بهترین راه را برای نشان دادن تصویر متناسب با آن عبارات حدس می‌زنند. گوگل مدل Imagen خود را با صدها تراشه هوش مصنوعی بر روی 460 میلیون جفت تصویر-متن داخلی، و همچنین داده‌‌های خارجی، آموزش داد.

رابط‌های کاربری ساده هستند. به طور کلی یک تکست باکس، یک دکمه برای شروع فرآیند تولید و یک ناحیه زیرین برای نمایش تصاویر وجود دارد. گوگل و OpenAI برای نشان دادن منبع، واترمارک را در گوشه سمت راست پایین تصاویری که از طریق DALL-E 2 و Imagen تولید شده‌اند، اضافه می‌کنند.

نگرانی‌های موجود

شرکت‌ها و گروه‌های سازنده نرم‌افزار به طور موجهی نگران این هستند که همه مردم به یک‌باره به سمت این دروازه حمله کنند. رسیدگی به درخواست‌های وب برای اجرای query ها با این مدل‌های هوش مصنوعی می‌تواند گران تمام شود. مهم‌تر از آن، مدل‌ها بی‌نقص نیستند و همیشه نتایجی تولید نمی‌کنند که جهان بیرونی را دقیقاً همان‌طور که هست، نشان دهد.

مهندسان این مدل‌ها را بر روی مجموعه‌های گسترده‌ای از کلمات و تصاویر وب، از جمله عکس‌هایی که مردم در Flickr پست کرده بودند، آموزش دادند.

تصویر کروکودیل تولید شده توسط dall-e Mini و OpenAI

OpenAI که در سانفرانسیسکو مستقر است، پتانسیل آسیب‌های مدلی را که نحوه ساخت تصاویر را از طریق جست و جوی وب یاد می گیرد، تشخیص می‌دهد. برای مقابله با این خطر، کاربران محتوای خشونت آمیز را از داده‌های آموزشی حذف کردند. و فیلترهایی وجود دارد که کاربران نمی‌توانند خط‌مشی‌های شرکت، از جمله مصادیق پورنوگرافی و برهنگی، خشونت، توطئه و محتوای سیاسی را نقض کنند. فیلترهایی وجود دارد که از تولید چنین تصاویری توسط  DALL-E 2 ممانعت می‌کند.

پرافولا دهیوال، دانشمند حوزه تحقیقات OpenAI گفت:

«یک فرآیند دائمی برای بهبود ایمنی این سیستم‌ها انجام می‌پذیرد».

سوگیری

عدم سوگیری در نتایج نیز مهم است و همواره یکی از نگرانی‌های جدی هوش مصنوعی تلقی می‌شود. بوریس دایما، توسعه‌دهنده‌ای از تگزاس و دیگر افرادی که روی DALL-E Mini کار می‌کردند، این مشکل را این چنین بیان کردند:

«مشاغلی که دارای سطوح تحصیلاتی بالاتر (مانند مهندسان، پزشکان و دانشمندان) یا دارای کار فیزیکی سنگین (مانند صنعت ساختمان) هستند، عمدتاً توسط مردان سفیدپوست نمایندگی می‌شوند. در مقابل، پرستاران، منشی‌ها یا دستیاران معمولاً زن و سفیدپوست هستند».

گوگل کاستی‌های مشابه در مدل Imagen خود را در یک مقاله دانشگاهی توضیح داد.

تصویر از متن با OpenAI

با وجود خطرات متعدد، OpenAI در مورد چیزهایی که این فناوری می‌تواند فعال کند، هیجان‌زده است. دهیوال گفت که این برنامه می‌تواند فرصت‌های خلاقانه‌ای برای افراد ایجاد کند و می‌تواند به برنامه‌های تجاری برای طراحی داخلی یا زیباسازی وب سایتشان کمک کند.

نتایج باید در طول زمان بهتر و بهتر شوند. DALL-E 2 که در ماه آوریل معرفی ش، تصاویر واقعی‌تری نسبت به نسخه اولیه آن که OpenAI در سال گذشته منتشر کرد، تولید می‌کند. همچنین GPT، مدل تولید عکس بر اساس متن این شرکت، در هر نسل جدید پیچیده‌تر شده است.

دهیوال گفت:

«می‌توانید انتظار داشته باشید که این اتفاق برای بسیاری از این سیستم‌ها بیفتد».

منبع: cnbc  نویسنده: جوردن نووت

Leave feedback about this

  • کیفیت
  • قیمت
  • خدمات

PROS

+
Add Field

CONS

+
Add Field
Choose Image
Choose Video
X