AI Image Generator ها در سال گذشته، یکی از مهمترین ترندهای فناوری در دنیا بودند. تصاویر تولید شده توسط هوش مصنوعی، اکنون همه جا هستند. از شبکههای اجتماعی گرفته تا برنامههای خبری پربیننده و مجلات. به راحتی میتوان دلیل این موضوع را فهمید: ابزارهای لازم برای ساختن آنها اکنون در دسترس عموم قرار گرفتهاند. اگر میخواهید برای سرگرمی وارد این کار شوید یا از برخی ویژگیهای مبتنی بر هوش مصنوعی برای کسب و کار خود استفاده کنید، برنامههای موجود در این لیست، آنچه را که به دنبال آن هستید به شما ارائه میدهند.
من از زمان راه اندازی Google Deep Dream در سال 2015، در مورد AI Image Generator ها مینویسم. افراد زیادی درباره پیشرفتهای این ابزارها نوشتهاند و این موضوع برای من بسیار هیجان انگیز است. اما سعی میکنم از صحبت درباره بحثهای جنجالی مانند حق کپیرایت برای دادههای آموزشی، اجتناب کنم. در عوض، روی این واقعیت تمرکز میکنم که این AI Image Generator ها اکنون میتوانند از درخواستهای نوشته شده، نتایج شگفتانگیزی را منعکس کنند. این ارزشش را دارد که چند ساعت وقت بگذارید و با یکی از این برنامههای هوش مصنوعی، فرآیند تبدیل متن به تصویر را تجربه کنید.
بهترین AI Image Generator ها
- DALL·E 2 | تولید تصاویر هوش مصنوعی با قابلیت استفاده آسان
- Midjourney | برای کسب بهترین نتایج
- DreamStudio (Stable Diffusion) | برای سفارشی سازی و کنترل نتایج
یک AI Image Generator چگونه کار میکند؟
AI Image Generator ها یک پیام متنی از شما دریافت میکنند و سپس آن را – تا جایی که میتوانند – به یک تصویر منطبق با متن تبدیل میکنند. این امر جا را برای برخی احتمالات عجیب و غریب باز میکند. زیرا درخواست شما میتواند هر چیزی باشد. از «نقاشی رنگ روغن امپرسیونیستی از یک مرد کانادایی که سوار بر گوزن در میان جنگلی از درختان افرا فرار میکند» تا «نقاشی به سبک ورمیر از یک سگ گرگی کرکدار بزرگ ایرلندی در حال لذت بردن از یک لیوان آبجو در یک بار سنتی» یا «عکس الاغی بر روی ماه».

تنها محدودیتهای جدی و واقعی، تخیل شما، توانایی AI Image Generator برای درک درخواست شما، و هرگونه فیلتر محتوایی است که برای جلوگیری از درخواستهای غیراخلاقی یا سایر محتواهای NSFW وجود دارد.
نحوه کار تولید تصویر با هوش مصنوعی
بیشتر AI Image Generator ها به روشی تقریباً مشابه کار میکنند. میلیاردها جفت تصویر-متن برای آموزش یک شبکه عصبی (که یک الگوریتم کامپیوتری بسیار شیک است و به طور آزاد بر روی مغز انسان مدلسازی شده است) استفاده میشود. این شبکه با پردازش تصاویر تقریباً بیشمار، میآموزد که سگ، رنگ قرمز، ورمیر و هر چیز دیگری چیست. پس از انجام این کار، یک هوش مصنوعی دارید که میتواند تقریباً هر درخواستی را تفسیر کند.
گام بعدی این است که تصاویر تولید شده توسط هوش مصنوعی را رندر کنید. آخرین نسل از AI Image Generator ها این کار را با استفاده از فرآیندی به نام diffusion انجام میدهند. در اصل، آنها این کار را با یک فرآیند تصادفی شروع میکنند و سپس آن را در یک سری مراحل ویرایش میکنند تا با تفسیر آنها مطابقت داشته باشد. مثل این که به آسمان ابری نگاه کنید، ابری را پیدا کنید که شبیه یک سگ است، و سپس بتوانید با انگشتانتان آن را بیشتر و بیشتر شبیه سگ کنید.

چه چیزی باعث میشود یک AI Image Generator خوب باشد؟
AI Image Generator ها در 12 ماه گذشته بسیار محبوب شدهاند و دلیلی برای این موضوع وجود دارد: قبل از این زمان، آنها بسیار بد بودند. فناوری زیربنایی آنها برای دانشمندان محقق، فوقالعاده جالب و چشمگیر بود، اما تصاویری که آنها میساختند، بسیار ضعیف بود. حتی DALL·E اوریجنیال زمانی که در سال 2021 عرضه شد، بیشتر یک بازی سرگرمکننده بود تا یک مکاشفه عجیب که دنیا را تکان میدهد.
از آنجایی که این ابزارها جدیداً توسعه یافتهاند، AI Image Generator های فوقالعاده زیادی وجود ندارد. سه نام بزرگ این فناوری، DALL·E 2 ، Midjourney و Stable Diffusion همگی به دلایل مختلفی در این لیست هستند، اما به دو دلیل، این سه تنها برنامههایی هستند که خواستههای من را از یک AI Image Generator برآورده میکنند.
- من به دنبال برنامههایی بودم که به شما امکان میداد تصاویر هوش مصنوعی را از یک پیام متنی تولید کنید. ابزارهایی که به شما اجازه میدهند عکسهای خود را آپلود کنید و سپس پرترههای ایجاد شده توسط هوش مصنوعی را تحویل بگیرید، سرگرم کننده هستند (و معمولاً با استفاده از Stable Diffusion ساخته میشوند)، اما AI Image Generator های همهمنظوره، در واقع چیز دیگری هستند.
- من خود AI Image Generator ها را بررسی کردم، نه ابزارهای ساخته شده توسط آنها. برای مثال، NightCafe یک برنامه و یک انجمن عالی دارد، اما تنها کاری که میکند این است که شما را قادر میسازد از الگوریتمهای DALL·E 2 و Stable Diffusion (و همچنین برخی الگوریتمهای قدیمیتر) استفاده کنید. این ارزش بررسی را دارد، اما معیارهای من برای حضور در این لیست را برآورده نمیکند.
مقایسه موردی
جدای از همه اینها، من این مورد را هم بررسی کردم که استفاده از هر AI Image Generator تا چه حد آسان است، چه نوع کنترلها و گزینههای سفارشیسازی را ارائه میکند (برای مواردی مثل AI image upscale) چه مدل قیمتی دارد، و مهمتر از همه: نتایج حاصل از آن چقدر خوب است؟
در سال گذشته، از DALL·E 2 ، Midjourney و Stable Diffusion استفاده کرده و در مورد آنها نوشتهام. بنابراین، با کلیت نحوه کار با آنها، مزایا و معایب، و رفتارهای عجیبشان کاملاً آشنا هستم. اما برای اولین بار در حین نوشتن این مقاله، هر سه مورد را با دستوراتی ثابت کنار یکدگیر قرار دادم. نتایج حاصل شگفتانگیز بود. و من مفتخرم که بگویم برای استفاده از هر سه آنها، دلایل محکمی وجود دارد.
قبل از عمیقتر شدن، یک نکته دیگر را باید یاآوری کنم: همه این ابزارها از نظر فنی در حالت بتا هستند و من گمان میکنم برای مدتی به همین شکل باقی بمانند. AI Image Generator ها با این که هر روز قویتر و قویتر میشوند، اما راه درازی در پیش دارند تا بتوانند به طور مداوم نتایج عالی تولید کنند و به طور قابل اعتمادی در جریان کار تجاری قرار بگیرند.
نحوه استفاده از AI Image Generator ها در کار
به هوش مصنوعی علاقه دارید، اما نمیدانید که چگونه میتوانید از آنها در کارتان استفاده کنید؟ در اینجا چند نمونه از مواردی که مردم از هوش مصنوعی در کار خود استفاده میکنند، آورده شده است:
- تولید hero images برای پستهای وبلاگ
- ایجاد پستهای شبکههای اجتماعی
- تولید صفحات اسلاید و استوری برد
- ایجاد تصاویر شخصیسازی شده برای مشتریان
بهترین AI Image Generator از نظر سهولت در استفاده: DALL·E 2

DALL·E 2 مسلماً بزرگترین نام در میان AI Image Generator به شمار میرود. و دلیل خوب هم برای این موضوع وجود دارد. این ابزار اولین تولیدکننده تصویر مبتنی بر هوش مصنوعی بود که میتوانست تصاویر بسیار جالبی ایجاد کند و به طور گسترده در دسترس افراد زیادی قرار گرفت. اولین بودن، لزوماً به معنی بهترین بودن نیست، اما DALL·E 2 حرفهای زیادی برای گفتن دارد.
بزرگترین مزیت DALL·E 2 این است که استفاده از آن به طرز مضحکی ساده است. کافی است یک اکانت OpenAI بسازید، آنچه را که میخواهید ببینید تایپ کرده و روی Generate کلیک کنید. در عرض چند ثانیه، چهار تصویر توسط هوش مصنوعی برایتان تولید میشود. OpenAI همچنین ChatGPT را هم ساخته است. بنابراین با ساختن یک اکانت میتوانید از هر دوی آنها استفاده کنید.
با ثبت نام، 50 اعتبار رایگان اولیه دریافت میکنید و هر ماه، 15 اعتبار اضافی به حسابتان واریز میشود. هر اعتبار به شما این امکان را میدهد که از یک درخواست، چهار تصویر ایجاد کنید. (این درخواست میتواند یک درخواست نوشته شده، آپلود تصویر یا درخواست تغییرات بیشتر باشد). اگر فقط به دنبال سرگرمی با هوش مصنوعی هستید، یک تخفیف بسیار سخاوتمندانه وجود دارد که میتوانید پکیجهای 115 تایی را با قیمت 15 دلار خریداری کنید. این رقم حدود 0.13 دلار به ازای هر درخواست و 0.0325 دلار برای هر تغییرات در تصویر است.
ویژگیهای DALL·E 2
استفاده از DALL·E 2 بسیار آسان است، ولی این ابزار دارای ویژگیهای بسیار قدرتمندی است. Image Editor (که در نسخه بتا نیز هست) به شما امکان میدهد فریمهای اضافی تولید کنید. بنابراین میتوانید تصویر خود را بزرگ کنید. چه آن را با استفاده از DALL·E 2 ایجاد کرده باشید، چه آن را آپلود کرده باشید. این تکنیک که Out-painting نامیده میشود، به این معنی است که میتوانید آثار بزرگتری با AI art ایجاد کنید. همچنین یک eraser وجود دارد که میتوانید به وسیله آن تکههایی از یک تصویر را حذف کنید و آنها را با عناصر تولید شده توسط هوش مصنوعی جایگزین کنید. به این تکنیک، In-painting میگویند.
علاوه بر وب اپلیکیشن DALL·E 2، OpenAI یک API ارائه میدهد که به توسعه دهندگان اجازه میدهد برنامههایی بسازند که با DALL·E 2 ادغام شوند.
قیمت DALL·E 2: 50 اعتبار رایگان در هنگام ثبت نام، به علاوه 15 اعتبار رایگان در هر ماه. با پرداخت 15 دلار، میتوان 115 اعتبار اضافی خریداری کرد. قیمتگذاری API پیچیدهتر است، اما از 0.016 دلار به ازای هر تصویر شروع میشود.
AI Image Generator با بهترین نتایج: Midjourney

در میان تمام AI Image Generator ها، Midjourney بهترین نتایج را تولید میکند. تصاویری که این ابزار ایجاد میکند، منسجمتر از تصاویر بقیه ابزارهای مشابه به نظر میرسند، بافتها و رنگهای بهتری دارند، از نظر بصری جذابتر هستند، و به طور خاص و بدون درخواستهای زیاد برای تغییرات، زندهتر و طبیعیتر به نظر میرسند. گویا این AI Image Generator میتواند در یک مسابقه هنری برنده شود.
متأسفانه Midjourney یک نکته منفی دارد. نسخه بتای آن فقط از طریق Discord قابل دسترسی است. هنگامی که به سرور Midjourney’s Discord بپیوندید، یا ربات Midjourney را به یکی از سرورهایی که کنترل میکنید ادد کنید، میتوانید با تایپ کردن /Imagine و در ادامه نوشتن هر چیزی که میخواهید ببینید، یک prompt وارد کنید. سپس ربات چهار نوع تصویر متفاوت از prompt شما تولید میکند، که میتوانید آنها را دانلود، upscale یا ویرایش کنید.
هر تصویری که ایجاد میکنید، به طور پیشفرض در Midjourney’s Discord پست میشود. این جنبه از نظر اجتماعی جالب است، اما این معنی را هم میدهد که هر کسی میتواند تصاویر تولید شده توسط شما را ببیند. این برای هنرمندان لزوماً مشکلی نیست، اما اگر به دنبال استفاده از Midjourney برای اهداف تجاری هستید، این ممکن است یک مشکل باشد.
نکات تکمیلی درباره Midjourney
اگرچه همه اینها در کنار هم گیجکننده به نظر میرسند، اما نگران نباشید. اسناد کمکی Midjourney واقعاً خوب هستند و شما را در شروع کار با این AI Image Generator و کار با تمام ویژگیهای پیشرفته آن، مانند نسخههای مدل مختلف، upscaling تصاویر، ترکیب چندین تصویر و استفاده از پارامترهای مختلف برای کنترل چیزها، راهنمایی میکند. هنگامی که گزینههای مختلف را درک کنید، نتایج فوقالعادهای به دست خواهید آورد.
دوره آزمایشی رایگان Midjourney شما را به 0.4 ساعت GPU time یا حدود 25 تصویر محدود میکند. تصاویر شما نیز محدود به مجوز غیرتجاری CC BY-NC 4.0 Creative Commons هستند. پس از آن، پلن پایه از 10 دلار در ماه شروع میشود که با 3.3 ساعت GPU time یا حدود 200 تصویر ارائه میشود. شما همچنین میتوانید GPU time بیشتری خریداری کنید و از تصاویر خود به صورت تجاری استفاده کنید.
قیمتگذاری Midjourney: رایگان برای حدود 25 عکس. از 10 دلار در ماه برای پلن پایه که به شما امکان میدهد 200 تصویر در ماه تولید کنید و حقوق استفاده تجاری را برایتان فراهم میکند.
بهترین AI Image Generator برای سفارشیسازی و کنترل بیشتر: DreamStudio (Stable Diffusion)

بر خلاف DALL·E 2 و Midjourney ، Stable Diffusion یک AI Image Generator اپن سورس است. این بدان معناست که هر کس مهارتهای فنی لازم را داشته باشد، میتواند آن را دانلود کند و به طور محلی در کامپیوتر شخصی خود اجرا کند. همچنین به این معنی است که میتوانید این مدل را برای اهداف خاصی آموزش داده و تنظیم کنید. تقریباً تمام سرویسهایی که از هوش مصنوعی برای تولید پرترههای هنری، پرترههای تاریخی، رندرهای معماری و هر چیز دیگری استفاده میکنند، از موتور Stable Diffusion بهره میبرند. اگر مهارتهای لازم را دارید و میخواهید با هوش مصنوعی کار فوقالعادهای انجام دهید، استفاده از API مربوط به Stable Diffusion یک راه عالی برای این کار است.
Stable Diffusion همچنین در یک برنامه عمومی قدرتمند به نام DreamStudio که توسط توسعه دهندگان آن، یعنی Stability AI ساخته شده است، موجود است. (مانند موارد دیگر این لیست، نسخه بتا است).
ویژگیهای DreamStudio
DreamStudio به شما کنترل زیادی بر جنبههای مختلف کار با یک AI Image Generator را میدهد. هنگامی که prompt خود را تایپ میکنید، اسلایدرهایی وجود دارند که به شما امکان میدهند تعیین کنید تصویر نهایی چقدر بزرگ باشد، چقدر با درخواستی که دارید مطابقت داشته باشد، مدل Diffusion چند مرحله را طی کند، و چند تصویر تولید شود. حتی میتوانید ورژن الگوریتم مورد استفاده خود را انتخاب کنید و یک متد seed and sampling را وارد کنید تا نتایج تکرارپذیر دریافت کنید. (در غیر این صورت، آنها به صورت تصادفی تولید میشوند). DreamStudio همچنین دارای in-painting و out-painting است، اگرچه برای دسترسی به آنها باید از Chrome استفاده کنید.
این AI Image Generator بر روی یک سیستم اعتباری کار میکند. وقتی ثبت نام میکنید، 100 اعتبار رایگان دریافت میکنید که برای ساخت 500 تصویر با تنظیمات پیشفرض مناسب است. استفاده از یک مدل قدرتمندتر، تولید تصاویر بزرگتر یا تکرار آنها در مراحل بیشتر، اعتبارتان سریعتر مصرف میشود. وقتی کارتان تمام شد، باید اعتبار بیشتری بخرید. خرید اعتبار از 10 دلار برای 1000 اعتبار شروع میشود.
در مجموع، DreamStudio و Stable Diffusion بیشترین سفارشی سازی و قابلیت کنترل را در فرآیند تولید تصویر با هوش مصنوعی به شما میدهند. آنها شما را قادر میسازند تا به همان اندازه که میخواهید از هوش مصنوعی استفاده کنید، و حتی هوش مصنوعی خود را بسازید.
قیمت DreamStudio: 100 اعتبار رایگان. 10 دلار برای 1000 اعتبار.
نتیجهگیری
وقتی صحبت از AI Image Generator ها میشود، انتظار میرود همه چیز به سرعت تغییر کند.
تولید تصویر و هنر هوش مصنوعی عرصهای است که به سرعت در حال پیشرفت و تکامل است. دیدن اینکه موتورهای مختلف در طول یک سال چقدر پیشرفت کردهاند، باورنکردنی است. با توجه به اینکه اکنون صدها هزار نفر در حال استفاده از آنها هستند، توسعه دهندگان حجم عظیمی از دادهها را برای آموزش و اصلاح بیشتر مدلهای خود دریافت میکنند. بنابراین میتوانیم انتظار داشته باشیم که روز به روز بهتر شوند.
همچنین این احتمال وجود دارد که به زودی شاهد عرضه چند AI Image Generator جدید باشیم. گوگل هنوز Imagen را در دسترس عموم قرار نداده است و Meta نیز بر اساس الگوریتمهای Make-A-Scene خود، چیزی برای عموم منتشر نکرده است. تنها میتوان گفت که روزهای هیجانانگیزی در پیش است.