متا (فیس‌بوک سابق) یکی از غول‌های فناوری محسوب می‌شود که علاقه زیادی به حوزه هوش مصنوعی داشته و قصد دارد این زمینه به یک پیشرو تبدیل شود. در همین راستا، محققان متا از یک مدل هوش مصنوعی جدید برای تبدیل متن به تصویر رونمایی کرده‌اند که نتایج بسیار بهتری نسبت به سایر مدل‌های AI موجود ارائه می‌کند.

شرکت متا که اخیراً به شکل جدی بر روی پیشبرد تحقیقات خود در زمینه اشکال مختلف هوش مصنوعی مولد تمرکز کرده، در تازه‌ترین دستاورد خود از یک مدل AI جدید به نام CM3leon رونمایی کرده است.

هوش مصنوعی جدید متا به نام CM3leon
نمونه تصاویر تولید شده توسط CM3leon

CM3leon یک مدل هوش مصنوعی چند وجهی برای ایجاد تصویر بر اساس متن بوده و قابلیت تبدیل عکس به متن و حتی تولید زیرنویس و توضیحات برای تصاویر را هم دارد.

همان‌طور که می‌دانید، ساخت تصویر بر اساس متن با کمک هوش مصنوعی دیگر چیز جدیدی نیست و در این راستا ابزارهای AI گوناگونی همچون Stable Diffusion، DALL-E  و Midjourney عرضه شده است.

با این حال چیزی که باعث تفاوت CM3leon شده، تکنیک‌هایی است که متا برای ساخت و آموزش این مدل هوش مصنوعی اتخاذ کرده و مدعی شده که قابلیت‌های ویژه‌ای به همراه دارد.

یک هوش مصنوعی مولد بسیار کارآمد

به گزارش Venturebeat، در حال حاضر اغلب مدل‌های تولید تصویر از متن به فناوری مدل‌های انتشاری (Diffusion models) متکی هستند. با این حال، CM3leon از فناوری متفاوتی به نام مدل خود کاهنده مبتنی بر توکن (Token-based Autoregressive Model) بهره می‌برد.

نمونه تصاویر تولید شده توسط CM3leon
نمونه تصاویر تولید شده توسط CM3leon

محققان شرکت متا در مقاله‌ای با عنوان مقیاس‌گذاری مدل‌های چندوجهی خودکار، در رابطه با آموزش و تنظیم دستورالعمل‌های این مدل هوش مصنوعی جدید عنوان کرده‌اند:

هوش مصنوعی مبتنی بر مدل‌های انتشاری به دلیل عملکرد قوی و هزینه محاسباتی نسبتاً متوسط، در زمینه تولید تصویر محبوب شده‌اند. در مقابل، مدل‌های اتورگرسیو مبتنی بر توکن می‌توانند نتایج فوق‌العاده بهتری را ارائه کنند، هرچند که آموزش و استفاده برای استنتاج بسیار گران‌تر خواهد بود.

رویکرد اخلاقی متا برای آموزش تصویر این مدل جدید

طرح کلی نحوه عملکرد CM3leon تا حدودی شبیه به نحوه عملکرد مدل‌های تولیدکننده متن موجود است.

متا به جای استفاده از تصاویر موجود در فضای اینترنت (که روشی برای برخی مدل‌های هوش مصنوعی چالش‌های قانونی را به همراه داشته است)، مسیر دیگری را برای آموزش CM3leon پیش گرفته است.

در مقاله مرتبط با این مدل جدید توضیح داده شده است:

پیامد‌های اخلاقی و قضائی مرتبط با منبع‌یابی داده‌های تصویری در حوزه تولید تصویر بر اساس متن، موضوع بحث‌برانگیز و بسیار مهمی است. برای آموزش این مدل هوش مصنوعی جدید، ما فقط از تصاویر دارای مجوز از Shutterstock استفاده کرده‌ایم. در نتیجه۷ می‌توانیم از نگرانی‌های مربوط به مالکیت و انتساب تصویر، بدون به خطر انداختن عملکرد اجتناب کنیم.

پیش از آغاز روند آموزش بر اساس تصاویر، مدل CM3leon از یک مرحله تنظیم دقیق تحت نظارت (SFT) عبور می‌کند و محققان متا مدعی هستند که این کار باعث شده تا نتایج به دست آمده از CM3leon هم از نظر سطح استفاده از منابع و هم از نظر کیفیت تصویر، به مراتب بهتر از سایر رقبا باشند.

نمونه تصاویر تولید شده توسط CM3leon
نمونه تصاویر تولید شده توسط CM3leon

شایان ذکر است که SFT همان رویکردی است که OpenAI برای کمک به آموزش ChatGPT استفاده می‌کند.

با نگاهی به مجموعه نمونه‌هایی که متا توسط هوش مصنوعی CM3leon تولید کرده است، می‌توان نتایج چشمگیر و همچنین توانایی این مدل AI جدید در درک متن‌های پیچیده و چند مرحله‌ای را مشاهده کرد.

در همین رابطه بخوانید:

- تبدیل متن به عکس را فراموش کنید؛ این هوش مصنوعی جدید یک ویدئوی کامل می‌سازد
بهترین تولید کننده تصویر هوش مصنوعی در سال 2023 (بهترین سایت ها و ابزارهای مولد تصویر AI)

در حال حاضر هوش مصنوعی CM3leon در مرحله آموزش و تحقیقات قرار داشته و مشخص نیست که متا چه زمانی این فناوری را در قالب یکی از پلتفرم‌های جدید خود به صورت عمومی در دسترس قرار می‌دهد.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
نظر شما پس از تایید مدیر منتشر خواهد شد.
  • هیچ نظری یافت نشد

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید