متا (فیسبوک سابق) یکی از غولهای فناوری محسوب میشود که علاقه زیادی به حوزه هوش مصنوعی داشته و قصد دارد این زمینه به یک پیشرو تبدیل شود. در همین راستا، محققان متا از یک مدل هوش مصنوعی جدید برای تبدیل متن به تصویر رونمایی کردهاند که نتایج بسیار بهتری نسبت به سایر مدلهای AI موجود ارائه میکند.
شرکت متا که اخیراً به شکل جدی بر روی پیشبرد تحقیقات خود در زمینه اشکال مختلف هوش مصنوعی مولد تمرکز کرده، در تازهترین دستاورد خود از یک مدل AI جدید به نام CM3leon رونمایی کرده است.

CM3leon یک مدل هوش مصنوعی چند وجهی برای ایجاد تصویر بر اساس متن بوده و قابلیت تبدیل عکس به متن و حتی تولید زیرنویس و توضیحات برای تصاویر را هم دارد.
همانطور که میدانید، ساخت تصویر بر اساس متن با کمک هوش مصنوعی دیگر چیز جدیدی نیست و در این راستا ابزارهای AI گوناگونی همچون Stable Diffusion، DALL-E و Midjourney عرضه شده است.
با این حال چیزی که باعث تفاوت CM3leon شده، تکنیکهایی است که متا برای ساخت و آموزش این مدل هوش مصنوعی اتخاذ کرده و مدعی شده که قابلیتهای ویژهای به همراه دارد.
یک هوش مصنوعی مولد بسیار کارآمد
به گزارش Venturebeat، در حال حاضر اغلب مدلهای تولید تصویر از متن به فناوری مدلهای انتشاری (Diffusion models) متکی هستند. با این حال، CM3leon از فناوری متفاوتی به نام مدل خود کاهنده مبتنی بر توکن (Token-based Autoregressive Model) بهره میبرد.

محققان شرکت متا در مقالهای با عنوان مقیاسگذاری مدلهای چندوجهی خودکار، در رابطه با آموزش و تنظیم دستورالعملهای این مدل هوش مصنوعی جدید عنوان کردهاند:
هوش مصنوعی مبتنی بر مدلهای انتشاری به دلیل عملکرد قوی و هزینه محاسباتی نسبتاً متوسط، در زمینه تولید تصویر محبوب شدهاند. در مقابل، مدلهای اتورگرسیو مبتنی بر توکن میتوانند نتایج فوقالعاده بهتری را ارائه کنند، هرچند که آموزش و استفاده برای استنتاج بسیار گرانتر خواهد بود.
رویکرد اخلاقی متا برای آموزش تصویر این مدل جدید
طرح کلی نحوه عملکرد CM3leon تا حدودی شبیه به نحوه عملکرد مدلهای تولیدکننده متن موجود است.
متا به جای استفاده از تصاویر موجود در فضای اینترنت (که روشی برای برخی مدلهای هوش مصنوعی چالشهای قانونی را به همراه داشته است)، مسیر دیگری را برای آموزش CM3leon پیش گرفته است.
در مقاله مرتبط با این مدل جدید توضیح داده شده است:
پیامدهای اخلاقی و قضائی مرتبط با منبعیابی دادههای تصویری در حوزه تولید تصویر بر اساس متن، موضوع بحثبرانگیز و بسیار مهمی است. برای آموزش این مدل هوش مصنوعی جدید، ما فقط از تصاویر دارای مجوز از Shutterstock استفاده کردهایم. در نتیجه۷ میتوانیم از نگرانیهای مربوط به مالکیت و انتساب تصویر، بدون به خطر انداختن عملکرد اجتناب کنیم.
پیش از آغاز روند آموزش بر اساس تصاویر، مدل CM3leon از یک مرحله تنظیم دقیق تحت نظارت (SFT) عبور میکند و محققان متا مدعی هستند که این کار باعث شده تا نتایج به دست آمده از CM3leon هم از نظر سطح استفاده از منابع و هم از نظر کیفیت تصویر، به مراتب بهتر از سایر رقبا باشند.

شایان ذکر است که SFT همان رویکردی است که OpenAI برای کمک به آموزش ChatGPT استفاده میکند.
با نگاهی به مجموعه نمونههایی که متا توسط هوش مصنوعی CM3leon تولید کرده است، میتوان نتایج چشمگیر و همچنین توانایی این مدل AI جدید در درک متنهای پیچیده و چند مرحلهای را مشاهده کرد.
در همین رابطه بخوانید:
- تبدیل متن به عکس را فراموش کنید؛ این هوش مصنوعی جدید یک ویدئوی کامل میسازد
- بهترین تولید کننده تصویر هوش مصنوعی در سال 2023 (بهترین سایت ها و ابزارهای مولد تصویر AI)
در حال حاضر هوش مصنوعی CM3leon در مرحله آموزش و تحقیقات قرار داشته و مشخص نیست که متا چه زمانی این فناوری را در قالب یکی از پلتفرمهای جدید خود به صورت عمومی در دسترس قرار میدهد.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت