اگر تا پیش از این تولید ویدئو با هوش مصنوعی به سخت‌افزارهای قوی نیاز داشت، بهتر است بدانید حالا انجام این کار با کارت‌های گرافیک 6 گیگابایتی رایج امکان پذیر است. این نوآوری ساخت ویدئو با مدل‌های دیفیوشن (diffusion) بدون نیاز به حجم زیادی حافظه ویدئویی را فراهم کرده است.

در هفته‌ای که گذشت، لو‌مین ژانگ از گیت‌هاب، با همکاری مانیش آگراوالا از دانشگاه استنفورد، معماری جدیدی به نام FramePack را معرفی کردند؛ روشی نوآورانه برای ساخت ویدیوهای مبتنی بر مدل‌های دیفیوشن که بهره‌وری پردازشی را بالا برده و امکان تولید ویدیوهایی بلندتر و با کیفیت‌تر را فراهم می‌سازد.

بر اساس این طرح، یک مدل با ۱۳ میلیارد پارامتر که با معماری FramePack توسعه داده شده، می‌تواند یک کلیپ ۶۰ ثانیه‌ای را با تنها ۶ گیگابایت حافظه گرافیکی تولید کند. اهمیت موضوع اینجاست که 6 گیگابایت حافظه ویدئویی در بیشتر کارت‌های گرافیک میان‌رده به راحتی یافت می‌شود.

حل یک چالش دیرینه در مدل‌های دیفیوشن

مدل‌های ویدیویی مبتنی بر دیفیوشن معمولاً برای ساخت هر فریم به داده‌هایی از فریم‌های قبلی نیاز دارند. این موضوع باعث می‌شود با افزایش طول ویدیو، نیاز به حافظه گرافیکی هم به طرز چشمگیری افزایش یابد. مدل‌های متداول اغلب به حداقل ۱۲ گیگابایت حافظه ویدئویی نیاز دارند؛ در غیر این صورت، کیفیت پایین‌تر ویدیو یا محدودیت در مدت‌زمان آن اجتناب‌ناپذیر است.

FramePack اما رویکرد متفاوتی دارد. این معماری فریم‌ها را بر اساس اهمیت‌شان فشرده‌سازی می‌کند. به این ترتیب، میزان حافظه مورد نیاز کاهش می‌یابد بدون آنکه کیفیت به شکل محسوسی افت کند. نویسندگان مقاله اشاره کرده‌اند که بار پردازشی FramePack با مدل‌های دیفیوشن تصویری قابل مقایسه است.

تولید ویدئو با FramePack

از نظر سخت‌افزاری، این سیستم به کارت‌های گرافیک سری RTX 30، 40 یا 50 با پشتیبانی از  FP16 و BF16 نیاز دارد. هنوز پشتیبانی از ریزمعماری‌های قدیمی‌تر مانند Turing یا سخت‌افزارهای AMD و Intel تأیید نشده است. این نرم‌افزار همچنین با سیستم‌عامل لینوکس سازگار است.

کارت گرافیک RTX 4090 انویدیا دارای سرعت پردازشی حدود ۰٫۶ فریم در ثانیه است، بنابراین زمان رندر بسته به مدل کارت گرافیک شما متفاوت خواهد بود. با این حال فریم‌ها به محض تولید، نمایش داده می‌شوند و بازخورد بصری آنی در اختیار کاربر قرار می‌گیرد.

اگرچه محدودیت ۳۰ فریم بر ثانیه در مدل فعلی ممکن است برای برخی کاربران چالش‌برانگیز باشد، اما دستاورد اصلی FramePack در کاهش وابستگی به سرویس‌های گران‌قیمت ابری و فراهم‌کردن امکان تولید محتوای هوش مصنوعی در سطح محلی است.

حتی اگر تولید محتوا شغل اصلی شما نباشد، این فناوری می‌تواند ابزاری سرگرم‌کننده برای ساخت GIF، میم یا ویدئوهای شخصی سرگرم کننده باشد. آنچه مسلم است، FramePack در حال باز کردن دریچه‌ای تازه به روی آینده‌ی تولید ویدیو با هوش مصنوعی است.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
نظر شما پس از تایید مدیر منتشر خواهد شد.

نظرات (1)

  • مهمان - علیرضا

    باز هم در دنیای واقعی چندان قابل استفاده نیست.
    هر ثانیه ویدیو اگر ۳۰ فریم باشه برای تولید یک ثانیه ویدیو، کارت گرافیک باید ۵۰ ثانیه کار کنه. برای تولید فقط یک دقیقه ویدیو، شما باید نزدیک یک ساعت منتظر تموم شدن پردازش باشید. تازه اونم با کارت گرافیک گرون قیمت ۴۰۹۰. کارت‌های قدیمی تر باید ساعتها منتظر باشید تا فقط یک دقیقه ویدیو تولید بشه‌‌

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید