شرکت چینی دیپسیک مدل هوش مصنوعی جدیدی به نام DeepSeek-OCR معرفی کرده که با تبدیل متون و اسناد طولانی به تصویر، انقلابی در پردازش AI ایجاد میکند. این روش که «فشردهسازی بصری-متنی» نام دارد، با حفظ دقت بالا، مصرف توکنها را تا ۲۰ برابر کاهش میدهد.
شرکت هوش مصنوعی چینی Deepseek که پیشتر با مدل Deepseek R1 سر و صدای زیادی به راه انداخته بود، حال با ایده تازهای برای سبکتر کردن مدلهای AI بازگشته است. مدل جدید این شرکت با بهرهگیری از قابلیتهای چندوجهی (Multi Modal) خود، متون و اسناد حجیم را ابتدا به تصویر تبدیل میکند تا پردازش آنها با بهرهوری بسیار بالاتری انجام شود. این فرآیند که «فشردهسازی بصری-متنی» (vision-text compression) نام گرفته، مصرف توکنها را به شدت کاهش میدهد.
روش رمزنگاری بصری این مدل قادر است حجم زیادی از متن را به تصاویر فشرده تبدیل کند. زمانی که مدل قصد دسترسی به این اطلاعات را دارد، به جای پردازش متن اصلی، تصویر را تحلیل میکند که به ۷ تا ۲۰ برابر توکن کمتری نیاز دارد. این کاهش چشمگیر در مصرف منابع، با حفظ سطح قابل توجهی از دقت همراه است.
فشردهسازی بصری-متنی چگونه کار میکند؟
این مدل جدید که DeepSeek-OCR نام دارد، از دو مؤلفه اصلی تشکیل شده است: یک بخش کدگذاری به نام DeepEncoder و یک رمزگشا با نام DeepSeek3B-MoE-A570M. وظیفه بخش کدگذاری، دریافت حجم بالایی از دادههای متنی و تبدیل آنها به تصاویر با وضوح بالا است.
در مرحله بعد، سیستم رمزگشا که بهطور ویژه برای درک محتوای متنی از دل تصاویر باکیفیت بهینه شده، وارد عمل میشود. این بخش با تقسیم هر وظیفه به زیرشبکههای مجزا و استفاده از «ایجنتهای متخصص» هوش مصنوعی برای هر بخش، با مصرف توکن بسیار کمتر اطلاعات متنی موجود در تصویر را استخراج میکند.
دقت در برابر فشردهسازی
بر اساس نتایج بنچمارک منتشرشده توسط توسعهدهندگان، زمانی که نرخ فشردهسازی برای کاهش حجم تصاویر کمتر از ۱۰ برابر باشد، مدل DeepSeek-OCR میتواند به دقت ۹۷ درصدی در رمزگشایی اطلاعات دست یابد. اما با افزایش نرخ فشردهسازی به ۲۰ برابر، این دقت به ۶۰ درصد کاهش پیدا میکند.
در همین رابطه بخوانید:
- دیپ سیک چیست؟ 0 تا 100 هوش مصنوعی چینی DeepSeek
- شاهکار هوش مصنوعی چینی DeepSeek؛ دور زدن CUDA با برنامهنویسی سطح پایین PTX
- ترفند جالب Alibaba برای کاهش وابستگی به کارتهای گرافیک انویدیا
این فناوری بهویژه برای پردازش دادههای جدولی، نمودارها و دیگر روشهای نمایش بصری اطلاعات بسیار کارآمد است. توسعهدهندگان معتقدند این قابلیت میتواند کاربردهای گستردهای در حوزههایی مانند امور مالی، علوم و پزشکی داشته باشد. همچنین این روش به عنوان راهی برای تولید دادههای آموزشی برای مدلهای آینده نیز مطرح شده است.
این مدل هم مثل محصولات قبلی Deepseek، در پلتفرمهای متنباز Hugging Face و GitHub در دسترس است.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت