شرکت چینی دیپ‌سیک مدل هوش مصنوعی جدیدی به نام DeepSeek-OCR معرفی کرده که با تبدیل متون و اسناد طولانی به تصویر، انقلابی در پردازش AI ایجاد می‌کند. این روش که «فشرده‌سازی بصری-متنی» نام دارد، با حفظ دقت بالا، مصرف توکن‌ها را تا ۲۰ برابر کاهش می‌دهد.

شرکت هوش مصنوعی چینی Deepseek که پیش‌تر با مدل‌ Deepseek R1 سر و صدای زیادی به راه انداخته بود، حال با ایده تازه‌ای برای سبک‌تر کردن مدل‌های AI بازگشته است. مدل جدید این شرکت با بهره‌گیری از قابلیت‌های چندوجهی (Multi Modal) خود، متون و اسناد حجیم را ابتدا به تصویر تبدیل می‌کند تا پردازش آن‌ها با بهره‌وری بسیار بالاتری انجام شود. این فرآیند که «فشرده‌سازی بصری-متنی» (vision-text compression) نام گرفته، مصرف توکن‌ها را به شدت کاهش می‌دهد.

روش رمزنگاری بصری این مدل قادر است حجم زیادی از متن را به تصاویر فشرده تبدیل کند. زمانی که مدل قصد دسترسی به این اطلاعات را دارد، به جای پردازش متن اصلی، تصویر را تحلیل می‌کند که به ۷ تا ۲۰ برابر توکن کمتری نیاز دارد. این کاهش چشمگیر در مصرف منابع، با حفظ سطح قابل توجهی از دقت همراه است.

فشرده سازی بصری-متنی در Deepseek OCR

فشرده‌سازی بصری-متنی چگونه کار می‌کند؟

این مدل جدید که DeepSeek-OCR نام دارد، از دو مؤلفه اصلی تشکیل شده است: یک بخش کدگذاری به نام DeepEncoder و یک رمزگشا با نام DeepSeek3B-MoE-A570M. وظیفه بخش کدگذاری، دریافت حجم بالایی از داده‌های متنی و تبدیل آن‌ها به تصاویر با وضوح بالا است.

در مرحله بعد، سیستم رمزگشا که به‌طور ویژه برای درک محتوای متنی از دل تصاویر باکیفیت بهینه شده، وارد عمل می‌شود. این بخش با تقسیم هر وظیفه به زیرشبکه‌های مجزا و استفاده از «ایجنت‌های متخصص» هوش مصنوعی برای هر بخش، با مصرف توکن بسیار کمتر اطلاعات متنی موجود در تصویر را استخراج می‌کند.

دقت در برابر فشرده‌سازی

بر اساس نتایج بنچمارک منتشرشده توسط توسعه‌دهندگان، زمانی که نرخ فشرده‌سازی برای کاهش حجم تصاویر کمتر از ۱۰ برابر باشد، مدل DeepSeek-OCR می‌تواند به دقت ۹۷ درصدی در رمزگشایی اطلاعات دست یابد. اما با افزایش نرخ فشرده‌سازی به ۲۰ برابر، این دقت به ۶۰ درصد کاهش پیدا می‌کند.

در همین رابطه بخوانید:

- دیپ سیک چیست؟ 0 تا 100 هوش مصنوعی چینی DeepSeek
شاهکار هوش مصنوعی چینی DeepSeek؛ دور زدن CUDA با برنامه‌نویسی سطح پایین PTX  
ترفند جالب Alibaba برای کاهش وابستگی به کارت‌های گرافیک انویدیا

این فناوری به‌ویژه برای پردازش داده‌های جدولی، نمودارها و دیگر روش‌های نمایش بصری اطلاعات بسیار کارآمد است. توسعه‌دهندگان معتقدند این قابلیت می‌تواند کاربردهای گسترده‌ای در حوزه‌هایی مانند امور مالی، علوم و پزشکی داشته باشد. همچنین این روش به عنوان راهی برای تولید داده‌های آموزشی برای مدل‌های آینده نیز مطرح شده است.

این مدل‌ هم مثل محصولات قبلی Deepseek، در پلتفرم‌های متن‌باز Hugging Face و GitHub در دسترس است.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
نظر شما پس از تایید مدیر منتشر خواهد شد.
  • هیچ نظری یافت نشد

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید