پژوهشگران دانشگاه‌‌ استنفورد موفق شدند مدل استدلالی «S1» را آموزش دهند که عملکردی مشابه با ChatGPT o1 از خود نشان می‌دهد. نکته شگفت‌انگیز این مدل آن است که کل هزینه محاسباتی این پروژه تنها به ۵۰ دلار می‌رسد؛ امری که می‌تواند افق‌های تازه‌ای را برای توسعه‌دهندگان و تیم‌های کوچک در عرصه هوش مصنوعی بگشاید.

هفته گذشته بود که مدل DeepSeek R1 با ادعای آموزش یک هوش مصنوعی متن‌باز استدلالی با عملکردی هم‌سطح ChatGPT o1، دنیای فناوری را به حیرت انداخت. این به آن معنا بود با استفاده از نوآوری‌های نرم‌افزاری و سخت‌افزار معمولی، امکان ساخت مدل‌های قدرتمند هوش مصنوعی وجود دارد. اما پس از مدتی، شایعاتی مطرح شد مبنی بر اینکه DeepSeek برای کاهش هزینه‌ها از پاسخ‌های ChatGPT به عنوان داده‌های آموزشی بهره برده است؛ ادعایی که توسط OpenAI نیز تأیید شد.

s1-2.jpg

مدل‌های هوش مصنوعی یکدیگر را آموزش می‌دهند

این دقیقاً همان رویکردی است که پژوهشگران برای ساخت S1 اتخاذ کردند. آن‌ها با استفاده از روش جدیدی در فرایند آموزش، به کمک مدل‌های از پیش موجود، از جمله نسخه‌ای از Gemini 2.0 Flash Thinking Experimental، ۱۰۰۰ پرسش استدلالی با کیفیت بالا تولید کردند. سپس این پرسش‌ها به عنوان داده‌های آموزشی برای مدل s1-32B  مبتنی بر مدل متن‌باز Qwen از شرکت چینی علی‌بابا به کار رفت. شگفت‌انگیزترین نکته این است که تنها در کمتر از ۳۰ دقیقه و با استفاده از این داده‌ها، مدل S1 آماده به کار شد و توانست عملکردی بهتر از نسخه آزمایشی o1 با بهبود ۲۷ درصدی در تست‌های ریاضی ارائه دهد.

مقایسه مدل S1 با Chatgpt
افزایش عملکرد مدل S1 بعد از آموزش با داده‌های Gemini. (منبع: arxiv.org)

یکی از پژوهشگران این پروژه از استنفورد به TechCrunch گفته است که اجاره منابع محاسباتی لازم برای آموزش مدلی مشابه تنها حدود ۲۰ دلار هزینه دارد. از نوآوری‌های دیگر پژوهشگران می‌توان به تخصیص هوشمندتر منابع در زمان استنتاج و استفاده از توکن «انتظار» اشاره کرد که به مدل S1 کمک می‌کند تا پاسخ خود را بررسی کند و به نتایج دقیق‌تری دست یابد.

با وجود اینکه مدل S1 از تکنیک تقطیر (distillation) بهره برده، یعنی از خروجی مدل‌های پیشرفته‌تر الهام گرفته است. اما دستاورد آن نقطه عطفی در کاهش هزینه‌های توسعه هوش مصنوعی‌های پیشرفته محسوب می‌شود.

در همین رابطه بخوانید:

- انقلابی در هوش مصنوعی؛ DeepSeek را می‌توان تنها با 30 دلار بازسازی کرد!
گاف عجیب DeepSeek در پاسخ به یک سوال ساده: من ChatGPT هستم! 
دیپ سیک چیست؟ 0 تا 100 هوش مصنوعی چینی DeepSeek

در واقع Distillation نشان داده که راهکار خوبی برای بازآفرینی ارزان‌قیمت یک مدل هوش مصنوعی گران‌قیمت است اما به واسطه آن نمی‌توان به مدل‌هایی با توانایی‌های بیشتر از آن چیزی که امروز هست دست یافت چرا که عملکرد در بهترین حالت نزدیک به مدل‌هایی خواهد بود که از آن بهره می‌گیرند. بنابراین بعید است این موضوع باعث کاهش سرمایه‌گذاری در توسعه مدل‌های اصلی و بزرگ فعلی شود.

برای علاقه‌مندان به جزئیات بیشتر، مقاله پژوهشی  S1 در این لینک و کد منبع آن در GitHub قابل دسترس است.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
نظر شما پس از تایید مدیر منتشر خواهد شد.

نظرات (4)

  • مهمان - محمد

    تا دیروز میگفتند deepseekدروغ میگه که خیلی ارزونه دولت چین پشتشه!!!الان ادعا میکنند هوش مصمنوعی ساختند ارزونتر از deepseek !!!نمییرید از این همه تناقض.
    این نشون میده پروپاگاندای غربی با جو سازی و غوغا سالاری برای ضربه به رقباش نهایت استفاده رو میبره و مسائلی رو در مورد رقباش برجسته میکنه که اساسا وجود خارجی ندارند
    الان ادعا کردند چینیها با deepseek از مردم جاسوسی می کنند!!

  • مهمان - naghi

    در پاسخ به: مهمان - محمد

    با دولار 93 تومن حساب کنیم میشه چند. خوب اگر این طوره چرا دانشمندان ایران ما انجامش ندادن! تحریما که هیچ تاثیری نداشته;)

  • مهمان - علی

    در پاسخ به: مهمان - naghi

    نقی این چه ربطی به دلار 93 تمن داره؟ اصلا هوش مصنوعی چه ربطی به ایران داره؟
    در رابطه با دلار هم، بیشتر این افزایش قیمت واسه تحریم آمریکاست. حاضری توی فقر زندگی کنی ولی از آمریکا دفاع کنی؟ گند زدن به زندگیمون بعد واسشون دست میزنی

  • مهمان - علی

    در پاسخ به: مهمان - علی

    دمت گرم

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید