پژوهشگران دانشگاه استنفورد موفق شدند مدل استدلالی «S1» را آموزش دهند که عملکردی مشابه با ChatGPT o1 از خود نشان میدهد. نکته شگفتانگیز این مدل آن است که کل هزینه محاسباتی این پروژه تنها به ۵۰ دلار میرسد؛ امری که میتواند افقهای تازهای را برای توسعهدهندگان و تیمهای کوچک در عرصه هوش مصنوعی بگشاید.
هفته گذشته بود که مدل DeepSeek R1 با ادعای آموزش یک هوش مصنوعی متنباز استدلالی با عملکردی همسطح ChatGPT o1، دنیای فناوری را به حیرت انداخت. این به آن معنا بود با استفاده از نوآوریهای نرمافزاری و سختافزار معمولی، امکان ساخت مدلهای قدرتمند هوش مصنوعی وجود دارد. اما پس از مدتی، شایعاتی مطرح شد مبنی بر اینکه DeepSeek برای کاهش هزینهها از پاسخهای ChatGPT به عنوان دادههای آموزشی بهره برده است؛ ادعایی که توسط OpenAI نیز تأیید شد.
مدلهای هوش مصنوعی یکدیگر را آموزش میدهند
این دقیقاً همان رویکردی است که پژوهشگران برای ساخت S1 اتخاذ کردند. آنها با استفاده از روش جدیدی در فرایند آموزش، به کمک مدلهای از پیش موجود، از جمله نسخهای از Gemini 2.0 Flash Thinking Experimental، ۱۰۰۰ پرسش استدلالی با کیفیت بالا تولید کردند. سپس این پرسشها به عنوان دادههای آموزشی برای مدل s1-32B مبتنی بر مدل متنباز Qwen از شرکت چینی علیبابا به کار رفت. شگفتانگیزترین نکته این است که تنها در کمتر از ۳۰ دقیقه و با استفاده از این دادهها، مدل S1 آماده به کار شد و توانست عملکردی بهتر از نسخه آزمایشی o1 با بهبود ۲۷ درصدی در تستهای ریاضی ارائه دهد.

یکی از پژوهشگران این پروژه از استنفورد به TechCrunch گفته است که اجاره منابع محاسباتی لازم برای آموزش مدلی مشابه تنها حدود ۲۰ دلار هزینه دارد. از نوآوریهای دیگر پژوهشگران میتوان به تخصیص هوشمندتر منابع در زمان استنتاج و استفاده از توکن «انتظار» اشاره کرد که به مدل S1 کمک میکند تا پاسخ خود را بررسی کند و به نتایج دقیقتری دست یابد.
با وجود اینکه مدل S1 از تکنیک تقطیر (distillation) بهره برده، یعنی از خروجی مدلهای پیشرفتهتر الهام گرفته است. اما دستاورد آن نقطه عطفی در کاهش هزینههای توسعه هوش مصنوعیهای پیشرفته محسوب میشود.
در همین رابطه بخوانید:
- انقلابی در هوش مصنوعی؛ DeepSeek را میتوان تنها با 30 دلار بازسازی کرد!
- گاف عجیب DeepSeek در پاسخ به یک سوال ساده: من ChatGPT هستم!
- دیپ سیک چیست؟ 0 تا 100 هوش مصنوعی چینی DeepSeek
در واقع Distillation نشان داده که راهکار خوبی برای بازآفرینی ارزانقیمت یک مدل هوش مصنوعی گرانقیمت است اما به واسطه آن نمیتوان به مدلهایی با تواناییهای بیشتر از آن چیزی که امروز هست دست یافت چرا که عملکرد در بهترین حالت نزدیک به مدلهایی خواهد بود که از آن بهره میگیرند. بنابراین بعید است این موضوع باعث کاهش سرمایهگذاری در توسعه مدلهای اصلی و بزرگ فعلی شود.
برای علاقهمندان به جزئیات بیشتر، مقاله پژوهشی S1 در این لینک و کد منبع آن در GitHub قابل دسترس است.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت