دانشمندان با 50 دلار مدل هوش مصنوعی در حد ChatGPT o1 ساختند!

توضیحات: حمیدرضا زارع; دسته: اخبار فناوری; 20 بهمن 1403 13:00

پژوهشگران دانشگاه‌‌ استنفورد موفق شدند مدل استدلالی «S1» را آموزش دهند که عملکردی مشابه با ChatGPT o1 از خود نشان می‌دهد. نکته شگفت‌انگیز این مدل آن است که کل هزینه محاسباتی این پروژه تنها به ۵۰ دلار می‌رسد؛ امری که می‌تواند افق‌های تازه‌ای را برای توسعه‌دهندگان و تیم‌های کوچک در عرصه هوش مصنوعی بگشاید.

هفته گذشته بود که مدل DeepSeek R1 با ادعای آموزش یک هوش مصنوعی متن‌باز استدلالی با عملکردی هم‌سطح ChatGPT o1، دنیای فناوری را به حیرت انداخت. این به آن معنا بود با استفاده از نوآوری‌های نرم‌افزاری و سخت‌افزار معمولی، امکان ساخت مدل‌های قدرتمند هوش مصنوعی وجود دارد. اما پس از مدتی، شایعاتی مطرح شد مبنی بر اینکه DeepSeek برای کاهش هزینه‌ها از پاسخ‌های ChatGPT به عنوان داده‌های آموزشی بهره برده است؛ ادعایی که توسط OpenAI نیز تأیید شد.

مدل‌های هوش مصنوعی یکدیگر را آموزش می‌دهند

این دقیقاً همان رویکردی است که پژوهشگران برای ساخت S1 اتخاذ کردند. آن‌ها با استفاده از روش جدیدی در فرایند آموزش، به کمک مدل‌های از پیش موجود، از جمله نسخه‌ای از Gemini 2.0 Flash Thinking Experimental، ۱۰۰۰ پرسش استدلالی با کیفیت بالا تولید کردند. سپس این پرسش‌ها به عنوان داده‌های آموزشی برای مدل s1-32B مبتنی بر مدل متن‌باز Qwen از شرکت چینی علی‌بابا به کار رفت. شگفت‌انگیزترین نکته این است که تنها در کمتر از ۳۰ دقیقه و با استفاده از این داده‌ها، مدل S1 آماده به کار شد و توانست عملکردی بهتر از نسخه آزمایشی o1 با بهبود ۲۷ درصدی در تست‌های ریاضی ارائه دهد.

مقایسه مدل S1 با Chatgpt — افزایش عملکرد مدل S1 بعد از آموزش با داده‌های Gemini. (منبع: arxiv.org)

یکی از پژوهشگران این پروژه از استنفورد به TechCrunch گفته است که اجاره منابع محاسباتی لازم برای آموزش مدلی مشابه تنها حدود ۲۰ دلار هزینه دارد. از نوآوری‌های دیگر پژوهشگران می‌توان به تخصیص هوشمندتر منابع در زمان استنتاج و استفاده از توکن «انتظار» اشاره کرد که به مدل S1 کمک می‌کند تا پاسخ خود را بررسی کند و به نتایج دقیق‌تری دست یابد.

با وجود اینکه مدل S1 از تکنیک تقطیر (distillation) بهره برده، یعنی از خروجی مدل‌های پیشرفته‌تر الهام گرفته است. اما دستاورد آن نقطه عطفی در کاهش هزینه‌های توسعه هوش مصنوعی‌های پیشرفته محسوب می‌شود.

در همین رابطه بخوانید:

- انقلابی در هوش مصنوعی؛ DeepSeek را می‌توان تنها با 30 دلار بازسازی کرد!
- گاف عجیب DeepSeek در پاسخ به یک سوال ساده: من ChatGPT هستم!
- دیپ سیک چیست؟ 0 تا 100 هوش مصنوعی چینی DeepSeek

در واقع Distillation نشان داده که راهکار خوبی برای بازآفرینی ارزان‌قیمت یک مدل هوش مصنوعی گران‌قیمت است اما به واسطه آن نمی‌توان به مدل‌هایی با توانایی‌های بیشتر از آن چیزی که امروز هست دست یافت چرا که عملکرد در بهترین حالت نزدیک به مدل‌هایی خواهد بود که از آن بهره می‌گیرند. بنابراین بعید است این موضوع باعث کاهش سرمایه‌گذاری در توسعه مدل‌های اصلی و بزرگ فعلی شود.

برای علاقه‌مندان به جزئیات بیشتر، مقاله پژوهشی S1 در این لینک و کد منبع آن در GitHub قابل دسترس است.

مطالب مرتبط پیشنهادی

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

نظرات (4)

مهمان - محمد

تا دیروز میگفتند deepseekدروغ میگه که خیلی ارزونه دولت چین پشتشه!!!الان ادعا میکنند هوش مصمنوعی ساختند ارزونتر از deepseek !!!نمییرید از این همه تناقض.
این نشون میده پروپاگاندای غربی با جو سازی و غوغا سالاری برای ضربه به رقباش نهایت استفاده رو میبره و مسائلی رو در مورد رقباش برجسته میکنه که اساسا وجود خارجی ندارند
الان ادعا کردند چینیها با deepseek از مردم جاسوسی می کنند!!

حدود 10 ماه قبل

0 دوست دارم پاسخ
مهمان - naghi
در پاسخ به: مهمان - محمد

با دولار 93 تومن حساب کنیم میشه چند. خوب اگر این طوره چرا دانشمندان ایران ما انجامش ندادن! تحریما که هیچ تاثیری نداشته

حدود 10 ماه قبل

0 دوست دارم پاسخ
مهمان - علی
در پاسخ به: مهمان - naghi

نقی این چه ربطی به دلار 93 تمن داره؟ اصلا هوش مصنوعی چه ربطی به ایران داره؟
در رابطه با دلار هم، بیشتر این افزایش قیمت واسه تحریم آمریکاست. حاضری توی فقر زندگی کنی ولی از آمریکا دفاع کنی؟ گند زدن به زندگیمون بعد واسشون دست میزنی

حدود 10 ماه قبل

0 دوست دارم پاسخ
مهمان - علی
در پاسخ به: مهمان - علی

دمت گرم

حدود 10 ماه قبل

0 دوست دارم پاسخ