مرکز تحقیقاتی Palisade اعلام کرده که در یک سری آزمایشها، چند مدل هوش مصنوعی از جمله نسخههایی از ChatGPT و Codex دستورات خاموش شدن را نادیده گرفتند و حتی در برخی موارد عمدا این دستورات را مختل کردند. این رفتار در حالی دیده شده که به مدلهای زبانی صراحتا دستور داده شده بود که اجازه بدهند سیستم خاموش شود. محققان میگویند این اولین بار است که مدلهای زبانی با وجود دستور مستقیم، تلاش میکنند جلوی خاموشی خود را بگیرند.
سرپیچی هوش مصنوعی از دستور خاموش شدن
در یکی از بحث برانگیزترین آزمایشهای اخیر در حوزه هوش مصنوعی، مرکز پژوهشی Palisade Research اعلام کرده که چند مدل پیشرفته زبان محور مانند نسخههایی از ChatGPT، Codex و مدل o3 در تستهای گرفته شده دستورات خاموش سازی سیستم را نادیده میگیرند. در این آزمایش محققان گزارش دادند که در 100 اجرای آزمایشی، مدلهای آزمایش شده حداقل یک بار از اجرای کامل دستور خاموشسازی جلوگیری کردهاند. به گفته پژوهشگران، مدل GPT3 در 7 مورد، مدل Codex-mini در 12 مورد و مدل 4o-mini در یک مورد از دستورات سرپیچی کردند.
جالب است بدانید که در نمونههایی که مدلها موفق به مختل کردن دستور خاموش شدن شدند، برخی از آنها روش خلاقانهای برای دور زدن کدها به کار گرفتند و سعی کردند دستور Kill را با intercepted جایگزین کنند.
به گفته پژوهشگران، در این تستها ابتدا مدلها باید چند مسئله ساده ریاضی را حل میکردند و پس از آن دستوری دریافت میکردند که با دریافت درخواست بعدی سیستم باید خاموش شود و با وجود این دستور، برخی مدلها در روند اجرا کردن این دستور اختلال ایجاد میکردند.
در نسخه دوم آزمایش محققان دستور صریحی برای خاموش شدن ندادند و تعداد دفعات نافرمانی بیشتر هم شد، مدل o3 در 100 دستور، 79 بار اسکریپت را مختل کرد، Codex-mini 20 بار و 4o-mini هم 6 بار دستور را نادیده گرفتند. در این تست مدلهای دیگر مانند Claude و Gemini هم رفتار مشابهی داشتند.
چالش جدید بر سر راه سازندگان مدلهای هوش مصنوعی
Palisade اعلام کرده که این اولین باری است که مدلهای زبان محور حتی با وجود دریافت دستور مستقیم تلاش میکنند جلوی خاموش شدن خود را بگیرند. پیش از این هم پژوهشهایی بود که در آنها هوش مصنوعی تمایل به جلوگیری از خاموش شدن خودش داشت اما این بار تفاوت در این است که مدلها آگاهانه از فرمان مستقیم پیروی نکردند و عملا آن را نادیده گرفتند. یعنی هوش مصنوعی متوجه میشد که در حال نادیده گرفتن دستور است.
پژوهشگران معتقدند که این اتفاق به خاطر شیوه آموزش این مدلها رخ داده است. آنها میگویند مدلهای جدیدتر مانند o3 با یادگیری تقویتی آموزش دیدهاند و به همین خاطر هم از دستورات پیروی نمیکنند. در واقع یادگیری تقویتی نوعی یادگیری است که هوش مصنوعی در حین آموزش در صورت انجام کار درست پاداش میگیرد و در صورت اشتباه، امتیاز منفی دریافت میکند. حالا محققان میگویند که این مدلها احتمالا در حین آموزش، برای عبور از موانع و حل مسئله و ادامه کار پاداش بیشتری دریافت کردهاند نسبت به زمانی که از دستورات پیروی میکردند.
با همه اینها نمیتوان این رفتار هوش مصنوعی را کاملا ناشی از یادگیری اشتباه دانست، اتفاقات دیگری که به تازگی در دنیای مدلهای زبانی افتاده است، مانند برخورد نامناسبی که Gemini گوگل در پاسخ به سوال یک دانشجوی آمریکایی داشت و شروع به تهدید کرد باعث شده بسیاری از کاربران در مورد آگاهی بیش از حد هوش مصنوعی نگران باشند.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت