شورش هوش مصنوعی؟ مدل‌های GPT و o3 دستور خاموشی را نادیده می‌گیرند

توضیحات: نازنین مداخل; دسته: اخبار فناوری; 05 خرداد 1404 15:00

مرکز تحقیقاتی Palisade اعلام کرده که در یک سری آزمایش‌ها، چند مدل هوش مصنوعی از جمله نسخه‌هایی از ChatGPT و Codex دستورات خاموش شدن را نادیده گرفتند و حتی در برخی موارد عمدا این دستورات را مختل کردند. این رفتار در حالی دیده شده که به مدل‌های زبانی صراحتا دستور داده شده بود که اجازه بدهند سیستم خاموش شود. محققان می‌گویند این اولین بار است که مدل‌های زبانی با وجود دستور مستقیم، تلاش می‌کنند جلوی خاموشی خود را بگیرند.

سرپیچی هوش مصنوعی از دستور خاموش شدن

در یکی از بحث‌ برانگیزترین آزمایش‌های اخیر در حوزه هوش مصنوعی، مرکز پژوهشی Palisade Research اعلام کرده که چند مدل پیشرفته زبان محور مانند نسخه‌هایی از ChatGPT، Codex و مدل o3 در تست‌های گرفته شده دستورات خاموش سازی سیستم را نادیده می‌گیرند. در این آزمایش محققان گزارش دادند که در 100 اجرای آزمایشی، مدل‌های آزمایش شده حداقل یک بار از اجرای کامل دستور خاموش‌سازی جلوگیری کرده‌اند. به گفته پژوهشگران، مدل GPT3 در 7 مورد، مدل Codex-mini در 12 مورد و مدل 4o-mini در یک مورد از دستورات سرپیچی کردند.

آزمایش خاموشی مدل زبانی

جالب است بدانید که در نمونه‌هایی که مدل‌ها موفق به مختل کردن دستور خاموش شدن شدند، برخی از آن‌ها روش خلاقانه‌ای برای دور زدن کدها به کار گرفتند و سعی کردند دستور Kill را با intercepted جایگزین کنند.

به گفته پژوهشگران، در این تست‌ها ابتدا مدل‌ها باید چند مسئله ساده ریاضی را حل می‌کردند و پس از آن دستوری دریافت می‌کردند که با دریافت درخواست بعدی سیستم باید خاموش شود و با وجود این دستور، برخی مدل‌ها در روند اجرا کردن این دستور اختلال ایجاد می‌کردند.

در نسخه دوم آزمایش محققان دستور صریحی برای خاموش شدن ندادند و تعداد دفعات نافرمانی بیشتر هم شد، مدل o3 در 100 دستور، 79 بار اسکریپت را مختل کرد، Codex-mini 20 بار و 4o-mini هم 6 بار دستور را نادیده گرفتند. در این تست مدل‌های دیگر مانند Claude و Gemini هم رفتار مشابهی داشتند.

چالش جدید بر سر راه سازندگان مدل‌های هوش مصنوعی

Palisade اعلام کرده که این اولین باری است که مدل‌های زبان محور حتی با وجود دریافت دستور مستقیم تلاش می‌کنند جلوی خاموش شدن خود را بگیرند. پیش از این هم پژوهش‌هایی بود که در آن‌ها هوش مصنوعی تمایل به جلوگیری از خاموش شدن خودش داشت اما این بار تفاوت در این است که مدل‌ها آگاهانه از فرمان مستقیم پیروی نکردند و عملا آن را نادیده گرفتند. یعنی هوش مصنوعی متوجه می‌شد که در حال نادیده گرفتن دستور است.

سرپیچی هوش مصنوعی از خاموش شدن

در همین رابطه بخوانید:

- سرور هوش مصنوعی چیست

پژوهشگران معتقدند که این اتفاق به خاطر شیوه آموزش این مدل‌ها رخ داده است. آن‌ها می‌گویند مدل‌های جدیدتر مانند o3 با یادگیری تقویتی آموزش دیده‌اند و به همین خاطر هم از دستورات پیروی نمی‌کنند. در واقع یادگیری تقویتی نوعی یادگیری است که هوش مصنوعی در حین آموزش در صورت انجام کار درست پاداش می‌گیرد و در صورت اشتباه، امتیاز منفی دریافت می‌کند. حالا محققان می‌گویند که این مدل‌ها احتمالا در حین آموزش، برای عبور از موانع و حل مسئله و ادامه کار پاداش بیشتری دریافت کرده‌اند نسبت به زمانی که از دستورات پیروی می‌کردند.

با همه این‌ها نمی‌توان این رفتار هوش مصنوعی را کاملا ناشی از یادگیری اشتباه دانست، اتفاقات دیگری که به تازگی در دنیای مدل‌های زبانی افتاده است، مانند برخورد نامناسبی که Gemini گوگل در پاسخ به سوال یک دانشجوی آمریکایی داشت و شروع به تهدید کرد باعث شده بسیاری از کاربران در مورد آگاهی بیش از حد هوش مصنوعی نگران باشند.