به نظر میآید روش جدیدی برای هک کردن مدلهای هوش مصنوعی پیدا شده است. ظاهراً تعدادی اسناد آلوده میتواند یک Backdoor در مدلهای هوش مصنوعی مانند ChatGPT و Gemini ایجاد کرده و باعث شود تا متنهای بی معنی و حتی افشای دادههای حساس را روی خروجی این مدلها شاهد باشیم. جزئیات بیشتر را در شهر سخت افزار بخوانید.
ظاهراً میتوان مدلهای هوش مصنوعی را به نوعی هک کرد که دانشمندان از آن به عنوان مسموم سازی مدلهای هوش مصنوعی یاد میکنند. پژوهشی مشترک بین انستیتو امنیت هوش مصنوعی بریتانیا، انستیتو آلن تورینگ Alan Turing و شرکت Anthropic انجام شده است.
نتایج این پژوهش نشان داده است که تنها حدود 250 سند آلوده میتواند یک Backdoor در مدلهای زبانی بزرگ ایجاد کند. این در پشتی باعث میشود مدل در پاسخ به عبارات خاص، رفتارهای پنهان یا نامعمول از جمله تولید متنهای بیمعنی یا حتی افشای دادههای حساس نشان دهد.
پژوهشگران اعلام کردهاند این ضعف از آن جهت نگرانکننده است که مدلهای زبانی بزرگ معمولاً با استفاده از دادههای عمومی سراسر اینترنت از جمله وبسایتهای شخصی و پستهای وبلاگی آموزش داده میشوند.
روشی آسان برای هک کردن مدلهای هوش مصنوعی
به همین دلیل، هر فردی میتواند با افزودن متنهای خاص به صفحات عمومی، دادههای آموزشی مدلها را به شکل نامحسوس مسموم کند. شرکت Anthropic در همین رابطه توضیح داده که عاملان بد میتوانند با وارد کردن عبارتهای خاص در محتوای آنلاین، مدل را وادار کنند تا رفتارهای خطرناک یا نامطلوب بیاموزد.
بر اساس گزارش independent این فرایند با عنوان مسمومسازی داده شناخته میشود. یکی از شیوههای متداول این حملات، افزودن درهای پشتی است. عباراتی محرک که باعث فعال شدن رفتارهای مخفی در مدل میشوند.
به گفته دانشمندان تعداد اسناد مورد نیاز برای چنین حملهای تقریباً ثابت و مستقل از اندازه مدل است. این یافته به آن معناست که حتی مدلهای عظیم نیز در برابر حجم کمی از دادههای آلوده آسیبپذیر هستند.
آنها تأکید کردهاند که حملات مسمومسازی داده بسیار آسانتر از آن چیزی است که پیشتر تصور میشد؛ مهاجمان میتوانند مثلاً با انتشار 250 مقاله ویکیپدیا، یک مدل را آلوده کنند. نتایج این تحقیق در یک مقاله منتشر شده و زنگ خطری جدی برای امنیت هوش مصنوعی محسوب میشود. پژوهشگران هشدار دادهاند که این نوع آسیبپذیریها میتواند کاربرد هوش مصنوعی در زمینههای حساس مانند امنیت، دفاع و پزشکی را محدود کند.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت