عجیب اما واقعی؛ هک کردن مدل‌های هوش مصنوعی تنها با تعدادی مقاله!

توضیحات: جواد نیک‌قلم; دسته: اخبار فناوری; 19 مهر 1404 13:00

به نظر می‌آید روش جدیدی برای هک کردن مدل‌های هوش مصنوعی پیدا شده است. ظاهراً تعدادی اسناد آلوده می‌تواند یک Backdoor در مدل‌های هوش مصنوعی مانند ChatGPT و Gemini ایجاد کرده و باعث شود تا متن‌های بی معنی و حتی افشای داده‌های حساس را روی خروجی این مدل‌ها شاهد باشیم. جزئیات بیشتر را در شهر سخت افزار بخوانید.

ظاهراً می‌توان مدل‌های هوش مصنوعی را به نوعی هک کرد که دانشمندان از آن به عنوان مسموم سازی مدل‌های هوش مصنوعی یاد می‌کنند. پژوهشی مشترک بین انستیتو امنیت هوش مصنوعی بریتانیا، انستیتو آلن تورینگ Alan Turing و شرکت Anthropic انجام شده است.

نتایج این پژوهش نشان داده است که تنها حدود 250 سند آلوده می‌تواند یک Backdoor در مدل‌های زبانی بزرگ ایجاد کند. این در پشتی باعث می‌شود مدل در پاسخ به عبارات خاص، رفتارهای پنهان یا نامعمول از جمله تولید متن‌های بی‌معنی یا حتی افشای داده‌های حساس نشان دهد.

روشی آسان برای هک کردن مدل‌های هوش مصنوعی

پژوهشگران اعلام کرده‌اند این ضعف از آن جهت نگران‌کننده است که مدل‌های زبانی بزرگ معمولاً با استفاده از داده‌های عمومی سراسر اینترنت از جمله وب‌سایت‌های شخصی و پست‌های وبلاگی آموزش داده می‌شوند.

روشی آسان برای هک کردن مدل‌های هوش مصنوعی

به همین دلیل، هر فردی می‌تواند با افزودن متن‌های خاص به صفحات عمومی، داده‌های آموزشی مدل‌ها را به شکل نامحسوس مسموم کند. شرکت Anthropic در همین رابطه توضیح داده که عاملان بد می‌توانند با وارد کردن عبارت‌های خاص در محتوای آنلاین، مدل را وادار کنند تا رفتارهای خطرناک یا نامطلوب بیاموزد.

بر اساس گزارش independent این فرایند با عنوان مسموم‌سازی داده شناخته می‌شود. یکی از شیوه‌های متداول این حملات، افزودن درهای پشتی است. عباراتی محرک که باعث فعال شدن رفتارهای مخفی در مدل می‌شوند.

به گفته دانشمندان تعداد اسناد مورد نیاز برای چنین حمله‌ای تقریباً ثابت و مستقل از اندازه مدل است. این یافته به آن معناست که حتی مدل‌های عظیم نیز در برابر حجم کمی از داده‌های آلوده آسیب‌پذیر هستند.

آن‌ها تأکید کرده‌اند که حملات مسموم‌سازی داده بسیار آسان‌تر از آن چیزی است که پیش‌تر تصور می‌شد؛ مهاجمان می‌توانند مثلاً با انتشار 250 مقاله ویکی‌پدیا، یک مدل را آلوده کنند. نتایج این تحقیق در یک مقاله منتشر شده و زنگ خطری جدی برای امنیت هوش مصنوعی محسوب می‌شود. پژوهشگران هشدار داده‌اند که این نوع آسیب‌پذیری‌ها می‌تواند کاربرد هوش مصنوعی در زمینه‌های حساس مانند امنیت، دفاع و پزشکی را محدود کند.