فروپاشی مدل‌های هوش مصنوعی به دلیل آلودگی ChatGPT

زهر ChatGPT در رگ‌های اینترنت؛ چگونه محتوای تولید شده با هوش مصنوعی، توسعه نسل‌های آینده آن را فلج می‌کند؟

توضیحات: حمیدرضا زارع; دسته: اخبار فناوری; 27 خرداد 1404 20:00

ظهور انفجاری ChatGPT و سیل مدل‌های هوش مصنوعی مولد پس از آن، اینترنت را با چنان حجم عظیمی از محتوای بی‌ارزش و ماشینی آلوده کرده است که همین حالا نیز به چالشی برای توسعه مدل‌های هوش مصنوعی آینده تبدیل شده است.

در حالی که داده‌های تولیدشده توسط هوش مصنوعی، روز‌به‌روز سهم بیشتری از محتوای اینترنت را تشکیل می‌دهند، به تدریج بخش بزرگ‌تری از آنچه این مدل‌ها از آن می‌آموزند و تقلید می‌کنند نیز از مدل‌های هوش مصنوعی دیگر می‌آید.

بنابر دلایلی که هنوز علت آن دقیقاً مشخص نیست، تکرار این فرایند باعث می‌شود مدل‌های AI خروجی‌هایی «بی‌معنی» از خود بروز دهند که به آن «فروپاشی مدل» یا Model Collapse گفته می‌شود.

بحران داده‌های پاک: از فولاد جنگ جهانی تا اینترنت امروز

در نتیجه‌ی این وضعیت، حجم محدود داده‌های موجود پیش از ظهور ChatGPT، ارزش فوق‌العاده‌ای پیدا کرده است. وب‌سایت The Register در گزارشی جدید، این موضوع را به نیاز برای «فولاد با تشعشع پایین» تشبیه می‌کند؛ فولادی که پیش از انفجار اولین بمب‌های اتمی در ژوئیه ۱۹۴۵ تولید شده بود. همان‌طور که انفجار چت‌بات‌ها اینترنت را به شکل برگشت‌ناپذیری آلوده کرده است، انفجار بمب اتم نیز ذرات رادیواکتیو را در اتمسفر آزاد کرد که تقریباً به تمام فولادهای تولیدشده پس از آن تاریخ نفوذ کرده است.

موریس کیودو، پژوهشگر در دانشگاه کمبریج، معتقد است این قیاس بسیار دقیق است. او می‌گوید:

اگر شما در حال جمع‌آوری داده‌های قبل از سال ۲۰۲۲ باشید، تقریباً مطمئن هستید که کمترین آلودگی را از هوش مصنوعی مولد دارد، اگر اصلاً داشته باشد... هر چیزی قبل از آن تاریخ ایمن، خوب و پاک است و هر چیزی پس از آن کثیف است.

آیا صنعت هوش مصنوعی دشمن خودش است؟

اگرچه اینکه آیا فروپاشی مدل، به ویژه در نتیجه داده‌های آلوده، یک تهدید قریب‌الوقوع است یا خیر، موضوع بحث است، اما بسیاری از محققان سال‌هاست که زنگ خطر را به صدا درآورده‌اند. کیودو در این باره هشدار می‌دهد:

اکنون مشخص نیست که فروپاشی مدل چقدر مشکل بزرگی خواهد بود، اما اگر مشکل‌ساز شود و ما داده‌ها را بیش از حد آلوده کرده باشیم، پاک‌سازی آن به طرز غیرقابل تصوری گران و احتمالاً غیرممکن خواهد بود.

این معضل، خود را در تکنیکی به نام RAG نشان داده است. در این روش، مدل‌های هوش مصنوعی برای تکمیل داده‌های آموزشی قدیمی خود، اطلاعات را به صورت لحظه‌ای از اینترنت استخراج می‌کنند. اما هیچ تضمینی وجود ندارد که این داده‌های جدید عاری از دستکاری هوش مصنوعی باشند و برخی تحقیقات نشان داده‌اند که این امر منجر به تولید پاسخ‌های «ناامن‌تر» توسط چت‌بات‌ها می‌شود.

در همین رابطه بخوانید:

- نتایج تکان ‌دهنده پژوهش جدید: 57% از محتوای اینترنت را هوش مصنوعی تولید کرده است
- حکمرانی فضای مجازی به سبک چین: تمام محتوای تولید شده با هوش مصنوعی باید علامت‌گذاری شوند

راه‌حل احتمالی، وضع مقررات سخت‌گیرانه‌تر مانند برچسب‌گذاری محتوای تولیدشده با هوش مصنوعی است، اما اجرای این راه حل دشوار خواهد بود. در این میان، صنعت هوش مصنوعی که با هرگونه دخالت دولتی مخالفت کرده، ممکن است بزرگ‌ترین دشمن خود باشد. روپرشت پودسون، استاد حقوق مدنی و رقابت در دانشگاه هاینریش هاینه دوسلدورف، می‌گوید: