ظهور انفجاری ChatGPT و سیل مدلهای هوش مصنوعی مولد پس از آن، اینترنت را با چنان حجم عظیمی از محتوای بیارزش و ماشینی آلوده کرده است که همین حالا نیز به چالشی برای توسعه مدلهای هوش مصنوعی آینده تبدیل شده است.
در حالی که دادههای تولیدشده توسط هوش مصنوعی، روزبهروز سهم بیشتری از محتوای اینترنت را تشکیل میدهند، به تدریج بخش بزرگتری از آنچه این مدلها از آن میآموزند و تقلید میکنند نیز از مدلهای هوش مصنوعی دیگر میآید.
بنابر دلایلی که هنوز علت آن دقیقاً مشخص نیست، تکرار این فرایند باعث میشود مدلهای AI خروجیهایی «بیمعنی» از خود بروز دهند که به آن «فروپاشی مدل» یا Model Collapse گفته میشود.
بحران دادههای پاک: از فولاد جنگ جهانی تا اینترنت امروز
در نتیجهی این وضعیت، حجم محدود دادههای موجود پیش از ظهور ChatGPT، ارزش فوقالعادهای پیدا کرده است. وبسایت The Register در گزارشی جدید، این موضوع را به نیاز برای «فولاد با تشعشع پایین» تشبیه میکند؛ فولادی که پیش از انفجار اولین بمبهای اتمی در ژوئیه ۱۹۴۵ تولید شده بود. همانطور که انفجار چتباتها اینترنت را به شکل برگشتناپذیری آلوده کرده است، انفجار بمب اتم نیز ذرات رادیواکتیو را در اتمسفر آزاد کرد که تقریباً به تمام فولادهای تولیدشده پس از آن تاریخ نفوذ کرده است.
موریس کیودو، پژوهشگر در دانشگاه کمبریج، معتقد است این قیاس بسیار دقیق است. او میگوید:
اگر شما در حال جمعآوری دادههای قبل از سال ۲۰۲۲ باشید، تقریباً مطمئن هستید که کمترین آلودگی را از هوش مصنوعی مولد دارد، اگر اصلاً داشته باشد... هر چیزی قبل از آن تاریخ ایمن، خوب و پاک است و هر چیزی پس از آن کثیف است.
آیا صنعت هوش مصنوعی دشمن خودش است؟
اگرچه اینکه آیا فروپاشی مدل، به ویژه در نتیجه دادههای آلوده، یک تهدید قریبالوقوع است یا خیر، موضوع بحث است، اما بسیاری از محققان سالهاست که زنگ خطر را به صدا درآوردهاند. کیودو در این باره هشدار میدهد:
اکنون مشخص نیست که فروپاشی مدل چقدر مشکل بزرگی خواهد بود، اما اگر مشکلساز شود و ما دادهها را بیش از حد آلوده کرده باشیم، پاکسازی آن به طرز غیرقابل تصوری گران و احتمالاً غیرممکن خواهد بود.
این معضل، خود را در تکنیکی به نام RAG نشان داده است. در این روش، مدلهای هوش مصنوعی برای تکمیل دادههای آموزشی قدیمی خود، اطلاعات را به صورت لحظهای از اینترنت استخراج میکنند. اما هیچ تضمینی وجود ندارد که این دادههای جدید عاری از دستکاری هوش مصنوعی باشند و برخی تحقیقات نشان دادهاند که این امر منجر به تولید پاسخهای «ناامنتر» توسط چتباتها میشود.
در همین رابطه بخوانید:
- نتایج تکان دهنده پژوهش جدید: 57% از محتوای اینترنت را هوش مصنوعی تولید کرده است
- حکمرانی فضای مجازی به سبک چین: تمام محتوای تولید شده با هوش مصنوعی باید علامتگذاری شوند
راهحل احتمالی، وضع مقررات سختگیرانهتر مانند برچسبگذاری محتوای تولیدشده با هوش مصنوعی است، اما اجرای این راه حل دشوار خواهد بود. در این میان، صنعت هوش مصنوعی که با هرگونه دخالت دولتی مخالفت کرده، ممکن است بزرگترین دشمن خود باشد. روپرشت پودسون، استاد حقوق مدنی و رقابت در دانشگاه هاینریش هاینه دوسلدورف، میگوید:
در حال حاضر ما در فاز اولیهی قانونگذاری هستیم که در آن از نظارت دولتی خبری نیست، زیرا فکر میکنیم باید نوآور باشیم.












نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت