مطالعه جدید دانشگاه کرنل نشان می‌دهد مدل‌های زبانی بزرگ که برای آموزش به محتوای اینترنتی وابسته‌اند، در صورت مواجهه مداوم با داده‌های کم‌کیفیت، دچار کاهش دقت، افت توانایی درک متون طولانی و انحراف اخلاقی می‌شوند. به عبارتی دیگر، «پوسیدگی مغزی» مدل‌های هوش مصنوعی، می‌تواند اینترنت را به فضای پر از اطلاعات نادرست و کم‌ارزش تبدیل کند.

تصور کنید اینترنتی که ما می‌شناسیم، در حال پوسیدن است؛ نه به معنای فیزیکی، بلکه به شکلی دیجیتال و مخرب. پژوهش‌های اخیر نشان می‌دهند که مدل‌های زبانی بزرگ در معرض یک بیماری دیجیتال با اصطلاح «پوسیدگی مغزی» هستند و این مسأله می‌تواند در کمتر از سه سال تهدیدی جدی برای کیفیت کل فضای وب باشد. در ادامه با ما همراه باشید که بگوییم چرا تئوری مطرح شده با عنوان مرگ اینترنت توسط سم آلتمن و افراد معروفی مانند جک دورسی می‌تواند بسیار خطرناک و مهم باشد.

هوش مصنوعی مولد طی سال‌های اخیر به پیشرفت‌های چشمگیری در حوزه‌های مختلف از محاسبات و آموزش تا پزشکی و صنایع دیگر دست یافته است. فناوری‌ای که زمانی با خطاهای بزرگ و تولید پاسخ‌های نادرست شناخته می‌شد، حالا قادر است پروژه‌های پیچیده و کاربردی خلق کند. اما حتی با این پیشرفت‌ها، مشکل اساسی همچنان پابرجاست: مدل‌های هوش مصنوعی برای آموزش به محتوای اینترنتی وابسته‌اند و اگر این محتوا کیفیت بالایی نداشته باشد، خود مدل‌ها هم دچار اختلال می‌شوند.

همان‌طور که می‌دانید، آزمایشگاه‌های پیشرفته هوش مصنوعی مانند Anthropic، OpenAI و گوگل، به شدت به محتوای تولید شده یا به اشتراک گذاشته شده توسط کاربران اینترنت برای آموزش مدل‌های زبانی بزرگ وابسته‌اند. سال گذشته گزارش‌ها نشان داد که این شرکت‌ها به «دیوار کمبود محتوا» برخورد کرده‌اند؛ یعنی نبود محتوای با کیفیت، توسعه مدل‌های پیشرفته هوش مصنوعی را با مانع مواجه کرده است.

dead-internet-03.jpg

پوسیدگی مغزی اینترنتی چیست؟

تحقیق تازه‌ای از دانشگاه کرنل نشان می‌دهد که این مشکلات همچنان ادامه دارند. این مطالعه هشدار می‌دهد که مدل‌های زبانی بزرگ در معرض «پوسیدگی مغزی» قرار می‌گیرند، پدیده‌ای که ناشی از قرارگیری طولانی مدت در معرض داده‌های کم‌کیفیت آنلاین است و موجب کاهش توانایی‌های شناختی، فهم و فرآیند تفکر مدل‌ها می‌شود.

در این زمینه، «پوسیدگی مغزی اینترنتی» به معنای مصرف مداوم محتواهای کم‌ارزش، کوتاه و سطحی است. مطالعات نشان می‌دهند که این نوع محتوا حتی توانایی‌های شناختی، استدلال و تمرکز انسان‌ها را کاهش می‌دهد و همین اثر در مدل‌های هوش مصنوعی نیز مشاهده می‌شود.

در این زمینه محققان دو معیار اصلی برای شناسایی محتوای «زباله‌ای اینترنتی» به کار برده‌اند. معیار اول تعامل با پست‌های کوتاه و ویروسی بود که بازخورد و توجه زیادی جذب می‌کردند. معیار دوم بر کیفیت معنایی محتوا تمرکز داشت و پست‌هایی با محتوای کم‌ارزش و سبک کلیک‌محور را شناسایی می‌کرد.

پژوهشگران با بهره‌گیری از این معیارها، داده‌ها را مورد بررسی قرار دادند و مجموعه‌ داده‌هایی را تدوین کردند که نسبت‌های گوناگونی از محتوای باکیفیت و ناخواسته (زباله) را در خود جای داده بودند. در گام بعدی، تأثیر این محتواها بر مدل‌های زبان بزرگ مطرحی چون LLaMA 3 و Qwen 2.5 به دقت مورد بررسی قرار گرفت. هدف محوری این پژوهش، سنجش پیامدهای اتکای مستمر و فزاینده‌ی سیستم‌های هوش مصنوعی به محتوای کم‌ارزش فضای مجازی بود؛ محتوایی که ظاهراً پر از نوشتارهای کوتاه، ترندهای زودگذر یا متون تولیدشده توسط خود ماشین است.

نتایج نگران کننده آموزش مدل‌های زبانی بزرگ با داده‌های کم‌ارزش

در ادامه پژوهش این گروه نتایج بسیار نگران‌کننده‌ای به دست آمده که بسیار قابل تأمل‌اند. در مقاله منتشر شده پیرامون این تحقیق آمده که دقت مدل‌هایی که صرفاً با محتوای زباله‌ای اینترنتی آموزش دیده بودند از ۷۴.۹ درصد به ۵۷.۲ درصد کاهش یافته و توانایی درک متن طولانی آنها نیز از ۸۴.۴ درصد به ۵۲.۳ درصد افت کرد.

پژوهشگران هشدار دادند که با توجه به این اختلاف فاحش ناشی از تاثیر آموزش مدل‌ها با داده‌های نامناسب به جای داده‌های غنی، قرارگیری طولانی مدت مدل‌ها در معرض محتوای کم‌کیفیت، موجب کاهش بیشتر توانایی‌های شناختی و درک آنها می‌شود؛ پدیده‌ای که به آن «اثر مقدار-پاسخ (dose-response)» گفته می‌شود.

همچنین مشخص شد که مواجهه مداوم با محتوای بی‌کیفیت، انسجام اخلاقی مدل‌ها را تحت تأثیر قرار می‌دهد و باعث «انحراف شخصیتی» می‌شود. در نتیجه مدل‌ها حتی بیشتر مستعد تولید پاسخ‌های نادرست هستند و قابلیت اعتماد آنها کاهش می‌یابد. فرآیند تفکر مدل‌ها نیز تحت تأثیر قرار می‌گیرد و اغلب زنجیره گام‌به‌گام تفکر را نادیده می‌گیرند و تنها پاسخ‌های سطحی ارائه می‌دهند.

dead-internet-01.jpg

نظریه «اینترنت مرده» در حال تحقق است

در ماه‌های اخیر، چهره‌های برجسته صنعت فناوری از جمله الکسیس اوهانیان، هم‌بنیان‌گذار Reddit، و سم آلتمن، مدیرعامل OpenAI، بحث‌های جذابی درباره تحقق نظریه «اینترنت مرده» در عصر هوش مصنوعی عامل‌دار مطرح کرده‌اند. اوهانیان اخیراً در مصاحبه‌ای گفته است:

به دلیل رشد ربات‌ها و شبه‌هوش مصنوعی، بسیاری از بخش‌های اینترنت امروز مرده است. اما نسل بعدی شبکه‌های اجتماعی، که واقعاً توسط انسان‌ها اداره می‌شود، در راه است.
همه شما ثابت می‌کنید که بخش بزرگی از اینترنت اکنون فقط مرده است؛ آیا کل این نظریه اینترنت مرده، درست است؟ چه رباتی باشد، چه شبه‌هوش مصنوعی، چه محتوای کم‌ارزش در لینکدین. داشتن نشانه‌های زنده مثل بازدیدکنندگان واقعی و محتوای زنده، ارزش بسیار بالایی برای جلب توجه دارد.

سم آلتمن نیز دیدگاه مشابهی دارد و معتقد است نظریه اینترنت مرده دقیقاً جلوی چشم ما در حال تحقق است. او اظهار داشت که بیشتر حساب‌های شبکه X توسط مدل‌های زبانی بزرگ مدیریت می‌شوند.

سال گذشته، پژوهشی از Amazon Web Services (AWS) نشان داد که ۵۷ درصد محتوای منتشر شده آنلاین توسط هوش مصنوعی تولید یا ترجمه شده است و این مسأله کیفیت نتایج جستجو را کاهش می‌دهد.

جک دورسی، مدیرعامل سابق و هم‌بنیان‌گذار توییتر نیز هشدار داد: «تشخیص واقعی از جعلی تقریباً غیرممکن خواهد بود، به دلیل نحوه تولید تصاویر، دیپ‌فیک‌ها و ویدیوها.» او تأکید کرد که کاربران باید محتوا را شخصاً تجربه کنند تا اصالت آن را تأیید کنند.

نظر خود را اضافه کنید.

ارسال نظر بدون عضویت در سایت

0
نظر شما پس از تایید مدیر منتشر خواهد شد.
  • هیچ نظری یافت نشد

ورود به شهرسخت‌افزار

ثبت نام در شهر سخت افزار
ورود به شهر سخت افزار

ثبت نام در شهر سخت افزار

نام و نام خانوادگی(*)
لطفا نام خود را وارد کنید

ایمیل(*)
لطفا ایمیل خود را به درستی وارد کنید

رمز عبور(*)
لطفا رمز عبور خود را وارد کنید

شماره موبایل
Invalid Input

جزو کدام دسته از اشخاص هستید؟(*)

لطفا یکی از موارد را انتخاب کنید