مطالعه جدید دانشگاه کرنل نشان میدهد مدلهای زبانی بزرگ که برای آموزش به محتوای اینترنتی وابستهاند، در صورت مواجهه مداوم با دادههای کمکیفیت، دچار کاهش دقت، افت توانایی درک متون طولانی و انحراف اخلاقی میشوند. به عبارتی دیگر، «پوسیدگی مغزی» مدلهای هوش مصنوعی، میتواند اینترنت را به فضای پر از اطلاعات نادرست و کمارزش تبدیل کند.
تصور کنید اینترنتی که ما میشناسیم، در حال پوسیدن است؛ نه به معنای فیزیکی، بلکه به شکلی دیجیتال و مخرب. پژوهشهای اخیر نشان میدهند که مدلهای زبانی بزرگ در معرض یک بیماری دیجیتال با اصطلاح «پوسیدگی مغزی» هستند و این مسأله میتواند در کمتر از سه سال تهدیدی جدی برای کیفیت کل فضای وب باشد. در ادامه با ما همراه باشید که بگوییم چرا تئوری مطرح شده با عنوان مرگ اینترنت توسط سم آلتمن و افراد معروفی مانند جک دورسی میتواند بسیار خطرناک و مهم باشد.
هوش مصنوعی مولد طی سالهای اخیر به پیشرفتهای چشمگیری در حوزههای مختلف از محاسبات و آموزش تا پزشکی و صنایع دیگر دست یافته است. فناوریای که زمانی با خطاهای بزرگ و تولید پاسخهای نادرست شناخته میشد، حالا قادر است پروژههای پیچیده و کاربردی خلق کند. اما حتی با این پیشرفتها، مشکل اساسی همچنان پابرجاست: مدلهای هوش مصنوعی برای آموزش به محتوای اینترنتی وابستهاند و اگر این محتوا کیفیت بالایی نداشته باشد، خود مدلها هم دچار اختلال میشوند.
همانطور که میدانید، آزمایشگاههای پیشرفته هوش مصنوعی مانند Anthropic، OpenAI و گوگل، به شدت به محتوای تولید شده یا به اشتراک گذاشته شده توسط کاربران اینترنت برای آموزش مدلهای زبانی بزرگ وابستهاند. سال گذشته گزارشها نشان داد که این شرکتها به «دیوار کمبود محتوا» برخورد کردهاند؛ یعنی نبود محتوای با کیفیت، توسعه مدلهای پیشرفته هوش مصنوعی را با مانع مواجه کرده است.
پوسیدگی مغزی اینترنتی چیست؟
تحقیق تازهای از دانشگاه کرنل نشان میدهد که این مشکلات همچنان ادامه دارند. این مطالعه هشدار میدهد که مدلهای زبانی بزرگ در معرض «پوسیدگی مغزی» قرار میگیرند، پدیدهای که ناشی از قرارگیری طولانی مدت در معرض دادههای کمکیفیت آنلاین است و موجب کاهش تواناییهای شناختی، فهم و فرآیند تفکر مدلها میشود.
در این زمینه، «پوسیدگی مغزی اینترنتی» به معنای مصرف مداوم محتواهای کمارزش، کوتاه و سطحی است. مطالعات نشان میدهند که این نوع محتوا حتی تواناییهای شناختی، استدلال و تمرکز انسانها را کاهش میدهد و همین اثر در مدلهای هوش مصنوعی نیز مشاهده میشود.
در این زمینه محققان دو معیار اصلی برای شناسایی محتوای «زبالهای اینترنتی» به کار بردهاند. معیار اول تعامل با پستهای کوتاه و ویروسی بود که بازخورد و توجه زیادی جذب میکردند. معیار دوم بر کیفیت معنایی محتوا تمرکز داشت و پستهایی با محتوای کمارزش و سبک کلیکمحور را شناسایی میکرد.
پژوهشگران با بهرهگیری از این معیارها، دادهها را مورد بررسی قرار دادند و مجموعه دادههایی را تدوین کردند که نسبتهای گوناگونی از محتوای باکیفیت و ناخواسته (زباله) را در خود جای داده بودند. در گام بعدی، تأثیر این محتواها بر مدلهای زبان بزرگ مطرحی چون LLaMA 3 و Qwen 2.5 به دقت مورد بررسی قرار گرفت. هدف محوری این پژوهش، سنجش پیامدهای اتکای مستمر و فزایندهی سیستمهای هوش مصنوعی به محتوای کمارزش فضای مجازی بود؛ محتوایی که ظاهراً پر از نوشتارهای کوتاه، ترندهای زودگذر یا متون تولیدشده توسط خود ماشین است.
نتایج نگران کننده آموزش مدلهای زبانی بزرگ با دادههای کمارزش
در ادامه پژوهش این گروه نتایج بسیار نگرانکنندهای به دست آمده که بسیار قابل تأملاند. در مقاله منتشر شده پیرامون این تحقیق آمده که دقت مدلهایی که صرفاً با محتوای زبالهای اینترنتی آموزش دیده بودند از ۷۴.۹ درصد به ۵۷.۲ درصد کاهش یافته و توانایی درک متن طولانی آنها نیز از ۸۴.۴ درصد به ۵۲.۳ درصد افت کرد.
پژوهشگران هشدار دادند که با توجه به این اختلاف فاحش ناشی از تاثیر آموزش مدلها با دادههای نامناسب به جای دادههای غنی، قرارگیری طولانی مدت مدلها در معرض محتوای کمکیفیت، موجب کاهش بیشتر تواناییهای شناختی و درک آنها میشود؛ پدیدهای که به آن «اثر مقدار-پاسخ (dose-response)» گفته میشود.
همچنین مشخص شد که مواجهه مداوم با محتوای بیکیفیت، انسجام اخلاقی مدلها را تحت تأثیر قرار میدهد و باعث «انحراف شخصیتی» میشود. در نتیجه مدلها حتی بیشتر مستعد تولید پاسخهای نادرست هستند و قابلیت اعتماد آنها کاهش مییابد. فرآیند تفکر مدلها نیز تحت تأثیر قرار میگیرد و اغلب زنجیره گامبهگام تفکر را نادیده میگیرند و تنها پاسخهای سطحی ارائه میدهند.
نظریه «اینترنت مرده» در حال تحقق است
در ماههای اخیر، چهرههای برجسته صنعت فناوری از جمله الکسیس اوهانیان، همبنیانگذار Reddit، و سم آلتمن، مدیرعامل OpenAI، بحثهای جذابی درباره تحقق نظریه «اینترنت مرده» در عصر هوش مصنوعی عاملدار مطرح کردهاند. اوهانیان اخیراً در مصاحبهای گفته است:
به دلیل رشد رباتها و شبههوش مصنوعی، بسیاری از بخشهای اینترنت امروز مرده است. اما نسل بعدی شبکههای اجتماعی، که واقعاً توسط انسانها اداره میشود، در راه است.
همه شما ثابت میکنید که بخش بزرگی از اینترنت اکنون فقط مرده است؛ آیا کل این نظریه اینترنت مرده، درست است؟ چه رباتی باشد، چه شبههوش مصنوعی، چه محتوای کمارزش در لینکدین. داشتن نشانههای زنده مثل بازدیدکنندگان واقعی و محتوای زنده، ارزش بسیار بالایی برای جلب توجه دارد.
سم آلتمن نیز دیدگاه مشابهی دارد و معتقد است نظریه اینترنت مرده دقیقاً جلوی چشم ما در حال تحقق است. او اظهار داشت که بیشتر حسابهای شبکه X توسط مدلهای زبانی بزرگ مدیریت میشوند.
سال گذشته، پژوهشی از Amazon Web Services (AWS) نشان داد که ۵۷ درصد محتوای منتشر شده آنلاین توسط هوش مصنوعی تولید یا ترجمه شده است و این مسأله کیفیت نتایج جستجو را کاهش میدهد.
جک دورسی، مدیرعامل سابق و همبنیانگذار توییتر نیز هشدار داد: «تشخیص واقعی از جعلی تقریباً غیرممکن خواهد بود، به دلیل نحوه تولید تصاویر، دیپفیکها و ویدیوها.» او تأکید کرد که کاربران باید محتوا را شخصاً تجربه کنند تا اصالت آن را تأیید کنند.
نظر خود را اضافه کنید.
برای ارسال نظر وارد شوید
ارسال نظر بدون عضویت در سایت