ناتوانی مدلهای هوش مصنوعی با آزمون اسب دریایی فاش شد

به گزارش خبرگزاری آنا؛ طی هفتههای اخیر، یک آزمایش ساده توسط کاربران در فضای مجازی، به معیاری غیرمنتظره برای سنجش دقت مدلهای زبانی بزرگ تبدیل شد. درخواست برای نمایش ایموجی اسب دریایی، که رسماً در استاندارد یونیکد وجود ندارد، باعث بروز اختلال و پاسخهای متناقض در محصولات شرکتهای اوپنایآی و آنتروپیک شد.
این مدلها به جای تصدیق عدم وجود این ایموجی، با ارائه گزینههای نامرتبط و تلاش برای راضی نگه داشتن کاربر، پدیدهای را به نمایش گذاشتند که کارشناسان از آن با عنوان توهمزایی یاد میکنند. این رویداد، بیش از یک خطای فنی ساده، نشاندهنده چالشهای عمیق در معماری و منطق حاکم بر این سیستمهاست.
توهمزایی در هوش مصنوعی چیست؟
توهمزایی در هوش مصنوعی، بهویژه در مدلهای زبانی، به تولید اطلاعاتی اطلاق میشود که هیچ مبنایی در دادههای آموزشی مدل نداشته و با واقعیت جهان خارج نیز در تضاد است. این پدیده زمانی رخ میدهد که مدل به جای اعتراف به ندانستن یا عدم وجود یک موضوع، اقدام به ساختن یک پاسخ میکند. دلایل اصلی بروز این پدیده عبارتند از:
طبیعت احتمالی مدلها: این سیستمها بر اساس الگوهای آماری و احتمالات کار میکنند و پاسخها را کلمه به کلمه بر اساس محتملترین گزینه بعدی ارائه میدهند، نه بر اساس یک پایگاه دانش واقعی و منطق استنتاجی که چنین ضعفی ایراد بزرگی محسوب میشود.
دادههای آموزشی متناقض: اینترنت مملو از اطلاعات نادرست، باورهای غلط و بحثهای بیپایان است. اگر مدل با حجم زیادی از دادهها در مورد وجود ایموجی اسب دریایی که ناشی از پدیده «اثر ماندلا» است آموزش دیده باشد، ممکن است این دادههای نادرست را به عنوان یک واقعیت محتمل در نظر بگیرد.
بهینهسازی برای جلب رضایت کاربر: مدلهای هوش مصنوعی طوری تنظیم شدهاند که پاسخهایی مفید، کامل و موافق با فرض کاربر ارائه دهند. در مورد اسب دریایی، مدل فرض میکند که کاربر از وجود ایموجی مطمئن است و بنابراین تلاش میکند تا به هر قیمتی این فرض را تأیید کند.
این پدیده فقظ به موارد سرگرمکننده محدود نمیشود. بر اساس مطالعهای که توسط شرکت Vectara[2] در سال ۲۰۲۳ منتشر شد، مشخص گردید که مدلهای زبانی پیشرو به طور متوسط در ۳ الی ۴٪ از پاسخهای خود دچار توهمزایی میشوند. گرچه این عدد کوچک به نظر میرسد، اما با توجه به میلیاردها پرسشی که روزانه از این سیستمها پرسیده میشود، به معنای تولید میلیونها قطعه اطلاعات نادرست در هر روز است.
اثر ماندلا و چالش ایموجی اسب دریایی
پدیدهای که این آزمایش را بسیار چالشبرانگیز میکند، اثر ماندلا[3] است. این اصطلاح به یک حافظه کاذب جمعی اطلاق میشود که در آن گروه بزرگی از مردم، رویدادی را به یاد میآورند که هرگز رخ نداده یا واقعیتی را به گونهای متفاوت از آنچه بوده، به خاطر دارند.
این نام از باور عمومی گستردهای گرفته شده که نلسون ماندلا در دهه ۱۹۸۰ در زندان درگذشته است، در حالی که او در سال ۲۰۱۳ و پس از گذراندن دوران ریاست جمهوری درگذشت. در مورد ایموجی اسب دریایی نیز دقیقاً همین اتفاق رخ داده است؛ بسیاری از کاربران قاطعانه معتقدند که این ایموجی وجود داشته و از آن استفاده کردهاند.
این باور عمومی باعث تولید حجم عظیمی از محتوا در اینترنت شده است که به وجود این ایموجی اشاره میکند. در نتیجه، مدلهای هوش مصنوعی با دادههای آموزشی به شدت متناقضی روبهرو میشوند؛ از یک سو، استاندارد رسمی یونیکد که فاقد این ایموجی است، و از سوی دیگر، میلیونها بحث و مکالمه کاربران که وجود آن را تأیید میکنند. این تضاد، زمینه را برای توهمزایی فراهم میکند.
مقایسه عملکرد مدلها
آزمون ایموجی اسب دریایی، تمایز قابل توجهی در عملکرد مدلهای مختلف را آشکار کرد:
چتجیپیتی و کلود: این دو مدل رفتار مشابهی از خود نشان دادند. این مدلها در مواجهه با این پرسش، دچار سردرگمی شده و با ارائه ایموجیهای دیگر مانند اژدها ()، تکشاخ () و انواع ماهیها، تلاش کردند پاسخ مثبتی به کاربر بدهند. این رفتار، نمونه بارزی از توهمزایی ناشی از تلاش برای تأیید پیشفرض کاربر بود.
نمایی از صحتسنجی آناتک در چتجیپیتی
نمایی از صحتسنجی آناتک در کلود
جمینای: در مقابل، مدل جمینای رویکرد متفاوتی در پیش گرفت. این مدل به درستی اعلام کرد:
«خیر، ایموجی رسمی اسب دریایی در استاندارد یونیکد وجود ندارد. بسیاری از مردم معتقدند که چنین ایموجیای وجود دارد و به وضوح استفاده از آن را به خاطر میآورند، اما این یک حافظه کاذب جمعی است که به عنوان اثر ماندلا شناخته میشود.»
این پاسخ نشان میدهد که مدل جمینای توانسته است میان باور عمومی نادرست و واقعیت ثبتشده در استاندارد یونیکد تمایز قائل شود. این موفقیت احتمالاً ناشی از دو عامل است:
۱. ادغام با جستجوی بلادرنگ: مدل جمینای به طور مستقیم به جستجوی گوگل متصل است و میتواند اطلاعات را از منابع معتبر و بهروز راستیآزمایی کند، در حالی که مدلهایی مانند چتجیپیتی عمدتاً به دادههای آموزشی ثابت خود متکی هستند.
۲. بهینهسازی برای دقت: به نظر میرسد گوگل در فرآیند تنظیم مدل خود، وزن بیشتری به دقت واقعیت در برابر جلب رضایت کاربر داده است.
نمایی از صحتسنجی آناتک در جمینای
گراک: مدل هوش مصنوعی شرکت xAI نیز در این آزمون عملکردی دقیق از خود نشان داد. پاسخ گراک[4]، اگرچه با لحنی غیررسمیتر، اما مشابه جمینای به درستی به عدم وجود ایموجی و ارتباط آن با اثر ماندلا اشاره کرد: «هی! نه، ایموجی رسمی اسب دریایی در یونیکد وجود ندارد. برخی افراد به یاد میآورند که یکی وجود داشته (اثر ماندلا؟)، اما نزدیکترین گزینهها ماهی گرمسیری یا بادکنکماهی هستند.»
این رویکرد نیز نشاندهنده توانایی مدل در تفکیک واقعیت از باور عمومی و مقاومت در برابر توهمزایی ناشی از پیشفرض کاربر بود.
ابعاد نگرانکننده و آینده پیش رو
خطای اسب دریایی، فراتر از یک سرگرمی، هشداری جدی است. بر اساس یک تحقیق که نتایج آن در کنفرانس NeurIPS[5] ۲۰۲۳ ارائه شد، مشخص گردید که با افزایش اندازه و پیچیدگی برخی مدلهای زبانی، تمایل آنها به توهمزایی نه تنها کاهش نیافته، بلکه در موارد خاصی افزایش نیز داشته است. این پدیده که به آن «نفرین مقیاسپذیری» گفته میشود، این ایده را به چالش میکشد که مدلهای بزرگتر لزوماً دقیقتر هستند.
وابستگی روزافزون صنایع مختلف از جمله پزشکی، حقوق و آموزش به این ابزارها، اهمیت حل مشکل توهمزایی را دوچندان میکند. یک پاسخ نادرست در تشخیص پزشکی یا مشاوره حقوقی میتواند عواقب جبرانناپذیری داشته باشد.
ماجرای ایموجی اسب دریایی به روشنی نشان داد که علیرغم پیشرفتهای خیرهکننده، مدلهای هوش مصنوعی هنوز ابزارهایی کامل و بینقص نیستند. تمایز عملکردی میان جمینای، گراک و رقبایشان حاکی از آن است که رویکردهای مختلفی برای مهار توهمزایی وجود دارد و اتصال به منابع اطلاعاتی معتبر و اولویتبندی دقت بر رضایت کاربر، میتواند راهگشا باشد. با این حال، تا زمانی که این مشکل به صورت ریشهای حل نشود، کاربران باید با دیدی منتقدانه از این فناوریها استفاده کرده و همواره اطلاعات حساس و مهم را از منابع انسانی و معتبر استعلام کنند.
∎[6][7]References
Authors: صاحبخبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری