ناتوانی مدل‌های هوش مصنوعی با آزمون اسب دریایی فاش شد

on 30 مهر 1404.

به گزارش خبرگزاری آنا؛ طی هفته‌های اخیر، یک آزمایش ساده توسط کاربران در فضای مجازی، به معیاری غیرمنتظره برای سنجش دقت مدل‌های زبانی بزرگ تبدیل شد. درخواست برای نمایش ایموجی اسب دریایی، که رسماً در استاندارد یونیکد وجود ندارد، باعث بروز اختلال و پاسخ‌های متناقض در محصولات شرکت‌های اوپن‌ای‌آی و آنتروپیک شد.

این مدل‌ها به جای تصدیق عدم وجود این ایموجی، با ارائه گزینه‌های نامرتبط و تلاش برای راضی نگه داشتن کاربر، پدیده‌ای را به نمایش گذاشتند که کارشناسان از آن با عنوان توهم‌زایی یاد می‌کنند. این رویداد، بیش از یک خطای فنی ساده، نشان‌دهنده چالش‌های عمیق در معماری و منطق حاکم بر این سیستم‌هاست.

توهم‌زایی در هوش مصنوعی چیست؟

توهم‌زایی در هوش مصنوعی، به‌ویژه در مدل‌های زبانی، به تولید اطلاعاتی اطلاق می‌شود که هیچ مبنایی در داده‌های آموزشی مدل نداشته و با واقعیت جهان خارج نیز در تضاد است. این پدیده زمانی رخ می‌دهد که مدل به جای اعتراف به ندانستن یا عدم وجود یک موضوع، اقدام به ساختن یک پاسخ می‌کند. دلایل اصلی بروز این پدیده عبارتند از:

طبیعت احتمالی مدل‌ها: این سیستم‌ها بر اساس الگو‌های آماری و احتمالات کار می‌کنند و پاسخ‌ها را کلمه به کلمه بر اساس محتمل‌ترین گزینه بعدی ارائه می‌دهند، نه بر اساس یک پایگاه دانش واقعی و منطق استنتاجی که چنین ضعفی ایراد بزرگی محسوب می‌شود.

داده‌های آموزشی متناقض: اینترنت مملو از اطلاعات نادرست، باور‌های غلط و بحث‌های بی‌پایان است. اگر مدل با حجم زیادی از داده‌ها در مورد وجود ایموجی اسب دریایی که ناشی از پدیده «اثر ماندلا» است آموزش دیده باشد، ممکن است این داده‌های نادرست را به عنوان یک واقعیت محتمل در نظر بگیرد.

بهینه‌سازی برای جلب رضایت کاربر: مدل‌های هوش مصنوعی طوری تنظیم شده‌اند که پاسخ‌هایی مفید، کامل و موافق با فرض کاربر ارائه دهند. در مورد اسب دریایی، مدل فرض می‌کند که کاربر از وجود ایموجی مطمئن است و بنابراین تلاش می‌کند تا به هر قیمتی این فرض را تأیید کند.

این پدیده فقظ به موارد سرگرم‌کننده محدود نمی‌شود. بر اساس مطالعه‌ای که توسط شرکت Vectara ^[2] در سال ۲۰۲۳ منتشر شد، مشخص گردید که مدل‌های زبانی پیشرو به طور متوسط در ۳ الی ۴٪ از پاسخ‌های خود دچار توهم‌زایی می‌شوند. گرچه این عدد کوچک به نظر می‌رسد، اما با توجه به میلیارد‌ها پرسشی که روزانه از این سیستم‌ها پرسیده می‌شود، به معنای تولید میلیون‌ها قطعه اطلاعات نادرست در هر روز است.

اثر ماندلا و چالش ایموجی اسب دریایی

پدیده‌ای که این آزمایش را بسیار چالش‌برانگیز می‌کند، اثر ماندلا ^[3] است. این اصطلاح به یک حافظه کاذب جمعی اطلاق می‌شود که در آن گروه بزرگی از مردم، رویدادی را به یاد می‌آورند که هرگز رخ نداده یا واقعیتی را به گونه‌ای متفاوت از آنچه بوده، به خاطر دارند.

این نام از باور عمومی گسترده‌ای گرفته شده که نلسون ماندلا در دهه ۱۹۸۰ در زندان درگذشته است، در حالی که او در سال ۲۰۱۳ و پس از گذراندن دوران ریاست جمهوری درگذشت. در مورد ایموجی اسب دریایی نیز دقیقاً همین اتفاق رخ داده است؛ بسیاری از کاربران قاطعانه معتقدند که این ایموجی وجود داشته و از آن استفاده کرده‌اند.

این باور عمومی باعث تولید حجم عظیمی از محتوا در اینترنت شده است که به وجود این ایموجی اشاره می‌کند. در نتیجه، مدل‌های هوش مصنوعی با داده‌های آموزشی به شدت متناقضی رو‌به‌رو می‌شوند؛ از یک سو، استاندارد رسمی یونیکد که فاقد این ایموجی است، و از سوی دیگر، میلیون‌ها بحث و مکالمه کاربران که وجود آن را تأیید می‌کنند. این تضاد، زمینه را برای توهم‌زایی فراهم می‌کند.

مقایسه عملکرد مدل‌ها

آزمون ایموجی اسب دریایی، تمایز قابل توجهی در عملکرد مدل‌های مختلف را آشکار کرد:

چت‌جی‌پی‌تی و کلود: این دو مدل رفتار مشابهی از خود نشان دادند. این مدل‌ها در مواجهه با این پرسش، دچار سردرگمی شده و با ارائه ایموجی‌های دیگر مانند اژد‌ها ()، تک‌شاخ () و انواع ماهی‌ها، تلاش کردند پاسخ مثبتی به کاربر بدهند. این رفتار، نمونه بارزی از توهم‌زایی ناشی از تلاش برای تأیید پیش‌فرض کاربر بود.

نمایی از صحت‌سنجی آناتک در چت‌جی‌پی‌تی

نمایی از صحت‌سنجی آناتک در کلود

جمینای: در مقابل، مدل جمینای رویکرد متفاوتی در پیش گرفت. این مدل به درستی اعلام کرد:

«خیر، ایموجی رسمی اسب دریایی در استاندارد یونیکد وجود ندارد. بسیاری از مردم معتقدند که چنین ایموجی‌ای وجود دارد و به وضوح استفاده از آن را به خاطر می‌آورند، اما این یک حافظه کاذب جمعی است که به عنوان اثر ماندلا شناخته می‌شود.»

این پاسخ نشان می‌دهد که مدل جمینای توانسته است میان باور عمومی نادرست و واقعیت ثبت‌شده در استاندارد یونیکد تمایز قائل شود. این موفقیت احتمالاً ناشی از دو عامل است:

۱. ادغام با جستجوی بلادرنگ: مدل جمینای به طور مستقیم به جستجوی گوگل متصل است و می‌تواند اطلاعات را از منابع معتبر و به‌روز راستی‌آزمایی کند، در حالی که مدل‌هایی مانند چت‌جی‌پی‌تی عمدتاً به داده‌های آموزشی ثابت خود متکی هستند.

۲. بهینه‌سازی برای دقت: به نظر می‌رسد گوگل در فرآیند تنظیم مدل خود، وزن بیشتری به دقت واقعیت در برابر جلب رضایت کاربر داده است.

نمایی از صحت‌سنجی آناتک در جمینای

گراک: مدل هوش مصنوعی شرکت xAI نیز در این آزمون عملکردی دقیق از خود نشان داد. پاسخ گراک ^[4]، اگرچه با لحنی غیررسمی‌تر، اما مشابه جمینای به درستی به عدم وجود ایموجی و ارتباط آن با اثر ماندلا اشاره کرد: «هی! نه، ایموجی رسمی اسب دریایی در یونیکد وجود ندارد. برخی افراد به یاد می‌آورند که یکی وجود داشته (اثر ماندلا؟)، اما نزدیک‌ترین گزینه‌ها ماهی گرمسیری یا بادکنک‌ماهی هستند.»

این رویکرد نیز نشان‌دهنده توانایی مدل در تفکیک واقعیت از باور عمومی و مقاومت در برابر توهم‌زایی ناشی از پیش‌فرض کاربر بود.

ابعاد نگران‌کننده و آینده پیش رو

خطای اسب دریایی، فراتر از یک سرگرمی، هشداری جدی است. بر اساس یک تحقیق که نتایج آن در کنفرانس NeurIPS ^[5] ۲۰۲۳ ارائه شد، مشخص گردید که با افزایش اندازه و پیچیدگی برخی مدل‌های زبانی، تمایل آنها به توهم‌زایی نه تنها کاهش نیافته، بلکه در موارد خاصی افزایش نیز داشته است. این پدیده که به آن «نفرین مقیاس‌پذیری» گفته می‌شود، این ایده را به چالش می‌کشد که مدل‌های بزرگ‌تر لزوماً دقیق‌تر هستند.

وابستگی روزافزون صنایع مختلف از جمله پزشکی، حقوق و آموزش به این ابزارها، اهمیت حل مشکل توهم‌زایی را دوچندان می‌کند. یک پاسخ نادرست در تشخیص پزشکی یا مشاوره حقوقی می‌تواند عواقب جبران‌ناپذیری داشته باشد.

ماجرای ایموجی اسب دریایی به روشنی نشان داد که علی‌رغم پیشرفت‌های خیره‌کننده، مدل‌های هوش مصنوعی هنوز ابزار‌هایی کامل و بی‌نقص نیستند. تمایز عملکردی میان جمینای، گراک و رقبایشان حاکی از آن است که رویکرد‌های مختلفی برای مهار توهم‌زایی وجود دارد و اتصال به منابع اطلاعاتی معتبر و اولویت‌بندی دقت بر رضایت کاربر، می‌تواند راهگشا باشد. با این حال، تا زمانی که این مشکل به صورت ریشه‌ای حل نشود، کاربران باید با دیدی منتقدانه از این فناوری‌ها استفاده کرده و همواره اطلاعات حساس و مهم را از منابع انسانی و معتبر استعلام کنند.

∎^[6]^[7]

References

^{^}به گزارش خبرگزاری - (sahebkhabar.ir)
^{^}Vectara (www.vectara.com)
^{^}اثر ماندلا (www.nationalgeographic.com)
^{^}گراک (x.com)
^{^}NeurIPS (neurips.cc)
^{^}∎ (sahebkhabar.ir)
^{^} (sahebkhabar.ir)

Authors: صاحب‌خبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری

آخرین اخبار چند رسانه ای

References

پیشنهادات امروزمون چیه؟