هوش مصنوعی از درک گلها عاجز است

ضمیمه دانش روزنامه اطلاعات نوشت: یک ابزار هوش مصنوعی مانند چیجیپیتی هر چقدر هم که آموزش ببیند و هر چقدر هم از قدرت رایانهای بالایی برخوردار باشد، نمیتواند یک گل را آن طور که انسان میشناسد، درک و توصیف کند.
دلیلش این است که مدلهای زبانی بزرگی (LLMs)که دستیاران هوش مصنوعی به آنها مجهز هستند به طور معمول فقط مبتنی بر زبان و گاهی زبان همراه با تصاویر هستند.
یک مدل هوش مصنوعی بزرگ نمیتواند گل رز را بو و عطر آن را حس کند، گلبرگهای یک گل آفتابگردان را لمس کند یا در میان دشتی از گلهای وحشی قدم بزند. به عبارتی دیگر، بدون تجارب حسگری و حرکتی نمیتواند توصیفی کامل و با همه جزئیات از یک گل به ما ارائه دهد. این در مورد برخی مفاهیم انسانی دیگر نیز صادق است.
اگر هوش مصنوعی دنیا را به شکلی کاملاً متفاوت از انسان تعبیر و تفسیر کند، این امر میتواند بر نحوه تعامل آن با ما تأثیر بگذارد. پژوهشگران دانشگاه ایالتی اوهایو در ایالات متحده انسانها و مدلهای زبانی بزرگ را با ۴۴۴۲ لغت مختلف که دامنه واژگان متنوعی از «گل» و «پشتبام» تا واژگانی مثل «طنزآمیز» و «تاب» را شامل میشد باهم مقایسه کردند.
آنها شباهت توصیفات انسانها و دو تا از پیشرفتهترین خانوادههای مدلهای زبانی بزرگ را باهم مقایسه کردند: جیپیتی ۵/۳ (GPT-۳.۵) و جیپیتی ۴ (GPT-۴)از شرکت اوپِناِیآی و پالم (PaLM)و جمینای (Gemini)از شرکت گوگل.
در این مطالعه، انسانها و مدلهای زبانی بزرگ دو تست را پشت سر گذاشتند. نام یکی از این تستها که «قوائد گلاسگو» نام داشت درخواست دستهبندی کلمات در ۹ درجهبندی مختلف را میکرد؛ برای مثال، از آنها خواسته شد بگویند احساسات آنها چقدر با دیدن یا بوییدن یک گل تحریک میشود که باید در یک رتبهبندی آن را بیان میکردند. همچنین باید پاسخ میدادند آنها چقدر میتوانند یک گل را در ذهن خود تصویرسازی کنند.
تست دیگر «قائده لنکستر» نام داشت و به این میپرداخت که مفاهیم کلمات چقدر با اطلاعات حسگری مانند لامسه، شنوایی، بویایی، بینایی و اطلاعات حرکتی مرتبط هستند. این اطلاعات برای مثال به پی بردن به این که انسانها از طریق تماس با دهان، دستها و بازوها چه کارهایی انجام میدهند کمک میکنند. این تست از مدلها و انسانها میپرسد چقدر با بوییدن یک گل آن را ادراک میکنند و چقدر با دستها و سر و به طور کلی اعضاء بدن خود شناخت یک گل را تجربه میکنند.
هدف از انجام این مطالعه این بود که ببینند مدلهای زبانی بزرگ و انسانها در رتبهبندی واژگان چقدر با یکدیگر همتراز و همسو هستند. در یک تحلیل، پژوهشگران میزان هماهنگی انسان و هوش مصنوعی در رابطه با مفاهیم را مورد بررسی قرار دادند. به عنوان مثال، به یافتن پاسخ برای این پرسش پرداختند که آیا مدلهای زبانی بزرگ و انسانها در این که برخی مفاهیم بیش از مفاهیم دیگر احساسات را برمی انگیزند همرأی هستند.
در تحلیلی دیگر، تصمیم گیری انسانها و مدلهای زبانی بزرگ درباره اینکه کلمات مختلف چگونه باهم پیوستگی و ارتباط دارند باهم مقایسه شدهاند. دو واژه پاستا و گل سرخ، هر دو ممکن است به این دلیل که حس بویایی را به میزان زیادی تحریک میکنند در رتبهبندی بالا قرار بگیرند. با این حال، پاستا بسیار بیشتر از گل سرخ به نودل شباهت دارد. دستکم از نگاه انسانها اینگونه است؛ نه فقط به خاطر بویی که این دو غذا دارند، بلکه از لحاظ ظاهر و طعم نیز به هم نزدیک هستند.
در مجموع، مدلهای زبانی بزرگ در مقایسه با انسانها در درک کردن کلماتی که به معناییشان و حرکات اعضای بدن ربطی نداشتند بسیار خوب عمل کردند اما در مورد کلماتی که از لحاظ بصری به چیزهای پیرامون ما ارتباط دارند، مثل چیزهایی که میبینیم، میچشیم یا با آنها از طریق بدنمان در تعامل هستیم، هوش مصنوعی نتوانست مفاهیم انسانی را درک کند.
از عطر بسیار زیاد یک گل، لطافت زنده و ابریشمی برگ گل هنگام لمس آن تا حس سرزندگی که در ما برانگیخته میشود، درک انسان از گل به او کمک میکند تا این تجارب حسی مختلف و تعاملات را در یک رده و دسته منسجم باهم ترکیب میکند.
موضوع این است که بیشتر مدلهای زبانی بزرگ به زبان وابسته هستند اما زبان خودش نمیتواند به طور کامل درک مفهومی از واژگان را بازیابی کند.
اگرچه مدلهای زبانی بزرگ میتوانند به برخی مفاهیم انسانی نزدیک شوند اما بهویژه زمانی که حواس یا حرکات اندامها را شامل نمیشوند، این نوع یادگیری مؤثر و کارآمد نیست. مدلهای زبانی بزرگ با دریافت مقادیر زیادی متن دانستههای خود را کسب میکنند. این مقدار داده متنی چندین برابر دادههایی است که انسان در تمامی طول زندگی خود با آنها روبرو میشود. با این حال هنوز هم نمیتوانند مانند انسانها برخی مفاهیم را درک کنند. تجربه انسانی بسیار غنیتر از آن است که واژهها به تنهایی گنجایش آنها را در خودشان داشته باشند.
مدلهای زبانی بزرگ بهطور مداوم ارتقاء داده شده و بهتر میشوند و احتمال این که در شناخت مفاهیم انسانی عملکرد قدرتمندتری داشته باشند نیز وجود دارد. این پژوهشگران همچنین دریافتند مدلهای زبانی بزرگی که علاوه بر متن با تصاویر نیز آموزش داده شدهاند بهتر از مدلهایی که فقط مبتنی بر متن هستند در درک مفاهیمی که به بینایی مربوط میشود عمل میکنند.
وقتی مدلهای زبانی بزرگ در آینده با دادههای حسگری و روباتیک تقویت شوند، میتوانند به طرزی فعال درباره جهان فیزیکی استنتاج کنند و کارهایی را در تعامل با آن انجام دهند.
Authors: صاحبخبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری