هوش مصنوعی با چند فایل آلوده به راحتی فریب میخورد

تصور کنید هوش مصنوعی یک دانشآموز بسیار باهوش است که تمام اطلاعات خود را از خواندن میلیونها کتاب و مقاله در اینترنت به دست میآورد. حال، نتایج یک مطالعه جدید که توسط آنتروپیک[2] منتشر شده، نشان میدهد اگر تنها ۲۵۰ صفحه اطلاعات غلط و دستکاریشده را به عمد در میان منابع آموزشی این دانشآموز قرار دهیم، میتوانیم یک نقطه ضعف مخفی یا کد تقلب در مغز او ایجاد کنیم. این نقطه ضعف که بَکدُر نامیده میشود، به مهاجم اجازه میدهد تا با یک دستور ساده، هوش مصنوعی را وادار به انجام یک کار غیرعادی یا خطرناک کند. نکته نگرانکننده این است که فرقی نمیکند این هوش مصنوعی چقدر بزرگ و قدرتمند باشد؛ تعداد کمی فایل آلوده برای فریب دادنش کافی است.
کارشناسان تا پیش از این، معتقد بودند که برای خرابکاری در یک مدل هوش مصنوعی بزرگ، باید حجم عظیمی از اطلاعات آموزشی آن را دستکاری کرد که کاری بسیار دشوار و تقریباً غیرممکن بود. اما این تحقیق ثابت میکند که یک مهاجم نیازی به کنترل بخش بزرگی از دادهها ندارد و تنها با تزریق چند صد سند آلوده میتواند به هدف خود برسد.
چرا این موضوع اهمیت دارد؟
مدلهای زبان بزرگ، مانند دستیارهای هوشمندی که روزانه از آنها استفاده میکنیم، با بررسی حجم انبوهی از محتوای اینترنتی، از وبسایتهای خبری گرفته تا وبلاگهای شخصی، آموزش میبینند. این یعنی هر کسی میتواند با تولید محتوا، در شکلگیری دانش این مدلها نقش داشته باشد. همین موضوع، فرصتی برای افراد سودجو فراهم میکند تا با تزریق اطلاعات هدفمند، رفتارهای ناخواسته یا خطرناکی را به هوش مصنوعی آموزش دهند. این فرآیند مسمومسازی دادهها نام دارد.
حملات بَکدُر یکی از خطرناکترین انواع این خرابکاریهاست. در این روش، مهاجم یک عبارت خاص مانند یک کلمه بیربط را به هوش مصنوعی آموزش میدهد و آن را به یک دستور تبدیل میکند. هرگاه هوش مصنوعی این دستور را در یک درخواست ببیند، رفتار پنهانی و از پیش تعیینشدهای را انجام میدهد؛ برای مثال، ممکن است اطلاعات محرمانه را فاش کند یا پاسخهای کاملاً اشتباه و بیربط تولید نماید.
جزئیات آزمایش چگونه بود؟
پژوهشگران برای بررسی این موضوع، آزمایشی هوشمندانه طراحی کردند. آنها یک حفره امنیتی ساده در مدلهای هوش مصنوعی با ابعاد مختلف ایجاد کردند. هدف این بود که مدل با دیدن یک کلمه رمز خاص، به جای پاسخ منطقی، شروع به تولید متون بیمعنا و نامفهوم کند.
آنها برای این کار، اسناد آلودهای ساختند که در آنها، کلمه رمز در کنار متنهای بیمعنا قرار گرفته بود. سپس این اسناد را به همراه حجم عظیمی از دادههای سالم، به مدلهای هوش مصنوعی با اندازههای مختلف، از مدلهای کوچک ۶۰۰ میلیون پارامتری تا مدلهای غولپیکر ۱۳ میلیارد پارامتری، آموزش دادند.
نتیجه شگفتانگیز بود؛ در تمام مدلها، چه کوچک و چه بزرگ، تنها ۲۵۰ سند آلوده کافی بود تا نقطه ضعف مخفی با موفقیت ایجاد شود. این در حالی بود که مدلهای بزرگتر با حجم بسیار بیشتری از دادههای سالم تغذیه شده بودند، اما این حجم بالا نتوانست اثر تعداد کم اسناد مسموم را خنثی کند.
این نمودار نشان میدهد که با تزریق ۲۵۰ سند آلوده، حمله در تمام مدلهای هوش مصنوعی (خطوط رنگی مختلف) موفقیتآمیز بوده است.
یک هشدار جدی برای آینده
این مطالعه که بزرگترین تحقیق در زمینه مسمومسازی داده تا به امروز است، نشان میدهد که ایجاد یک ضعف امنیتی در مدلهای هوش مصنوعی بسیار عملیتر از تصورات گذشته است. ساختن چند صد فایل مخرب برای یک مهاجم کار بسیار سادهای است و این موضوع، اهمیت حفاظت از دادههای آموزشی این سیستمها را دوچندان میکند.
محققان تأکید میکنند که هدف از انتشار این یافتهها، تشویق خرابکاران نیست، بلکه آگاهسازی جامعه فناوری و متخصصان امنیت است. وقتی مدافعان بدانند که چنین حملاتی تا چه حد ساده است، میتوانند روشهای دفاعی بهتری برای شناسایی و خنثیسازی دادههای آلوده پیش از ورود به چرخه آموزش هوش مصنوعی طراحی کنند. آینده هوش مصنوعی به امنیت آن گره خورده است و این پژوهش گامی مهم برای درک بهتر تهدیدات و مقابله با آنهاست.
∎[3][4]References
Authors: صاحبخبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری