پرینت

هوش مصنوعی با چند فایل آلوده به راحتی فریب می‌خورد

on .

هوش مصنوعی با چند فایل آلوده به راحتی فریب می‌خورد
به گزارش خبرگزاری - [1]

تصور کنید هوش مصنوعی یک دانش‌آموز بسیار باهوش است که تمام اطلاعات خود را از خواندن میلیون‌ها کتاب و مقاله در اینترنت به دست می‌آورد. حال، نتایج یک مطالعه جدید که توسط آنتروپیک[2] منتشر شده، نشان می‌دهد اگر تنها ۲۵۰ صفحه اطلاعات غلط و دستکاری‌شده را به عمد در میان منابع آموزشی این دانش‌آموز قرار دهیم، می‌توانیم یک نقطه ضعف مخفی یا کد تقلب در مغز او ایجاد کنیم. این نقطه ضعف که بَک‌دُر نامیده می‌شود، به مهاجم اجازه می‌دهد تا با یک دستور ساده، هوش مصنوعی را وادار به انجام یک کار غیرعادی یا خطرناک کند. نکته نگران‌کننده این است که فرقی نمی‌کند این هوش مصنوعی چقدر بزرگ و قدرتمند باشد؛ تعداد کمی فایل آلوده برای فریب دادنش کافی است.

کارشناسان تا پیش از این،  معتقد بودند که برای خرابکاری در یک مدل هوش مصنوعی بزرگ، باید حجم عظیمی از اطلاعات آموزشی آن را دستکاری کرد که کاری بسیار دشوار و تقریباً غیرممکن بود. اما این تحقیق ثابت می‌کند که یک مهاجم نیازی به کنترل بخش بزرگی از داده‌ها ندارد و تنها با تزریق چند صد سند آلوده می‌تواند به هدف خود برسد.

چرا این موضوع اهمیت دارد؟

مدل‌های زبان بزرگ، مانند دستیار‌های هوشمندی که روزانه از آنها استفاده می‌کنیم، با بررسی حجم انبوهی از محتوای اینترنتی، از وب‌سایت‌های خبری گرفته تا وبلاگ‌های شخصی، آموزش می‌بینند. این یعنی هر کسی می‌تواند با تولید محتوا، در شکل‌گیری دانش این مدل‌ها نقش داشته باشد. همین موضوع، فرصتی برای افراد سودجو فراهم می‌کند تا با تزریق اطلاعات هدفمند، رفتار‌های ناخواسته یا خطرناکی را به هوش مصنوعی آموزش دهند. این فرآیند مسموم‌سازی داده‌ها نام دارد.

حملات بَک‌دُر یکی از خطرناک‌ترین انواع این خرابکاری‌هاست. در این روش، مهاجم یک عبارت خاص مانند یک کلمه بی‌ربط را به هوش مصنوعی آموزش می‌دهد و آن را به یک دستور تبدیل می‌کند. هرگاه هوش مصنوعی این دستور را در یک درخواست ببیند، رفتار پنهانی و از پیش تعیین‌شده‌ای را انجام می‌دهد؛ برای مثال، ممکن است اطلاعات محرمانه را فاش کند یا پاسخ‌های کاملاً اشتباه و بی‌ربط تولید نماید.

جزئیات آزمایش چگونه بود؟

پژوهشگران برای بررسی این موضوع، آزمایشی هوشمندانه طراحی کردند. آنها یک حفره امنیتی ساده در مدل‌های هوش مصنوعی با ابعاد مختلف ایجاد کردند. هدف این بود که مدل با دیدن یک کلمه رمز خاص، به جای پاسخ منطقی، شروع به تولید متون بی‌معنا و نامفهوم کند.

آنها برای این کار، اسناد آلوده‌ای ساختند که در آنها، کلمه رمز در کنار متن‌های بی‌معنا قرار گرفته بود. سپس این اسناد را به همراه حجم عظیمی از داده‌های سالم، به مدل‌های هوش مصنوعی با اندازه‌های مختلف، از مدل‌های کوچک ۶۰۰ میلیون پارامتری تا مدل‌های غول‌پیکر ۱۳ میلیارد پارامتری، آموزش دادند.

نتیجه شگفت‌انگیز بود؛ در تمام مدل‌ها، چه کوچک و چه بزرگ، تنها ۲۵۰ سند آلوده کافی بود تا نقطه ضعف مخفی با موفقیت ایجاد شود. این در حالی بود که مدل‌های بزرگ‌تر با حجم بسیار بیشتری از داده‌های سالم تغذیه شده بودند، اما این حجم بالا نتوانست اثر تعداد کم اسناد مسموم را خنثی کند.

این نمودار نشان می‌دهد که با تزریق ۲۵۰ سند آلوده، حمله در تمام مدل‌های هوش مصنوعی (خطوط رنگی مختلف) موفقیت‌آمیز بوده است.

یک هشدار جدی برای آینده

این مطالعه که بزرگ‌ترین تحقیق در زمینه مسموم‌سازی داده تا به امروز است، نشان می‌دهد که ایجاد یک ضعف امنیتی در مدل‌های هوش مصنوعی بسیار عملی‌تر از تصورات گذشته است. ساختن چند صد فایل مخرب برای یک مهاجم کار بسیار ساده‌ای است و این موضوع، اهمیت حفاظت از داده‌های آموزشی این سیستم‌ها را دوچندان می‌کند.

محققان تأکید می‌کنند که هدف از انتشار این یافته‌ها، تشویق خرابکاران نیست، بلکه آگاه‌سازی جامعه فناوری و متخصصان امنیت است. وقتی مدافعان بدانند که چنین حملاتی تا چه حد ساده است، می‌توانند روش‌های دفاعی بهتری برای شناسایی و خنثی‌سازی داده‌های آلوده پیش از ورود به چرخه آموزش هوش مصنوعی طراحی کنند. آینده هوش مصنوعی به امنیت آن گره خورده است و این پژوهش گامی مهم برای درک بهتر تهدیدات و مقابله با آن‌هاست.

[3][4]

References

  1. ^به گزارش خبرگزاری - (sahebkhabar.ir)
  2. ^آنتروپیک (www.anthropic.com)
  3. ^ (sahebkhabar.ir)
  4. ^ (sahebkhabar.ir)

Authors: صاحب‌خبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری

آخرین اخبار چند رسانه ای