هوش مصنوعی جدید جمنای ماشین را قادر به ارتباط با رابط‌های گرافیکی می‌کند

on 17 مهر 1404.

این فناوری جدید، عامل‌های هوش مصنوعی را قادر می‌سازد تا وظایف دیجیتالی پیچیده‌ای را که نیازمند تعامل مستقیم با نرم‌افزار‌ها هستند، به انجام رسانند. در حالی که مدل‌های هوش مصنوعی پیشین برای ارتباط با نرم‌افزار‌ها به API‌های ساختاریافته متکی بودند، بسیاری از فرآیند‌های دیجیتال مانند پر کردن فرم‌ها، کلیک کردن روی دکمه‌ها، تایپ کردن و اسکرول کردن، همچنان به دخالت مستقیم نیاز داشتند. مدل Computer Use این شکاف را پر کرده و به عامل‌ها اجازه می‌دهد تا صفحات وب و اپلیکیشن‌ها را درست مانند یک کاربر انسانی هدایت کنند. این توانایی برای ساخت نسل بعدی عامل‌های هوشمند چندمنظوره، یک گام مهم محسوب می‌شود.

نحوه عملکرد و فرآیند تعاملی

قابلیت‌های اصلی این مدل از طریق ابزار جدیدی به نام computer_use در جمنای API ارائه می‌شود و در یک حلقه تکرارشونده عمل می‌کند. فرآیند کار به این صورت است که ابتدا درخواست کاربر، تصویری از صفحه نمایش و تاریخچه‌ای از اقدامات اخیر به عنوان ورودی به مدل داده می‌شود. سپس مدل این ورودی‌ها را تحلیل کرده و یک پاسخ تولید می‌کند که معمولاً به شکل یک فراخوانی تابع برای انجام یکی از اقدامات رابط کاربری مانند کلیک یا تایپ است. در برخی موارد، مانند انجام یک خرید، پاسخ مدل ممکن است شامل درخواستی برای تأیید از سوی کاربر نهایی باشد.

پس از تولید پاسخ توسط مدل، کد سمت سرویس‌گیرنده اقدام مشخص‌شده را اجرا می‌کند. با اجرای این عمل، یک اسکرین‌شات جدید از وضعیت رابط کاربری به همراه آدرس URL فعلی به عنوان پاسخ تابع به مدل Computer Use ارسال می‌شود تا حلقه عملیاتی دوباره آغاز شود. این فرآیند تکراری تا زمان تکمیل وظیفه، بروز خطا یا توقف تعامل توسط یک پاسخ ایمنی یا تصمیم کاربر ادامه می‌یابد. اگرچه این مدل در درجه اول برای مرورگر‌های وب بهینه‌سازی شده، اما نتایج امیدوارکننده‌ای در کنترل رابط کاربری موبایل نیز نشان داده است. با این حال، هنوز برای کنترل در سطح سیستم‌عامل دسکتاپ بهینه‌سازی نشده است.

ارزیابی عملکرد و مقایسه با رقبا

مدل جمنای ^[2] ۲.۵ Computer Use در چندین معیار استاندارد کنترل وب و موبایل، عملکردی قابل توجه از خود نشان داده است. بر اساس نتایج گزارش‌شده، ارزیابی‌های انجام‌شده توسط Browserbase و همچنین ارزیابی‌های داخلی گوگل، این مدل توانسته است از سایر گزینه‌های پیشرو، پیشی بگیرد.

این مدل بالاترین کیفیت را برای کنترل مرورگر با کمترین میزان تأخیر ارائه می‌دهد، که این موضوع در ارزیابی عملکرد بر روی پلتفرم Browserbase برای Online-Mind۲Web اندازه‌گیری شده است.

رویکرد ایمنی و کنترل‌های توسعه‌دهنده

گوگل اعلام کرده است که با توجه به ریسک‌های منحصر‌به‌فرد عامل‌های هوش مصنوعی که رایانه‌ها را کنترل می‌کنند، ملاحظات ایمنی را از ابتدا در هسته این فناوری گنجانده است. این ریسک‌ها شامل سوءاستفاده عمدی توسط کاربران، رفتار غیرمنتظره مدل، و تزریق دستورات مخرب در محیط وب می‌شود. برای مقابله با این خطرات، ویژگی‌های ایمنی به طور مستقیم در مدل آموزش داده شده‌اند.

علاوه بر این گوگل ادعا می‌کند که کنترل‌های ایمنی متعددی در اختیار توسعه‌دهندگان قرار گرفته است تا از تکمیل خودکار اقدامات بالقوه پرخطر یا مضر توسط مدل جلوگیری کنند. این اقدامات شامل آسیب رساندن به یکپارچگی سیستم، به خطر انداختن امنیت، دور زدن کپچا یا کنترل دستگاه‌های پزشکی است. این کنترل‌ها عبارتند از:

۱. سرویس ایمنی برای هر مرحله: یک سرویس ایمنی خارج از مدل که در زمان استنتاج، هر اقدام پیشنهادی مدل را قبل از اجرا ارزیابی می‌کند.

۲. دستورالعمل‌های سیستمی: توسعه‌دهندگان می‌توانند مشخص کنند که عامل هوشمند قبل از انجام اقدامات پرخطر خاص، از کاربر تأییدیه بگیرد یا از انجام آن خودداری کند.

موارد استفاده اولیه و بازخورد‌ها

تیم‌های داخلی گوگل پیش از این، مدل مذکور را برای موارد مختلفی از جمله آزمایش رابط کاربری به کار گرفته‌اند که به گفته آنها، سرعت توسعه نرم‌افزار را به میزان قابل توجهی افزایش داده است. همچنین، نسخه‌هایی از این مدل در پروژه‌هایی مانند Project Mariner و Firebase Testing Agent مورد استفاده قرار گرفته است.

کاربران برنامه دسترسی اولیه نیز از این مدل برای تقویت دستیار‌های شخصی، اتوماسیون گردش کار و آزمایش رابط کاربری استفاده کرده و نتایج مثبتی را گزارش داده‌اند. به عنوان مثال، شرکت Autotab که یک عامل هوش مصنوعی مستقل برای جمع‌آوری و تجزیه و تحلیل داده‌ها ارائه می‌دهد، اعلام کرد که مدل جمنای ۲.۵ Computer Use در تحلیل زمینه‌های پیچیده تا ۱۸ درصد عملکرد بهتری نسبت به سایر مدل‌ها داشته است. همچنین تیم پلتفرم پرداخت گوگل، با پیاده‌سازی این مدل به عنوان یک مکانیزم پشتیبان، موفق شده است بیش از ۶۰ درصد از تست‌های رابط کاربری که پیش از این با شکست مواجه می‌شدند را با موفقیت بازیابی کند.

این مدل از روز سه‌شنبه، به صورت پیش‌نمایش عمومی از طریق جمنای API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان قرار گرفته است.

∎^[3]^[4]

References

^{^}به گزارش خبرگزاری - (sahebkhabar.ir)
^{^}جمنای (blog.google)
^{^}∎ (sahebkhabar.ir)
^{^} (sahebkhabar.ir)

Authors: صاحب‌خبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری

آخرین اخبار چند رسانه ای