هوش مصنوعی جدید جمنای ماشین را قادر به ارتباط با رابطهای گرافیکی میکند

این فناوری جدید، عاملهای هوش مصنوعی را قادر میسازد تا وظایف دیجیتالی پیچیدهای را که نیازمند تعامل مستقیم با نرمافزارها هستند، به انجام رسانند. در حالی که مدلهای هوش مصنوعی پیشین برای ارتباط با نرمافزارها به APIهای ساختاریافته متکی بودند، بسیاری از فرآیندهای دیجیتال مانند پر کردن فرمها، کلیک کردن روی دکمهها، تایپ کردن و اسکرول کردن، همچنان به دخالت مستقیم نیاز داشتند. مدل Computer Use این شکاف را پر کرده و به عاملها اجازه میدهد تا صفحات وب و اپلیکیشنها را درست مانند یک کاربر انسانی هدایت کنند. این توانایی برای ساخت نسل بعدی عاملهای هوشمند چندمنظوره، یک گام مهم محسوب میشود.
نحوه عملکرد و فرآیند تعاملی
قابلیتهای اصلی این مدل از طریق ابزار جدیدی به نام computer_use در جمنای API ارائه میشود و در یک حلقه تکرارشونده عمل میکند. فرآیند کار به این صورت است که ابتدا درخواست کاربر، تصویری از صفحه نمایش و تاریخچهای از اقدامات اخیر به عنوان ورودی به مدل داده میشود. سپس مدل این ورودیها را تحلیل کرده و یک پاسخ تولید میکند که معمولاً به شکل یک فراخوانی تابع برای انجام یکی از اقدامات رابط کاربری مانند کلیک یا تایپ است. در برخی موارد، مانند انجام یک خرید، پاسخ مدل ممکن است شامل درخواستی برای تأیید از سوی کاربر نهایی باشد.
پس از تولید پاسخ توسط مدل، کد سمت سرویسگیرنده اقدام مشخصشده را اجرا میکند. با اجرای این عمل، یک اسکرینشات جدید از وضعیت رابط کاربری به همراه آدرس URL فعلی به عنوان پاسخ تابع به مدل Computer Use ارسال میشود تا حلقه عملیاتی دوباره آغاز شود. این فرآیند تکراری تا زمان تکمیل وظیفه، بروز خطا یا توقف تعامل توسط یک پاسخ ایمنی یا تصمیم کاربر ادامه مییابد. اگرچه این مدل در درجه اول برای مرورگرهای وب بهینهسازی شده، اما نتایج امیدوارکنندهای در کنترل رابط کاربری موبایل نیز نشان داده است. با این حال، هنوز برای کنترل در سطح سیستمعامل دسکتاپ بهینهسازی نشده است.
ارزیابی عملکرد و مقایسه با رقبا
مدل جمنای[2] ۲.۵ Computer Use در چندین معیار استاندارد کنترل وب و موبایل، عملکردی قابل توجه از خود نشان داده است. بر اساس نتایج گزارششده، ارزیابیهای انجامشده توسط Browserbase و همچنین ارزیابیهای داخلی گوگل، این مدل توانسته است از سایر گزینههای پیشرو، پیشی بگیرد.
این مدل بالاترین کیفیت را برای کنترل مرورگر با کمترین میزان تأخیر ارائه میدهد، که این موضوع در ارزیابی عملکرد بر روی پلتفرم Browserbase برای Online-Mind۲Web اندازهگیری شده است.
رویکرد ایمنی و کنترلهای توسعهدهنده
گوگل اعلام کرده است که با توجه به ریسکهای منحصربهفرد عاملهای هوش مصنوعی که رایانهها را کنترل میکنند، ملاحظات ایمنی را از ابتدا در هسته این فناوری گنجانده است. این ریسکها شامل سوءاستفاده عمدی توسط کاربران، رفتار غیرمنتظره مدل، و تزریق دستورات مخرب در محیط وب میشود. برای مقابله با این خطرات، ویژگیهای ایمنی به طور مستقیم در مدل آموزش داده شدهاند.
علاوه بر این گوگل ادعا میکند که کنترلهای ایمنی متعددی در اختیار توسعهدهندگان قرار گرفته است تا از تکمیل خودکار اقدامات بالقوه پرخطر یا مضر توسط مدل جلوگیری کنند. این اقدامات شامل آسیب رساندن به یکپارچگی سیستم، به خطر انداختن امنیت، دور زدن کپچا یا کنترل دستگاههای پزشکی است. این کنترلها عبارتند از:
۱. سرویس ایمنی برای هر مرحله: یک سرویس ایمنی خارج از مدل که در زمان استنتاج، هر اقدام پیشنهادی مدل را قبل از اجرا ارزیابی میکند.
۲. دستورالعملهای سیستمی: توسعهدهندگان میتوانند مشخص کنند که عامل هوشمند قبل از انجام اقدامات پرخطر خاص، از کاربر تأییدیه بگیرد یا از انجام آن خودداری کند.
موارد استفاده اولیه و بازخوردها
تیمهای داخلی گوگل پیش از این، مدل مذکور را برای موارد مختلفی از جمله آزمایش رابط کاربری به کار گرفتهاند که به گفته آنها، سرعت توسعه نرمافزار را به میزان قابل توجهی افزایش داده است. همچنین، نسخههایی از این مدل در پروژههایی مانند Project Mariner و Firebase Testing Agent مورد استفاده قرار گرفته است.
کاربران برنامه دسترسی اولیه نیز از این مدل برای تقویت دستیارهای شخصی، اتوماسیون گردش کار و آزمایش رابط کاربری استفاده کرده و نتایج مثبتی را گزارش دادهاند. به عنوان مثال، شرکت Autotab که یک عامل هوش مصنوعی مستقل برای جمعآوری و تجزیه و تحلیل دادهها ارائه میدهد، اعلام کرد که مدل جمنای ۲.۵ Computer Use در تحلیل زمینههای پیچیده تا ۱۸ درصد عملکرد بهتری نسبت به سایر مدلها داشته است. همچنین تیم پلتفرم پرداخت گوگل، با پیادهسازی این مدل به عنوان یک مکانیزم پشتیبان، موفق شده است بیش از ۶۰ درصد از تستهای رابط کاربری که پیش از این با شکست مواجه میشدند را با موفقیت بازیابی کند.
این مدل از روز سهشنبه، به صورت پیشنمایش عمومی از طریق جمنای API در پلتفرمهای Google AI Studio و Vertex AI در دسترس توسعهدهندگان قرار گرفته است.
∎[3][4]References
Authors: صاحبخبران - جدیدترین و آخرین اخبار ایران و جهان - علمی-فناوری