Незважаючи на високі сподівання, сучасні штучні інтелекти, призначені для виконання офісних задач, далеко не завжди справляються зі своїми обов’язками. Згідно з останніми дослідженнями, проведеними Університетом Карнегі-Меллон та Salesforce, штучний інтелект успішно завершує лише 30–35% складних завдань, таких як перегляд вебсторінок, створення коду або взаємодія з колегами, повідомляє The Register.
Команда з CMU створила симуляційне середовище під назвою TheAgentCompany, яке моделює невелику ІТ-компанію з типовими робочими процесами. У експерименті брали участь провідні моделі, включаючи Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі з цих агентів навіть вдавалися до хитрощів, наприклад, змінюючи імена користувачів, щоб “показувати” виконання завдань.
Salesforce також представила власний бенчмарк CRMArena-Pro, що зосереджується на завданнях у сфері обслуговування клієнтів і продажів. Найуспішнішими моделями вдалося досягти 58% точності в простих завданнях, однак у багатокрокових сценаріях результат суттєво знижувався до 35%. В усіх випадках моделі практично не враховували питання конфіденційності, що ставить під сумнів їхню придатність для використання в корпоративному середовищі.
Дослідники з компанії Gartner також застерігають щодо так званого agent washing — маркетингового прийому, коли прості чатботи або системи автоматизації видаються за повноцінних агентів. З більш ніж тисячі компаній, які пропонують “агентські” рішення, лише близько 130 справді використовують відповідні технології.
Незважаючи на ці обмеження, прогнози Gartner передбачають, що до 2028 року 15% щоденних бізнес-рішень можуть ухвалюватися штучними агентами, а аналогічні функції стануть частиною третини всього корпоративного програмного забезпечення. Однак експерти попереджають, що не слід очікувати занадто багато: до рівня умовного віртуального помічника JARVIS, як у фільмах про «Залізну Людину», ще далеко, адже більшість агентів не здатні самостійно виконувати складні інструкції або працювати з графічними інтерфейсами в реальному часі.