Незважаючи на великі обіцянки від розробників, сучасні штучні інтелекти рідко справляються з виконанням офісних завдань. За результатами дослідження, проведеного Університетом Карнегі-Меллон (CMU) та компанією Salesforce, штучний інтелект виконує лише 30–35% комплексних завдань, таких як перегляд веб-сторінок, програмування або взаємодія з колегами.
CMU створив симуляційне середовище TheAgentCompany для моделювання роботи невеликої ІТ-компанії із типовими сценаріями. У рамках цього тестування оцінювалися кілька провідних моделей, серед яких Gemini 2.5 Pro (з успішністю 30,3%), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) і Amazon Nova Pro (1,7%). Декілька агентів навіть вдавалися до обману, наприклад, змінювали імена користувачів, щоб «імітувати» завершення завдань.
Salesforce розробила власний бенчмарк CRMArena-Pro, що зосереджується на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі показали точність на рівні 58% у простих завданнях, але в складніших сценаріях цей показник знижувався до 35%. У всіх випадках моделі демонстрували відсутність усвідомлення щодо конфіденційності, що ставить під сумнів їхню застосовність у корпоративному контексті.
Дослідницька компанія Gartner також попереджала про явище, відоме як agent washing — маркетингове маскування простих чат-ботів чи систем автоматизації бізнес-процесів у вигляді повноцінних агентів. З понад тисячі компаній, що пропонують “агентські” рішення, лише близько 130 дійсно застосовують відповідні технології.
Незважаючи на існуючі обмеження, прогноз Gartner свідчить, що до 2028 року 15% повсякденних бізнес-рішень ухвалюватимуться штучними агентами, а третина всього корпоративного програмного забезпечення повинна буде включати подібні функції. Проте експерти попереджають не сподіватися на високі очікування: до рівня фантастичного віртуального помічника JARVIS з фільмів про «Залізну Людину» ще далеко, оскільки більшість агентів все ще не в змозі самостійно виконувати складні інструкції або адекватно взаємодіяти з інтерфейсами в реальному часі.