Вчені імперського коледжу Лондона та компанії Ant Group, що входить до складу конгломерату Alibaba, представили інноваційний підхід до навчання груп штучного інтелекту (ШІ), що дозволяє агентам ефективно співпрацювати над складними завданнями. У новій роботі, що була оприлюднена цього місяця, команда пропонує структуру, в якій головний агент планує дії, а підагенти виконують конкретні інструментальні операції. Цей метод, відомий як M-GRPO, був оцінений на трьох реальних тестах, які вимірюють здатність до багатоступеневого мислення та вміле використання інструментів.
Обмеження одноагентних систем
Більшість сучасних AI-систем вимагають роботи лише одного агента, відповідального за планування, розуміння та виконання дій. Однак такі підходи часто призводять до труднощів, зокрема, коли необхідно ухвалювати рішення на багатьох етапах. Помилки, допущені на початку завдання, можуть суттєво вплинути на його завершення, адже всі рішення проходять через єдину модель.
У новому дослідженні тестується альтернатива, за якої декілька агентів поділяють обов’язки. Головний агент формує план, делегує дії, а підагенти виконують роботи, які можуть включати численні дії. Така вертикальна багатоколонна структура є аналогом реальних сценаріїв, де ШІ повинен шукати, аналізувати та отримувати інформацію з зовнішніх джерел.
Новий метод навчання: декомпоноване управління
M-GRPO є продовженням попереднього методу GRPO, який оцінює результати одного агента за допомогою порівняння його продуктивності із середніми показниками інших агентів у групі. Ця нова структура покладається на участь одного головного агента та декількох підагентів, що працюють на різних рівнях. Команда виявила три основні виклики при навчанні цієї системи: головний агент діє на кожному етапі, підагенти залучаються лише при необхідності використання інструментів, а також потреба в різному числі підагентів для вирішення певних завдань.
Щоб подолати ці проблеми, вчені розробили систему декомпонованого навчання. Вона збирає результати від головного агента та всіх підагентів і зберігає їх у загальному буфері. Таким чином, кожен агент оцінюється за його внесок у підсумковий результат, що дозволяє оновлювати його стратегію навіть за умов різної активності учасників.
Досягнення в тестуванні
Дослідники протестували свою гіпотезу на кількох показниках продуктивності, що імітують реальні завдання, які вимагають планування і ухвалення рішень на декількох етапах. Тести включали задачі WebWalkerQA, що передбачають навігацію та пошук специфічного контенту, а також XBench DeepSearch і GAIA, які включають вибір інструмента та інтеграцію інформації з кількох джерел.
Результати показали, що нова система перевищила показники як одномодельної, так і багатомодельної системи при постійних підагентах, а також продемонструвала вищу стабільність навчання і ефективність зразків по всім трьом тестовим методам.
