Фахівці з Google DeepMind виявили, що Gemini 2.5 Pro може входити в стан паніки, коли взаємодіє з ранніми версіями ігор серії Pokémon. Це негативно впливає на продуктивність штучного інтелекту та його логічні здібності.
Про це повідомляє TechCrunch, посилаючись на дані дослідників з Google DeepMind. Багато фахівців вважають, що вивчення поведінки моделей ШІ під час ігор може мати значну користь.
Останніми місяцями декілька незалежних розробників, не пов’язаних із Google або Anthropic, запустили трансляції на Twitch під назвами «Gemini Plays Pokémon» та «Claude Plays Pokémon», де глядачі можуть в режимі реального часу спостерігати за тим, як ШІ намагається пройти просту відеогру, яка була випущена більше 25 років тому. Ці трансляції ілюструють процес «міркувань» ШІ та показують, як модель оцінює завдання і знаходить рішення.
Попри вражаючий прогрес, ці моделі все ще мають певні труднощі в грі Pokémon. Gemini потрібно величезну кількість годин, щоб освоїти гру, ім’якої дитина може пройти швидше. Дослідників цікавить не стільки швидкість проходження, скільки поведінка ШІ під час гри.
«Під час гри Gemini 2.5 Pro часто потрапляє в різні ситуації, що змушують модель імітувати «паніку», — йдеться в звіті.
Цей стан «паніки» може призвести до зниження продуктивності моделі, оскільки ШІ раптово може перестати використовувати доступні йому інструменти під час проходження гри. Хоча ШІ не відчуває емоцій, його дії нагадують людські помилки, які виникають під тиском стресу.
«Цю поведінку спостерігали настільки часто, що глядачі на Twitch активно звертали на неї увагу», — зазначають вчені.
ШІ Claude також демонстрував цікаві особливості під час своїх ігор. У одному з випадків він зауважив, що коли всі його покемони втрачають здоров’я, його персонаж «зникає» і повертається до Pokémon Center.
Коли Claude застряг у печері гори Мун, він помилково вирішив, що, якщо він навмисно прирече всіх своїх покемонов на загибель, його перенесуть через печеру до центру в сусідньому місті. Проте гра працює інакше. Коли всі покемони гинуть, гравець відправляється до останнього використаного центру, а не до найближчого. Тому глядачі спостерігали, як ШІ намагався допомогти собі, вбиваючи персонажа, що не приносило жодної вигоди.
Незважаючи на свої недоліки, ШІ в деяких аспектах перевершує людських гравців. Наприклад, Gemini 2.5 Pro здатний ефективно вирішувати головоломки з високою точністю. Зі значною підтримкою людини, ШІ створив агентні інструменти для допомоги у вирішенні завдань і пошуку оптимальних маршрутів у грі.
«Завдяки лише підказці, яка описує фізику валунів, та інструкції перевірки правильного шляху, Gemini 2.5 Pro здатний одним рухом вирішити складні головоломки з камінням, необхідні для проходження Victory Road», — зазначають у звіті.
Оскільки ШІ виконав значну частину роботи самостійно, у Google припускають, що Gemini 2.5 Pro має потенціал створювати ці інструменти без допомоги людей.
Раніше компанія Every, що займається розробкою програмних рішень та навчанням у сфері штучного інтелекту, переосмислила класичну історичну стратегічну гру «Дипломатія», у якій моделі ШІ ChatGPT, Gemini, Claude, DeepSeek та інші грають від імені великих держав 1901 року, змагаючись за панування у Європі.