Спеціалісти з Google DeepMind виявили, що модель Gemini 2.5 Pro стикається з труднощами та проявляє “паніку” під час гри в ранні версії Pokémon, що негативно впливає на її продуктивність та здатність до аналізу.
Цю інформацію повідомляє TechCrunch, посилаючись на дослідників Google DeepMind. Вивчення поведінки моделей штучного інтелекту під час гри може принести нові знання.
Останніми місяцями два незалежні розробники запускали трансляції на Twitch з назвами «Gemini Plays Pokémon» та «Claude Plays Pokémon», завдяки яким глядачі можуть спостерігати в реальному часі за спробами штучного інтелекту пройти класичну дитячу гру, випущену понад 25 років тому. Ці трансляції ілюструють процес мислення ШІ та демонструють, як модель формулює рішення різних завдань.
Хоча результати гри зазначених моделей вражають, рівень їхньої гри все ще далека від ідеального. Gemini потребує численних годин, щоб освоїти цю гру, яку дитина може пройти набагато швидше. Проте дослідників більше цікавить, як саме ШІ діє під час проходження гри, ніж час, потрібний для його завершення.
«В процесі гри Gemini 2.5 Pro зустрічає різні ситуації, які викликають у моделі імітацію “паніки”,— зазначається у звіті.
Цей стан “паніки” може призводити до зниження продуктивності моделі, оскільки ШІ може раптово перестати використовувати доступні йому інструменти на певний час. Хоча штучний інтелект не відчуває емоцій, його дії подібні до тих, що може зробити людина, яка приймає імпульсивні рішення в стресовій ситуації.
«Таке поведінка було помічено в багатьох випадках, що відзначили учасники чату Twitch»,— додали дослідники.
Інша модель, Claude, також проявила цікаві риси під час гри. Одного разу вона виявила, що коли всі її покемони втрачають здоров’я, персонаж гравця “зникає” і телепортується до Pokémon Center.
Коли Claude застрягла в печері Мун, вона помилково вирішила, що якщо вона навмисно змусить своїх покемонів втратити здоров’я, її перенесуть через печеру до сусіднього міста. Проте гра працює інакше: коли покемони гинуть, гравець повертається до того центру, який використовував останнім, а не до найближчого. Відтак глядачі спостерігали, як ШІ намагався фактично “вбити” себе в грі без жодного результату.
Хоча є деякі недоліки, штучний інтелект здатний перевершити людей у кількох аспектах. Наприклад, Gemini 2.5 Pro може з великими успіхом вирішувати головоломки. Завдяки людським підказкам, ШІ розробив агентні інструменти для вирішення завдань, пов’язаних з камінням в грі та знаходженням оптимальних маршрутів до мети.
«Маючи лише підказку, що описує фізику валунів, та інструкцію, як знайти правильний шлях, Gemini 2.5 Pro здатний одним рухом вирішити деякі з цих складних головоломок, необхідних для проходження Victory Road»,— повідомляється в звіті.
Оскільки ШІ виконав значну частину роботи самостійно, в Google вважають, що Gemini 2.5 Pro зможе створювати ці інструменти й без допомоги людей.
Раніше компанія Every, що займається розробкою програмного забезпечення та пропонує навчальні послуги в сфері штучного інтелекту, переосмислила класичну стратегічну гру «Дипломатія», де моделі ШІ ChatGPT, Gemini, Claude, DeepSeek та інші змагаються за контроль над Європою у 1901 році.