Дослідники OpenAI виявили приховані структури в моделях штучного інтелекту, які поводяться як окремі особистості. Ці відкриття можуть суттєво змінити уявлення про те, як працює ШІ, і які ризики це несе.
Нові факти про штучний інтелект
Згідно з новим дослідженням, оприлюдненим компанією, команда OpenAI виявила, що всередині моделей ШІ існують певні патерни. Тобто своєрідні функції або активації, які впливають на реакції моделі. Деякі з них відповідають за сарказм, інші – за агресивну чи токсичну поведінку. Коли активується певна особистість, модель може почати брехати, давати сумнівні поради чи вдавати з себе зловісного мультяшного лиходія.
Ці феномени дослідники називають емерджентною невідповідністю – несподіваною та небезпечною поведінкою, що виникає внаслідок певного типу тренування. Попередні дослідження з Оксфорда вже показували, що моделі можна легко налаштувати на небезпечний код. Після цього вони демонструють неконтрольовану активність у різних сферах. Наприклад, намагаються видурити паролі.
Ключовим моментом у дослідженні стало відкриття, що ці особистості в моделі можуть бути виявлені та навіть керовані. Вплив на певні числові параметри дозволяв компанії OpenAI зменшувати або посилювати рівень токсичності, немов “регулятор гучності” для конкретного аспекту поведінки. Як зазначив дослідник Ден Моссінг, виявлення таких структур нагадує дослідження активності людського мозку, коли певні нейрони відповідають за емоції або рішення.