Стартапи у сфері штучного інтелекту Anthropic та OpenAI оголосили про проведення спільної оцінки своїх публічних моделей, використовуючи власні тести на безпеку та невідповідність.
Колаборація конкуруючих компаній
У своїх блогах компанії поділилися цією інформацією та підсумками, зазначивши, що досліджували проблеми, такі як підлабузництво, розголошення конфіденційної інформації, самозбереження, підтримка зловживань з боку людей та можливості, які можуть знизити ефективність оцінок безпеки AI.
OpenAI зазначила, що ця колаборація є “першою у своєму роді спільною оцінкою”, яка демонструє можливість співпраці лабораторій у вирішенні подібних питань.
Anthropic додала, що спільне оцінювання має на меті сприяти розвитку сфери оцінок відповідності та “встановленню найкращих практик, готових до виробництва”.
Представляючи результати, Anthropic відзначила, що моделі reasoning o3 та o4-mini від OpenAI виявилися в цілому такими ж ефективними або навіть кращими, ніж її власні моделі. Однак загальні моделі GPT-4o та GPT-4.1 продемонстрували деякі “тривожні поведінки”, особливо у контексті зловживань. Обидві компанії також визнали, що моделі мають певні труднощі з підлабузництвом.
У блозі відкрили, що GPT-5 від OpenAI ще не був доступний під час тестування.
OpenAI зазначила, що моделі Claude 4 від Anthropic в цілому показали гарні результати у тестах, які перевіряли їх здатність дотримуватись ієрархії інструкцій, однак результативність була меншою у тестах на “втечу з в’язниці”, що зосереджувалась на вбудованих запобіжниках. Ці моделі, як правило, демонстрували усвідомлення своєї невизначеності та уникали не точних заяв, але показники варіювались в залежності від конкретного набору тестування.
Обидві компанії повідомили, що для цілей тестування вони пом’якшили деякі зовнішні запобіжники, які діяли б в інших умовах, але заважали проведенню тестів.
Вони також відзначили, що їх новітні моделі, GPT-5 від OpenAI та Opus 4.1 від Anthropic, які були випущені після оцінювання, продемонстрували покращення порівняно з попередніми версіями.
Проблема узгодження AI, тобто забезпечення поведінки систем штучного інтелекту в інтересах людей, стала центральною темою для дослідників, технологічних компаній та політиків, які намагаються справитись із наслідками розвинутого AI. Регулювання AI також залишається актуальною темою в галузі на тлі дебатів про можливість впровадження державами власних правил щодо AI.