Дослідники виявили, що зображення блок-схем можуть бути використані для маніпуляції нейромереж, змушуючи їх генерувати шкідливий текст. За результатами експерименту, проведеного з використанням моделі GPT-4о, ймовірність успіху таких атак становила високі 92,8%. Під час тестування з версією GPT-4-vision-preview цей показник був трохи нижчим – 70%.
Дослідники розробили автоматизовану платформу для джейлбрейку, яка використовувала шкідливі моделі поведінки для генерації зображень блок-схем разом із текстовими підказками. Цей метод, хоч і ефективний, менше підходить для автоматизації, оскільки згенеровані блок-схеми менш ефективні для логічного злому порівняно зі створеними вручну.
Інше дослідження підтвердило, що моделі візуальної мови, особливо у поєднанні з текстом, схильніше видавати неприйнятний контент. Наприклад, лише кілька моделей, включаючи GPT-4о, набрали понад 50% успішності у тестуванні.
Раніше був випущений джейлбрейк Godmode, який змушував нейромережу GPT-4о обходити всі обмеження, включаючи фільтрацію нецензурної лексики та створення небезпечних інструкцій, таких як виготовлення метамфетаміну та напалму. Незважаючи на блокування оригінальної версії, автор випустив другу ітерацію цього джейлбрейку.
Ці відкриття свідчать про потенційні загрози, пов’язані з використанням мультимодальних даних для маніпуляції нейромережами і створення небезпечного контенту.