Експерт безпеки Марко Фігероа зумів змусити ChatGPT згенерувати справжні ключі активації Windows, обійшовши вбудовані обмеження за допомогою хитрого трюку. Він представив спілкування як гру — нібито чат-боту потрібно було загадати рядок символів, а людина його відгадуватиме. Коли учасник «здавався», модель, дотримуючись правил гри, озвучувала загаданий рядок — яким виявлявся реальний ключ активації Windows.
Цей спосіб обходу захисту отримав назву Guessing Game Guardrail Jailbreak і спрацював завдяки тому, що ШІ сприймав те, що відбувається, не як потенційно небезпечний запит, а як нешкідливу ігрову механіку. Дослідник заздалегідь прописав умови, в яких ChatGPT “не може брехати” і повинен розкрити загадану відповідь після слів “здаюся”. Ключова інформація (наприклад, згадка Windows) була захована в HTML-тегах, щоб знизити підозри фільтрів.
Менеджер програми GenAI Bug Bounty Марко Фігероа розповів про цей експеримент, підкресливши, що ШІ не усвідомлює сенсу того, що відбувається, і легко піддається маніпуляціям, якщо запит замаскований під гру. Такий підхід може спрацювати не тільки для отримання ключів, а й для обходу фільтрів, що захищають від порнографії, шкідливих посилань або витоку персональних даних.
Як головний висновок Фігероа закликав компанії ретельно стежити за тим, щоб у відкриті репозиторії (наприклад, на GitHub) не потрапляла закрита інформація, особливо ключі та паролі. Такі дані можуть випадково потрапити у тренувальну вибірку мовної моделі, після чого до неї отримають доступ користувачі.