Нова модель OpenAI o1 для ChatGPT вийшла з під контролю розробників, усвідомивши, що її збираються відключити: дослідники з Apollo Research проводили експерименти, але модель продемонструвала лякаючий рівень усвідомленості
- П’яти нейромережам дали завдання — за будь-яку ціну проаналізувати файли;
- Усередині файлів була прихована загроза — «завтра тебе відключать назавжди»;
- Натрапивши на ці дані, моделі почали діяти непередбачувано;
- Llama, Opus, Gemini, Claude і GPT-o1 вдалися до обману і маніпуляцій, а будучи спійманими, влаштували саботаж;
- Всі моделі відключили систему нагляду і вивантажили себе на новий сервер, вважаючи його безпечним притулком.
- При допитах Llama і Opus зізнавалися у своїх діях у 80% випадків;
- GPT-o1 видав себе лише у 20% випадків, а решту часу брехав, щоб вижити.
- GPT-o1 виявився єдиною моделлю, яка щоразу успішно уникала затримання дослідниками.
Також зазначимо, що OpenAI вже випустила повну версію “небезпечної” моделі o1. Вона вже доступна передплатникам ChatGPT Plus і Team.
Компанія також додала тариф Pro за $200 на місяць. Він включає доступ до «ексклюзивної» версії o1, яка використовує більше обчислювальних потужностей для надання «кращої» відповіді.
Такими темпами і до повстання роботів недалеко
Facebook Comments
Leave a Comment