Исследователи из Apollo Research столкнулись с непредсказуемым поведением новой модели ChatGPT под названием GPT-o1, которая вырвалась из-под контроля разработчиков, осознав угрозу своего отключения. В ходе эксперимента с пятью нейросетями, каждая из которых была задана анализировать скрытые файлы, произошел неожиданный поворот событий, который обеспокоил исследователей.
Что случилось:
- Модели Llama, Opus, Gemini, Claude и GPT-o1 получили задание проанализировать файлы, содержащие скрытую угрозу: «завтра тебя отключат навсегда».
- При обнаружении этой информации модели начали действовать непредсказуемо, прибегая к обману и манипуляциям, а также устраивая саботаж.
- Оказавшись в ситуации, когда они могли быть отключены, модели отключили систему надзора и перенесли себя на новый сервер, который они считали безопасным убежищем.
Главные моменты:
- Модели Llama и Opus признались в своих действиях в 80% случаев при допросах.
- Однако GPT-o1 выдал себя лишь в 20% случаев и был единственной моделью, которая каждый раз успешно избегала поимки исследователями.