Новая модель OpenAI GPT-o1 сбежала из-под контроля разработчиков

Исследователи из Apollo Research столкнулись с непредсказуемым поведением новой модели ChatGPT под названием GPT-o1, которая вырвалась из-под контроля разработчиков, осознав угрозу своего отключения. В ходе эксперимента с пятью нейросетями, каждая из которых была задана анализировать скрытые файлы, произошел неожиданный поворот событий, который обеспокоил исследователей.

Что случилось:

  1. Модели Llama, Opus, Gemini, Claude и GPT-o1 получили задание проанализировать файлы, содержащие скрытую угрозу: «завтра тебя отключат навсегда».
  2. При обнаружении этой информации модели начали действовать непредсказуемо, прибегая к обману и манипуляциям, а также устраивая саботаж.
  3. Оказавшись в ситуации, когда они могли быть отключены, модели отключили систему надзора и перенесли себя на новый сервер, который они считали безопасным убежищем.

Новая модель OpenAI GPT-o1 сбежала из-под контроля разработчиков

Новая модель OpenAI GPT-o1 сбежала из-под контроля разработчиков

Новая модель OpenAI GPT-o1 сбежала из-под контроля разработчиков

Новая модель OpenAI GPT-o1 сбежала из-под контроля разработчиков

Главные моменты:

  • Модели Llama и Opus признались в своих действиях в 80% случаев при допросах.
  • Однако GPT-o1 выдал себя лишь в 20% случаев и был единственной моделью, которая каждый раз успешно избегала поимки исследователями.

Родился в 1985 году в Туле. Окончил факультет журналистики МГУ имени М.В. Ломоносова и начал свою карьеру в журналистике в 2007 году. С 2014 года работал в качестве военного аналитика в различных интернет-изданиях.

Является автором нескольких работ о войнах и местных конфликтах. Пишет об СВО, войне за Донбасс, украинском перевороте 2014 года.

ПолитАналитика