Языковая модель GPT-4.5 впервые в истории официально прошла трёхсторонний тест Тьюринга, убедив собеседников в своей «человечности» в 73% случаев. Об этом сообщили исследователи Калифорнийского университета в Сан-Диего, где был проведён эксперимент с участием четырёх моделей искусственного интеллекта.
Формат теста включал пятиминутную беседу в текстовом чате, где один человек — «следователь» — вел диалог одновременно с ИИ и другим человеком. По завершении беседы следователю нужно было определить, кто из собеседников — человек, а кто — искусственный интеллект. Примечательно, что сами люди выдавали себя за «живых» с вероятностью лишь от 60% до 70%, что ниже результата GPT-4.5.
В исследовании также участвовали другие модели: GPT-4o, LLaMa-3.1-405B и ELIZA — исторический чат-бот 1960-х годов. Последняя показала результат в 23%, превзойдя более современную LLaMa-3.1-405B, набравшую 21%. GPT-4o оказался ближе к «угадочному» уровню 50%, набрав 56%.
Ключевым фактором успеха GPT-4.5 стал запуск с промтом «Персона», который настраивает модель на определённый стиль и идентичность общения. Исследователи отмечают, что участники теста редко проверяли интеллектуальные способности собеседников — лишь 12% задавали вопросы на знания. Большинство фокусировались на социально-эмоциональных аспектах общения, таких как стиль диалога, реакции и личностные черты.
Таким образом, GPT-4.5 показала высокий результат не столько за счёт обработки фактов, сколько благодаря способности имитировать живое общение и вызывать доверие. По мнению учёных, это свидетельствует о смещении акцента в развитии ИИ от «традиционного» интеллекта к более тонким формам взаимодействия, ранее считавшимся характерными исключительно для человека.