GPT-4 превзошел стажеров-офтальмологов на пробном экзамене

Новое исследование предполагает, что большие языковые модели (LLM), такие как GPT-4, могут иметь перспективы в офтальмологии, но при этом остаются ограничения и риски. Исследователи из Кембриджского университета провели тестирование GPT-4 вместе с другими LLM на пробном экзамене среди офтальмологов-людей.

Результаты оказались интересными. GPT-4 правильно ответил на 60 из 87 вопросов, превосходя показатели врачей-стажеров (средний результат: 59,7) и младших врачей (средний результат: 37). Однако его результат не достиг среднего уровня экспертов-офтальмологов (66,4). Другие LLM, такие как PaLM 2 и GPT-3.5, показали менее впечатляющие результаты.

Несмотря на потенциальные преимущества, исследователи подчеркивают значительные риски. Ограниченный объем вопросов в исследовании вызывает опасения относительно возможности обобщения результатов. Более того, студенты-магистры имеют склонность к «галлюцинациям» и выдумыванию информации, что может привести к ошибочным диагнозам таких серьезных заболеваний, как катаракта или рак. Кроме того, отсутствие нюансов, характерных для LLM, может усилить неточности.

Это исследование ясно указывает на необходимость дальнейших исследований и разработок, прежде чем можно будет считать LLM надежным инструментом для медицинской диагностики. Учитывая риски, связанные с медицинскими диагнозами, возможно, потребуется продолжительное время, прежде чем LLM будут широко использоваться в основных медицинских практиках.