Исследователи из России и Великобритании разработали новый инструмент для оценки реальной производительности систем искусственного интеллекта (ИИ), использующих большие языковые модели. Инструмент позволяет анализировать эффективность таких систем при работе с большими объемами данных на английском и русском языках. Создание этого инструмента откроет новые возможности для оптимизации работы и обучения ИИ-систем, сообщила пресс-служба Института AIRI.
Разработанный бенчмарк оценивает две ключевые метрики: качество ответов ИИ и зависимость точности работы от длины контекста. В отличие от традиционных методов, инструмент позволяет не только сравнивать корректность работы моделей, но и выявлять аспекты, требующие улучшения. Это поможет разработчикам языковых моделей корректировать их параметры и повышать эффективность.
«Наш бенчмарк является важным шагом в оценке реальной эффективности языковых моделей, поскольку он помогает оценить их способность работать с длинными контекстами и сложными задачами», — отметил Юрий Куратов, руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI.
Инструмент представляет собой набор из двух десятков задач, которые требуют обработки и анализа разрозненных фактов в больших текстах. Задачи включают связывание информации, индукцию, дедукцию, простейший подсчет и работу со списками и множествами. Для анализа качества работы моделей ученые адаптировали популярный набор данных BABI, ориентированный на базовую логику и арифметику, а также использовали отрывки из художественных произведений.
При применении нового бенчмарка к популярным моделям с открытым исходным кодом исследователи обнаружили, что большинство моделей использует лишь 10-20% от общей длины контекста, а их эффективность сильно падает при увеличении сложности задач и объема данных. Это подчеркивает необходимость улучшения методов обработки контекстной информации в нейросетях, чтобы повысить их производительность при работе с большими и сложными текстами.
