AutoArena представляет собой инструмент для автоматизированной оценки генеративного искусственного интеллекта (Gen AI). Он позволяет оценивать большие языковые модели (LLM), системы Retrieval Augmented Generation (RAG) и генеративные AI - приложения с использованием автоматизированного сравнительного анализа.
Одним из ключевых преимуществ AutoArena является возможность получения достоверных результатов. Использование моделей - судей для сравнительной оценки показывает себя как надежный метод. Например, метод LLM - as - a - judge, где языковая модель выступает в роли судьи, доказал свою эффективность, особенно в попарных сравнениях. Модели - судьи обычно дают более точные результаты при сравнении двух ответов, чем при оценке одиночного ответа.
AutoArena поддерживает использование различных моделей - судей, как от известных провайдеров, таких как OpenAI, Anthropic, Cohere, Google и Together AI, так и открытых моделей, которые можно запускать локально с помощью Ollama. Это позволяет пользователям выбирать наиболее подходящую модель для своих нужд.
Инструмент также умеет преобразовывать результаты сравнительных голосований в рейтинги, используя алгоритм Elo и вычисляя доверительные интервалы. Кроме того, можно использовать "жюри" из нескольких моделей - судей, что обеспечивает более быстрый, дешевый и точный анализ.
AutoArena автоматизирует многие аспекты оценки, такие как параллелизация, рандомизация, исправление ошибочных ответов, повторные попытки и ограничение скорости. Это позволяет пользователям сэкономить время и деньги на оценке своих систем.
Можно настроить автоматизацию в репозитории исходного кода, чтобы блокировать нежелательные изменения в системе. Например, можно запретить изменения в промптах, пред - и пост - обработке или обновлениях RAG - системы.
AutoArena доступен в разных версиях: бесплатной открытой исходной, профессиональной и корпоративной. Каждая версия имеет свои преимущества и подходит для различных типов пользователей, от студентов и исследователей до крупных предприятий.