AutoArena là giải pháp đánh giá trí tuệ nhân tạo sinh thành tự động, được thiết kế để đơn giản hóa quá trình đánh giá các mô hình ngôn ngữ lớn (LLMs), hệ thống sinh thành kết hợp truy xuất (RAG) và các ứng dụng trí tuệ nhân tạo sinh thành. Nó sử dụng phương pháp đánh giá đối đầu tự động, một cách nhanh chóng, chính xác và hiệu quả về chi phí để đánh giá các hệ thống này.
Một trong những tính năng nổi bật của AutoArena là việc sử dụng các mô hình đánh giá. Nó cho phép người dùng lựa chọn từ nhiều mô hình đánh giá khác nhau, bao gồm từ OpenAI, Anthropic, Cohere, Google và Together AI, cũng như các mô hình đánh giá có trọng số mở chạy thông qua Ollama trên máy cục bộ. Đánh giá đối đầu sử dụng các mô hình đánh giá đã được chứng minh là mang lại kết quả đáng tin cậy, vì sử dụng LLM làm đánh giá là một kỹ thuật đã được xác lập. Sử dụng nhiều mô hình đánh giá để tạo thành 'ban phán xét' thường mang lại tín hiệu đáng tin cậy hơn so với sử dụng một mô hình hàng đầu duy nhất.
AutoArena cũng đơn giản hóa quá trình đánh giá bằng cách xử lý các tác vụ như song song hóa, ngẫu nhiên hóa, sửa chữa các phản hồi không tốt, thử lại và giới hạn tốc độ. Nó giúp giảm độ lệch trong đánh giá bằng cách cho phép sử dụng các mô hình đánh giá khác nhau từ các họ khác nhau. Hơn nữa, người dùng có thể tinh chỉnh các mô hình đánh giá để có đánh giá cụ thể cho từng lĩnh vực. Họ có thể thu thập sở thích của con người thông qua giao diện bỏ phiếu đối đầu và sử dụng chúng để tinh chỉnh mô hình đánh giá tùy chỉnh.
Về việc triển khai, AutoArena mang lại sự linh hoạt. Nó có thể chạy trên máy cục bộ, trên đám mây hoặc trong môi trường triển khai nội bộ chuyên dụng. Để cài đặt trên máy cục bộ, người dùng chỉ cần sử dụng lệnh 'pip install autoarena'. Nó chỉ yêu cầu các đầu vào (câu hỏi của người dùng) và đầu ra (phản hồi của mô hình) từ hệ thống trí tuệ nhân tạo sinh thành để thử nghiệm.
AutoArena cung cấp các gói giá khác nhau. Phiên bản mã nguồn mở cho phép truy cập không giới hạn vào ứng dụng theo giấy phép Apache - 2.0, phù hợp cho sinh viên, nhà nghiên cứu, người đam mê và tổ chức phi lợi nhuận. Gói chuyên nghiệp cung cấp khả năng cộng tác nhóm trên nền tảng được lưu trữ trên đám mây và truy cập vào các mô hình đánh giá đã được tinh chỉnh. Gói doanh nghiệp cung cấp triển khai nội bộ riêng và các tính năng cấp doanh nghiệp khác.