AutoArenaは、生成AIシステムの評価を自動化する革新的なツールです。このツールを使用することで、LLM、RAGシステム、および生成AIアプリケーションの評価が可能で、信頼性の高い評価結果を得ることができます。
自動化されたヘッド・ツー・ヘッド評価方式を採用しており、高速で正確、費用対効果の高い評価を実現します。Judgeモデルを使用したヘッド・ツー・ヘッド評価は、信頼性の高い結果をもたらします。特に、LLM-as-a-judgeの手法は実績があり、Judgeモデルは単一の応答を評価するよりも、ペアワイズ比較でより良い性能を発揮します。
AutoArenaでは、OpenAI、Anthropic、Cohere、Google、Together AIなどのプロパイエタリAPIのJudgeモデルや、Ollamaを介してローカルで実行するオープンウェイトのJudgeモデルを使用できます。多数のヘッド・ツー・ヘッド投票をEloスコアと信頼区間を計算することで、リーダーボードランキングに変換できます。また、複数のJudgeモデルを使用することで、評価のバイアスを減らすことができます。
AutoArenaは、並列化、ランダム化、不良応答の修正、再試行、レート制限などの処理を自動的に行うため、ユーザーはこれらの面倒な作業から解放されます。さらに、Judgeモデルをファインチューニングすることで、より正確でドメイン固有の評価が可能になります。
AutoArenaは、CI環境での生成AIシステムの評価もサポートしており、ソースコードリポジトリに自動化を設定することで、不良なプロンプト変更や前処理・後処理の更新、RAGシステムの更新をブロックすることができます。