AutoArena è una soluzione di valutazione automatizzata per l'Intelligenza Artificiale Generativa (Gen AI). È in grado di valutare modelli linguistici di grandi dimensioni (LLMs), sistemi di recupero e generazione (RAG) e applicazioni di AI generativa attraverso un confronto diretto automatizzato. Questo metodo di valutazione fornisce risultati attendibili, grazie all'uso di modelli giudici.
I modelli giudici possono essere scelti da diverse API proprietarie, come quelle di OpenAI, Anthropic, Cohere, Google e Together AI, oppure si possono utilizzare modelli giudici con pesi aperti eseguibili localmente tramite Ollama. AutoArena consente di trasformare i voti diretti in classifiche grazie al calcolo degli Elo scores e degli intervalli di confidenza. Inoltre, l'uso di "giurie" di modelli LLM come giudici può fornire un segnale più veloce, economico e accurato rispetto all'uso di un singolo modello avanzato.
AutoArena si occupa anche di aspetti tecnici come la parallelizzazione, la randomizzazione, la correzione delle risposte errate, il riprovare le richieste e il controllo delle frequenze, riducendo così il lavoro dell'utente. È possibile ridurre il bias di valutazione utilizzando modelli giudici di diverse famiglie, come GPT, Command - R e Claude.
Per una valutazione più accurata e specifica per il dominio, è possibile eseguire il fine - tuning dei modelli giudici. È anche possibile utilizzare l'interfaccia di voto diretto per raccogliere le preferenze umane, che possono essere sfruttate per il fine - tuning personalizzato del giudice. AutoArena può essere utilizzato per valutare il sistema di AI generativa in un ambiente di integrazione continua (CI), configurando automazioni nel repository del codice sorgente. È disponibile sia per l'esecuzione locale, nel cloud o in una distribuzione on - premise dedicata.