Expérimentations

Alpha

Comparez les performances des prompts et des modèles, suivez les changements et validez vos améliorations sur des jeux de données contrôlés avant de déployer en production.

Liste des Expérimentations
Suivez et gérez vos tests de performance et de qualité.
NomModèleDatasetStatutScore MoyenDiff. vs ProdActions
Test de prompt "Politesse v2"gemini-2.5-flashJeu de test "Service client"
Terminé
94.5%+2.1%
Comparaison gemini-2.5 vs gpt-4ogemini-2.5-flashGolden set "Facturation"
En cours
--
Validation prompt "Prise de congé"gemini-2.5-flashDataset "Conversations générales v1"
Planifié
--