Expérimentations
Alpha
Comparez les performances des prompts et des modèles, suivez les changements et validez vos améliorations sur des jeux de données contrôlés avant de déployer en production.
Liste des Expérimentations
Suivez et gérez vos tests de performance et de qualité.
| Nom | Modèle | Dataset | Statut | Score Moyen | Diff. vs Prod | Actions |
|---|---|---|---|---|---|---|
| Test de prompt "Politesse v2" | gemini-2.5-flash | Jeu de test "Service client" | Terminé | 94.5% | +2.1% | |
| Comparaison gemini-2.5 vs gpt-4o | gemini-2.5-flash | Golden set "Facturation" | En cours | - | - | |
| Validation prompt "Prise de congé" | gemini-2.5-flash | Dataset "Conversations générales v1" | Planifié | - | - |