Évaluer les IA coûte plus cher que les entraîner désormais
L'évaluation des modèles IA explose en coût et dépasse parfois l'entraînement lui-même. Pourquoi les benchmarks deviennent un défi industriel.
- Le coût compute devient le bottleneck principal de l évaluation IA en 2026.
- Une éval complète sur les benchmarks majeurs coûte désormais 100 000 à 500 000 dollars.
- Conséquence : moins d éval indépendantes, plus de claims marketing non vérifiés.
- Initiative AISI britannique pour mutualiser les évaluations.
L évaluation IA est devenue trop chère pour les universités. C est devenu un domaine réservé aux Big Tech et aux gouvernements bien financés.
L industrie IA fait face à un paradoxe : les modèles deviennent plus puissants, mais les évaluer indépendamment devient hors de portée pour la plupart des acteurs.
Institut public britannique fondé en 2023 par le gouvernement UK. Mission : évaluer indépendamment les modèles IA frontaliers pour la sécurité. Premier institut public au monde sur ce sujet. Budget annuel : 100 millions de livres.
Les chiffres qui font mal
Pour évaluer un modèle frontalier en 2026 sur les benchmarks majeurs (MMLU, GPQA, SWE-bench, AIME, MATH, etc.) :
Conséquences observées
Initiatives en cours
Questions fréquentes
- Pourquoi les évaluations coûtent plus cher en 2026 ?
- Trois raisons cumulées : explosion du nombre de benchmarks, complexité des évaluations agentiques (heures de runtime), et techniques comme self-consistency qui multiplient les requêtes par 5-20.
- Les benchmarks publics restent-ils fiables ?
- Oui mais avec des nuances. Les modèles propriétaires sont sur-représentés et mieux benchmarkés. Pour les modèles open-source, on a parfois des fast evals moins exhaustives qu'il faut savoir interpréter.
- HuggingFace propose-t-il une solution ?
- Oui, l'infrastructure d'évaluation partagée open-source de HuggingFace permet de mutualiser les coûts. C'est une piste concrète mais pas suffisante pour les benchmarks les plus chers.
Source : huggingface.co