EuraTechnologies

2 allée de la Haye du Temple
59160 Lille

EuraTechnologies

2 allée de la Haye du Temple
59160 Lille

AI Run

AI Run

AI Run

Est-ce que les LLM sont bons en maths ?

Pourquoi les LLM échouent là où les bons mathématiciens réussissent ?

Depuis quelques années, les benchmarks sont devenus des étalons de mesure incontournables dans le monde de l’intelligence artificielle. Ils servent à comparer les modèles, démontrer des avancées technologiques, et orienter la perception publique sur les “meilleurs LLMs”.

Mais un constat s’impose :
👉 Ces benchmarks sont souvent mal compris, mal utilisés… et parfois biaisés.
Ils prétendent évaluer la capacité générale des modèles, mais en réalité, ils mesurent souvent autre chose.

1. Les benchmarks : un miroir déformant ?

Prenons l’exemple récent d’OpenAI, qui a mis en avant les performances de ses modèles o3 et o3-mini sur un benchmark appelé Frontier Math.
Problème : ce benchmark est développé par Epoch AI, une structure… financée par OpenAI elle-même.

Et ce n’est qu’un exemple parmi d'autres.

Des plateformes comme Math Arena classent les modèles selon leur capacité à résoudre des problèmes de mathématiques récents. L’idée est bonne — ces problèmes n’étant pas dans les jeux de données d’entraînement — mais dans la pratique, ils ne mesurent que la justesse des résultats numériques, pas la qualité du raisonnement.

Or, en mathématiques, la rigueur logique et la démonstration comptent autant, voire plus, que la réponse finale.

2. Quand on teste le raisonnement… les LLMs échouent

Une étude récente, menée par ETH Zurich et l’INSAIT (Sofia), a évalué 6 LLMs sur les problèmes de l’Olympiade de mathématiques des États-Unis (USAMO) 2025.

Contrairement aux benchmarks classiques, l’USAMO exige des preuves détaillées, argumentées, et logiquement valides.

Résultats :

  • Sur 150 solutions évaluées, aucun modèle n’a atteint le score maximal.

  • Le meilleur total obtenu (R1) : 2 points sur 42.

  • o3-mini : 0,9/42, soit presque rien.

Mais ce n’est pas tout :
Les modèles ont systématiquement affirmé avoir résolu les problèmes, même quand leurs raisonnements étaient :

  • Logiquement invalides

  • Pleins de raccourcis non justifiés

  • Dépourvus de créativité

Tous tendaient à réutiliser la même approche erronée, sans explorer d’autres stratégies.

3. Ce que cela nous apprend sur les LLMs

Ces résultats illustrent un problème fondamental :
➡️ Les LLMs simulent la forme du raisonnement, mais ne raisonnent pas vraiment.

Ils sont très bons pour :

  • Les calculs arithmétiques simples

  • Les démonstrations de surface

  • La reformulation “cohérente”

Mais dès qu’on touche à :

  • La logique profonde

  • La justification rigoureuse

  • La pensée alternative et stratégique

👉 Ils échouent massivement, tout en gardant un ton sûr d’eux.

4. Pourquoi c’est important (et pas seulement en maths)

Ce débat dépasse la sphère des olympiades mathématiques.

Quand on utilise un LLM pour :

  • Générer du code,

  • Aider à la prise de décision,

  • Rédiger des synthèses juridiques ou financières,

… on peut obtenir une réponse syntaxiquement parfaite, mais conceptuellement fausse.
Et comme ces modèles sont conçus pour “avoir l’air intelligent”, ils peuvent induire en erreur avec brio.

🧠 Le vrai risque, ce n’est pas qu’un modèle se trompe.
C’est qu’il se trompe en toute confiance.

5. Ce que nous devons changer

Chez aiko, nous pensons que :

  • Les benchmarks actuels doivent être recontextualisés et diversifiés

  • Les performances des modèles doivent être corrélées à leurs usages réels

  • La validation humaine reste indispensable dans tous les cas d’usage sensibles

  • Les projets doivent s’appuyer sur des cadres de confiance (humains + techniques)

Nous croyons à une IA utile, mesurable, encadrée.
Pas à une IA qui impressionne sur des podiums mais déçoit sur le terrain.

Conclusion : Mesurer moins pour mesurer mieux

Les benchmarks sont utiles.
Mais à condition qu’ils soient honnêtes, indépendants, et bien interprétés.

La meilleure IA n’est pas celle qui “bat les autres” sur un tableau Excel.
C’est celle qui aide vraiment les humains à résoudre les problèmes complexes qu’ils rencontrent.

Ces articles peuvent aussi vous intéresser

AI Build

Et si l’intelligence artificielle devenait une technologie… normale ?

Arrêtons de fantasmer l’IA. Commençons à l’intégrer.

AI Build

Et si l’intelligence artificielle devenait une technologie… normale ?

Arrêtons de fantasmer l’IA. Commençons à l’intégrer.

AI Build

Et si l’intelligence artificielle devenait une technologie… normale ?

Arrêtons de fantasmer l’IA. Commençons à l’intégrer.

AI Run

Est-ce que les LLM sont bons en maths ?

Pourquoi les LLM échouent là où les bons mathématiciens réussissent ?

AI Run

Est-ce que les LLM sont bons en maths ?

Pourquoi les LLM échouent là où les bons mathématiciens réussissent ?

AI Run

Est-ce que les LLM sont bons en maths ?

Pourquoi les LLM échouent là où les bons mathématiciens réussissent ?

AI Change

L’AGI n’existera probablement jamais. Et c’est une bonne nouvelle ?

AGI : le mythe utile, mais dangereux ...

AI Change

L’AGI n’existera probablement jamais. Et c’est une bonne nouvelle ?

AGI : le mythe utile, mais dangereux ...

AI Change

L’AGI n’existera probablement jamais. Et c’est une bonne nouvelle ?

AGI : le mythe utile, mais dangereux ...

AI Run

L'IA Générative et la Programmation : Révolution ou Illusion ?

IA et Génération de Code : productivité accélérée, complexité sous contrôle ?

AI Run

L'IA Générative et la Programmation : Révolution ou Illusion ?

IA et Génération de Code : productivité accélérée, complexité sous contrôle ?

AI Run

L'IA Générative et la Programmation : Révolution ou Illusion ?

IA et Génération de Code : productivité accélérée, complexité sous contrôle ?

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.

Démarrez votre parcours IA avec aiko

L’intelligence artificielle est plus qu'une technologie, c'est un vecteur de transformation. Avec aiko, bénéficiez d'une expertise sur-mesure pour intégrer des solutions IA adaptées à vos besoins spécifiques et à votre vision d'entreprise. Rejoignez-nous pour un partenariat innovant et durable.