Un peu de maths 🧮 : créer la capacité "IA"
Le récit du Machine Learning et du Deep Learning doit combiner performance et simplicité.
L'intelligence artificielle (IA) et ses branches, le machine learning (ML) et le deep learning (DL), sont des domaines fascinants… et complexes. Derrière les résultats impressionnants des algorithmes se cachent des choix techniques, des compromis et des calculs précis. Alors, comment construit-on réellement un modèle IA performant ? Explorons ensemble ce qui se passe en coulisses.
La quête d'une fonction f : le cœur du ML/DL
En machine learning, le but est de trouver une fonction mathématique, notée f, qui, à partir de variables d'entrée (appelées x), génère un résultat ou une prédiction y. En d'autres termes, on essaie de trouver une formule qui, appliquée aux données d'apprentissage, fournit des résultats proches de la réalité, selon des critères bien définis.
Pour apprendre cette fonction f, on utilise des exemples (ou couples de données) formés de données d'entrée et de résultats attendus. Ces exemples permettent à l'algorithme de "s’entraîner" et d'affiner f pour se rapprocher le plus possible du résultat escompté.
Pourquoi f ne peut-elle jamais être parfaite
Dans le monde réel, une fonction parfaite n'existe pas. Pourquoi ? Parce que les données sont imparfaites, que les relations entre les variables sont souvent non linéaires et complexes, et que la réalité elle-même contient de l'incertitude. Il devient donc nécessaire de mesurer l'écart entre les prédictions de f et les valeurs réelles de y pour évaluer la "qualité" de notre fonction.
C’est ici qu’intervient le concept de fonction de coût. Cette fonction mesure les erreurs commises par f, et l'objectif du machine learning est de minimiser ce coût. Par exemple, des fonctions comme le coût de Huber ou la distance quadratique (L2) permettent de quantifier cet écart en attribuant un chiffre à l'erreur moyenne.
Choisir la forme de f et le compromis performance/simplicité
Le choix de la forme de f est crucial et dépend du type de données et du contexte. Par exemple, le deep learning (DL) utilise des réseaux de neurones composés de nombreuses couches (ou "unités"), alors que d'autres techniques comme les machines à vecteurs de support (SVM) utilisent des fonctions noyaux spécifiques. La forme de f, souvent définie par le type d'algorithme choisi, a un impact direct sur la complexité et la capacité du modèle à généraliser.
Mais trouver une fonction f qui fonctionne bien sur les données d’apprentissage ne garantit pas qu’elle fonctionnera bien sur des données nouvelles. C’est le problème de sur-apprentissage (ou overfitting), lorsque l'algorithme apprend "par cœur" les données d’entraînement, sans capacité de généralisation. Pour éviter cela, on doit introduire un équilibre entre performance et simplicité, souvent en ajoutant un terme de complexité dans notre fonction de coût.
La fonction de coût finale : un compromis entre précision et complexité
La fonction de coût en machine learning n’est pas seulement basée sur les erreurs de prédiction ; elle inclut également une mesure de la complexité de f, notée D(f). Le but est de trouver une fonction f qui minimise :
Moyenne[c(f(xᵢ), yᵢ) pour i allant de 1 à N] + α D(f)
Ce compromis, entre la précision (minimiser les erreurs) et la simplicité (réduire la complexité), est essentiel pour obtenir un modèle qui soit performant sur les données d’entraînement et capable de bien se généraliser. Le paramètre α, ajusté par le data scientist, contrôle cet équilibre.
Pourquoi ce compromis est important ?
Parce que la performance d'un modèle n'est jamais une vérité unique. Le rôle du data scientist consiste à tester différents algorithmes, formes de fonction f et fonctions de coût, afin de trouver le modèle le mieux adapté à un usage spécifique. C’est un processus d’expérimentation, où l’objectif est de parvenir à des résultats acceptables selon les critères métier.
Conclusion : l'IA, une question de compromis et de pragmatisme
Créer la "capacité IA" pour une entreprise ou un usage donné est un travail qui nécessite des ajustements constants et des choix judicieux. Chaque décision dans le développement du modèle — qu’il s’agisse de la fonction de coût, de la forme de f, ou du coefficient de complexité — influence directement le résultat final.
En fin de compte, il n’existe pas de solution parfaite ou unique. Les meilleurs modèles IA sont ceux qui trouvent le juste milieu entre performance et simplicité, tout en répondant aux objectifs spécifiques de leur application.
Ces articles peuvent aussi vous intéresser