De l'importance d'être constant dans sa politique de données
Pour faire de l'IA, faut-il d'abord s'assurer d'avoir des données de qualité ?
La question de la qualité des données est cruciale lorsqu'on parle d'intelligence artificielle. C'est une question – ou même une affirmation – que j'entends souvent, et elle semble frappée de bon sens. Oui, des données de qualité facilitent la mise en place de projets d’IA. Mais dans la pratique, la réalité est souvent plus complexe. Voici quelques réflexions pour démystifier le concept de la "qualité des données" et ce qu'il implique réellement pour les projets d'IA.
1. C'est quoi "des données de qualité" ?
La qualité des données est un sujet vaste et multidimensionnel. Elle ne se résume pas seulement à des données "correctes" ou "fiables". Voici quelques critères clés à prendre en compte pour évaluer la qualité des données :
Véracité : Les données doivent être exactes, c'est-à-dire qu'elles reflètent la réalité. Par exemple, les données d'inventaire d'un magasin devraient être à jour et précises, mais en réalité, elles comportent souvent des erreurs (données manquantes, stocks mal ajustés…).
Cohérence : Les données ne doivent pas se contredire. Par exemple, en logistique, le stock d'un jour donné devrait correspondre à l'équation : stock précédent - ventes - pertes + réceptions. Ce contrôle est essentiel pour garantir que les données sont logiques et fiables.
Fraîcheur : Les données doivent être actuelles et accessibles sans retard excessif. Un bon exemple est la localisation en temps réel d'un véhicule via GPS. Un léger décalage peut rendre l'information inutilisable dans certains contextes.
Complétude : Il ne doit pas manquer de données. Par exemple, pour une analyse sur une année complète, il faut que toutes les données nécessaires soient présentes pour chaque période.
Unicité : Les doublons doivent être évités, car ils faussent les analyses et augmentent la charge de travail pour les corriger.
Format et documentation : Les données doivent être conformes à leur format prévu et bien documentées pour que les utilisateurs comprennent leur structure et leur origine.
Accessibilité : Les utilisateurs doivent pouvoir accéder aux données rapidement et facilement, idéalement sans devoir passer par des demandes complexes à la DSI.
Ces critères montrent bien que la "qualité des données" n'est pas une notion simple ; elle recouvre de nombreux aspects. L'Union Européenne a même publié des lignes directrices sur la qualité des données pour aider les entreprises à structurer leur approche (voir data quality guidelines).
2. La "réalité" des données en entreprise
De nombreuses entreprises, conscientes de l'importance des données, investissent massivement dans leur structuration et leur amélioration. Mais en pratique, atteindre un niveau de qualité parfait pour toutes les données est souvent une utopie. Voici quelques défis concrets :
Le respect du format, la documentation et l’accessibilité sont des bases essentielles, qui devraient être en place avant de se lancer dans un projet d'IA. Ces éléments facilitent le travail des équipes IA et réduisent le risque d’erreurs.
Assurer la complétude et éliminer les doublons est déjà plus complexe. Certaines données peuvent manquer de façon permanente, et les doublons sont souvent difficiles à identifier. Créer des tableaux de bord (dashboards) pour les utilisateurs permet de détecter certaines de ces erreurs en temps réel… mais ensuite, il faut pouvoir les corriger, ce qui est loin d'être toujours facile.
La véracité et la cohérence sont des idéaux difficiles à atteindre dans un environnement réel. Dans une entreprise, il est quasiment impossible d'identifier tous les cas d'erreur possibles, et encore moins de les corriger tous. Définir les erreurs à corriger en priorité peut prendre des mois, voire plus, en fonction de la complexité des processus métier.
3. En réalité, la qualité des données s’améliore au fil du projet d'IA
Un point important à comprendre est que, dans la plupart des cas, la qualité des données n'atteint jamais un niveau parfait au début d’un projet d'IA. En fait, la qualité des données s'améliore souvent au fur et à mesure que le projet progresse. Les data scientists, en analysant les performances des algorithmes, détectent des problèmes de données qui impactent les résultats et mettent en place des solutions pour les corriger.
Par exemple, si un modèle de prévision montre des résultats inattendus, cela peut révéler une incohérence dans les données. Ce sont ces moments de détection qui permettent de corriger les données progressivement et d'améliorer leur qualité au fil du projet.
Donc… faut-il une qualité parfaite des données avant de se lancer dans un projet d'IA ?
Pas forcément ! En réalité, la qualité ultime des données est souvent un aboutissement du projet d'IA, pas un prérequis absolu. Il est bien sûr crucial d'avoir des données bien structurées, documentées et accessibles dès le départ. Mais au-delà de ces bases, l'amélioration de la qualité des données est un processus continu, qui s’intensifie grâce aux retours d'expérience issus du projet d'IA lui-même.
Conclusion : La qualité des données, un chemin plus qu’une destination
Si la qualité des données est un facteur clé de succès pour les projets d'IA, il ne faut pas se laisser freiner par la quête d’une qualité parfaite avant même de commencer. En entreprise, la qualité des données est souvent un chemin qui se construit progressivement, grâce aux apprentissages et ajustements effectués tout au long du projet.
En fin de compte, lancer un projet d'IA avec une base de données suffisamment bonne est souvent plus bénéfique que de retarder indéfiniment un projet en quête de données parfaites. En avançant, l’équipe IA pourra affiner la qualité des données en continu, pour maximiser la performance des algorithmes et générer de la valeur pour l’entreprise.
Ces articles peuvent aussi vous intéresser