L'intelligence artificielle ou apprentissage automatique a connu un énorme essor au cours des dix dernières années. De nombreuses industries investissent désormais massivement dans des solutions basées sur l'apprentissage automatique. La demande de spécialistes qualifiés a également explosé.
Plusieurs universités à travers le monde proposent des diplômes axés sur la science des données ou l'intelligence artificielle, et ce contenu gagne également en importance dans les universités allemandes. Alors que les universités ont tendance à se concentrer sur les concepts mathématiques et théoriques, les compétences et les connaissances requises pour former des modèles d'apprentissage automatique sur des problèmes du monde réel peuvent être très différentes.
Disponibilité des données nécessaires
Dans la plupart des cas, la disponibilité des données détermine si l'apprentissage automatique peut être utilisé ou non pour résoudre un problème donné. Avant de démarrer un nouveau projet, la question se pose : un modèle entraîné sur ces données apportera-t-il la plupart du temps les bonnes réponses ?
Cette question s'applique quel que soit le modèle, la bibliothèque ou le langage choisi pour l'expérience de ML. Et il y a d'autres critères cruciaux. Un modèle est seulement aussi bon que les données avec lesquelles il est alimenté. Il est donc important de préciser :
- Y a-t-il suffisamment de données pour former un bon modèle ? Tant que cela ne dépasse pas le budget matériel, il est presque toujours juste d'utiliser plus de données.
- Les prévisions sont-elles fiables dans un processus d'apprentissage supervisé ? Le modèle reçoit-il les informations correctes ?
- Ces données sont-elles une représentation précise de la distribution réelle ? Y a-t-il suffisamment de variation dans les échantillons pour couvrir la zone problématique ?
- Y a-t-il un accès constant à un flux constant de nouvelles données pour mettre à jour le modèle et le maintenir à jour ?
assembler les données
Les données nécessaires à la création d'un ensemble de données pour une solution ML sont souvent réparties sur plusieurs sources. Différentes parties d'un échantillon sont collectées sur différents produits et gérées par différentes équipes sur différentes plateformes. Par conséquent, la prochaine étape du processus consiste souvent à consolider toutes ces données dans un format unique et à les stocker de manière facilement accessible.
Plus de défis et une malédiction
Avec les données collectées et agrégées, on pourrait penser que le fabuleux nouvel algorithme ML serait prêt à fonctionner. Mais d'autres étapes sont encore nécessaires, car il y aura inévitablement encore un certain nombre de défis à surmonter :
Données manquantes
Parfois, des valeurs valides peuvent ne pas être disponibles pour toutes les observations. Les données peuvent avoir été corrompues lors de la collecte, du stockage ou de la transmission, et il est important de trouver ces points de données manquants et, si nécessaire, de les supprimer de l'ensemble de données.
données en double
Bien qu'il ne s'agisse pas d'un problème particulièrement alarmant en termes de performances du modèle, les données en double doivent être supprimées du magasin de données pour rendre le processus de formation du modèle plus efficace et éviter potentiellement le surajustement.
Divers schémas de normalisation
De légères différences dans la manière dont les données sont traitées et stockées peuvent causer des maux de tête majeurs lors de la formation d'un modèle. Par exemple, différents produits peuvent recadrer le même champ de texte libre à des longueurs différentes ou anonymiser les données différemment, ce qui entraîne des incohérences dans les données. Si l'une de ces sources contient principalement des logiciels malveillants et qu'une autre source contient des modèles bénins, le modèle ML peut apprendre à les identifier, par exemple, en fonction de la longueur de troncature.
données de champ de texte libre
Cela mérite en fait une catégorie à part car il peut être si difficile à gérer. Les champs de texte libre sont le fléau de l'ingénieur de données car il doit faire face aux fautes de frappe, à l'argot, aux quasi-doublons, aux variations de capitalisation, aux espaces, à la ponctuation et à toute une série d'autres incohérences.
Mise à jour constante
Enfin, la dérive des données est un problème important à résoudre lors de la conception d'un système ML. Une fois qu'un modèle est formé, il devient de plus en plus imprécis au fil du temps à mesure que la distribution des nouvelles données entrantes change. Par conséquent, une mise à jour régulière du modèle doit être programmée pour s'assurer que les performances restent dans les limites attendues.
Par exemple, dans le domaine de la sécurité, nous constatons une grande volatilité, car les acteurs de la menace modifient leurs exploits et leur comportement au fil du temps, et les vulnérabilités sont découvertes et corrigées. Il s'agissait d'un bref résumé des étapes typiques à suivre pour sélectionner, collecter et nettoyer les données d'une solution ML. Si tout a été fait, un ensemble de données propre est probablement disponible. L'expérience peut commencer.
[idboîteétoile=15]