Chasse aux données pour un meilleur apprentissage automatique

4 janvier 2021

L'intelligence artificielle ou apprentissage automatique a connu un énorme essor au cours des dix dernières années. De nombreuses industries investissent désormais massivement dans des solutions basées sur l'apprentissage automatique. La demande de spécialistes qualifiés a également explosé.

Plusieurs universités à travers le monde proposent des diplômes axés sur la science des données ou l'intelligence artificielle, et ce contenu gagne également en importance dans les universités allemandes. Alors que les universités ont tendance à se concentrer sur les concepts mathématiques et théoriques, les compétences et les connaissances requises pour former des modèles d'apprentissage automatique sur des problèmes du monde réel peuvent être très différentes.

Disponibilité des données nécessaires

Dans la plupart des cas, la disponibilité des données détermine si l'apprentissage automatique peut être utilisé ou non pour résoudre un problème donné. Avant de démarrer un nouveau projet, la question se pose : un modèle entraîné sur ces données apportera-t-il la plupart du temps les bonnes réponses ?

Cette question s'applique quel que soit le modèle, la bibliothèque ou le langage choisi pour l'expérience de ML. Et il y a d'autres critères cruciaux. Un modèle est seulement aussi bon que les données avec lesquelles il est alimenté. Il est donc important de préciser :

Y a-t-il suffisamment de données pour former un bon modèle ? Tant que cela ne dépasse pas le budget matériel, il est presque toujours juste d'utiliser plus de données.
Les prévisions sont-elles fiables dans un processus d'apprentissage supervisé ? Le modèle reçoit-il les informations correctes ?
Ces données sont-elles une représentation précise de la distribution réelle ? Y a-t-il suffisamment de variation dans les échantillons pour couvrir la zone problématique ?
Y a-t-il un accès constant à un flux constant de nouvelles données pour mettre à jour le modèle et le maintenir à jour ?

assembler les données

Les données nécessaires à la création d'un ensemble de données pour une solution ML sont souvent réparties sur plusieurs sources. Différentes parties d'un échantillon sont collectées sur différents produits et gérées par différentes équipes sur différentes plateformes. Par conséquent, la prochaine étape du processus consiste souvent à consolider toutes ces données dans un format unique et à les stocker de manière facilement accessible.

Plus de défis et une malédiction

Avec les données collectées et agrégées, on pourrait penser que le fabuleux nouvel algorithme ML serait prêt à fonctionner. Mais d'autres étapes sont encore nécessaires, car il y aura inévitablement encore un certain nombre de défis à surmonter :

Données manquantes

Parfois, des valeurs valides peuvent ne pas être disponibles pour toutes les observations. Les données peuvent avoir été corrompues lors de la collecte, du stockage ou de la transmission, et il est important de trouver ces points de données manquants et, si nécessaire, de les supprimer de l'ensemble de données.

données en double

Bien qu'il ne s'agisse pas d'un problème particulièrement alarmant en termes de performances du modèle, les données en double doivent être supprimées du magasin de données pour rendre le processus de formation du modèle plus efficace et éviter potentiellement le surajustement.

Divers schémas de normalisation

De légères différences dans la manière dont les données sont traitées et stockées peuvent causer des maux de tête majeurs lors de la formation d'un modèle. Par exemple, différents produits peuvent recadrer le même champ de texte libre à des longueurs différentes ou anonymiser les données différemment, ce qui entraîne des incohérences dans les données. Si l'une de ces sources contient principalement des logiciels malveillants et qu'une autre source contient des modèles bénins, le modèle ML peut apprendre à les identifier, par exemple, en fonction de la longueur de troncature.

données de champ de texte libre

Cela mérite en fait une catégorie à part car il peut être si difficile à gérer. Les champs de texte libre sont le fléau de l'ingénieur de données car il doit faire face aux fautes de frappe, à l'argot, aux quasi-doublons, aux variations de capitalisation, aux espaces, à la ponctuation et à toute une série d'autres incohérences.

Mise à jour constante

Enfin, la dérive des données est un problème important à résoudre lors de la conception d'un système ML. Une fois qu'un modèle est formé, il devient de plus en plus imprécis au fil du temps à mesure que la distribution des nouvelles données entrantes change. Par conséquent, une mise à jour régulière du modèle doit être programmée pour s'assurer que les performances restent dans les limites attendues.

Par exemple, dans le domaine de la sécurité, nous constatons une grande volatilité, car les acteurs de la menace modifient leurs exploits et leur comportement au fil du temps, et les vulnérabilités sont découvertes et corrigées. Il s'agissait d'un bref résumé des étapes typiques à suivre pour sélectionner, collecter et nettoyer les données d'une solution ML. Si tout a été fait, un ensemble de données propre est probablement disponible. L'expérience peut commencer.

[idboîteétoile=15]

Articles liés au sujet

Sécurité informatique : NIS-2 en fait une priorité absolue

Ce n'est que dans un quart des entreprises allemandes que la direction assume la responsabilité de la sécurité informatique. Surtout dans les petites entreprises ➡ En savoir plus

Les cyberattaques augmentent de 104 % en 2023

Une entreprise de cybersécurité a examiné le paysage des menaces de l'année dernière. Les résultats fournissent des informations cruciales sur ➡ En savoir plus

La loi IA et ses conséquences sur la protection des données

Avec l'AI Act, la première loi pour l'IA a été approuvée et donne aux fabricants d'applications d'IA un délai de six mois à ➡ En savoir plus

Les logiciels espions mobiles constituent une menace pour les entreprises

De plus en plus de personnes utilisent des appareils mobiles, aussi bien dans la vie quotidienne que dans les entreprises. Cela réduit également le risque de « ➡ En savoir plus

La sécurité participative identifie de nombreuses vulnérabilités

La sécurité participative a considérablement augmenté au cours de la dernière année. Dans le secteur public, 151 pour cent de vulnérabilités supplémentaires ont été signalées par rapport à l’année précédente. ➡ En savoir plus

L'IA sur Enterprise Storage combat les ransomwares en temps réel

NetApp est l'un des premiers à intégrer l'intelligence artificielle (IA) et l'apprentissage automatique (ML) directement dans le stockage principal pour lutter contre les ransomwares. ➡ En savoir plus

Sécurité numérique : les consommateurs font le plus confiance aux banques

Une enquête sur la confiance numérique a montré que les consommateurs font le plus confiance aux banques, aux soins de santé et au gouvernement. Les média- ➡ En savoir plus

Bourse d'emploi Darknet : les pirates informatiques recherchent des initiés renégats

Le Darknet n'est pas seulement un échange de biens illégaux, mais aussi un lieu où les hackers recherchent de nouveaux complices ➡ En savoir plus

Stories

, Collecte de données, KI, Machine Learning, ML

Chasse aux données pour un meilleur apprentissage automatique

Partager le post

Disponibilité des données nécessaires

assembler les données

Plus de défis et une malédiction

Données manquantes

données en double

Divers schémas de normalisation

données de champ de texte libre

Mise à jour constante

Articles liés au sujet

À quel groupe d'utilisateurs appartenez-vous ? (Pas de localisation!)

Liens importants

Derniers articles et nouvelles

Ensuite, il a été recherché

Réseaux Sociaux