L'intelligenza artificiale o l'apprendimento automatico ha registrato un'enorme ripresa negli ultimi dieci anni. Molte industrie stanno ora investendo molto in soluzioni basate sull'apprendimento automatico. Anche la domanda di specialisti qualificati è aumentata vertiginosamente.
Diverse università in tutto il mondo offrono lauree incentrate sulla scienza dei dati o sull'intelligenza artificiale, e questo contenuto sta acquisendo importanza anche nelle università tedesche. Mentre le università tendono a concentrarsi sui concetti matematici e teorici, le competenze e le conoscenze necessarie per addestrare modelli di apprendimento automatico su problemi del mondo reale possono essere molto diverse.
Disponibilità dei dati necessari
Nella maggior parte dei casi, la disponibilità dei dati determina se l'apprendimento automatico può essere utilizzato o meno per risolvere un determinato problema. Prima di iniziare un nuovo progetto, sorge spontanea la domanda: un modello addestrato su questi dati fornirà le risposte giuste la maggior parte delle volte?
Questa domanda si applica indipendentemente dal modello, dalla libreria o dal linguaggio scelto per l'esperimento ML. E ci sono altri criteri cruciali. Un modello è valido solo quanto i dati con cui viene alimentato. È quindi importante chiarire:
- Ci sono dati sufficienti per addestrare un buon modello? Finché non supera il budget dell'hardware, è quasi sempre giusto utilizzare più dati.
- Le previsioni sono affidabili in un processo di apprendimento supervisionato? Il modello riceve le informazioni corrette?
- Questi dati sono una rappresentazione accurata della distribuzione reale? C'è abbastanza variazione nei campioni per coprire l'area problematica?
- C'è un accesso costante a un flusso costante di nuovi dati per aggiornare il modello e mantenerlo aggiornato?
assemblando i dati
I dati necessari per creare un set di dati per una soluzione ML sono spesso distribuiti su più origini. Parti diverse di un campione vengono raccolte in prodotti diversi e gestite da team diversi su piattaforme diverse. Pertanto, il passaggio successivo nel processo è spesso quello di consolidare tutti questi dati in un unico formato e archiviarli in modo facilmente accessibile.
Altre sfide e una maledizione
Con i dati raccolti e aggregati, penseresti che il nuovo favoloso algoritmo ML sarebbe pronto per l'uso. Ma sono ancora necessari ulteriori passi, perché ci saranno inevitabilmente ancora una serie di sfide da superare:
Dati mancanti
A volte i valori validi potrebbero non essere disponibili per tutte le osservazioni. I dati potrebbero essere stati danneggiati durante la raccolta, l'archiviazione o la trasmissione ed è importante trovare questi punti dati mancanti e, se necessario, eliminarli dal set di dati.
dati duplicati
Sebbene questo non sia un problema particolarmente allarmante in termini di prestazioni del modello, i dati duplicati dovrebbero essere rimossi dall'archivio dati per rendere il processo di addestramento del modello più efficiente e potenzialmente evitare l'overfitting.
Vari schemi di normalizzazione
Lievi differenze nel modo in cui i dati vengono elaborati e archiviati possono causare gravi mal di testa durante l'addestramento di un modello. Ad esempio, prodotti diversi possono ritagliare lo stesso campo di testo libero a lunghezze diverse o rendere anonimi i dati in modo diverso, causando incoerenze nei dati. Se una di queste origini contiene principalmente malware e un'altra origine contiene modelli benigni, il modello ML può imparare a identificarli, ad esempio, in base alla lunghezza del troncamento.
dati del campo di testo libero
Questo in realtà merita una categoria a sé stante perché può essere così difficile da affrontare. I campi di testo libero sono la rovina dell'ingegnere dei dati poiché deve affrontare errori di battitura, gergo, quasi duplicati, variazioni di maiuscole, spazi, punteggiatura e tutta una serie di altre incoerenze.
Aggiornamento costante
Infine, la deriva dei dati è un problema importante da affrontare durante la progettazione di un sistema ML. Una volta addestrato, un modello diventa sempre più impreciso nel tempo man mano che cambia la distribuzione dei nuovi dati in arrivo. Pertanto, dovrebbe essere programmato un aggiornamento regolare del modello per garantire che le prestazioni continuino a rimanere entro i limiti previsti.
Ad esempio, nello spazio della sicurezza, stiamo assistendo a molta volatilità poiché gli attori delle minacce cambiano i loro exploit e comportamenti nel tempo e le vulnerabilità vengono scoperte e risolte. Questo è stato un breve riepilogo dei passaggi tipici che devono essere eseguiti per selezionare, raccogliere e pulire i dati per una soluzione ML. Se tutto ciò è stato fatto, è probabile che sia disponibile un set di dati pulito. L'esperimento può iniziare.
[stellaboxid=15]