Caccia ai dati per un migliore apprendimento automatico 

machine Learning

Condividi post

L'intelligenza artificiale o l'apprendimento automatico ha registrato un'enorme ripresa negli ultimi dieci anni. Molte industrie stanno ora investendo molto in soluzioni basate sull'apprendimento automatico. Anche la domanda di specialisti qualificati è aumentata vertiginosamente.

Diverse università in tutto il mondo offrono lauree incentrate sulla scienza dei dati o sull'intelligenza artificiale, e questo contenuto sta acquisendo importanza anche nelle università tedesche. Mentre le università tendono a concentrarsi sui concetti matematici e teorici, le competenze e le conoscenze necessarie per addestrare modelli di apprendimento automatico su problemi del mondo reale possono essere molto diverse.

Disponibilità dei dati necessari

Nella maggior parte dei casi, la disponibilità dei dati determina se l'apprendimento automatico può essere utilizzato o meno per risolvere un determinato problema. Prima di iniziare un nuovo progetto, sorge spontanea la domanda: un modello addestrato su questi dati fornirà le risposte giuste la maggior parte delle volte?

Questa domanda si applica indipendentemente dal modello, dalla libreria o dal linguaggio scelto per l'esperimento ML. E ci sono altri criteri cruciali. Un modello è valido solo quanto i dati con cui viene alimentato. È quindi importante chiarire:

  • Ci sono dati sufficienti per addestrare un buon modello? Finché non supera il budget dell'hardware, è quasi sempre giusto utilizzare più dati.
  • Le previsioni sono affidabili in un processo di apprendimento supervisionato? Il modello riceve le informazioni corrette?
  • Questi dati sono una rappresentazione accurata della distribuzione reale? C'è abbastanza variazione nei campioni per coprire l'area problematica?
  • C'è un accesso costante a un flusso costante di nuovi dati per aggiornare il modello e mantenerlo aggiornato?

 

assemblando i dati

I dati necessari per creare un set di dati per una soluzione ML sono spesso distribuiti su più origini. Parti diverse di un campione vengono raccolte in prodotti diversi e gestite da team diversi su piattaforme diverse. Pertanto, il passaggio successivo nel processo è spesso quello di consolidare tutti questi dati in un unico formato e archiviarli in modo facilmente accessibile.

Altre sfide e una maledizione

Con i dati raccolti e aggregati, penseresti che il nuovo favoloso algoritmo ML sarebbe pronto per l'uso. Ma sono ancora necessari ulteriori passi, perché ci saranno inevitabilmente ancora una serie di sfide da superare:

Dati mancanti

A volte i valori validi potrebbero non essere disponibili per tutte le osservazioni. I dati potrebbero essere stati danneggiati durante la raccolta, l'archiviazione o la trasmissione ed è importante trovare questi punti dati mancanti e, se necessario, eliminarli dal set di dati.

dati duplicati

Sebbene questo non sia un problema particolarmente allarmante in termini di prestazioni del modello, i dati duplicati dovrebbero essere rimossi dall'archivio dati per rendere il processo di addestramento del modello più efficiente e potenzialmente evitare l'overfitting.

Vari schemi di normalizzazione

Lievi differenze nel modo in cui i dati vengono elaborati e archiviati possono causare gravi mal di testa durante l'addestramento di un modello. Ad esempio, prodotti diversi possono ritagliare lo stesso campo di testo libero a lunghezze diverse o rendere anonimi i dati in modo diverso, causando incoerenze nei dati. Se una di queste origini contiene principalmente malware e un'altra origine contiene modelli benigni, il modello ML può imparare a identificarli, ad esempio, in base alla lunghezza del troncamento.

dati del campo di testo libero

Questo in realtà merita una categoria a sé stante perché può essere così difficile da affrontare. I campi di testo libero sono la rovina dell'ingegnere dei dati poiché deve affrontare errori di battitura, gergo, quasi duplicati, variazioni di maiuscole, spazi, punteggiatura e tutta una serie di altre incoerenze.

Aggiornamento costante

Infine, la deriva dei dati è un problema importante da affrontare durante la progettazione di un sistema ML. Una volta addestrato, un modello diventa sempre più impreciso nel tempo man mano che cambia la distribuzione dei nuovi dati in arrivo. Pertanto, dovrebbe essere programmato un aggiornamento regolare del modello per garantire che le prestazioni continuino a rimanere entro i limiti previsti.

Ad esempio, nello spazio della sicurezza, stiamo assistendo a molta volatilità poiché gli attori delle minacce cambiano i loro exploit e comportamenti nel tempo e le vulnerabilità vengono scoperte e risolte. Questo è stato un breve riepilogo dei passaggi tipici che devono essere eseguiti per selezionare, raccogliere e pulire i dati per una soluzione ML. Se tutto ciò è stato fatto, è probabile che sia disponibile un set di dati pulito. L'esperimento può iniziare.

[stellaboxid=15]

 

Articoli relativi all'argomento

Sicurezza IT: NIS-2 ne fa una priorità assoluta

Solo in un quarto delle aziende tedesche il management si assume la responsabilità della sicurezza informatica. Soprattutto nelle aziende più piccole ➡ Leggi di più

Gli attacchi informatici aumenteranno del 104% nel 2023

Una società di sicurezza informatica ha dato uno sguardo al panorama delle minacce dello scorso anno. I risultati forniscono informazioni cruciali su ➡ Leggi di più

La legge sull’AI e le sue conseguenze sulla protezione dei dati

Con la legge sull’AI è stata approvata la prima legge sull’IA che concede ai produttori di applicazioni AI un periodo di sei mesi e mezzo ➡ Leggi di più

Lo spyware mobile rappresenta una minaccia per le aziende

Sempre più persone utilizzano i dispositivi mobili sia nella vita di tutti i giorni che in azienda. Ciò riduce anche il rischio di “mobile ➡ Leggi di più

La sicurezza in crowdsourcing individua molte vulnerabilità

La sicurezza in crowdsourcing è aumentata in modo significativo nell’ultimo anno. Nel settore pubblico sono state segnalate il 151% in più di vulnerabilità rispetto all’anno precedente. ➡ Leggi di più

L'intelligenza artificiale su Enterprise Storage combatte il ransomware in tempo reale

NetApp è uno dei primi a integrare l'intelligenza artificiale (AI) e il machine learning (ML) direttamente nello storage primario per combattere il ransomware ➡ Leggi di più

Sicurezza digitale: i consumatori hanno più fiducia nelle banche

Un sondaggio sulla fiducia digitale ha mostrato che le banche, la sanità e il governo sono i soggetti più fidati da parte dei consumatori. I media- ➡ Leggi di più

Borsa di lavoro nel Darknet: gli hacker cercano insider rinnegati

La Darknet non è solo uno scambio di beni illegali, ma anche un luogo dove gli hacker cercano nuovi complici ➡ Leggi di più