बेहतर मशीन लर्निंग के लिए डेटा हंटिंग 

मशीन लर्निंग

शेयर पोस्ट

आर्टिफिशियल इंटेलिजेंस या मशीन लर्निंग ने पिछले दस वर्षों में भारी उछाल का अनुभव किया है। कई उद्योग अब मशीन लर्निंग आधारित समाधानों में भारी निवेश कर रहे हैं। योग्य विशेषज्ञों की मांग भी आसमान छू रही है।

दुनिया भर के कई विश्वविद्यालय डेटा साइंस या आर्टिफिशियल इंटेलिजेंस पर ध्यान देने के साथ डिग्री प्रदान करते हैं, और यह सामग्री जर्मन विश्वविद्यालयों में भी महत्व प्राप्त कर रही है। जबकि विश्वविद्यालय गणितीय और सैद्धांतिक अवधारणाओं पर ध्यान केंद्रित करते हैं, वास्तविक दुनिया की समस्याओं पर मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए आवश्यक कौशल और ज्ञान काफी भिन्न हो सकते हैं।

आवश्यक डेटा की उपलब्धता

ज्यादातर मामलों में, डेटा की उपलब्धता यह निर्धारित करती है कि किसी समस्या को हल करने के लिए मशीन लर्निंग का उपयोग किया जा सकता है या नहीं। एक नई परियोजना शुरू करने से पहले, सवाल उठता है: क्या इस डेटा पर प्रशिक्षित मॉडल अधिकांश समय सही उत्तर प्रदान करेगा?

यह प्रश्न एमएल प्रयोग के लिए चुने गए मॉडल, लाइब्रेरी या भाषा पर ध्यान दिए बिना लागू होता है। और अन्य महत्वपूर्ण मानदंड हैं। एक मॉडल केवल उतना ही अच्छा होता है, जितना डेटा उसे खिलाया जाता है। इसलिए यह स्पष्ट करना महत्वपूर्ण है:

  • क्या अच्छे मॉडल को प्रशिक्षित करने के लिए पर्याप्त डेटा है? जब तक यह हार्डवेयर बजट से अधिक नहीं होता है, तब तक अधिक डेटा का उपयोग करना लगभग हमेशा सही होता है।
  • क्या पर्यवेक्षित सीखने की प्रक्रिया में पूर्वानुमान विश्वसनीय हैं? क्या मॉडल को सही जानकारी दी जा रही है?
  • क्या यह डेटा वास्तविक वितरण का सटीक प्रतिनिधित्व है? क्या समस्या क्षेत्र को कवर करने के लिए नमूनों में पर्याप्त भिन्नता है?
  • क्या मॉडल को अपडेट करने और उसे चालू रखने के लिए नए डेटा की निरंतर स्ट्रीम तक निरंतर पहुंच है?

 

डेटा को इकट्ठा करना

एमएल समाधान के लिए डेटासेट बनाने के लिए आवश्यक डेटा अक्सर कई स्रोतों में वितरित किया जाता है। एक नमूने के विभिन्न भागों को विभिन्न उत्पादों में एकत्र किया जाता है और विभिन्न टीमों द्वारा विभिन्न प्लेटफार्मों पर प्रबंधित किया जाता है। इसलिए, प्रक्रिया में अगला चरण अक्सर इस सभी डेटा को एक ही प्रारूप में समेकित करना और इसे आसानी से सुलभ तरीके से संग्रहीत करना होता है।

अधिक चुनौतियां और एक अभिशाप

एकत्रित और एकत्र किए गए डेटा के साथ, आपको लगता है कि शानदार नए एमएल एल्गोरिदम जाने के लिए तैयार होंगे। लेकिन अभी और कदम उठाने की जरूरत है, क्योंकि अनिवार्य रूप से अभी भी कई चुनौतियों से पार पाना बाकी है:

लापता आँकड़े

कभी-कभी मान्य मान सभी प्रेक्षणों के लिए उपलब्ध नहीं हो सकते हैं। संग्रह, भंडारण, या प्रसारण के दौरान डेटा दूषित हो सकता है, और इन लापता डेटा बिंदुओं को ढूंढना महत्वपूर्ण है और यदि आवश्यक हो, तो उन्हें डेटा सेट से हटा दें।

डुप्लिकेट डेटा

हालांकि यह मॉडल के प्रदर्शन के मामले में विशेष रूप से खतरनाक मुद्दा नहीं है, मॉडल प्रशिक्षण प्रक्रिया को और अधिक कुशल बनाने और संभावित रूप से ओवरफिटिंग से बचने के लिए डेटा स्टोर से डुप्लिकेट डेटा को हटा दिया जाना चाहिए।

विभिन्न सामान्यीकरण योजनाएं

मॉडल को प्रशिक्षित करते समय डेटा को संसाधित करने और संग्रहीत करने के तरीके में थोड़ा अंतर प्रमुख सिरदर्द का कारण बन सकता है। उदाहरण के लिए, अलग-अलग उत्पाद एक ही मुक्त टेक्स्ट फ़ील्ड को अलग-अलग लंबाई में क्रॉप कर सकते हैं या डेटा को अलग-अलग तरीके से अज्ञात कर सकते हैं, जिससे डेटा में विसंगतियां हो सकती हैं। यदि इनमें से किसी एक स्रोत में ज्यादातर मैलवेयर हैं और दूसरे स्रोत में सौम्य पैटर्न हैं, तो एमएल मॉडल उन्हें पहचानना सीख सकता है, उदाहरण के लिए, ट्रंकेशन लंबाई के आधार पर।

मुक्त पाठ क्षेत्र डेटा

यह वास्तव में अपने आप में एक श्रेणी का हकदार है क्योंकि इससे निपटना इतना कठिन हो सकता है। नि: शुल्क टेक्स्ट फ़ील्ड डेटा इंजीनियर के अभिशाप हैं क्योंकि उसे टाइपो, स्लैंग, नियर-डुप्लिकेट, कैपिटलाइज़ेशन में बदलाव, रिक्त स्थान, विराम चिह्न और अन्य विसंगतियों की एक पूरी मेजबानी से निपटना पड़ता है।

लगातार अद्यतन

अंत में, एमएल सिस्टम को डिजाइन करते समय पता करने के लिए डेटा बहाव एक महत्वपूर्ण मुद्दा है। एक बार एक मॉडल को प्रशिक्षित करने के बाद, यह समय के साथ तेजी से गलत हो जाता है क्योंकि नए आने वाले डेटा का वितरण बदल जाता है। इसलिए, यह सुनिश्चित करने के लिए मॉडल का नियमित अद्यतन निर्धारित किया जाना चाहिए कि प्रदर्शन अपेक्षित सीमा के भीतर बना रहे।

उदाहरण के लिए, सुरक्षा क्षेत्र में, हम बहुत अधिक अस्थिरता देख रहे हैं क्योंकि खतरे के कारक समय के साथ अपने शोषण और व्यवहार को बदलते हैं, और कमजोरियों की खोज की जाती है और उन्हें दूर किया जाता है। यह एक एमएल समाधान के लिए डेटा को चुनने, एकत्र करने और साफ करने के लिए उठाए जाने वाले विशिष्ट कदमों का एक संक्षिप्त सारांश था। यदि ये सब किया गया है, तो संभवतः एक स्वच्छ डेटा सेट उपलब्ध है। प्रयोग शुरू हो सकता है।

[स्टारबॉक्स=15]

 

विषय से संबंधित लेख

आईटी सुरक्षा: एनआईएस-2 इसे सर्वोच्च प्राथमिकता देता है

केवल एक चौथाई जर्मन कंपनियों में प्रबंधन आईटी सुरक्षा की जिम्मेदारी लेता है। खासकर छोटी कंपनियों में ➡ और अधिक पढ़ें

104 में साइबर हमलों में 2023 फीसदी की बढ़ोतरी

एक साइबर सुरक्षा कंपनी ने पिछले साल के ख़तरे के परिदृश्य पर नज़र डाली है। परिणाम महत्वपूर्ण अंतर्दृष्टि प्रदान करते हैं ➡ और अधिक पढ़ें

एआई अधिनियम और डेटा सुरक्षा के लिए इसके परिणाम

एआई अधिनियम के साथ, एआई के लिए पहले कानून को मंजूरी दे दी गई है और एआई अनुप्रयोगों के निर्माताओं को छह महीने से लेकर छह महीने के बीच का समय दिया गया है ➡ और अधिक पढ़ें

मोबाइल स्पाइवेयर व्यवसायों के लिए खतरा पैदा करता है

अधिक से अधिक लोग रोजमर्रा की जिंदगी और कंपनियों दोनों में मोबाइल उपकरणों का उपयोग कर रहे हैं। इससे “मोबाइल” का खतरा भी कम हो जाता है ➡ और अधिक पढ़ें

क्राउडसोर्स्ड सुरक्षा कई कमजोरियों को इंगित करती है

पिछले वर्ष में क्राउडसोर्स्ड सुरक्षा में उल्लेखनीय वृद्धि हुई है। सार्वजनिक क्षेत्र में पिछले वर्ष की तुलना में 151 प्रतिशत अधिक कमज़ोरियाँ दर्ज की गईं। ➡ और अधिक पढ़ें

एंटरप्राइज़ स्टोरेज पर AI वास्तविक समय में रैंसमवेयर से लड़ता है

रैंसमवेयर से निपटने के लिए नेटएप कृत्रिम बुद्धिमत्ता (एआई) और मशीन लर्निंग (एमएल) को सीधे प्राथमिक भंडारण में एकीकृत करने वाले पहले लोगों में से एक है। ➡ और अधिक पढ़ें

डिजिटल सुरक्षा: उपभोक्ता बैंकों पर सबसे ज्यादा भरोसा करते हैं

एक डिजिटल ट्रस्ट सर्वेक्षण से पता चला है कि बैंक, स्वास्थ्य सेवा और सरकार उपभोक्ताओं द्वारा सबसे अधिक भरोसेमंद हैं। मीडिया- ➡ और अधिक पढ़ें

डार्कनेट जॉब एक्सचेंज: हैकर्स पाखण्डी अंदरूनी सूत्रों की तलाश में हैं

डार्कनेट न केवल अवैध वस्तुओं का आदान-प्रदान है, बल्कि एक ऐसी जगह भी है जहां हैकर्स नए सहयोगियों की तलाश करते हैं ➡ और अधिक पढ़ें