डेटा माइनिंग में पहले से अज्ञात, मान्य पैटर्न और विशाल डेटा सेट में संबंधों को खोजने के लिए परिष्कृत डेटा विश्लेषण टूल का उपयोग शामिल है। ये उपकरण सांख्यिकीय मॉडल, मशीन सीखने की तकनीक और गणितीय एल्गोरिदम, जैसे तंत्रिका नेटवर्क या निर्णय पेड़ शामिल कर सकते हैं। इस प्रकार, डेटा माइनिंग में विश्लेषण और भविष्यवाणी शामिल है।
मशीन लर्निंग, डेटाबेस प्रबंधन और सांख्यिकी के प्रतिच्छेदन से विभिन्न तरीकों और तकनीकों के आधार पर, डेटा माइनिंग में पेशेवरों ने अपने करियर को बेहतर ढंग से समझने के लिए समर्पित किया है कि कैसे बड़ी मात्रा में डेटा को संसाधित और निष्कर्ष निकाला जाए, लेकिन वे कौन से तरीके हैं जिनका वे उपयोग करते हैं ऐसा करने के लिए?
हाल ही में डेटा माइनिंग परियोजनाओं में, विभिन्न प्रमुख डेटा माइनिंग तकनीकों को विकसित और उपयोग किया गया है, जिसमें एसोसिएशन, वर्गीकरण, क्लस्टरिंग, भविष्यवाणी, अनुक्रमिक पैटर्न और प्रतिगमन शामिल हैं।
data mining techniques in hindi |
data mining techniques in Hindi
1. Classification:
इस तकनीक का उपयोग डेटा और मेटाडेटा के बारे में महत्वपूर्ण और प्रासंगिक जानकारी प्राप्त करने के लिए किया जाता है। यह डेटा माइनिंग तकनीक डेटा को विभिन्न वर्गों में वर्गीकृत करने में मदद करती है।
डेटा माइनिंग तकनीकों को विभिन्न मानदंडों द्वारा वर्गीकृत किया जा सकता है, जो निम्नानुसार हैं:
- खनन किए गए डेटा स्रोतों के प्रकार के अनुसार डेटा माइनिंग फ्रेमवर्क का वर्गीकरण [Classification of Data mining frameworks as per the type of data sources mined:]
यह वर्गीकरण संभाले गए डेटा के प्रकार के अनुसार है। उदाहरण के लिए, मल्टीमीडिया, स्थानिक डेटा, टेक्स्ट डेटा, समय-श्रृंखला डेटा, वर्ल्ड वाइड वेब, आदि।
- शामिल डेटाबेस के अनुसार डेटा माइनिंग फ्रेमवर्क का वर्गीकरण:
यह वर्गीकरण शामिल डेटा मॉडल पर आधारित है। उदाहरण के लिए। ऑब्जेक्ट-ओरिएंटेड डेटाबेस, ट्रांजेक्शनल डेटाबेस, रिलेशनल डेटाबेस, इत्यादि।
- खोजे गए ज्ञान के प्रकार के अनुसार डेटा माइनिंग फ्रेमवर्क का वर्गीकरण:
यह वर्गीकरण खोजे गए ज्ञान के प्रकार या डेटा माइनिंग कार्यात्मकताओं पर निर्भर करता है। उदाहरण के लिए, भेदभाव, वर्गीकरण, क्लस्टरिंग, लक्षण वर्णन, आदि। कुछ ढांचे व्यापक ढांचे होते हैं जो कुछ डेटा खनन कार्यात्मकताओं को एक साथ पेश करते हैं।
- इस्तेमाल की गई डेटा माइनिंग तकनीकों के अनुसार डेटा माइनिंग फ्रेमवर्क का वर्गीकरण:
यह वर्गीकरण उपयोग किए गए डेटा विश्लेषण दृष्टिकोण के अनुसार है, जैसे तंत्रिका नेटवर्क, मशीन लर्निंग, जेनेटिक एल्गोरिदम, विज़ुअलाइज़ेशन, सांख्यिकी, डेटा वेयरहाउस-ओरिएंटेड या डेटाबेस-ओरिएंटेड, आदि।
वर्गीकरण डेटा माइनिंग प्रक्रिया में शामिल उपयोगकर्ता इंटरैक्शन के स्तर को भी ध्यान में रख सकता है, जैसे क्वेरी-संचालित सिस्टम, स्वायत्त सिस्टम, या इंटरेक्टिव एक्सप्लोरेटरी सिस्टम।
2. data mining techniques in Hindi : Clustering
क्लस्टरिंग जानकारी का एक विभाजन है जो जुड़ी हुई वस्तुओं के समूहों में होता है। कुछ समूहों द्वारा डेटा का वर्णन करना मुख्य रूप से कुछ निश्चित विवरण खो देता है, लेकिन सुधार को पूरा करता है। यह अपने समूहों द्वारा डेटा मॉडल करता है।
डेटा मॉडलिंग सांख्यिकी, गणित और संख्यात्मक विश्लेषण में निहित ऐतिहासिक दृष्टिकोण से क्लस्टरिंग करता है। मशीन सीखने के दृष्टिकोण से, क्लस्टर छिपे हुए पैटर्न से संबंधित होते हैं, क्लस्टर की खोज अप्रशिक्षित शिक्षण है, और बाद की रूपरेखा एक डेटा अवधारणा का प्रतिनिधित्व करती है। व्यावहारिक दृष्टिकोण से, क्लस्टरिंग डेटा माइनिंग अनुप्रयोगों में एक असाधारण कार्य करता है।
उदाहरण के लिए, वैज्ञानिक डेटा अन्वेषण, पाठ खनन, सूचना पुनर्प्राप्ति, स्थानिक डेटाबेस अनुप्रयोग, सीआरएम, वेब विश्लेषण, कम्प्यूटेशनल जीव विज्ञान, चिकित्सा निदान, और बहुत कुछ।
दूसरे शब्दों में, हम कह सकते हैं कि क्लस्टरिंग विश्लेषण समान डेटा की पहचान करने के लिए डेटा माइनिंग तकनीक है। यह तकनीक डेटा के बीच अंतर और समानता को पहचानने में मदद करती है। क्लस्टरिंग वर्गीकरण के समान ही है, लेकिन इसमें डेटा के समूह को उनकी समानता के आधार पर समूहीकृत करना शामिल है।
3. Regression:
प्रतिगमन विश्लेषण डेटा माइनिंग प्रक्रिया है जिसका उपयोग अन्य कारकों की उपस्थिति के कारण चर के बीच संबंधों की पहचान और विश्लेषण करने के लिए किया जाता है। इसका उपयोग विशिष्ट चर की संभावना को परिभाषित करने के लिए किया जाता है। प्रतिगमन, मुख्य रूप से योजना और मॉडलिंग का एक रूप। उदाहरण के लिए, उपलब्धता, उपभोक्ता मांग और प्रतिस्पर्धा जैसे अन्य कारकों के आधार पर, हम कुछ लागतों को प्रोजेक्ट करने के लिए इसका इस्तेमाल कर सकते हैं। मुख्य रूप से यह दिए गए डेटा सेट में दो या दो से अधिक चर के बीच सटीक संबंध देता है।
4. Association Rules:
यह डेटा माइनिंग तकनीक दो या दो से अधिक वस्तुओं के बीच एक लिंक खोजने में मदद करती है। यह डेटा सेट में एक छिपा हुआ पैटर्न ढूंढता है।
एसोसिएशन के नियम अगर-तो बयान हैं जो विभिन्न प्रकार के डेटाबेस में बड़े डेटा सेट के भीतर डेटा आइटम के बीच बातचीत की संभावना दिखाने के लिए समर्थन करते हैं। एसोसिएशन रूल माइनिंग के कई अनुप्रयोग हैं और आमतौर पर डेटा या मेडिकल डेटा सेट में बिक्री सहसंबंधों में मदद करने के लिए इसका उपयोग किया जाता है।
एल्गोरिदम काम करने का तरीका यह है कि आपके पास विभिन्न डेटा हैं, उदाहरण के लिए, किराने की वस्तुओं की एक सूची जो आप पिछले छह महीनों से खरीद रहे हैं। यह एक साथ खरीदी जा रही वस्तुओं के प्रतिशत की गणना करता है।
ये तीन प्रमुख माप तकनीक हैं:
- Lift:
यह माप तकनीक इस विश्वास की सटीकता को मापती है कि कितनी बार आइटम बी खरीदा जाता है।
(Confidence) / (item B)/ (Entire dataset)
- Support:
यह मापन तकनीक मापती है कि कितनी बार एक से अधिक आइटम खरीदे जाते हैं और इसकी तुलना समग्र डेटासेट से की जाती है।
(Item A + Item B) / (Entire dataset)
- Confidence:
यह मापन तकनीक मापती है कि आइटम ए को भी खरीदे जाने पर आइटम बी कितनी बार खरीदा जाता है।
(Item A + Item B)/ (Item A)
5. data mining techniques in Hindi : Outer detection
इस प्रकार की डेटा माइनिंग तकनीक डेटा सेट में डेटा आइटम के अवलोकन से संबंधित है, जो अपेक्षित पैटर्न या अपेक्षित व्यवहार से मेल नहीं खाती है। इस तकनीक का उपयोग विभिन्न डोमेन जैसे घुसपैठ, पता लगाने, धोखाधड़ी का पता लगाने आदि में किया जा सकता है। इसे बाहरी विश्लेषण या बाहरी खनन के रूप में भी जाना जाता है।
बाहरी एक डेटा बिंदु है जो बाकी डेटासेट से बहुत अधिक भिन्न होता है। वास्तविक दुनिया के अधिकांश डेटासेट में एक बाहरी है। डेटा माइनिंग क्षेत्र में बाहरी पहचान एक महत्वपूर्ण भूमिका निभाती है। नेटवर्क रुकावट की पहचान, क्रेडिट या डेबिट कार्ड धोखाधड़ी का पता लगाने, वायरलेस सेंसर नेटवर्क डेटा में बाहरी का पता लगाने आदि जैसे कई क्षेत्रों में बाहरी पहचान मूल्यवान है।
6. Sequential Patterns:
अनुक्रमिक पैटर्न एक डेटा माइनिंग तकनीक है जो अनुक्रमिक पैटर्न की खोज के लिए अनुक्रमिक डेटा के मूल्यांकन के लिए विशिष्ट है। इसमें अनुक्रमों के एक सेट में दिलचस्प बाद की खोज शामिल है, जहां एक अनुक्रम की हिस्सेदारी को विभिन्न मानदंडों जैसे लंबाई, घटना आवृत्ति, आदि के संदर्भ में मापा जा सकता है।
दूसरे शब्दों में, डेटा माइनिंग की यह तकनीक कुछ समय में लेन-देन डेटा में समान पैटर्न को खोजने या पहचानने में मदद करती है।
7. Prediction:
भविष्यवाणी ने अन्य डेटा माइनिंग तकनीकों जैसे कि रुझान, क्लस्टरिंग, वर्गीकरण आदि के संयोजन का उपयोग किया। यह भविष्य की घटना की भविष्यवाणी करने के लिए पिछली घटनाओं या उदाहरणों का सही क्रम में विश्लेषण करता है।