K-Means clustering n ऑब्जेक्ट्स को k क्लस्टर्स में विभाजित करने का इरादा रखता है जिसमें प्रत्येक ऑब्जेक्ट निकटतम अर्थ के साथ क्लस्टर से संबंधित होता है। यह विधि सबसे अधिक संभव अंतर के बिल्कुल अलग समूहों का उत्पादन करती है। सबसे बड़ी पृथक्करण (दूरी) के लिए समूहों की सबसे अच्छी संख्या को प्राथमिकता के रूप में नहीं जाना जाता है और इसे डेटा से गणना की जानी चाहिए। K-Means क्लस्टरिंग का उद्देश्य कुल इंट्रा-क्लस्टर संस्करण को कम करना है, या, चुकता त्रुटि फ़ंक्शन:
K-Means Algorithm in Hindi
डेटा को k समूहों में बाँटता है जहाँ k पूर्वनिर्धारित है।
क्लस्टर केंद्रों के रूप में यादृच्छिक पर k अंक चुनें।
यूक्लिडियन डिस्टेंस फंक्शन के अनुसार वस्तुओं को उनके निकटतम क्लस्टर सेंटर में असाइन करें।
प्रत्येक क्लस्टर में सभी ऑब्जेक्ट्स के केंद्रक या माध्य की गणना करें।
चरण 2, 3 और 4 को दोहराएं जब तक कि एक ही अंक लगातार दौर में प्रत्येक क्लस्टर को न सौंपा जाए।
के-मीन्स अपेक्षाकृत एक कुशल विधि है। हालांकि, हमें पहले से ही समूहों की संख्या निर्दिष्ट करने की आवश्यकता है, और अंतिम परिणाम आरंभीकरण के प्रति संवेदनशील हैं और अक्सर एक स्थानीय इष्टतम पर समाप्त होते हैं। दुर्भाग्य से समूहों की इष्टतम संख्या का पता लगाने के लिए कोई वैश्विक सैद्धांतिक विधि नहीं है। एक व्यावहारिक दृष्टिकोण विभिन्न रों के साथ कई रनों के परिणामों की तुलना करना है और पूर्वनिर्धारित मानदंड के आधार पर सबसे अच्छा चुनना है। सामान्य तौर पर, एक बड़ा k शायद error को कम करता है लेकिन ओवरफिटिंग का खतरा बढ़ जाता है।
Example for k means clustering in hindi