Linear regression सबसे आसान और सबसे लोकप्रिय मशीन लर्निंग एल्गोरिदम में से एक है। यह एक सांख्यिकीय पद्धति है जिसका उपयोग भविष्य कहनेवाला विश्लेषण के लिए किया जाता है। रैखिक प्रतिगमन sales, salary, age, product price, उत्पाद की कीमत आदि जैसे निरंतर / वास्तविक या संख्यात्मक चर के लिए भविष्यवाणियां करता है।
linear regression algorithm एक आश्रित (y) और एक या अधिक स्वतंत्र (y) चर के बीच एक रैखिक संबंध दिखाता है, इसलिए इसे रैखिक प्रतिगमन कहा जाता है। चूंकि रेखीय प्रतिगमन रैखिक संबंध को दर्शाता है, जिसका अर्थ है कि यह पता लगाता है कि स्वतंत्र चर के मूल्य के अनुसार निर्भर चर का मूल्य कैसे बदल रहा है।
linear regression in machine learning
linear regression model चर के बीच संबंधों का प्रतिनिधित्व करने वाली एक ढलान वाली सीधी रेखा प्रदान करता है। नीचे दी गई छवि पर विचार करें
यहां,
y= a0+a1x+ ε
Y= आश्रित चर (लक्ष्य चर)
X = स्वतंत्र चर (भविष्यवक्ता चर)
a0= रेखा का अवरोधन (स्वतंत्रता की एक अतिरिक्त डिग्री देता है)
a1 = रैखिक प्रतिगमन गुणांक (प्रत्येक इनपुट मान के लिए स्केल कारक)।
ε = random error
x और y चर के मान रैखिक प्रतिगमन मॉडल प्रतिनिधित्व के लिए प्रशिक्षण डेटासेट हैं।
types of linear regression in machine learning in Hindi
रैखिक प्रतिगमन को आगे दो प्रकार के एल्गोरिथ्म में विभाजित किया जा सकता है:
- Simple Linear Regression:
यदि किसी एकल स्वतंत्र चर का उपयोग किसी संख्यात्मक आश्रित चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है, तो ऐसे रैखिक प्रतिगमन एल्गोरिथ्म को सरल रैखिक प्रतिगमन कहा जाता है।
- Multiple Linear regression:
यदि किसी संख्यात्मक आश्रित चर के मान का अनुमान लगाने के लिए एक से अधिक स्वतंत्र चर का उपयोग किया जाता है, तो ऐसे रैखिक प्रतिगमन एल्गोरिथ्म को एकाधिक रैखिक प्रतिगमन कहा जाता है।
Linear Regression Line
आश्रित और स्वतंत्र चरों के बीच संबंध दर्शाने वाली रैखिक रेखा को समाश्रयण रेखा कहते हैं। प्रतिगमन रेखा दो प्रकार के संबंध दिखा सकती है:
- Positive Linear Relationship:
यदि आश्रित चर Y-अक्ष पर बढ़ता है और स्वतंत्र चर X-अक्ष पर बढ़ता है, तो ऐसे संबंध को धनात्मक रैखिक संबंध कहा जाता है।
linear regression in machine learning in hindi |
Negative Linear Relationship:
यदि आश्रित चर Y-अक्ष पर घटता है और स्वतंत्र चर X-अक्ष पर बढ़ता है, तो ऐसे संबंध को ऋणात्मक रैखिक संबंध कहा जाता है।
Negative Linear Relationship |
Finding the best fit line:
रैखिक प्रतिगमन के साथ काम करते समय, हमारा मुख्य लक्ष्य सबसे अच्छी फिट लाइन ढूंढना है, जिसका अर्थ है कि अनुमानित मूल्यों और वास्तविक मूल्यों के बीच त्रुटि को कम किया जाना चाहिए। सबसे अच्छी फिट लाइन में कम से कम त्रुटि होगी।
भार या रेखाओं के गुणांक (a0, a1) के लिए अलग-अलग मान प्रतिगमन की एक अलग रेखा देते हैं, इसलिए हमें सर्वोत्तम फिट लाइन खोजने के लिए a0 और a1 के लिए सर्वोत्तम मानों की गणना करने की आवश्यकता है, इसलिए इसकी गणना करने के लिए हम लागत फ़ंक्शन का उपयोग करते हैं।
Cost function-
- भार या रेखाओं के गुणांक (a0, a1) के लिए अलग-अलग मान प्रतिगमन की अलग-अलग रेखा देते हैं, और सर्वोत्तम फिट लाइन के लिए गुणांक के मूल्यों का अनुमान लगाने के लिए लागत फ़ंक्शन का उपयोग किया जाता है।
- लागत फ़ंक्शन प्रतिगमन गुणांक या भार का अनुकूलन करता है। यह मापता है कि एक रेखीय प्रतिगमन मॉडल कैसा प्रदर्शन कर रहा है।
- हम मैपिंग फ़ंक्शन की सटीकता का पता लगाने के लिए लागत फ़ंक्शन का उपयोग कर सकते हैं, जो इनपुट चर को आउटपुट चर में मैप करता है। इस मैपिंग फ़ंक्शन को हाइपोथीसिस फ़ंक्शन के रूप में भी जाना जाता है।
रैखिक प्रतिगमन के लिए, हम Mean Squared Error (MSE) लागत फ़ंक्शन का उपयोग करते हैं, जो अनुमानित मानों और वास्तविक मानों के बीच हुई चुकता त्रुटि का औसत है। इसे इस प्रकार लिखा जा सकता है:
उपरोक्त रैखिक समीकरण के लिए, MSE की गणना इस प्रकार की जा सकती है:
linear regression in machine learning python |
कहां,
N=Total number of observation
Yi = Actual value
(a1xi+a0)= Predicted value.
Residuals: वास्तविक मूल्य और अनुमानित मूल्यों के बीच की दूरी को अवशिष्ट कहा जाता है। यदि देखे गए बिंदु प्रतिगमन रेखा से दूर हैं, तो अवशिष्ट अधिक होगा, और इसलिए लागत कार्य अधिक होगा। यदि प्रकीर्णन बिंदु प्रतीपगमन रेखा के निकट हैं, तो अवशिष्ट छोटा होगा और इसलिए लागत फलन होगा।
Gradient Descent:
- लागत फ़ंक्शन के ग्रेडिएंट की गणना करके MSE को कम करने के लिए ग्रेडिएंट डिसेंट का उपयोग किया जाता है।
- एक प्रतिगमन मॉडल लागत फ़ंक्शन को कम करके लाइन के गुणांक को अद्यतन करने के लिए ग्रेडिएंट डिसेंट का उपयोग करता है।
- यह गुणांक के मूल्यों के यादृच्छिक चयन द्वारा किया जाता है और फिर न्यूनतम लागत फ़ंक्शन तक पहुंचने के लिए मूल्यों को पुनरावृत्त रूप से अद्यतन करता है।
Model Performance:
फिट की अच्छाई यह निर्धारित करती है कि प्रतिगमन की रेखा अवलोकनों के सेट में कैसे फिट होती है। विभिन्न मॉडलों में से सर्वश्रेष्ठ मॉडल खोजने की प्रक्रिया को अनुकूलन कहा जाता है। इसे निम्न विधि द्वारा प्राप्त किया जा सकता है:
1. R-squared method:
- आर-स्क्वेर्ड एक सांख्यिकीय पद्धति है जो फिट की अच्छाई को निर्धारित करती है।
- यह 0-100% के पैमाने पर आश्रित और स्वतंत्र चर के बीच संबंधों की ताकत को मापता है।
- आर-स्क्वायर का उच्च मूल्य अनुमानित मूल्यों और वास्तविक मूल्यों के बीच कम अंतर को निर्धारित करता है और इसलिए एक अच्छे मॉडल का प्रतिनिधित्व करता है।
- इसे कई प्रतिगमन के लिए निर्धारण का गुणांक, या एकाधिक निर्धारण का गुणांक भी कहा जाता है।
इसकी गणना निम्न सूत्र से की जा सकती है:
linear regression in machine learning in hindi |
Assumptions of Linear Regression in Machine Learning in Hindi
रैखिक प्रतिगमन की कुछ महत्वपूर्ण मान्यताएँ नीचे दी गई हैं। रैखिक प्रतिगमन मॉडल का निर्माण करते समय ये कुछ औपचारिक जाँचें हैं, जो दिए गए डेटासेट से सर्वोत्तम संभव परिणाम प्राप्त करना सुनिश्चित करती हैं।
- Linear relationship between the features and target:
रैखिक प्रतिगमन आश्रित और स्वतंत्र चर के बीच रैखिक संबंध मानता है।
- Small or no multicollinearity between the features:
बहुसंरेखण का अर्थ है स्वतंत्र चरों के बीच उच्च-सहसंबंध। बहुसंस्कृति के कारण, भविष्यवक्ताओं और लक्ष्य चर के बीच सही संबंध खोजना मुश्किल हो सकता है। या हम कह सकते हैं, यह निर्धारित करना मुश्किल है कि कौन सा भविष्यवक्ता चर लक्ष्य चर को प्रभावित कर रहा है और कौन सा नहीं। तो, मॉडल सुविधाओं या स्वतंत्र चर के बीच या तो बहुत कम या कोई बहुसंस्कृति नहीं मानता है।
- Homoscedasticity Assumption:
Homoscedasticity एक ऐसी स्थिति है जब त्रुटि शब्द स्वतंत्र चर के सभी मानों के लिए समान होता है। समरूपता के साथ, स्कैटर प्लॉट में डेटा का कोई स्पष्ट पैटर्न वितरण नहीं होना चाहिए।
- Normal distribution of error terms:
रैखिक प्रतिगमन मानता है कि त्रुटि शब्द को सामान्य वितरण पैटर्न का पालन करना चाहिए। यदि त्रुटि शर्तों को सामान्य रूप से वितरित नहीं किया जाता है, तो आत्मविश्वास अंतराल या तो बहुत व्यापक या बहुत संकीर्ण हो जाएगा, जिससे गुणांक खोजने में कठिनाई हो सकती है।
इसे q-q प्लॉट का उपयोग करके चेक किया जा सकता है। यदि प्लॉट बिना किसी विचलन के एक सीधी रेखा दिखाता है, जिसका अर्थ है कि त्रुटि सामान्य रूप से वितरित की जाती है।
- No autocorrelations:
रैखिक प्रतिगमन मॉडल त्रुटि शर्तों में कोई स्वत: सहसंबंध नहीं मानता है। यदि त्रुटि अवधि में कोई सहसंबंध होगा, तो यह मॉडल की सटीकता को काफी कम कर देगा। ऑटोसहसंबंध आमतौर पर तब होता है जब अवशिष्ट त्रुटियों के बीच निर्भरता होती है।
application of linear regression in machine learning in Hindi
मशीन लर्निंग में लीनियर रिग्रेशन मॉडल का उपयोग करने का एक शीर्ष लाभ रुझानों की भविष्यवाणी करने और भविष्यवाणियां करने की क्षमता है जो व्यवहार्य हैं। डेटा वैज्ञानिक इन भविष्यवाणियों का उपयोग कर सकते हैं और मशीन लर्निंग के आधार पर और कटौती कर सकते हैं। यह त्वरित, कुशल और सटीक है। यह मुख्य रूप से है क्योंकि मशीनें बड़ी मात्रा में डेटा को संसाधित करती हैं और इसमें न्यूनतम मानवीय हस्तक्षेप होता है। एक बार एल्गोरिथम स्थापित हो जाने के बाद, सीखने की प्रक्रिया सरल हो जाती है।
छोटे व्यवसायों के लिए फायदेमंद [Beneficial to small businesses]
एक या दो चरों को बदलकर, मशीनें बिक्री पर पड़ने वाले प्रभाव को समझ सकती हैं। चूंकि रैखिक प्रतिगमन की तैनाती लागत प्रभावी है, इसलिए यह छोटे व्यवसायों के लिए बहुत फायदेमंद है क्योंकि बिक्री के समय लघु और दीर्घकालिक पूर्वानुमान किए जा सकते हैं। इसका मतलब है कि छोटे व्यवसाय अपने संसाधनों की अच्छी तरह से योजना बना सकते हैं और अपने लिए विकास पथ तैयार कर सकते हैं। उन्हें बाजार और उसकी प्राथमिकताओं को समझना होगा और आपूर्ति और मांग के बारे में सीखना होगा।
रणनीति तैयार करना [Preparing Strategies]
चूंकि मशीन लर्निंग भविष्यवाणी को सक्षम बनाता है, इसमें एक रैखिक प्रतिगमन मॉडल के सबसे बड़े लाभों में से एक किसी दिए गए स्थिति के लिए एक रणनीति तैयार करने की क्षमता है, और विभिन्न परिणामों का विश्लेषण करना है। पूर्वानुमान के प्रतिगमन मॉडल से सार्थक जानकारी प्राप्त की जा सकती है जिससे कंपनियों को रणनीतिक योजना बनाने और कार्यकारी निर्णय लेने में मदद मिलती है।