Saturday, 11 November 2017

स्टेटा फॉरेक्स में एलएन फ़ंक्शन


सूचना: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस में फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और सृजन की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि वे अब बनाए रखा नहीं जा सकें। हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है स्टेट कंसल्टिंग ग्रुप द्वारा उपहार देने के लिए स्टेट कंसल्टेंसी ग्रुप को धन्यवाद देना है। ग्रेजुएन्स के साथ लॉरेंस हैमिल्टन द्वारा रेगमेंटशन अध्याय 5: फिटिंग वक्र्स नोट: यह पृष्ठ डिलीक्स कर दिया गया है। अब इसे बनाए रखा नहीं जा रहा है, और इस पृष्ठ की जानकारी पुरानी हो सकती है। चूंकि यह पृष्ठ विचलित कर दिया गया है, इसलिए हम इस पृष्ठ के बारे में सवालों के जवाब नहीं दे सकते। चित्रा 5.1, पृष्ठ 146. नोट: ग्राफ ठीक से मेल नहीं खाता है। तालिका 5.1, पृष्ठ 147. कमांड ईजन का उपयोग नए चर बनाने के लिए किया जाता है क्योंकि जीएन के विपरीत egen फ़ंक्शन का उपयोग कर सकता है, जैसे कि मध्यक। चर बनाने के लिए तालिका 5.2, पृष्ठ 155. नोट: दूसरे शब्दों में, स्टैटा में, एलएन (x) लॉग (x), लॉग (x) लॉग लॉग के बजाय प्राकृतिक लॉग के लिए डिफ़ॉल्ट होता है। यदि आप लॉग बेस 10 चाहते हैं, तो लॉग 10 (एक्स) का उपयोग करें । चित्रा 5.7, पृष्ठ 156. नोट: आप avplot को wd विकल्प के साथ नहीं उपयोग कर सकते हैं, यही कारण है कि ग्राफ कमांड का उपयोग किया गया था। यदि आप इस भूखंड को स्केलिंग (जो कि wd विकल्प है) के बिना बनाना चाहते हैं, तो आप avplot का उपयोग कर सकते हैं। चित्रा 5.8, पृष्ठ 157. हिस्टोग्राम: बॉक्सप्लॉट: सिम्प्लोट: क्वांटाइल-सामान्य प्लॉट: चित्रा 5.9, पृष्ठ 157। नोट: yresid, xresid, d और y - हटो को छोड़ दिया जाना चाहिए या फिर स्टेटा शिकायत करेगा कि वे पहले ही परिभाषित हो चुके हैं। आप उपयोग ats. ucla. edustatstataexamplesrwgconcord1, स्पष्ट आदेश और ytrid, xresid, d और yhat छोड़ने के बजाय wtr813 wtr803 और inc3 दर्ज कर सकते हैं। तीसरे विकल्प के लिए पूर्ववर्ती डेटा को एक नए नाम के साथ सहेजने के लिए और फिर concord1 खोलने के लिए होगा। इसे एक नया नाम के साथ सहेजना स्पष्ट विकल्प ऊपर प्रयोग किया गया था (हिस्टोग्राम शुरू करते समय)। चित्रा 5.10, पृष्ठ 158. पृष्ठ 159. मतलब पृष्ठ के शीर्ष पर सूचीबद्ध है। यह समीकरण 5.14a देता है चित्रा 5.11, पृष्ठ 160. नोट: समीकरण 5.14b का उपयोग करें चित्रा 5.12, पृष्ठ 161. शीर्ष वक्र: मध्य वक्र: नीचे की अवस्था: चित्रा 5.13, पृष्ठ 162। तालिका 5.3, पृष्ठ 168। नोड्स विकल्प स्टेता को अवलोकन संख्या को प्रदर्शित करने के लिए नहीं बताता है, और नोडिस ऑप्शन तालिका रूप में आउटपुट को रखता है किताब में इस्तेमाल किया तालिका 5.4, पृष्ठ 16 9। नोट: इस तालिका और संस्करण 6 का निर्माण करते समय इस्तेमाल किए गए स्टेटा के संस्करण द्वारा उपयोग किए गए एल्गोरिदम में अंतर के कारण, समान परिणामों को बनाने के लिए कम पुनरावृत्तियों की आवश्यकता होती है ईपीएस विकल्प, स्टेटा को विकल्प के बिना तीन और पुनरावृत्त करने के लिए मजबूर कर रहा है। एल्गोरिदम में अंतर होने के बावजूद, परिणाम समान हैं। ध्यान दें कि गोम एक. डो प्रोग्राम है जिसे आपको एनएल गोम कमांड का उपयोग करने से पहले चलाने की जरूरत है। गोम कार्यक्रम तालिका 5.4 के शीर्ष पर दिखाए गए समीकरण को परिभाषित करता है। चित्रा 5.1 9, पृष्ठ 16 9। तालिका 5.5, पृष्ठ 170. तालिका 5.6, पृष्ठ 172. चित्रा 5.20, पृष्ठ 172. इस वेब साइट की सामग्री को किसी भी विशेष वेब साइट, किताब या सॉफ़्टवेयर उत्पाद का समर्थन नहीं किया जाना चाहिए कैलिफ़ोर्निया विश्वविद्यालय। नोट: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस के लिए फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और निर्माण की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि वे अब बनाए रखा नहीं जा सकें। हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है स्टेटा के साथ गिफ्ट रेगमेंट प्रदान करके स्टेट कंसल्टिंग ग्रुप को सहायता करें। अध्याय 1 - सरल और एकाधिक रिग्रेशन अध्याय बाह्यरेखा 1.0 परिचय 1.1 एक प्रथम पुनरावृत्ति विश्लेषण 1.2 डेटा की जांच करना 1.3 सरल रेखीय प्रतिगमन 1.4 एकाधिक प्रतिगमन 1.5 परिवर्तनशील चर 1.6 सारांश 1.7 आत्म मूल्यांकन 1.8 अधिक जानकारी के लिए यह पुस्तक चार अध्यायों से बना है जिसमें प्रतिगमन के लिए स्टेटा का उपयोग करने के बारे में विभिन्न विषयों को शामिल किया गया है। हमें इस बात पर ज़ोर देना चाहिए कि यह पुस्तक उद्धरण विश्लेषण के बारे में है और यह दर्शाता है कि यह कैसे प्रतिगामी विश्लेषण के लिए स्ताता का उपयोग किया जा सकता है, जैसा कि एक पुस्तक के विपरीत है जो कई प्रतिगमन के सांख्यिकीय आधार को कवर करता है। हम मानते हैं कि आपके पास कम से कम एक आंकड़े के पाठ्यक्रम में प्रतिगमन विश्लेषण किया गया है और आपके पास एक प्रतिगमन पुस्तक है, जिसका उपयोग आप एक संदर्भ के रूप में कर सकते हैं (अनुशंसित प्रतिगमन विश्लेषण पुस्तकों के लिए ऋण पृष्ठ के लिए प्रति पृष्ठ के साथ प्रतिगमन देखें)। यह पुस्तक प्रतिगमन के अपने ज्ञान को लागू करने के लिए डिज़ाइन की गई है, इसे स्ताटा पर निर्देश के साथ गठबंधन, प्रतिगमन विश्लेषण करने, समझने और व्याख्या करने के लिए बनाया गया है। यह पहला अध्याय सरल और कई प्रतिगमन में विषयों को कवर करेगा, साथ ही साथ आपके डेटा का विश्लेषण करने के लिए तैयार करने वाले सहयोगी कार्य, उदा। डेटा की जांच, आपके डेटा फ़ाइल से परिचित होकर, और आपके चर के वितरण की जांच कर रहा है। हम सरल और कई प्रतिगमन की मूल बातें स्पष्ट करेंगे और अपने विश्लेषण के परिणामों को स्वीकार करने से पहले आपके डेटा का निरीक्षण, जांच और सत्यापित करने के महत्व को प्रदर्शित करेंगे। सामान्य तौर पर, हम यह दिखाते हैं कि आपके प्रतिगमन विश्लेषण के परिणाम आपके डेटा की जांच के बिना भ्रामक हो सकते हैं, जो रिश्तों को प्रकट कर सकता है जो एक आकस्मिक विश्लेषण को अनदेखा कर सकते हैं। इस अध्याय में और बाद के अध्यायों में, हम कैलिफोर्निया डिपार्टमेंट ऑफ एड्यूकेशन एपीआई 2000 डाटासेट से 400 प्राथमिक विद्यालयों का बेतरतीब ढंग से नमूना करके एक डेटा फ़ाइल का उपयोग करेंगे। इस डेटा फ़ाइल में स्कूल शैक्षणिक प्रदर्शन के साथ ही प्राथमिक विद्यालयों के अन्य विशेषताओं, जैसे कि वर्ग के आकार, नामांकन, गरीबी आदि के एक उपाय शामिल हैं। आप वेब पर इस डेटा फ़ाइल को स्टाटा के भीतर से स्टेटा उपयोग कमांड के साथ एक्सेस कर सकते हैं। नीचे दिखाया गया है। नोट: कमांड में अग्रणी डॉट टाइप न करें - डॉट इंगित करने के लिए एक सम्मेलन है कि स्टेटमेंट एक स्टेट कमांड है एक बार जब आप फ़ाइल पढ़ लेते हैं, तो आप संभवत: इसे अपने कंप्यूटर पर एक कॉपी संग्रहित करना चाहते हैं (इसलिए आपको इसे हर बार वेब पर पढ़ने की आवश्यकता नहीं है)। कहें कि आप Windows का उपयोग कर रहे हैं और फ़ाइल को सी: regstata नामक फ़ोल्डर में संग्रहीत करना चाहते हैं (अगर आप चाहें तो आप एक अलग नाम चुन सकते हैं) सबसे पहले, आप इस फ़ोल्डर को mkdir कमांड का उपयोग करके स्टेटा में बना सकते हैं। तब हम उस निर्देशिका में सीडी कमांड का उपयोग कर बदल सकते हैं। और फिर अगर आप फ़ाइल को सहेजते हैं तो इसे c: regstata फ़ोल्डर में सहेजा जाएगा। फ़ाइल को elemapi के रूप में सहेजने देता है अब डेटा फ़ाइल को c: regstataelemapi. dta के रूप में सहेजा गया है और आप Stata को छोड़ सकते हैं और डेटा फ़ाइल अभी भी वहां होगी जब आप भविष्य में फ़ाइल का उपयोग करना चाहते हैं, तो आप c: कमांड का उपयोग c: regstata निर्देशिका (या जो भी आप इसे कहते हैं) में बदलने के लिए करेंगे और फिर elemapi फ़ाइल का उपयोग करें। 1.1 एक पहले प्रतिगमन विश्लेषण चलो सही में गोता लगाने और चर एपीआईएंड का उपयोग कर एक प्रतिगमन विश्लेषण करते हैं। acsk3 भोजन और पूर्ण ये स्कूल (एपीआईएंड) के शैक्षणिक प्रदर्शन को मापते हैं, किंडरगार्टन में 3 ग्रेड (एस्क्रेस् 3) के माध्यम से औसत वर्ग आकार, मुफ्त भोजन (भोजन) प्राप्त करने वाले छात्रों का प्रतिशत - जो गरीबी का सूचक है, और जिन शिक्षकों का प्रतिशत है पूर्ण शिक्षण क्रेडेंशियल्स (पूर्ण) हमें उम्मीद है कि बेहतर शैक्षिक प्रदर्शन कम वर्ग के आकार के साथ जुड़ा होगा, मुफ्त भोजन लेने वाले कम छात्र और पूर्ण शिक्षण क्रेडेंशियल वाले शिक्षकों का उच्च प्रतिशत होगा। नीचे, हम स्टाटा आउटपुट के बाद इस प्रतिगमन मॉडल के परीक्षण के लिए Stata कमांड दिखाते हैं। तीन भविष्यवाणियों पर ध्यान केंद्रित करने देता है, चाहे वे सांख्यिकीय रूप से महत्वपूर्ण हों और यदि ऐसा है, तो रिश्ते की दिशा। औसत वर्ग आकार (एस्कस्क 3 बी-2.68) 0.05 स्तर (p0.055) पर सांख्यिकीय रूप से महत्वपूर्ण नहीं है, लेकिन केवल इतना ही। गुणांक ऋणात्मक है जो दर्शाता है कि बड़े वर्ग के आकार का कम अकादमिक प्रदर्शन से संबंधित है - जो कि हम क्या उम्मीद करेंगे। इसके बाद, भोजन का प्रभाव (बी -370, पीएडीआई) महत्वपूर्ण है और इसकी गुणांक ऋणात्मक है इंगित करता है कि अधिक मात्रा वाले भोजन के लिए मुफ्त भोजन प्राप्त करने वाले छात्रों, कम शैक्षिक प्रदर्शन। कृपया ध्यान दें, कि हम यह नहीं कह रहे हैं कि नि: शुल्क भोजन कम शैक्षणिक प्रदर्शन पैदा कर रहे हैं। भोजन चर अत्यधिक आय स्तर से संबंधित है और गरीबी के लिए एक प्रॉक्सी के रूप में अधिक कार्य करता है। इस प्रकार, गरीबी के उच्च स्तर निम्न अकादमिक प्रदर्शन से जुड़े हैं। यह परिणाम भी समझ में आता है अंत में, पूर्ण क्रेडेंशियल्स (पूर्ण। बी 0.11, पी .32) वाले शिक्षकों का प्रतिशत अकादमिक प्रदर्शन से असंबंधित नहीं है। यह संकेत मिलता है कि पूर्ण प्रमाणिकता वाले शिक्षकों का प्रतिशत अकादमिक प्रदर्शन की भविष्यवाणी में एक महत्वपूर्ण कारक नहीं है - यह परिणाम कुछ अप्रत्याशित था क्या हमें इन परिणामों को लेना चाहिए और उन्हें प्रकाशन के लिए लिखना चाहिए इन परिणामों से, हम यह निष्कर्ष निकालना चाहेंगे कि निम्न वर्ग के आकार उच्च प्रदर्शन से संबंधित हैं, कि कम भोजन प्राप्त करने वाले कम विद्यार्थियां उच्च प्रदर्शन से जुड़ी हुई हैं और पूर्ण प्रमाणिकता वाले शिक्षकों का प्रतिशत स्कूलों में अकादमिक प्रदर्शन से संबंधित नहीं प्रकाशन के लिए इसे लिखने से पहले, हमें यह सुनिश्चित करने के लिए कई जांच करनी चाहिए कि हम इन परिणामों के पीछे दृढ़ता से खड़े हो सकते हैं। हम डेटा फ़ाइल से अधिक परिचित होकर प्रारंभिक डेटा जांच कर, डेटा में त्रुटियों की तलाश करके शुरू करते हैं। 1.2 डेटा की जांच करना पहले, इस डेटा फ़ाइल के बारे में अधिक जानने के लिए वर्णन कमांड का उपयोग करें। हम यह सत्यापित कर सकते हैं कि इसमें कितने अवलोकन हैं और वे उस चर के नाम को देख सकते हैं। ऐसा करने के लिए, हम बस टाइप करें हम इस आउटपुट के सभी विवरणों में नहीं जाएंगे। ध्यान दें कि 400 निरीक्षण और 21 वैरिएबल हैं। हमारे पास 2000 और 1 999 में अकादमिक प्रदर्शन के बारे में चर और प्रदर्शन में बदलाव, api00 एपीआई 99 और विकास क्रमशः हमारे पास स्कूलों की विभिन्न विशेषताओं हैं, उदा। कक्षा के आकार, माता-पिता की शिक्षा, पूर्ण और आपातकालीन प्रमाण पत्र वाले शिक्षकों का प्रतिशत और छात्रों की संख्या। ध्यान दें कि जब हमने अपना मूल प्रतिगमन विश्लेषण किया था, तो उसने कहा था कि 313 टिप्पणियां थीं, लेकिन वर्णन कमांड इंगित करता है कि हमारे पास डेटा फ़ाइल में 400 टिप्पणियां हैं। यदि आप डेटा फ़ाइल के बारे में अधिक जानना चाहते हैं, तो आप सभी या कुछ टिप्पणियों को सूचीबद्ध कर सकते हैं। उदाहरण के लिए, नीचे हम पहले पांच टिप्पणियों की सूची यह पृष्ठ पर बहुत सारे स्थान ले लेता है, लेकिन हमें बहुत सारी जानकारी नहीं दी है हमारे डेटा को सूचीबद्ध करना बहुत ही उपयोगी हो सकता है, लेकिन यदि आप केवल उन वेरिएबलों की सूची में उपयोगी होते हैं जो आपको अंदर रुचि रखते हैं। चलिए हमारे पहले प्रतिगमन विश्लेषण में देखा गया चर के लिए पहले 10 टिप्पणियों की सूची देता है। हम देखते हैं कि पहले 10 टिप्पणियों के बीच, हमारे पास भोजन के लिए चार लापता मूल्य हैं यह संभावना है कि भोजन के लिए लापता डेटा इस तथ्य के साथ कुछ था कि हमारे पहले प्रतिगमन विश्लेषण में टिप्पणियों की संख्या 313 थी और 400 नहीं। आपके चर के बारे में सीखने के लिए एक अन्य उपयोगी टूल कोडबुक कमांड है हम वेरेबल्स के लिए कोडबुक करते हैं जो हम प्रतिगमन विश्लेषण में, साथ ही चर yrrnd में शामिल थे। हमने इस आउटपुट पर कुछ टिप्पणियों को चौकोर ब्रैकेट में और बोल्ड में बिताया है। कोडबुक कमांड ने आगे की परीक्षा के लिए कई विशेषताओं का खुलासा किया है। इन चर के बारे में और जानने के लिए कमांड कमांड का उपयोग करें। जैसा कि नीचे दिखाया गया है, संक्षेप में आदेश भी बड़ी संख्या में भोजन (400 - 315 85) के लिए लापता मूल्यों का पता चलता है और हम एसी एस 3 के -21 के लिए असामान्य न्यूनतम देखते हैं। एस्कस्क 3 के लिए अधिक विस्तृत सारांश प्राप्त करें। स्ताट में, चर सूची के बाद अल्पविराम इंगित करता है कि विकल्प का पालन करते हैं, इस मामले में, विकल्प का विस्तार होता है जैसा कि आप नीचे देख सकते हैं, विस्तार विकल्प आपको प्रतिशतियल्स देता है, चार सबसे बड़े और सबसे छोटे मूल्यों, केंद्रीय प्रवृत्ति और विचरण के उपाय, आदि। ध्यान दें कि सारांश और अन्य आज्ञाओं को संक्षेप में किया जा सकता है: हम एस्कस्क 3, डी लिख सकते हैं। ऐसा लगता है कि कुछ वर्ग के आकारों में किसी तरह नकारात्मक हो गया है, जैसे कि उनके सामने नकारात्मक संकेत गलत तरीके से लिखा गया था। यह देखने के लिए कि क्या ऐसा लगता है कि क्लास आकार के एक सारणीकरण करते हैं दरअसल, ऐसा लगता है कि कुछ वर्ग के आकारों में किसी तरह उनके सामने नकारात्मक संकेत दिए गए हैं। आइए देखें कि इन टिप्पणियों के लिए स्कूल और जिला नंबर देखने के लिए कि क्या वे एक ही जिले से आए हैं। दरअसल, ये सभी जिला 140 से आते हैं। आइए जिले 140 के लिए सभी टिप्पणियों पर गौर करें। जिले 140 के सभी टिप्पणियों में यह समस्या है। जब आपको ऐसी समस्या मिलती है, तो आप मूल्यों को सत्यापित करने के लिए डेटा के मूल स्रोत पर वापस जाना चाहते हैं। हमें यह पता चलता है कि हमने इस त्रुटि को चित्रण प्रयोजनों के लिए बनाया है, और वास्तविक डेटा की ऐसी कोई समस्या नहीं है। हम बहस करते हैं कि हमने जिला 140 के साथ जांच की और वहाँ डेटा के साथ एक समस्या थी, एक हाइफ़न अकस्मात वर्ग के आकार के सामने डाल दिया, जिससे उन्हें नकारात्मक हो गया। हम इसे ठीक करने के लिए एक नोट देंगे हम अपने डेटा की जाँच जारी रखें। डेटा का निरीक्षण करने के लिए कुछ ग्राफ़िकल तरीकों पर एक नज़र डालें। प्रत्येक वेरिएबल के लिए, हिस्टोग्राम, बॉक्सप्लॉट, और स्टेम-और-पत्ती की साजिश का उपयोग करके उन्हें निरीक्षण करना उपयोगी होता है। ये ग्राफ़ आपको साधारण चर के आंकड़ों से बेहतर आपके चर के आकार के बारे में जानकारी दिखा सकता है। हम पहले से ही acsk3 के साथ समस्या के बारे में जानते हैं। लेकिन देखते हैं कि कैसे इस ग्राफिकल तरीके से इस चर के साथ समस्या का पता चला होगा। सबसे पहले, हम एस्कस्क 3 के लिए हिस्टोग्राम दिखाते हैं। यह हमें अवलोकनों से पता चलता है जहां औसत वर्ग का आकार नकारात्मक है। इसी तरह, एक बॉक्सप्लेट ने इन टिप्पणियों को हमारे ध्यान में भी बुलाया होगा। आप बॉक्सप्लेट के निचले भाग में नकारात्मक नकारात्मक टिप्पणियां देख सकते हैं। अंत में, एक स्टेम और पत्ती की साजिश भी इन टिप्पणियों की पहचान करने में मदद मिली होगी। यह साजिश अवलोकन के सटीक मूल्यों को दर्शाता है, यह दर्शाता है कि तीन -21, दो -20 और 1-1 9 थे। हम उन सभी ग्राफों की साजिश रचने की सलाह देते हैं जो आप विश्लेषण करेंगे। अंतरिक्ष के विचारों के कारण हम सभी चर के लिए इन आलेखों को दिखाते हुए छोड़ देंगे। हालांकि, चर की जांच करने में, पूरा करने के लिए स्टेम और पत्ती की साजिश केवल असामान्य लग रही थी। अब तक, हमने इस वैरिएबल के साथ समस्याग्रस्त कुछ भी नहीं देखा है, लेकिन नीचे पूर्ण रूप से स्टेम और पत्ती की साजिश को देखें। यह 104 टिप्पणियों को दिखाता है जहां एक पूर्ण पहचान के साथ प्रतिशत एक से कम है। यह 25 से अधिक स्कूलों में है, और बहुत ही असामान्य लगता है। आइए देखें कि क्या हम इसे बेहतर समझ सकते हैं। मान 0.42 से 1.0 पर जाते हैं, तो 37 से आगे बढ़ो और वहां से चले जाएं। ऐसा प्रतीत होता है जैसे कुछ प्रतिशत वास्तव में अनुपात के रूप में दर्ज किए जाते हैं, उदा। 0.42 को 42 या 0.96 के बजाय दर्ज किया गया था, जो वास्तव में 96 हो गया था। आइए देखें कि ये आंकड़े किस जिले से आए हैं। हम नोट करते हैं कि सभी 104 टिप्पणियां जिनमें से एक से कम या उससे कम था जिला 401 से आया था। गिनती करते हैं कि गणना 401 में जिले 401 में कितनी टिप्पणियां हैं और हम देखते हैं कि जिला 401 में 104 टिप्पणियां हैं। इस जिले से सभी टिप्पणियां प्रतिशत के बजाय अनुपात के रूप में दर्ज की जाती हैं। दोबारा, हम यह बताते हैं कि यह एक बहाना समस्या है जिसे हमने चित्रण प्रयोजनों के लिए डेटा में डाला। अगर यह एक वास्तविक जीवन समस्या थी, तो हम डेटा के स्रोत से जांच लेंगे और समस्या की पुष्टि करेंगे। हम इस समस्या को ठीक से आंकड़ों में ठीक करने के लिए एक नोट करेंगे। आपके डेटा को स्क्रीनिंग के लिए एक अन्य उपयोगी ग्राफिकल तकनीक एक स्कैटरप्लॉट मैट्रिक्स है। हालांकि यह संभवतः आपके डेटा में गैर-रैखिकताओं और आउटलेरों के लिए खोज करने वाला निदान उपकरण के रूप में अधिक प्रासंगिक है, यह एक उपयोगी डेटा स्क्रीनिंग टूल भी हो सकता है, संभवतः आपके चर के संयुक्त वितरण में जानकारी प्रकट कर सकता है जो स्पष्ट रूप से अनियर्वेट डिस्ट्रीब्यूशन । हमारे प्रतिगमन मॉडल में चर के लिए स्कैटरप्लोट मैट्रिक्स देखें। इससे हमें पहले से ही पहचान की गई समस्याओं का पता चलता है, अर्थात् ऋणात्मक वर्ग के आकार और प्रतिशत पूर्ण प्रमाण पत्र अनुपात के रूप में दर्ज किया जा रहा है। हमने अपने डेटा में तीन समस्याओं की पहचान की है। भोजन के लिए कई गुम मूल्य हैं कुछ वर्ग आकारों (एस्कॉસ્ક 3) के पहले गलती से निगेटिव किए गए थे और पूर्ण रूप से मूल्यों के एक चौथाई से अधिक प्रतिशत के बजाय अनुपात थे। डेटा के सही संस्करण को elemapi2 कहा जाता है। उस डेटा फ़ाइल का उपयोग करें और हमारे विश्लेषण को दोहराएं और देखें कि क्या परिणाम हमारे मूल विश्लेषण के समान हैं। सबसे पहले, हम नीचे हमारे मूल प्रतिगमन विश्लेषण को दोहराते हैं। अब, सही डेटा फ़ाइल का उपयोग करें और प्रतिगमन विश्लेषण दोहराएँ। परिणाम में हम काफी अंतर देखते हैं, मूल विश्लेषण (ऊपर) में, एस्कएस 3 लगभग महत्वपूर्ण था, लेकिन सही विश्लेषण में (नीचे) परिणाम इस चर को महत्वपूर्ण नहीं बताते हैं, संभवतया उन मामलों की वजह से जहां कक्षा का आकार दिया गया था नकारात्मक मूल्य इसी तरह, मूल प्रमाण-पत्र में पूर्ण प्रमाणिकता वाले शिक्षकों का प्रतिशत उल्लेखनीय नहीं था, लेकिन सही विश्लेषण में महत्वपूर्ण है, संभवतः उन मामलों की वजह से, जहां मूल्य को प्रतिशत के बजाय पूर्ण प्रमाण पत्र के अनुपात के रूप में दिया गया था। इसके अलावा, ध्यान रखें कि सही विश्लेषण 313 टिप्पणियों के बजाय 398 टिप्पणियों पर आधारित है, भोजन चर के लिए पूरा डेटा प्राप्त करने के कारण, जिसमें बहुत से गुम मूल्य हैं इस बिंदु से आगे, हम सही, elemapi2 का उपयोग करेंगे। डेटा फ़ाइल। आप इसे अपने कंप्यूटर पर सहेज सकते हैं ताकि आप इसे भविष्य के विश्लेषण में उपयोग कर सकें। अब तक हमने आंकड़ों की जाँच-पड़ताल में कुछ विषयों को कवर किया है, लेकिन हमने वास्तव में प्रतिगमन विश्लेषण पर ही चर्चा नहीं की है। अब स्टाटा में प्रतिगमन विश्लेषण करने के बारे में अधिक बात करते हैं। 1.3 सरल रेखीय प्रतिगमन चटाई का उपयोग करते हुए सरल रेखीय प्रतिगमन के कुछ उदाहरण दिखाकर शुरू करते हैं। इस तरह के प्रतिगमन में, हमारे पास केवल एक भविष्यवक्ता चर है यह चर निरंतर हो सकता है, जिसका अर्थ है कि यह एक सीमा के भीतर सभी मूल्यों को मान सकता है, उदाहरण के लिए, उम्र या ऊंचाई, या यह द्विपातिक हो सकता है, जिसका अर्थ है कि चर केवल दो मानों में से एक मान सकता है, उदाहरण के लिए, 0 या 1। दो से अधिक स्तर के साथ स्पष्ट चर का उपयोग अध्याय 3 में शामिल किया जाएगा। केवल एक ही प्रतिक्रिया या निर्भर चर है, और यह निरंतर है। स्ताटा में, निर्भर चर को एक या एक से अधिक भविष्यवक्ता चर के बाद रीग्रेस कमांड के तुरंत बाद सूचीबद्ध किया जाता है स्कूल के आकार और अकादमिक प्रदर्शन के बीच संबंधों की जांच करने के लिए, यह देखने के लिए कि क्या स्कूल का आकार अकादमिक प्रदर्शन से संबंधित है। इस उदाहरण के लिए, एपीआई 200 निर्भर चर है और नामांकन प्रक्रमक है। इस आउटपुट को थोड़ा और अधिक ध्यान से देखें। सबसे पहले, हम देखते हैं कि एफ-परीक्षण सांख्यिकीय रूप से महत्वपूर्ण है, जिसका अर्थ है कि मॉडल सांख्यिकीय रूप से महत्वपूर्ण है। .1012 के आर-स्क्वायर का अर्थ है कि एपीआईएंड के अंतर के लगभग 10 मॉडल को मॉडल द्वारा हिसाब किया जाता है, इस मामले में, भर्ती के लिए नामांकन नामांकन के लिए टी-परीक्षण बराबर -6.70, और सांख्यिकीय रूप से महत्वपूर्ण है, जिसका अर्थ है कि नामांकन के लिए प्रतिगमन गुणांक शून्य से काफी अलग है। ध्यान दें कि (-6.70) 2 44.8 9, जो एफ-आंकड़े के समान है (कुछ गोल त्रुटि के साथ)। नामांकन के लिए गुणांक -1.199 8674 है, या लगभग -2, जिसका अर्थ है कि नामांकन में एक इकाई वृद्धि के लिए हम उम्मीद करते हैं कि api00 में एक 2-यूनिट की कमी। दूसरे शब्दों में, 1100 विद्यार्थियों के साथ एक विद्यालय की उम्मीद है कि एक विद्यालय की तुलना में एक विद्यालय की तुलना में 20 इकाइयां कम हो जाएंगी। निरंतर 744.2514 है, और यह भविष्यवाणी मूल्य जब नामांकन शून्य के बराबर है ज्यादातर मामलों में, निरंतर बहुत दिलचस्प नहीं है हमने एक एनोटेट आउटपुट तैयार किया है जो इस प्रतिगमन से आउटपुट को दिखाता है जिसमें इसके प्रत्येक आइटम के स्पष्टीकरण के साथ होता है प्रतिगमन तालिका प्राप्त करने के अतिरिक्त, प्रतिगमन रेखा के साथ अनुमानित और परिणाम चर की एक स्कैटरप्लोट देखने के लिए उपयोगी हो सकता है। प्रतिगमन चलाने के बाद, आप एक वेरिएबल बना सकते हैं जिसमें भविष्यवाणी कमान का उपयोग करके अनुमानित मान शामिल होते हैं। आप इन मानों को किसी भी समय रिग्रेस कमांड चलाने के बाद प्राप्त कर सकते हैं, लेकिन याद रखें कि एक बार जब आप एक नया प्रतिगमन चलाते हैं, तो अनुमानित मान हालिया प्रतिगमन पर आधारित होंगे। भविष्यवाणी मूल्यों को बनाने के लिए आप बस भविष्यवाणी करते हैं और एक नए चर स्टेता का नाम आपको उचित मान देगा। इस उदाहरण के लिए, हमारा नया वैरिएबल नाम एफवी होगा। इसलिए हम टाइप करेंगे यदि हम सूची कमांड का उपयोग करते हैं, तो हम देखते हैं कि प्रत्येक अवलोकन के लिए एक उचित मूल्य उत्पन्न किया गया है। नीचे हम परिणाम चर, एपीआईएंड और भविष्यवक्ता के एक स्कैटरप्लोट को दाखिल कर सकते हैं। हम फीट मूल्यों के साथ एक स्कैटरप्लोट दिखाने के लिए स्फीयर के साथ मिलकर गठबंधन कर सकते हैं। जैसा कि आप देखते हैं, कुछ बिंदु आउटलेयर होते हैं यदि आप स्कैटर कमांड पर मैलेबेल (स्नोम) विकल्प का उपयोग करते हैं, तो आप प्रत्येक बिंदु के लिए स्कूल संख्या देख सकते हैं। यह हमें देखने की अनुमति देता है, उदाहरण के लिए, आउटलेटर्स में से एक स्कूल 2 9 10 है। जैसा हमने पहले देखा था, भविष्यवाणी कमांड का उपयोग पुनर्गठन चलाने के बाद भविष्यवाणी (सज्जित) मूल्यों को उत्पन्न करने के लिए किया जा सकता है। आप भविष्य के आदेश का उपयोग कर एक चर नाम के बाद अवशिष्ट भी प्राप्त कर सकते हैं, इस मामले में ई। अवशिष्ट विकल्प के साथ यह आदेश ई, निवास या भविष्यवाणी ई, आर अनुमानित करने के लिए छोटा किया जा सकता है नीचे दी गई तालिका में कुछ अन्य मान दिखाए जा सकते हैं जो भविष्यवाणी विकल्प के साथ बनाया जा सकता है। 1.4 एकाधिक प्रतिगमन अब, एक बार कई प्रतिगमन का उदाहरण देखें, जिसमें हमारे पास एक परिणाम (आश्रित) चर और कई भविष्यवाणियां हैं हमारे अगले उदाहरण से शुरू होने से पहले हमें हमारे द्वारा बनाए गए वेरिएबल्स के बारे में निर्णय लेने की जरूरत है, क्योंकि हम अपने एकाधिक प्रतिगमन के साथ समान वैरिएबल का निर्माण करेंगे, और हम भ्रम को भ्रमित नहीं करना चाहते हैं। उदाहरण के लिए, सरल प्रतिगमन में हमने हमारी भविष्यवाणी (फिट) मूल्यों के लिए एक चर एफवीवी बनाया है और अवशेषों के लिए ई। अगर हम अपने अगले उदाहरण के लिए पूर्वानुमानित मान बनाना चाहते हैं तो हम अनुमानित मान को और कुछ कह सकते हैं, उदा। एफवीएमआर लेकिन यह भ्रामक हो रही शुरू हो सकता है हम चले गए चर को छोड़ सकते हैं, ड्रॉप एफवी ई का उपयोग कर। इसके बजाय, मेमोरी में डेटा को साफ़ करने दें और elemapi2 डेटा फ़ाइल को दोबारा उपयोग करें। जब हम भविष्य के अध्यायों में नए उदाहरणों को शुरू करते हैं, तो हम मौजूदा डेटा फ़ाइल को साफ़ कर देंगे और ताज़ा शुरू करने के लिए फाइल का पुनः उपयोग करेंगे। इस एकाधिक प्रतिगमन उदाहरण के लिए, हम निर्भर चर, एपीआईएंड को वापस कर देंगे। डेटा सेट में सभी भविष्यवक्ता चर पर। इस प्रतिगमन विश्लेषण से आउटपुट की जांच करने देता है। साधारण प्रतिगमन के साथ, हम एफ-टेस्ट के पी-वेल को देखते हैं कि क्या समग्र मॉडल महत्वपूर्ण है। शून्य से चार दशमलव स्थानों के पी-मूल्य के साथ, मॉडल सांख्यिकीय रूप से महत्वपूर्ण है। आर-स्क्वेयर 0.8446 है, जिसका अर्थ है कि एपीआईएंडए की परिवर्तनशीलता का लगभग 84 मॉडल मॉडल में वेरिएबल्स द्वारा होता है। इस मामले में, एड-समायोजित आर-स्क्वेरड इंगित करता है कि मॉडल में प्रिक्टर चर की संख्या को ध्यान में रखते हुए, एपीआईएक्स की परिवर्तनशीलता के बारे में 84 मॉडल के लिए जिम्मेदार है। प्रत्येक चर के लिए गुणांक, एपीआईएंडडी में उस परिवर्तन की मात्रा को इंगित करता है जिससे उस वैरिएबल के मूल्य में एक-इकाई परिवर्तन होता है, यह देखते हुए कि मॉडल में अन्य सभी चर निरंतर बनाए जाते हैं। उदाहरण के लिए, चर पर विचार करें ell हमें उम्मीद है कि एपीआईएक्स में हर एक यूनिट के लिए एपीआईएंड स्कोर में 0.86 की कमी आएगी। यह मानते हुए कि मॉडल में अन्य सभी चर स्थिर बनाए जाते हैं। एकाधिक प्रतिगमन से अधिक उत्पादन की व्याख्या एक समान है क्योंकि यह साधारण प्रतिगमन के लिए थी हमने एक एनोटेट आउटपुट तैयार किया है जो इस एकाधिक प्रतिगमन विश्लेषण के आउटपुट को अधिक अच्छी तरह बताता है। आप सोच सकते हैं कि ell में वास्तव में 0.86 परिवर्तन वास्तव में क्या हैं, और आप गुणांक की ताकत को एक और चर के गुणांक के साथ तुलना कैसे कर सकते हैं, भोजन कहते हैं इस समस्या का समाधान करने के लिए, हम बीटा नामक रीग्रेस कमांड के लिए एक विकल्प जोड़ सकते हैं जो हमें मानकीकृत प्रतिगमन गुणांक देगा। बीटा गुणांक का उपयोग कुछ शोधकर्ताओं द्वारा मॉडल के विभिन्न भविष्यवाणियों की सापेक्ष शक्ति की तुलना करने के लिए किया जाता है। क्योंकि बीटा गुणांकों को सभी चर की इकाइयों के बजाय, मानक विचलन में मापा जाता है, वे एक दूसरे से तुलना की जा सकती हैं। दूसरे शब्दों में, बीटा गुणांक गुणांक हैं जो आप प्राप्त करेंगे यदि प्रतिफल को चलाने से पहले परिणाम और भविष्यवक्ता चर सभी मानक स्कोर को परिवर्तित कर देते हैं, जिन्हें z-scores भी कहा जाता है। क्योंकि बीटा कॉलम में गुणांक समान मानकीकृत इकाइयों में सभी हैं, क्योंकि आप प्रत्येक गुणक की तुलनात्मक शक्ति का आकलन करने के लिए इन गुणकों की तुलना कर सकते हैं। इस उदाहरण में, भोजन का सबसे बड़ा बीटा गुणांक, -0.66 (पूर्ण मूल्य में) है, और acsk3 में सबसे छोटी बीटा, 0.013 है। इस प्रकार, भोजन में एक मानक विचलन वृद्धि की भविष्यवाणी की गई एपीआईएंड में एक 0.66 मानक विचलन कमी होती है। अन्य चर के साथ स्थिर रखा और, acsk3 में एक मानक विचलन वृद्धि बदले में, अनुमानित एपीआईएंड में 0.013 मानक विचलन वृद्धि की ओर जाता है, जो कि मॉडल में बनाए गए अन्य चर वाले स्थिरांक के साथ होता है। इस आउटपुट की व्याख्या में, याद रखें कि कोइफ़ में सूचीबद्ध संख्याओं के बीच अंतर। स्तंभ और बीटा स्तंभ माप की इकाइयों में है। उदाहरण के लिए, आप के लिए कच्चे गुणांक का वर्णन करने के लिए कहेंगे कि एएल में किक ए एक यूनिट की कमी भविष्यवाणी की गई एपीआईएंड में एक .86-यूनिट की वृद्धि होगी। हालांकि, मानकीकृत गुणांक (बीटा) के लिए आप कहेंगे, एक मानक एलईएल में विचलन कमी भविष्यवाणी की गई api00 में एक .15 मानक विचलन वृद्धि उत्पन्न करेगी.कॉट सूचीकोइफ कमांड मानकीकृत गुणांकों के बारे में अधिक व्यापक उत्पादन देता है। यह स्ताटा का हिस्सा नहीं है, लेकिन आप इसे इस तरह इंटरनेट पर डाउनलोड कर सकते हैं। और फिर निर्देशों का पालन करें (यह भी देखें कि मैं प्रोग्राम को खोजने के लिए findit कमांड का उपयोग कैसे कर सकता हूं और अधिक जानकारी के लिए Findit का उपयोग करने के लिए अतिरिक्त सहायता प्राप्त कर सकता हूं)। अब हमने सूची कोइफ़ डाउनलोड किया है हम इसे इस तरह चला सकते हैं हमें सूचीसीफ आउटपुट के साथ रिग्रेडे आउटपुट की तुलना करनी चाहिए। आप देखेंगे कि कोइफ़ में सूचीबद्ध मूल्य टी, और पीजीटीटी मूल्य दो आउटपुट में समान हैं I रिसाग आउटपुट के बीटा कॉलम में सूचीबद्ध मान सूचीक्फ़ के bStadXY स्तंभ में मान के समान हैं बीएसटीएक्सएक्स कॉलम में वाई में यूनिट परिवर्तन एक्स में एक मानक विचलन परिवर्तन से अपेक्षित होता है। BStdY कॉलम X में एक यूनिट परिवर्तन के साथ अपेक्षित Y में मानक विचलन परिवर्तन देता है। एसडीओएफएक्स कॉलम प्रत्येक प्रक्षेपक चर का मानक विचलन देता है आदर्श। उदाहरण के लिए, बीएसटीएक्सएक्स के लिए एलईएल -21.3 है, जिसका अर्थ है कि एक मानक विचलन को बढ़ाता है जो एपीआईएंड में अपेक्षित 21.3 यूनिट की कमी से बढ़ेगा। -0.0060 के लिए बीएसटीआई वैल्यू का मतलब है कि एक यूनिट के लिए, एक प्रतिशत, अंग्रेज़ी भाषा के शिक्षार्थियों में वृद्धि, हम उम्मीद करते हैं कि एपीआईएंड में 0.006 मानक विचलन कमी। क्योंकि bStdX वैल्यू प्रक्रमक चर के लिए मानक इकाइयों में हैं, इसलिए आप इन गुणकों का उपयोग भविष्यवाणियों की सापेक्ष शक्ति की तुलना करने के लिए कर सकते हैं जैसे कि आप बीटा गुणांक की तुलना करेंगे। अंतर BStdx गुणांक को परिणाम चर की मानकीकृत इकाइयों के बजाय परिणाम चर की इकाइयों में परिवर्तन के रूप में व्याख्या की जाती है। उदाहरण के लिए, बीएसटीएक्स फॉर मेल्स बनाम एएल -94 बनाम -21, या लगभग 4 गुना बड़े, बीटा गुणांकों के अनुपात के समान अनुपात। हमने एक एनोटेट आउटपुट बनाया है जो सूचीोफ से आउटपुट को और अधिक अच्छी तरह बताता है। अब तक, हम स्वयं को एक समय में एक एकल चर का परीक्षण करने के लिए चिंतित हैं, उदाहरण के लिए गुणांक को देखते हुए और यह निर्धारित करने के लिए कि क्या यह महत्वपूर्ण है हम यह भी देखते हैं कि चर का सेट महत्वपूर्ण है। सबसे पहले, एक सिंगल वेरिएबल के परीक्षण से शुरू करें, एले परीक्षण कमान का उपयोग करना यदि आप इस आउटपुट को पिछले प्रतिगमन से आउटपुट के साथ तुलना करते हैं तो आप देख सकते हैं कि एफ-परीक्षण, 16.67 का परिणाम, प्रतिगमन (-4.0832 16.67) में टी-टेस्ट के परिणाम के वर्ग के समान है। ध्यान दें कि यदि आप नीचे लिखे गए शब्द (एस) की तुलना करने के लिए स्टाटा डिफॉल्ट से निम्नलिखित टाइप करते हैं तो आप उसी परिणाम प्राप्त कर सकते हैं। शायद एक और दिलचस्प परीक्षा यह देखने के लिए होगी कि क्या वर्ग के आकार का योगदान महत्वपूर्ण है चूंकि वर्ग के आकार के बारे में जानकारी दो चर में होती है, एस्कस्क 3 और एसीएस 46 हम परीक्षण कमान के साथ इनमें से दोनों शामिल करते हैं। महत्वपूर्ण एफ-परीक्षण, 3. 9 5, का अर्थ है कि इन दो चर के सामूहिक योगदान महत्वपूर्ण है। इसके बारे में सोचने का एक तरीका यह है कि एस्कस्क 3 और एसी 46 के मॉडल के बीच उनके बीच एक मॉडल की तुलना में एक महत्वपूर्ण अंतर है, यानी उद्धरणपूर्ण मॉडल और उद्धृत मॉडल के बीच एक महत्वपूर्ण अंतर है। अंत में, कई प्रतिगमन विश्लेषण करने के एक हिस्से के रूप में, आप प्रतिगमन मॉडल में वेरिएबल के बीच सहसंबंध देखकर दिलचस्पी रख सकते हैं। आप इसे नीचे दिए गए अनुसार सहसंबंधित कमांड के साथ कर सकते हैं। यदि हम api00 के साथ सहसंबंध को देखते हैं हम भोजन देखते हैं और एपीआई 200 के साथ दो मजबूत सहसंबंध रखते हैं। ये सहसंबंध नकारात्मक हैं, जिसका अर्थ है कि एक चर का मूल्य नीचे जाता है, अन्य चर का मान ऊपर जाना जाता है। यह जानते हुए कि ये चर एपीआई 200 के साथ दृढ़ता से जुड़े हैं हम भविष्यवाणी कर सकते हैं कि वे प्रतिगमन मॉडल में सांख्यिकीय रूप से महत्वपूर्ण भविष्यवक्ता चर होंगे हम जोड़कर संबंधों को करने के लिए pwcorr कमांड का भी उपयोग कर सकते हैं। सहसंबंधित और पीडब्ल्यूसीआर के बीच सबसे महत्वपूर्ण अंतर यह तरीका है जिसमें लापता डेटा का संचालन किया जाता है। सहसंबंधी के साथ एक अवलोकन या मामला गिरा दिया जाता है यदि किसी भी चर में अनुपलब्ध मूल्य है, दूसरे शब्दों में, सहसंबंधित सूची में उपयोग किया जाता है भी कहा जाता है, हटाने pwcorr जोड़ों के विलोपन का उपयोग करता है, जिसका अर्थ है कि अवलोकन केवल तभी गिराया जाता है, जब अंतर को जोड़ा जा रहा है, जो जोड़ता है दो विकल्प जो कि आप pwcorr के साथ उपयोग कर सकते हैं। लेकिन सहसंबंधी के साथ नहीं सिग ऑप्शन है, जो सहसंबंधों और ऑब्स ऑप्शन के महत्व का स्तर देगा, जो सहसंबंध में इस्तेमाल किए गए अवलोकनों की संख्या देगा। ऐसे विकल्प को कोर के साथ जरूरी नहीं है क्योंकि स्टेटा आउटपुट के शीर्ष पर टिप्पणियों की संख्या को सूचीबद्ध करता है। 1.5 ट्रांसफ़ॉर्मिंग वेरिएबल्स पहले हमने आपके डेटा को संभावित त्रुटियों के लिए स्क्रीनिंग पर केंद्रित किया था। अगले अध्याय में, हम यह सत्यापित करने के लिए प्रतिगमन निदान पर ध्यान देंगे कि आपका डेटा रैखिक प्रतिगमन की मान्यताओं को पूरा करता है या नहीं। यहां, हम सामान्यता के मुद्दे पर ध्यान देंगे कुछ शोधकर्ता मानते हैं कि रैखिक प्रतिगमन के लिए आवश्यक है कि परिणाम (निर्भर) और भविष्यवक्ता चर सामान्य रूप से वितरित किए जाते हैं। हमें इस मुद्दे को स्पष्ट करने की आवश्यकता है। वास्तविकता में, यह अवशिष्ट है जो सामान्य रूप से वितरित किए जाने की आवश्यकता होती है। वास्तव में, अवशिष्टों को केवल टी-टेस्ट के लिए सामान्य होने की आवश्यकता है। प्रतिगमन गुणांक का अनुमान सामान्य रूप से अवशिष्ट अवयवों को वितरित करने की आवश्यकता नहीं है। चूंकि हमें मान्य टी-टेस्ट होने में रुचि है, हम सामान्यता से संबंधित मुद्दों की जांच करेंगे। गैर-सामान्य रूप से वितरित अवशिष्टों का एक सामान्य कारण गैर-सामान्य रूप से वितरित परिणाम और प्रक्षेपक चर है। तो, आइए हम अपने वेरिएबल्स के वितरण का पता लगाएं और हम उन्हें कैसे और अधिक सामान्य आकार में परिवर्तित कर सकते हैं। चर नामांकन के एक हिस्टोग्राम बनाकर शुरू करें। जो हमने सरल प्रतिगमन में पहले देखा था We can use the normal option to superimpose a normal curve on this graph and the bin(20 ) option to use 20 bins. The distribution looks skewed to the right. You may also want to modify labels of the axes. For example, we use the xlabel() option for labeling the x-axis below, labeling it from 0 to 1600 incrementing by 100. Histograms are sensitive to the number of bins or columns that are used in the display. An alternative to histograms is the kernel density plot, which approximates the probability density of the variable. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. Stata implements kernel density plots with the kdensity command. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. Now lets make a boxplot for enroll . using graph box command. Note the dots at the top of the boxplot which indicate possible outliers, that is, these data points are more than 1.5(interquartile range) above the 75th percentile. This boxplot also confirms that enroll is skewed to the right. There are three other types of graphs that are often used to examine the distribution of variables symmetry plots, normal quantile plots and normal probability plots. A symmetry plot graphs the distance above the median for the i-th value against the distance below the median for the i-th value. A variable that is symmetric would have points that lie on the diagonal line. As we would expect, this distribution is not symmetric. A normal quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. qnorm is sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. Finally, the normal probability plot is also useful for examining the distribution of variables. pnorm is sensitive to deviations from normality nearer to the center of the distribution. Again, we see indications of non-normality in enroll . Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment