Normallik sınamaları
İstatistik biliminde normallik sınamaları bir seri parametrik olmayan istatistik sınamalar çeşitidir. Normallik sınamalarının amacı verilmiş bir veri dizisinin normal dağılıma uygunluk iyiliğinin incelenmesidir. Bir sıra parametrik olmayan sınama geliştirilmiş bulunmasına rağmen birçok istatistikçi pratikte daha az kesin ve daha çok sübjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmalarını kullanmaktadır. Normallik sınamaları yalnız örneklem verilerinin doğrudan doğruya incenlemesinde kullanılmamakta, fakat özellikle ekonometrik analizlerde tek regresyon denklemi tahmininden sonra çıkan hataların normal olup olmadıklarının araştırılması için de çok kullanılmaktadırlar.[1][2]
Hipotez sınaması
İlk ortaya atılan normallik sınaması Pearson tarafından tek örneklem için ki-kare uygunluk iyiliği testinin normal dağılıma uygulanmasıdır. Bunu takiben gittikçe veri gereksinimi daha az olan diğer normallik sınamaları geliştirilmiştir. Diğer taraftan istatistiğin bir özel uygulama dalı olan ekonometri ile uğraşanlar da özellikle regresyon tahmin hatalarının normal olup olmadığını incelemek için bu gelişmeye epey katkıda bulunmuşlardır. Şu liste değişik normallik sınaması isimlerini vermektedir:
- Pearson'un ki-kare sınaması
- Kolmogorov-Smirnov tek örneklem sınaması
- Lilliefors sınaması
- Anderson-Darling sınaması
- Ryan-Joiner sınaması
- D'Agostino'nun K-kare sınaması
- Jarque-Bera sınaması,
- Cramér-von-Mises kriteri
- Shapiro-Wilk sınaması
Bu sınamalarda sıfır hipotez veri dizisinin normal dağılıma benzer olmasıdır. Bu nedenle normal olmayan veri için yeter derecede küçük bir p-değeri (yani genellikle %5den veya %1den küçük) ortaya çıkacak ve sıfır hipotez olan veri dizisinin normal dağılıma benzerliği hipotezinin reddedilmesine neden olacaktır.
Gösterim ile karşılaştırma
Normallik sınamalarının bir kısmı özel test istatistik tabloları ve özel hesaplamalar gerektirmektedir. Bu nedenle pratik istatistik sorunların çözümü için sınamalara nazaran, daha çok sübjektif sağduyu ve ekpertiz gerektiren gösterim karşılaştırmaları kullanılmaktadır. İçinde istatistik kısımları olan kutu-çizim (spreadsheet) bilgisayar hesaplama programları (örneğin Microsoft Office paketinin bir kısmı olan Excel, açık model olan Open Office suitinin bir parçası olan Calc vb.) histogram gösterimi üzerinde verinin örneklem ortalaması ve varyansını parametreler olarak alan normal dağılım eğrisinin gösterimi ile birlikte görme imkânı sağlamaktadırlar. Böylece histogram için verilerin bir normal dağılıma uyup uymadığı istatistikçinin sübjektif görüşüne ve yargı gücüne bırakmaktadırlar. Eğer örneklem veri hacmi küçükse, bu türlü karşılaştırmanın pek iyi sonuç vermeyeceği aşikardır.
Diğer bir grafikle normallik sınaması Q-Q gösterimi kullanılarak yapılabilir. Burada Q, (quantile) sıralanmış veri dizisini eşit parçalara bölen istatistik ölçüleri ifade etmektedir. Öncelikle hem veriler dizisinin genellikle ondabirliklerini (bazen yüzdebirliklerini) bir eksende ve verilerin örneklem ortalaması ve varyansını parametre alan bir normal dağılımın ondabirillerini diğer eksende gösteren ve bu noktaları bir gösterim de birbirine bağlı 11 nokta olarak gösteren grafiğe Q-Q gösterimi denir.
Eğer bu çizilen eğri bir grafiğin 0dan başlayan doğrusal köşegeni ile çakışırsa veriler tıpatıp (parametreleri örneklem ortalaması ve varyansı değerlerine eşit olan) parametreleri olan normal dağılımlıdır. Eğer eğri her ne kadar köşegenle çakışmıyorsa o kadar verilerin normal dağılımdan değişik olduğu anlaşılmaktadır.
Şu gösterimler de uygunluk iyiliğini incelemek için kullanılabilirler:
- Rankit gösterimi
- P-P gösterimi
Regresyon hataları için normallik sınamaları
Yukarıda incelenen normallik sınamalarında veriler örneklemden gelmektedir. Normallık sınamasının diğer bir önemli uygulanması bir pratik ekonometri araştırma yapılmaya başladıktan sonra, bir regresyon doğrusu için kestirim yapıldıktan sonra elde edilen regresyon sonucunda bağımlı değişken verilerinin regresyon kestirim değerlerinden farkının, yani kestirim hatalarının incelenmesi sırasında kullanılır. Bir doğrusal regresyon için bu hataların normal dağılım göstermemesi halinde tahmin değerlendirilmesi veya post-tahmin analizi sırasında kullanılan F-sınaması, t-sınamaları ve ki-kare sınamaları için gerekli varsayımların (yani hataların normal olmasının) doğru olmadığı ve bu sınamalar yapılsa bile sonuç çıkartıcı güçlerinin zayıf olacağı bilinmektedir. Onun için regresyon tahmini yapıldıktan sonra hataların normal olması istenir bir sonuçtur ve bunun gerçekte olup olmadığı normallik sınamaları ile kontrol edilir. Eğer hatalar normal dağılım göstermezlerse, kullanılan fonkisyon şeklinin asgari bir açıklayıcı değişken için hatalı olduğu, veya bazı önemli açıklayıcı değişkenin analizde bulunmadığı neticesi çıkarılır. Ekonometri kitapları değişik normallik sınamasının kullanılmasını tavsiye etmektedirler. Örnegin, Gujarati (2003) ve Judge et al (1988) Jarque-Bera sınamasını önermektedirler. Özel ekonometrik analiz komputer paketleri (örneğin Eviews, Gretl vb.) hatalar için normallik sınanmasını bir alışkanlık gibi sırası gelince ifa etmektedirler.
Kaynakça
- Judge et al, (1988)Introduction to the Theory and Practice of Econometrics 2.ed. say.890-892.
- Gujarati, Damodar N.,(2003) Basic Econometrics 4.ed., say. 147-148