John Tukey tarafından 1977 yılında bulunan kutu bıyık grafikleri açıklayıcı
istatistikte sayısal veri setlerini beş sayı özetlerine(en küçük gözlem , birinci dörtlük (kartil) , medyan ,
üçüncü dörtlük ve en büyük gözlem değerlerine ) dayanarak resmeden uygun betimleme yoludur.
Kutu bıyık grafikleri altında yatan istatistiksel dağılımlar hakkında varsayımda bulunmadan farklı popülasyon türlerini gösterebilir.
Kutu bıyık grafikleri veri setimizin yayılımı , konumu , çarpıklığı , kuyruk uzunlukları , aykırı gözlem değerleri hakkında bilgi verir.
Yukarıdaki grafiği yorumluyacak olursak ;
X1 için:
- Daha homojen yayılmış
- Çarpıklığı simetriğe yakın
- Kuyruk uzunlukları yakın
- Aykırı gözlem yok
X2 için:
- Daha heterojen yayılmış
- Çarpıklığı sağa çarpık
- Kuyruk uzunlukları farklı
- Aykırı gözlem yok
Yukarıdaki grafiği php ile çizdirmek için :
$boxplot = new boxplot();
$data = array( 'X1' => array(35.8,37.4,39.1,40.7,46.8,47.9,48.6,49.2, 49.6,50.6,52.3,54.3,54.5,54.5,54.7,55.2, 56.4,58.6,58.9,61.8,62.5,66.3,66.8,67.2,71.5) ,
'X2' => array(43.55,45.65,47.25,49.25,51.80,52.15,52.45,53.05, 53.80,53.80,56.20,57.05,57.65,59.45,59.45,64.10, 65.20,55.50,68.05,59.75,69.80,77.65,82.35,85.60,86.85)
);
$boxplot->Draw('Değerler','Gruplar',$data);
Daha ilgi çekici örnek vermek gerekirse ;
1 – 15 ekim 2007 tarihleri arasında x sitesi için günlük ziyaretçi sayılarını gösteren serimiz aşağıdaki gibi olsun
2515,2416,2388,2420,2405,2191,2144,2319,2262,2294,2046,1435,1759,1995,2217
$boxplot = new boxplot();
$data = array('X'=>array(2515,2416,2388,2420,2405,2191,2144,2319,2262,2294,2046,1435,1759,1995,2217));
$boxplot->Draw('Ziyaretçiler','Seri',$data);
kodu ile
grafiğini elde ediyoruz.
- * aykırı değeri gösteriyor
1470’den daha aşağıda değerde bir aykırı değerimiz var ,veri setimize tekrar baktığımızda bu değerin 1435 değeri olduğunu
anlıyoruz. 1435 değeride 12 ekime denk geliyor.
Böyle bir durumda sunucuda veya sunucuya erişimde bir sorun olduğunu düşünmemiz normal.
Kayıtları inceleyip , gerekli testleri yaptıktan sonra ve son olarak takvime dikkatli bakınca görüyoruz ki ekim 12 Ramazan bayramının ilk günü.
Yani millet site değil akraba geziyor , heyacanlanmaya gerek yok 🙂
Php5 class ve örneklerin kodları
Kaynak :
Veri analizi ders notları 🙂
http://en.wikipedia.org/wiki/Box_plot
http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm
http://www.maths.murdoch.edu.au/units/statsnotes/samplestats/boxplot.html
http://www.ilk250.org.tr/document/2005/makaleler/03%20-%20SANAY%C4%B0%20NEREYE%20-%20Prof.Dr.%20Necmi%20G%C3%9CRSAKAL.pdf
Güzel bir çalışma olmuş.
Türkiye’nin seçkin programcılarından biri istatistik okursa böyle yenilikçi yazılar ortaya çıkar.
çalışmalarında başarılar dilerim.
Estafurullah 😉 İnşallah hep beraber daha iyi olacağız.
paylaşım için teşekkürler.
The article is usefull for me. I’ll be coming back to your blog.
hocam burda aykırı değeri belirlerken 1470 ‘i nasıl bulduğunuzu teorik bilgisini istiyorum mümkünse:) ben genelde veriler e göz gezdirerek buluyorum %80 doğru çıkıyor,
Şu video yardımcı olabilir.
http://www.youtube.com/watch?v=9aDHbRb4Bf8
🙂 birazdan sınava giricem elimde sıfır not var , çok işime yaradı saol , 1 4 6 8 5 burada Q3 = 8+5/2 mi olur , yoksa 8 mi olur 🙂 veri sayısına göre değişiyor çünkü sürekli bu Q3 Q1 deeğerli netten araştırdığım örneklerde,
n ‘ e göre bi değişim var neye göre seçtiklerini çözemedim.
2 4 5 6 7 8 9 10 12 9 mesela bu veri setinde Q3 =11 yukarda verdiğim örnekte 8 almışlar