-- İstatistik, PHP, Programlama

Php ile kutu-bıyık grafikleri (box-whisker plots)

boxplot kutu-bıyık kutubıyık box plot

John Tukey tarafından 1977 yılında bulunan kutu bıyık grafikleri açıklayıcı
istatistikte sayısal veri setlerini beş sayı özetlerine(en küçük gözlem , birinci dörtlük (kartil) , medyan ,
üçüncü dörtlük ve en büyük gözlem değerlerine ) dayanarak resmeden uygun betimleme yoludur.

Kutu bıyık grafikleri altında yatan istatistiksel dağılımlar hakkında varsayımda bulunmadan farklı popülasyon türlerini gösterebilir.
Kutu bıyık grafikleri veri setimizin yayılımı , konumu , çarpıklığı , kuyruk uzunlukları , aykırı gözlem değerleri hakkında bilgi verir.

boxplot kutu-bıyık kutubıyık box plot

Yukarıdaki grafiği yorumluyacak olursak ;

X1 için:

  • Daha homojen yayılmış
  • Çarpıklığı simetriğe yakın
  • Kuyruk uzunlukları yakın
  • Aykırı gözlem yok

X2 için:

  • Daha heterojen yayılmış
  • Çarpıklığı sağa çarpık
  • Kuyruk uzunlukları farklı
  • Aykırı gözlem yok

Yukarıdaki grafiği php ile çizdirmek için :

$boxplot = new boxplot();

$data = array( 'X1' => array(35.8,37.4,39.1,40.7,46.8,47.9,48.6,49.2, 49.6,50.6,52.3,54.3,54.5,54.5,54.7,55.2, 56.4,58.6,58.9,61.8,62.5,66.3,66.8,67.2,71.5) ,


'X2' => array(43.55,45.65,47.25,49.25,51.80,52.15,52.45,53.05, 53.80,53.80,56.20,57.05,57.65,59.45,59.45,64.10, 65.20,55.50,68.05,59.75,69.80,77.65,82.35,85.60,86.85)
);

$boxplot->Draw('Değerler','Gruplar',$data);

Daha ilgi çekici örnek vermek gerekirse ;

1 – 15 ekim 2007 tarihleri arasında x sitesi için günlük ziyaretçi sayılarını gösteren serimiz aşağıdaki gibi olsun

2515,2416,2388,2420,2405,2191,2144,2319,2262,2294,2046,1435,1759,1995,2217

$boxplot = new boxplot();
$data = array('X'=>array(2515,2416,2388,2420,2405,2191,2144,2319,2262,2294,2046,1435,1759,1995,2217));
$boxplot->Draw('Ziyaretçiler','Seri',$data);

kodu ile

boxplot kutu-bıyık kutubıyık box plot

grafiğini elde ediyoruz.

  • * aykırı değeri gösteriyor

1470’den daha aşağıda değerde bir aykırı değerimiz var ,veri setimize tekrar baktığımızda bu değerin 1435 değeri olduğunu
anlıyoruz. 1435 değeride 12 ekime denk geliyor.

Böyle bir durumda sunucuda veya sunucuya erişimde bir sorun olduğunu düşünmemiz normal.
Kayıtları inceleyip , gerekli testleri yaptıktan sonra ve son olarak takvime dikkatli bakınca görüyoruz ki ekim 12 Ramazan bayramının ilk günü.

Yani millet site değil akraba geziyor , heyacanlanmaya gerek yok 🙂

Php5 class ve örneklerin kodları

Kaynak :

Veri analizi ders notları 🙂
http://en.wikipedia.org/wiki/Box_plot
http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm
http://www.maths.murdoch.edu.au/units/statsnotes/samplestats/boxplot.html
http://www.ilk250.org.tr/document/2005/makaleler/03%20-%20SANAY%C4%B0%20NEREYE%20-%20Prof.Dr.%20Necmi%20G%C3%9CRSAKAL.pdf

Yorumla

Yorum

  1. Güzel bir çalışma olmuş.
    Türkiye’nin seçkin programcılarından biri istatistik okursa böyle yenilikçi yazılar ortaya çıkar.

    çalışmalarında başarılar dilerim.

  2. hocam burda aykırı değeri belirlerken 1470 ‘i nasıl bulduğunuzu teorik bilgisini istiyorum mümkünse:) ben genelde veriler e göz gezdirerek buluyorum %80 doğru çıkıyor,

  3. 🙂 birazdan sınava giricem elimde sıfır not var , çok işime yaradı saol , 1 4 6 8 5 burada Q3 = 8+5/2 mi olur , yoksa 8 mi olur 🙂 veri sayısına göre değişiyor çünkü sürekli bu Q3 Q1 deeğerli netten araştırdığım örneklerde,
    n ‘ e göre bi değişim var neye göre seçtiklerini çözemedim.
    2 4 5 6 7 8 9 10 12 9 mesela bu veri setinde Q3 =11 yukarda verdiğim örnekte 8 almışlar