Titanic Gemisindeki Kişilerin Bazı Fiziksel Ve Kişisel Özelliklerine Göre Karar Ağacının Oluşturulması Ve Benzer Olayda Hangi Özellikteki Kişilerin Hayatta Kalacağının Tespit Edilmesi
ÖZET
Titanic isimli gemi
15 Nisan 1912 tarihinde
buz dağına çarparak
batmıştır ve mürettebatlar da
dahil olmak üzere çok sayıda yolcuda hayatını bu
kazada kaybetmiştir.
Ancak kayıtlara göre
bazı
kurtulan yolcular bulunmaktadır.
Bu
kurtulan yolcuların
, ölen yolcular ile arasındaki
fiziksel ve kişisel bazı özelliklerini
referans
alarak benzer bir
olayda kimlerin hayatta
kalabileceğinin tahmin edilmesini sağlayan
bir karar ağacı oluşturulmaya çalışılacaktır.
Elimizdeki
datasetimizden uygun olan kayıtlardan eleme yapılarak yolcuların yaş,cinsiyet,
kabin sınıfı gibi bilgileri kullanılacaktır.
Sonuçların gösterimi ve
analizi için Weka 3.8 programı bilgisayar ortamında kullanılacak
olup J48 sınıflandırma algoritması kullanılacaktır. Ayrıca Naive Bayes algortimasıda
kullanılıp sonuçlar doğrulanmaya çalışılacaktır.
Anahtar Kelimeler : J48 Algoritması, Karar Ağaçları, ID3 Algoritması, C4.5 Algoritması, Naive Bayes,
Kurtulma Oranı
ABSTRACT
The Titanic
named ship sank into the iceberg on April 15, 1912 and
lost many lives in this accident, including crew members. However, according to records there are
some survivors. With reference to some physical and personal
characteristics between
these survivor passengers and the deceased passengers, a decision
tree
will be sought
to predict who will survive in a similar event. We will use
information such as age, gender, cabin class
of passengers by eliminating the appropriate records from our dataset.
For demonstration and analysis of results, Weka 3.8 program will be used in computer environment and J48 classification algorithm will be used. We will also
use the Naive Bayes algorithm to verify the results.
Keywords: J48 Algorithm, Decision Trees, ID3 Algorithm, C4.5 Algorithm, Naïve Bayes,
Survival Rate
1. GİRİŞ
Günlük yaşantımızda ulaşım
amaçlı
kullandığımız bir çok araç bulunmaktadır. Bunlardan bazıları,
kara
yolu araçları
, deniz yolu araçları ve hava yolu araçları olmak
üzere 3 gruba
ayırabiliriz. Farklı ulaşım yollarında farklı
boyutlarda kazalar da yaşanabilmekte ve bir
kara yolundaki kaza blançosu ile
deniz yolu kullanılarak yaşanan
kaza bilançosu farklıdır.
Kullanılan yolun araç(uçak,gemi,otomobil,otobüs) özelliklerine göre de yine bu oran
değişiklik
göstermektedir.
Yapmış olduğumuz çalışmada
önceki yıllarda batan
ve çok sayıda insanın yaşamını yitirdiği bununla birlikte kurtulan kişilerin
de olduğu gemi kazasında benzer
bir olayda kimlerin
hayatta kalabileceği analiz edilmiştir.
Kullanılan dataset
de toplam 891 adet
veri bulunmaktadır. Bu veriler içinden
kullanılabilir durumda olan 200 adet veri üzerinde
algoritmalar
uygulanmıştır. Bu
algoritmalar J48, Naive
Bayes, Apriori algoritmalarıdır.
2. VERİ MADENCİLİĞİ
Veri madenciliği, günümüz bilgi
çağında en güncel
teknolojilerden birisidir. Bilgisayar sistemlerinin her
geçen gün
hem daha ucuzluyor olması, hem de güçlerinin artıyor
olması, bilgisayarlarda daha büyük
miktarlarda verinin saklanabilmesine
imkan vermektedir. Bu
yüzden,
büyük
miktardaki verileri
işleyebilen
teknikleri kullanabilmek, büyük önem kazanmaktadır. Veri madenciliği
bu gibi
durumlarda kullanılan, büyük miktardaki
veri setlerinde saklı
durumda bulunan örüntü ve eğilimleri
keşfetme işlemidir. [1]
3. SINIFLAMA
Sınıflama ile ilgili
olarak literatürde, farklı bir
yaklaşım da söz konusudur. Bu yaklaşıma göre sınıflama;
tam sınıflama ve kısmi sınıflama olmak üzere ikiye ayrılmaktadır.
Buradaki
tam sınıflama kavramı veri
içindeki tüm sınıflar ve örnekleri kapsayan
modeller ile ilgilidir. Bunlara örnek
olarak, yapay sinir
ağları, C&RT, CHAID, C4.5, C5.0 ve diğer
karar ağaçları gibi
akıllı teknikler ile diskriminant
analizi gibi
istatistiksel araçlar verilebilir.
Kısmi sınıflamada, tam sınıflamada olduğu gibi
veri sınıflarının özellikleri
gösterilmektedir. Ancak
kısmi sınıflandırma modellerinde tüm sınıflar veya verilen
sınıfın tüm örnekleri kapsanmayabilir.
Bu modellerden
biri olarak birliktelik kuralları
verilebilir (Bloemer
vd., 2003;
119-120).
3.1 Karar Ağaçları Ve Ağaç Tümevarımı
En önemli sınıflama araçlarından biri olan karar ağaçlarında, öğrenme algoritması basittir.
Ortaya konan özbilginin
gösterimi kolaylıkla
anlaşılabilir. Karar ağaçları yalnızca kararları
göstermezler, aynı zamanda kararların açıklamasını
da içerirler. Karar ağacını
oluşturan eğitim süreci tümevarımdır. Bir
eğitim nesneleri kümesinden karar
ağacı oluşturma
yordamı, ağaç tümevarımı (tree induction) olarak adlandırılır. Ağaç tümevarımı yöntemi özbilgi keşfinin en yaygın yöntemlerinden biridir. Sınıflama veya tahmin
için kullanılabilecek
ağaç
benzeri
örüntüleri keşfetme için bir
yöntemdir. Karar ağaçları bilgi
keşfi
sırasında pek çok test gerçekleştirerek,
hedefi
tahmin etmede en
iyi
sırayı bulmaya çalışırlar.
Her bir test
karar ağacındaki dalları
oluşturur ve bu dallar da diğer
testlerin gerçekleşmesine neden olur. Bu
durum, test işleminin bir yaprak düğümünde
(leaf node) sonlanmasına kadar
devam
eder.
Kökten hedef yaprağa kadar
olan
yol, hedefi sınıflandıran
“kural” olarak adlandırılır.
Kurallar “eğer-sonra” (if-then) yapısındadır
(Bounsaythip ve Esa, 2001, 18-19).
4. KARAR AĞAÇLARI VE KARAR AĞACI ALGORİTMALARI
Karar ağaçları, sınıflandırma ve tahmin için
sıkça kullanılan bir veri
madenciliği yaklaşımıdır.
Sinir ağları gibi
diğer metodolojilerin de sınıflandırma için kullanılabilmesine rağmen,
karar
ağaçları, kolay yorumu
ve
anlaşılabilirliği açısından karar
vericiler
için avantaj
sağlamaktadır
[4].
Karar
ağaçları;
• Düşük maliyetli
olması,
• Anlaşılmasının, yorumlanmasının ve
veri tabanları
ile entegrasyonun
kolaylığı,
•
Güvenilirliklerinin iyi
olması
gibi nedenlerden
ötürü en yaygın kullanılan sınıflandırma tekniklerinden biridir.
Karar ağacı
tekniğini kullanarak verinin sınıflanması, öğrenme
ve sınıflama olmak
üzere iki basamaklı bir işlemdir. Öğrenme
basamağında önceden bilinen bir eğitim verisi, model oluşturmak amacıyla
sınıflama algoritması
tarafından analiz edilir.
Öğrenilen model,sınıflama kuralları
veya karar
ağacı olarak gösterilir.
Sınıflama basamağında ise
test verisi, sınıflama kurallarının veya karar
ağacının doğruluğunu belirlemek
amacıyla kullanılır.
Eğer doğruluk kabul edilebilir oranda ise kurallar, yeni
verilerin sınıflanması
amacıyla kullanılır.
Eğitim verisindeki hangi
alanların hangi sırada kullanılarak ağacın oluşturulacağı belirlenmelidir. Bu amaçla en yaygın olarak kullanılan ölçüm, Entropi ölçümüdür. Entropi ölçüsü ne kadar
fazla ise o alan kullanılarak ortaya konulan
sonuçlar
da o oranda belirsiz
ve kararsızdır. Bu
nedenle,
karar ağacının
kökünde Entropi ölçüsü en az olan
alanlar kullanılır. Verilen
bir Ak alanının Entropi ölçüsünü bulan
formüller şu şekildedir [5]:
Bu formülde;
E(C\Ak) = Ak
alanının
sınıflama özelliğinin Entropi
ölçüsü, p(ak,j) = ak
alanının
j değerinde olma olasılığı,
p(ci \ ak,
j) = ak alanı j. değerindeyken sınıf
değerinin ci olma olasılığı,
Mk= ak alanının içerdiği
değerlerin sayısı; j= 1, 2,.,
Mk,
N = farklı sınıfların sayısı; i = 1, 2,..., N, K = alanların sayısı; k
= 1,2,..., K.
Eğer bir S
kümesindeki elemanlar, kategorik olarak C1, C2, C3, . . . , Ci sınıflarına
ayrıştırılırlarsa, S kümesindeki bir elemanın sınıfını belirlemek için gereken bilgi
şu formülle hesaplanmaktadır:
Bu formülde pi,
Ci sınıfına ayrılma olasılığıdır.
Entropi denklemi şu şekilde
de ifade edilebilir:
Bu durumda
A alanı
kullanılarak yapılacak dallanma işleminde, bilgi
kazancı şu formülle hesaplanmaktadır:
Başka bir deyişle Kazanç (A), A alanının değerini bilmekten kaynaklanan entropideki azalmadır. Karar ağaçlarında kullanılan birçok
algoritma mevcuttur. ID3,
C4.5, C5.0, CART, CHAID
ve QUEST bunlara örnek olarak gösterilebilir.
Bizler bu çalışmamızda ID3
ve C4.5 algoritmalarını
kullandık. Ek olarak Naive
Bayes algoritmasıda sonuçların doğruluğunu ispat
etmek için kullanıldı.
Kara
Ağacı Algoritması Özellikleri
|
|
C&RT
|
Gini’ye dayalı ikili bölme işlemi mevcuttur.
Son
veya
uç olmayan her bir
düğümde iki adet dal bulunmaktadır.
Budama işlemi ağacın karmaşıklık
ölçüsüne dayanır. Sınıflandırma ve
regresyonu destekleyici bir yapıdadır.
Sürekli hedef
değişkenleri ile çalışır. Verinin
hazırlanmasına gereksinim
duyar.
|
C4.5 ve C5.0 (ID3
karar ağacı algoritmasının ileri versiyonları)
|
Her düğümden
çıkan çoklu dallar ile ağaç
oluşturur. Dalların sayısı
tahmin edicinin
kategori sayısına
eşittir. Tek bir sınıflayıcı da
birden
çok karar ağacını birleştirir. Ayırma
işlemi için bilgi kazancı kullanır.
Budama işlemi her yapraktaki hata oranına
dayanır.
|
CHAID (Chi-Squared Automatic Interaction Detector)
|
Ki-kare testleri
kullanarak bölme işlemini
gerçekleştirir.
Dalların sayısı
iki ile tahmin
edicinin kategori sayısı arasında değişir.
|
SLIQ (Supervised Learning in
Quest)
|
Hızlı ölçeklenebilir
bir sınıflayıcıdır.
Hızlı ağaç
budama algoritması
mevcuttur.
|
ID3 Algoritması Sözde Kodu [7]
ID3
(Örnekler, Hedef_Attribute, Özellikler) Ağaç için
bir kök düğüm oluşturun
Tüm örnekler pozitifse, tek düğümlü ağaç
Kök
dizinine = + etiketli dönün.
Tüm
örnekler negatifse, etiketli = - olan tek düğümlü ağaç
kökünü
döndürün. Tahmini niteliklerin
sayısı boşsa, tekli düğüm ağacını Kök olarak döndürün,
Etiket = örneklerde
hedef
özniteliğin
en yaygın değeri.
Aksi halde
Başla
A ← Örnekleri en iyi sınıflandıran Özellik. Kök için Karar
Ağacı özniteliği = A.
Her
olası değer için vi, A'nın,
Kökün altına, A = vi testine karşılık gelen
yeni
bir ağaç dal ekleyin.
Örnekler (vi), A
için vi değeri olan örneklerin alt kümesi olsun
Örnekler (vi) boşsa
Daha
sonra bu yeni şubenin altında, örneklerde
label = en genel hedef değeri olan bir yaprak düğüm ekleyin
Bu yeni kolun altındaki diğer kısımda ID3
alt
klasörü eklendi (Örnekler (vi),
Hedef_Attribute, Öznitelikler - {A}) Son
Kök
Getir
Bu algoritmalara ek olarak
çalışmamızda Naive Bayes
algoritmasıda
kullanılmış olup aşağıdaki
tanımlandığı şekilde bu algoritma
da Weka programı aracılığı
ile kullanılmıştır.
Naive Bayes (NB)
Klasik Naïve Bayes algoritması
genelde kelimelerin
ve sınıfların birlesik olasılıkları
ile bir dokümanın sınıfının belirlenmesinde
kullanılır. Bizim
çalısmamızda ise özellikler
kelimelerin frekansları
degildir
ve sürekli dagılımlara sahip
olduklarından klasik Naïve Bayes yerine George’un [8] çalısmasında önerilen Naïve Bayes versiyonu
kullanılmıstır.
5. VERİLER
Yaptığımız çalışmamız için ilgili
dataset i açık kaynak kodlu bir platform olan
Github sitesinden elde edilmiştir. Elimizdeki dataset te 891
adet
veri bulunmaktadır. Bu veriler çalışmamızda referans
aldığımız Titanic isimli batan gemiden
kurtulan ve yaşamını kaybeden
yolcuların kişisel
ve gemide hangi
sınıfta yolculuk yaptığı
ile ilgili bilgiler bulunmaktadır.Bu
bilgileri sırasıyla
şunlardır ;
PassengerId
:
Yolcunun Dataset deki ID si
|
Ticket : Bilet No
|
Survived
:
Yolcunun Kurtulup
, Kurtulmadığı Bilgisi.
Kurtulanlar 1 ,
Kurtulamayanlar
0 dır.
|
Fare : Ücret
|
Pclass :
Yolcunun Seyahat
Ettiği Sınıf (first class,
second class, third class)
|
Cabin : Kabin
|
Name : Yolcu Adı
|
Embarked : Gemiye Binip Binmediği
|
Sex : Yolcunun Cinsiyeti
|
Age : Yolcunun Yaşı
|
Tablo2. Veri Başlıları Ve
Anlamları
Bu bilgiler
veri madenciliği
teknikleri kullanılarak bazı eleme
işlemlerinden geçirilip
bizlere uygun olan bilgiler sadece alınmıştır.
Yaptığımız çalışmada
benzer bir olayda kimlerin hayatta kalacağına
karar veren bir karar ağacı
oluşturmak olduğu için bizler çalışmamızda Yolcunun
cinsiyeti, yaşı,
hangi sınıfta yolculuk ettiği ve kurtulup
kurtulmadı bilgilerine göre analiz yapılmıştır.
Dataset içinde bazı
veri kayıpları olduğundan
dolayı ilgili
kayıt
satırları yok sayılıp
işleme tabi tutulmamıştır. Ayrıca elimizdeki
891 adet veriden uygun
olmayan kayıtların çıkarılmasıyla toplam 200 adet
eğitim
ve test verisi ayrıştırılmıştır.
Ek olarak yolcuların yaşları
farklı ve sayısal
nitelikte olduğu için yaş
sınıflandırması yapılmıştır.
Yaş
sınıflandırma tablosu genel
olarak yapılan araştırmalardan elde
edilen
ifadelerdir.
Yaş Aralığı
|
Sınıfı
|
0 - 14
|
Çocuk
|
15 - 30
|
Genç
|
30 - 65
|
Orta
|
65 yaş
ve
üstü
|
Yaşlı
|
Tablo3.
Yaş Sınıflandırma
Son olarak elde
edilen
ve kullanılan yeni bir dataset tipi oluşturuldu tabi bu dataset
bir önceki verilerin kullanılabilir
veri içeren ve sayısal verilerin sözel bir şekilde ifade edilmesiyle
oluşturulmuştur.
yasi
|
cinsiyet
|
sinif
|
kurtuldu
|
genc
|
erkek
|
second
|
hayır
|
orta
|
kadın
|
first
|
evet
|
genc
|
kadın
|
third
|
evet
|
orta
|
kadın
|
first
|
evet
|
orta
|
erkek
|
third
|
hayır
|
...
|
...
|
...
|
...
|
Tablo4.
Datasetin son hali
6. UYGULAMA
Bu çalışmada yapılan
analiz için
Weka 3.8 yazılımı kullanılmıştır. Weka yazılımının içinde entegre olan
bir çok
sınıflandırma algoritmaları
ve karar ağacı oluşturmak için bir çok farklı algoritma
vardır. Bunlardan J48 ve Naive Bayes
algoritması çalışmamızda kullanılmıştır.
Öncelikle programımıza datasetimizin seçimini yaparak başlıyoruz.
Datasetimiz de 4 adet nitelik bulunduğunu Veriler bölümünde
açıklamıştık. Weka
programından dataset
i seçtikten sonra Classify sekmesinden Choose
butonu ile önce J48
algoritmasını seçip
karar ağaçlarını oluşturuldu.
Yapmış olduğumuz çalışmada ilgili
dataset içindeki
verilerden çalışmamızın
konusu olan bir gemi
kazasında kimlerin hayatta kalabileceği farklı
algoritmalar kullanılarak
analiz edilmeye
çalışılmıştır. J48
sınıflandırma algoritmasının
uygulanması
sonucu farklı nitelik değerleri
baz alınarak
ağaçlar oluşturulmuştur. İlk ağaç yapısı Şekil1 de
belirtildiği gibi olup dataset in kurtulup /
kurtulmama niteliğine göre
ağaç oluşturulmuş olup kadın yolcuların
hayatta kalma
şansının erkek yolculara oranla
çok daha fazla olduğu
anlaşılmaktadır.
Yine bu sonucu
Naive
Bayes algoritma sonucunun sayısal verilerine bakıldığında görülmektedir. Bunun nedeni olarak ise Titanic gemi kazasında olduğu gibi diğer acil durumlarda önceliğin kadın,çocuk ve yaşlılara
tanınması olarak gösterebiliriz.
Elde edilen diğer
bir dikkat çekici sonuç ise yolcuların
kabin sınıflarına bağlı olarak ta yine
kurtulma oranları dikkat çekmektedir. First
Class(1.sınıf) ta yolculuk
yapan yolcuların kurtulma oranı diğer sınıflara oranla
daha fazladır. Bu
sonuca bağlı
olarak
ilk sonucu göz önüne aldığımızda yani
kadınlara ve çocuklara öncelik verilmesi
durumunda First Class taki kadın,çocuk
ve yaşlıların büyük bir
bölümünün kurtulduğu yine karar ağacından
görülmektedir.
En az kurtulma
oranı ise Third Class (3.sınıf) yolcularının
olduğunu görülmektedir.
Class türlerine göre farklı kurtulma oranlarının olmasının
en büyük nedenlerinden
biri Titanic adlı geminin First Class ve Second Class yolcu bölümlerinin
kurtarma filikalarına ve acil
çıkış kapılarına daha yakın
olması , Third Class yolcularının ilgili
bölümlerinin bu filikalara uzak olması
sınıflardaki kurtulma oranlarını
büyük
ölçüde değiştirmiştir.
Son olarak ise yaş
niteliği baz alınarak yapılan
Şekil2 deki karar ağacına bakıldığında daha çok
orta yaş sınıfına ait yolcuların First
Class ta yolculuk yaptığı
, genç ve çocukların 2. Veya
3.sınıf kabinleri tercih ettiği bilgisine ulaşılmıştır.
Tüm bu sonuçları göz önüne aldığımızda benzer
bir gemi kazasında
kurtulma oranının kadınların,
çocukların ve yaşlıların
orta
ve genç sınıfına tabi
erkeklerden fazla
olduğuna ulaşılmıştır. Ayrıca geminin acil
çıkış yollarının ve kurtarma
filikalarının geminin yolcu kabinlerine uzaklığı gibi etmenler de kurtulma oranını
etkileyen faktörler arasında
olduğu tespit edilmiştir.
8. KAYNAKÇA
1. ÖZEKES, Serhat.
Veri madenciliği modelleri ve uygulama alanları. 2003.
2.
Bloemer, M. M. J., Brijs, T., Vanhoof, K. ve Swinnen,
G. (2003); “Comparing
3.
Bounsaythip, C. ve Esa, R. R. (2001).
“Overview of Data Mining For Customer
4.
Chien, C. F., Chen, L. F. 2008. “Data Mining to Improve Personnel
Selection
and Enhance Human Capital: A Case Study in High-Technology Industry,” Expert Systems with Applications, vol. 34, p. 280-290.
5.
Özekeş, S., Çamurcu,
A. Y. 2002. “Veri Madenciliğinde
Sınıflama Ve Kestirim
Uygulaması,”
Marmara Üniversitesi Fen Bilimleri Dergisi, sayı 18, s. 1-17.
6.
Emel, Gül Gökay, and
Çağatan TAŞKIN. "VERİ MADENCİLİĞİNDE
KARAR AĞAÇLARI VE BİR SATIŞ ANALİZİ UYGULAMASI." Sosyal Bilimler Dergisi 6.2 (2005).
8.
George H.: Estimating Continuous Distributions in Bayesian Classifiers. Proceedings of the
Eleventh Conference on Uncertainty in Artificial Intelligence,
pp. 338-345. Morgan Kaufmann,
San
Mateo (1995)




