Meine erste Herausforderung fÃ¼r einen Kaggle-Wettbewerb (1/2) [c r e s c e n t]

Meine erste Herausforderung fÃ¼r einen Kaggle-Wettbewerb (1/2)

Published: ⏰ 2015-12-24 (Last Modified: 2017-06-18)

Ich habe kÃ¼rzlich einen Wettbewerb von Kaggle versucht. Er war eigentlich eine der Aufgaben fÃ¼r einen Onlinekurs "Practical Predictive Analytics: Models and Methods". (Ich schreibe eine Rezension, nachdem ich den ganzen Kurs mache.)

Die Aufgabe fÃ¼r den Kurs ist ein Bericht von einem Kaggle-Wettbewerb: Man muss ein Vorhersagemodell erstellen und einen kurzen Bericht von dem Ergebnis vorlegen. Der Wettbewerb, den man versucht, ist nicht festgelegt. Ich habe "Titanic: Machine Learning from Disaster" ausgewÃ¤hlt, weil der Kursleiter ihn empfiehlt. DarÃ¼ber hinaus hatte ich noch keinen Wettbewerb von Kaggle versucht, deshalb denke ich, dass mir der Wettbewerb passt, der fÃ¼r einen AnfÃ¤nger von Kaggle ist.

Die Aufgabe von dem Wettbewerb ist ein Vorhersagemodell von den Ã¼berlebenden Passagieren von Titanic. Die folgenden Daten sind gegeben: Klassen von einem Passagier (Pclass), Namen (Name), Geschlecht (Sex), Alter (Age), AnzÃ¤hle von Ehepartnern (SibSp), AnzÃ¤hle von Eltern/Kindern (Parch), Ticket Nummer (Ticket), Kabine (Cabin), der Hafen, an dem ein Passagier eingeschifft hat (Embarked). Sehen Sie bitte die Webseite, wenn sie die genaue Information wissen wollen.

Weil der Wettbewerb fÃ¼r einen AnfÃ¤nger ist, gibt Kaggle schon drei Vorhersagemodelle. (Die AnzÃ¤hle in den Klammern sind die Genauigkeit von den Vorhersagemodellen, nÃ¤mlich Punkten.)

Geschlechte-Modell (0.76555)
Geschlechte-Klasse-Preis-Modell (0.77990)
Random-Forest-Modell (0.77512)

Es ist einfach, das Geschlechte-Modell zu verstehen. Die folgende Kreuztabelle ist aus den Training-Daten gemacht.

	Not Survived	Survived
female	81	233
male	468	109

Das erste Vorhersagemodell sagt: Alle Frauen haben Ã¼berlebt und alle MÃ¤nner haben nicht Ã¼berlebt. Dann ist die Genauigkeit des Modells fÃ¼r die Training-Daten 0.78676.

Das zweite Modell ist auch nicht schwierig zu verstehen. In der folgenden Tabelle stellt "Fclass" dar, wie viel der Passagiere fÃ¼r das Ticket ausgegeben hat. (1 = weniger als $10, ... , 4 = hoher als $30.) Die Spalte von "Survived" zeigt die Wahrscheinlichkeit vom ÃƒÅ“berleben. "CountInTrain" ist die Anzahl der (Ã¼berlebenden und nicht Ã¼berlebenden) Leute in den Training-Daten. "CountInTest" ist die Anzahl der Leute in den Test-Daten.

SPF-Kreuztabelle

Das Geschlechte-Klasse-Preis-Modell sagt: Falls die Wahrscheinlichkeit der Klasse, zu der der Passagier gehÃ¶rt, gleich oder groÃŸer als 0.5, hat er Ã¼berlebt. Zum Beispiel hat der Mann mit Pclass=1 und Fclass=3 nicht Ã¼berlebt, weil die Wahrscheinlichkeit der Klasse, zu der er gehÃ¶rt, ist kleiner als 0.5.

"NaiveCount" ist die einfache SchÃ¤tzung der Genauigkeit von dem Modell fÃ¼r jede Klasse in den Test-Daten. Deshalb ist die SchÃ¤tzung der Genauigkeit des Modells gegeben durch sum(Naivecount)/sum(CountInTest) = 0.77990. Die Zahl ist gleich wie die Genauigkeit des Modells fÃ¼r die Test-Daten.

Das letzte Modell ist aus maschinellem Lernen gemacht: Man verwendet "Random Forest" fÃ¼r das Modell. Der Algorithmus ist bekannt fÃ¼r die hohe Genauigkeit und die geschÃ¤tzte Genauigkeit durch Kreuzvalidierung ist rund 0.80936. (Weil "Random Forest" eine zufÃ¤llige Zahl benutzt, ist das Ergebnis jedes Mal unterschiedlich.) Aber die Genauigkeit des Modells fÃ¼r die Test-Daten ist nur 0.77512. Sie ist sogar kleiner als die Genauigkeit von dem Geschlechte-Klasse-Preis-Modell!

A simple model is not always a bad model. Sometimes, concise, simple views of data reveal their true patterns and nature. (Getting Started With Random Forests)

Ja, das stimmt.

In dem nÃ¤chsten Eintrag erzÃ¤hle ich mein Ergebnis.

Share this page on

Categories: #data-mining