Real Data - April 2016 (1-2/6) [c r e s c e n t]

Real Data - April 2016 (1-2/6)

Published: ⏰ 2016-04-19 (Last Modified: 2017-06-18)

Letzte Woche habe Ich an einem Programmierung Wettbewerb "Real Data - April 2016" teilgenommen. Der Wettbewerb besteht aus sechs Aufgeben, die mit maschinellem Lernen verbunden sind.

Vor dem Wettbewerb hatte ich vor, alle Aufgaben mit R zu lÃ¶sen, aber fast alle Aufgaben sind fÃ¼r NLP oder Bilderkennung. Deshalb habe ich R nur fÃ¼r die erste Aufgaben verwendet.

1) Forecasting passenger traffic

KÃ¼rzlich habe ich eine Ã¤hnliche Aufgabe gemacht. Es geht nÃ¤mlich um die Zeitreihenanalyse. Diesmal hatte ich die folgenden Trainingdaten:

In der Grafik ist true die Daten, die man vorhersagen muss. Letzte Mal habe ich die Fourier-Transformation fÃ¼r eine Zeitreihe verwendet, aber diesmal nicht. Das liegt daran, dass die PeriodizitÃ¤t nicht unklar ist.

Weil die x-Achse t des Kurvendiagramms ein Monat zeigt, deswegen kann man einfach eine PeriodizitÃ¤t vermuten, aber wie das folgende Diagramm zeigt, ist sie nicht klar:

pro Monate

Obwohl die PeriodizitÃ¤t unklar ist, habe ich je nach Monat lineare Regression-Modell gemacht. Die Note war nicht gut: 9.16/25. Weil die hÃ¶chste Noten 14.81 war, war meine Note nicht schlecht.

Nun darf man die Quelltexte anderer Teilnehmer lesen, deswegen habe ich einige Quelltexte gelesen, mit denen man hÃ¶her Note bekommen kann. Aber viele Quelltexte enthalten einige Parameter und es ist Ã¼berhaupt unklar, woher die Parameter kommen.

Der Quelltext des Teilnehmers auf Platz 1 ist interessant, obwohl die Vorhersage nicht reproduzierbar ist. Die Idee ist sehr einfach. Er machte konkret eine Zufallsvariable, die die Anzahl von FahrgÃ¤sten entspricht und produzierte 12 Zufallswerte. Er ignorierte nÃ¤mlich die PeriodizitÃ¤t von der Anzahl. Ein konkreter Quelltext (auf R) folgt:

## yTrain ist der Vektor der Anzahl der FahrgÃ¤este
binWidth <- (max(yTrain)-min(yTrain))/10 ## bin=10
histInfo <- hist(yTrain,density=T,breaks=seq(min(yTrain),max(yTrain),by=binWidth))
x <- cumsum(histInfo$density)*binWidth
y <- histInfo$breaks[2:11]
quant <- approxfun(x,y) ## Lineare Interpolation
quant(runif(12,min=min(x),max=max(x))) ## Vorhersage

Die folgende Grafik ist der Vergleich von mehreren Methoden:

Vorhersage

true ist die Validierung-Daten.
arima ist vom Teilnehmer auf Platz 19 (dieser Aufgabe) benutzt. Die Noten war 10.33 und der absolute Validierung-Fehler ist 3.196157.
linear ist mein Vorhersagemodell. Der absolute Validierung-Fehler ist 2.70967.
mean ist der Durchschnitt jedes Monates. Der absolute Validierung-Fehler ist 3.821018.
rvar ist die beste Vorhersage, die der Quelltext produziert. Ich habe 10^4 mal das Modell versucht und der Quantil war
```
 Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.746   3.448   3.827   3.836   4.219   5.914
```
Wenn man nur diese Resultat sieht, findet man nie das Modell gut. Falls man aber GlÃ¼ck hat, bekommt man natÃ¼rlich sehr gute Vorhersage.

2) Language Detection

Die Aufgebe ist sehr einfach. Es gibt Texte auf verschiedene Sprachen: Deutsch, Englisch, FranzÃ¶sisch und Spanisch. Die Aufgabe ist die Feststellung der Sprache eines Texts.

StoppwÃ¶rter sind die WÃ¶rter, die oft benutzt werden. Es ist genug, die StoppwÃ¶rter je nach Sprache in einem Text zu zÃ¤hlen. Was man beachten muss, ist nur die Umsetzung (encoding).

Share this page on

Categories: #data-mining