Python oder R? [c r e s c e n t]

Python oder R?

Published: ⏰ 2018-02-01 (Last Modified: 2018-02-01)

Data Scientist soll angeblich darÃ¼ber sprechen, welche Programmiersprache fÃ¼r Data Science am besten ist. NÃ¤mlich Python oder R. Ich benutze beide und deshalb kenne ich Vorteile und Nachteile fÃ¼r beide Programmiersprachen. In diesem Eintrag mÃ¶chte ich Ã¤uÃŸern, wie man eine Programmiersprache fÃ¼r ein Data-Science-Projekt auswÃ¤hlen sollte.

Data Science

Bevor ich Ã¼ber Data Science schreibe, mÃ¶chte ich klar machen, was ich unter Data Science verstehe. Data Science ist ein Bereich, in dem man in Daten etwas Wertvolles findet. Darin gibt es verschiedenen VorgÃ¤nge:

Daten abholen
Daten verarbeiten
Statistik (einschlieÃŸlich Hypothesentests) berechnen
Mathematische Modelle, Maschinelles Lernen, Bayesianische Analyse verwenden
Ergebnis darstellen

In diesem Eintrag behalte ich die obigen VorgÃ¤nge im Kopf.

Geschwindigkeit ist gar nicht die Hauptsache

Oft gesagt, dass Python schneller als R ist. Das kommt darauf an, was fÃ¼r ein Code man schreibt. AuÃŸerdem bin ich Ã¼berzeugt davon, dass die Vergleichung der Geschwindigkeit sinnlos ist. Das liegt daran, dass die beiden Programmiersprache langsam sind.

Die beiden sind Skriptsprachen, deshalb sind sie viel langsamer als C, C++, FORTRAN, Java, Scala, usw. Wenn man die Programmiersprache selbst entwickelt, kann ihm die Geschwindigkeit wichtig sein. Aber sonst ist der Unterschied der Geschwindigkeit nur eine Kleinigkeit. Wenn die Geschwindigkeit die Hauptsache ist, sollten Sie unbedingt auf Python und R verzichten.

Was man beachten soll, ist nicht die Geschwindigkeit der Implementierung der Programmiersprache, sondern wie schnell/leicht man ein Skript schreiben kann.

Die Hauptsache: die verfÃ¼gbaren Bibliotheken

Oft gesagt, dass man oft Windows statt Linux auswÃ¤hlt, nicht, weil Windows besser als Linux ist, sondern weil nÃ¶tige Applikationen nur auf Windows laufen kÃ¶nnen.

Die gleiche Logik gilt auch, wenn man eine Programmiersprache auswÃ¤hlt: Die Bibliotheken, die in der Programmiersprache zur VerfÃ¼gung stehen. Was man mit der Programmiersprache leicht erledigen kann, ist komplett abhÃ¤ngig von den Bibliotheken.

Ich habe oben die fÃ¼nf VorgÃ¤nge geschrieben. In den 3. und 4. Punkten gibt es keinen groÃŸen Unterschied zwischen Python und R, weil die beiden gute Bibliotheken fÃ¼r mathematische Berechnung haben.

Abholung von Daten

Ich wÃ¤hle kaum R aus, um Daten abzuholen, es sei denn, die Rohdaten kann mit R einfach abgeholt werden. Also nur wenn die Daten durch CSV, RDBMS, REST API oder eine eigene Bibliothek abgeholt werden kann, Ã¼berlege ich, ob ich R benutzen soll. Zum Beispiel wollte ich nicht R benutzen, wenn die Datenquelle eine SOAP-API ist. Ein der groÃŸen Nachteile von R ist, dass saubere Daten vorausgesetzt werden. Deshalb ist es gar nicht bequem, mit R nicht strukturierte Daten abzuholen.

Ãœbrigens, wenn man zur Abholung der Daten eine auf einem Hadoop-Cluster laufende Applikation entwickelt, gibt es keine MÃ¶glichkeit, R fÃ¼r die Programmiersprache auszuwÃ¤hlen.

Datenverarbeitung

Dieser Teil ist oft abhÃ¤ngig von der vorherigen Teil, nÃ¤mlich der Abholung von Daten. Aber wenn ich saubere Daten habe, nehme ich normalerweise R. Das liegt an die Bibliothek dplyr.

dplyr ist wirklich ausgezeichnet und importiere ich die Bibliothek immer, wenn ich mit R ein Skript schreibe. Ohne dplyr wollte ich nicht an die Datenverarbeitung denken.

In Python ist pandas die einzige Bibliothek zur Verarbeitung von Tabellen (DataFrames). Ehrlich gesagt, ich mag wegen der folgenden GrÃ¼nden die Bibliothek gar nicht:

Das Verhalten, das mit einem Index eines DataFrames verbunden ist.
Die Methode .groupby(), die eine Series statt DataFrame gibt.
Viel zu viele Methoden fÃ¼r "slice".
SettingWithCopyWarning

Darstellung des Ergebnis

Ich wÃ¤hle auf jeden Fall R aus. Python ist Ã¼berhaupt nicht geeignet zur Darstellung des Ergebnis. Falls ich nur der Data Scientists das Ergebnis zeige, kann ich Python benutzen, aber sonst verzichte ich auf Python.

Das liegt daran, dass Jupyter die einzige Applikation ist, mit der man das Ergebnis der Analyse auf Python zeigen kann. Das heiÃŸt, das geschriebene Code ist immer dabei. Das ist Ã¼berhaupt nicht geeignet fÃ¼r die PrÃ¤sentation des Ergebnis.

R Markdown ermÃ¶glicht uns, einen Bericht und eine PrÃ¤sentation mir hoher QualitÃ¤t zu erstellen. DarÃ¼ber hinaus bewerbe ich hoch die Bibliothek ggplot2. Damit kann man schnell ein schÃ¶nes Diagramm erstellen. Die API der Bibliothek ist einheitlich und benutzerfreundlich, deshalb ist Visualisierung in R nicht besonderes.

In Python gibt es leider keine benutzerfreundliche Bibliothek fÃ¼r Visualisierung. matplotlib ist die "default" Bibliothek zur Visualisierung, aber fÃ¼r die Bibliothek muss man die passende Daten vorbereiten. Die QualitÃ¤t eines Diagramm ist nicht hoch. pandas bietet nur ein bisschen Methode zur Visualisierung, aber FunktionalitÃ¤t ist zu klein. seaborn macht teilweise Visualisierung einfach, aber die FunktionalitÃ¤t ist auch begrenzt. Die Bibliothek namens ggplot steht fÃ¼r Python zur VerfÃ¼gung, aber nur kleiner Teil von ggplot wurde implementiert.

Die Ausnahme ist vielleicht Web-Entwicklung, aber die ist ein anderes Thema.

Statistik, maschinelles Lernen, Deep Learning

FÃ¼r Statistik und maschinelles Lernen gibt es keinen groÃŸen Unterschied zwischen R und Python. Da R eine Programmiersprache fÃ¼r Statistik ist, stehen mehr Bibliotheken fÃ¼r R zur VerfÃ¼gung als Python. DarÃ¼ber hinaus berechnen Bibliotheken fÃ¼r R relative ausfÃ¼hrlich. aber mit Python kann man Ã¼bliche Statistik.

NB. Ich weiÃŸ nicht, wie viele es Python-Bibliotheken fÃ¼r Statistik gibt. Aber Scipy bietet viele Funktionen fÃ¼r Statistik, deshalb macht man Statistik in Python mit Scipy und ein paar Bibliotheken. FÃ¼r gibt es 12108 Bibliotheken. Aber natÃ¼rlich sind nicht alle fÃ¼r Statistik.

FÃ¼r maschinelles Lernen in Python ist scikit-learn De-facto-Standard. Es gibt noch mehrere Frameworks von maschinellem Lernen fÃ¼r Python, aber man sollte darauf verzichten, es sei denn, es gibt einen speziellen Grund dafÃ¼r.

FÃ¼r R gibt es viele Bibliotheken fÃ¼r Algorithmen von maschinellem Lernen. Das klingt gut, aber eigentlich ist sehr schlimm, dass die API gar nicht einheitlich ist. Deshalb muss man unbedingt eins der guten Frameworks (Wrapper classes) lernen/Ã¼ben. Meiner Meinung nach sind caret und mlr die beste Auswahl. (Meine Empfehlung ist mlr.)

In Bezug auf Deep Learning gibt es einen groÃŸen Unterschied zwischen R und Python: R ist immer die zweite Klasse. Theano, Tensorflow, PyTorch. Mehrere Deep-Learning-Frameworks gibt es fÃ¼r Python, aber nicht fÃ¼r R. Deshalb, wenn man ein kompliziertes neuronales Netz erstellen mÃ¶chte, sollte man unbedingt Python auswÃ¤hlen.

Aber dank R interface to Keras und Tensorflow for R kann man mit R ein neuronales Netz einfach erstellen. Da ich leider niemals diese Frameworks benutzt habe, kann ich sie nicht bewerben.

Ãœberblick Ã¼ber den Unterschied bezÃ¼glich Daten-Analyse

	Python	R
Abholung der Daten	Viele Bibliotheken mit hoher QualitÃ¤t	Unbequem, es sei denn, die Daten sind unstrukturiert
Datenverwaltung	pandas ist OK.	dplyr ist ausgezeichnet
Stats/ML	Scipy und scikit-learn	mlr oder caret
Deep Learning	Viele Frameworks	keras und Tensorflow sind verfÃ¼gbar
Visualisierung	katastrophal	ggplot2 und Rmarkdown sind perfekt

Wie man die Programmiersprache auswÃ¤hlen soll.

Obwohl sowohl R als auch Python uns Daten-Analyse ermÃ¶glichen, ist die geeignete Programmiersprache je nach der Situation unterschiedlich. Grob gesagt,

Python ist besser zur Analyse von unstrukturierten Daten.
Wenn die Daten gut strukturiert sind, ist R besser.

Da die Daten auf ein Hadoop-Cluster normalerweise unstrukturiert sind, ist Python passend fÃ¼r Entwicklung, die mit Hadoop verbunden ist. Hier sollte man Bilder und TÃ¶ne als unstrukturierte Daten betrachten. Deshalb hat Python einen Vorteil fÃ¼r Deep Learning. Aber sonst ist R viel besser als Python.

Ich entwickle auf Hadoop-Cluster laufende Applikationen, deswegen schreibe ich oft Python-Codes. Aber fÃ¼r Analyse von verarbeiteten Daten benutze ich normalerweise R.

Welche Programmiersprache man zum ersten Mal lernen soll.

Ich bin Ã¼berzeugt davon, dass alle Data Scientists sowohl Python als auch R beherrschen sollen. Das liegt daran, dass die beiden Programmiersprachen relative einfach sind, solange man Daten analysiert. (Ein normale Software-Entwicklung ist ganz anderes.)

Aber wenn man wenig oder keine Kenntnisse auf eine Programmiersprache hat aber Daten analysieren wollte, empfehle ich R sehr. Wenn man strukturierte Daten hat, ist R wirklich angenehm (im Gegensatz zu Python) und das ist normalerweise der Fall, wenn man Daten-Analyse lernt.

DarÃ¼ber hinaus ist es sehr einfach, eine Entwicklungsumgebung fÃ¼r R zu installieren. R, RStudio, nÃ¶tige Bibliotheken (dplyr, ggplot2, data.table, caret, mlr, ...). Der Installationsprozesse ist nicht abhÃ¤ngig vom Betriebssystem. Die Umgebung ist auch nicht. Das ist ein groÃŸer Vorteil fÃ¼r einen AnfÃ¤nger. AuÃŸerdem gibt es sehr viel Lernmaterialien fÃ¼r Datenanalyse mit R. Wie ich oben geschrieben habe, sind die R-Bibliotheken fÃ¼r Datenanalyse ausgezeichnet.

Fazit

Wenn es um die Datenanalyse (von strukturierten Daten) geht, ist R immer besser als Python. Vor allem fÃ¼r Visualisierung gibt es keinen Grund dafÃ¼r, Python auszuwÃ¤hlen. Aber wenn die Daten unstrukturiert sind, kann es viel bequem sein, mit Python Daten zu analysieren.

Share this page on

Categories: #data-mining