R-Logo im Wald (c) StefanKapeller Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International Lizenz.

22 Jun Fünf Gründe für Biologinnen und Biologen R zu lernen – und fünf Gründe es nicht zu tun

R in der Biologie – nicht nur für die Statistik

R ist eine statistische Software für Datenanalyse und Datenvisualisierung. Im Wissenschaftsbetrieb wird R universell für Datenauswertungen aller Art eingesetzt. An den meisten Universitäten wird R in Statistik-Kursen gelehrt. Aber auch die Privatwirtschaft interessiert sich zunehmend dafür. R kommt überall zum Einsatz, wo Daten gewonnen und ausgewertet werden. Nun stellen sich viele die Frage: Lohnt es sich für mich, R zu lernen?

Software für Datenanalyse und Anzahl entsprechender Stellenangebote. Details zur Grafik und weitere Vergleiche finden Sie auf r4stats.com, dem Blog von Bob Muenchen © Bob Muenchen.

Abb. 1 Software für Datenanalyse und Anzahl entsprechender Stellenangebote. Details zur Grafik und weitere Vergleiche finden Sie auf r4stats.com, dem Blog von Bob Muenchen © Bob Muenchen.

R ist flexibel und eignet sich für fast jede Aufgabe der Datenverarbeitung. Insbesonders überzeugt es bei der Erstellung statistischer Grafiken. Aufgrund seiner Flexibilität kommt R nicht nur im Bereich der Wissenschaft zum Einsatz sondern ist auch in der Wirtschaft in vielen Branchen gefragt. Das spiegelt sich nicht zuletzt in Stellenausschreibungen wider. Grundkenntnisse in R werden für immer mehr Jobs vorausgesetzt (siehe Abb. 1).

Eine Zeitfrage: Soll ich R lernen?

Tolle Sache, dieses R. Neueinsteiger sollten allerdings bedenken: R zu lernen kostet Zeit, speziell zu Beginn und besonders für Leute ohne Programmiererfahrung. Es kann etwas dauern bis man sich im Workflow mit Scripts, Editor und Konsole zurechtzufindet. R bietet kaum Buttons und Auswahlmenüs wie Windows-User es gewohnt sind. Es kann für Anfänger mitunter Wochen oder Monate dauern, bis man ein brauchbares statistisches Modell oder eine druckreife Grafik erstellen kann. Eingefleischte R-Fans entgegnen an dieser Stelle natürlich, der Aufwand würde sich lohnen. Die etwas steile Lernkurve mag abschreckend wirken. Wenn man sie sich aber erst einmal eingearbeitet hat winken als Belohnung eine Vielzahl an Möglichkeiten für die professionelle Datenverarbeitung und für eindrucksvolle Visualisierungen. So die Hoffnung …

Neulinge stellen sich dennoch die berechtigte Frage: Soll ich auf den R-Zug aufspringen? Lohnt es sich für mich,  Zeit in R zu investieren? Oder erreiche ich mit alternativen Softwarelösungen schneller mein Ziel?

Alternativen für die Wald- und Wiesenstatistik

R ist die All-In-One Programmierumgebung für die professionelle Datenanalyse. Es knackt alle Aufgaben am Weg von den Rohdaten bis zur druckreifen Publikation. Natürlich gibt es alternative Produkte, die R teilweise ersetzen oder ergänzen können.
Im Bereich der reinen Tabellenkalkulation bietet sich natürlich das allbekannte Microsoft Excel an. Die quelloffene Alternative Calc (LibreOffice-Paket) ist für einen ersten Blick auf einen Datensatz ebenfalls sehr nützlich, für komplexere Analysen sind Excel und Calc keine echte Alternative zu R. Im Revier der fortgeschrittenen Statistik sind SPSS, Statistica von Statsoft, Stata und SAS neben R die Platzhirsche. Für Simulationen, Modellierungen oder komplexe Manipulationen großer Datenmengen, lohnt es sich möglicherweise, Zeit in Programmiersprachen wie Python, Java oder C/C++ zu investieren. Bob Muenchen gibt in seinem ausgezeichneten Blog r4stats.com einen regelmäßig aktualisierten Überblick über die Marktanteile einer längeren Liste von Software für Datenanalyse.

5 Gründe für Biologen und Biologinnen R zu lernen

  1. Flexibilität: R ist eine All-in-One-Solution für alle Aufgabenbereiche, die im Zusammenhang mit Datenanalyse stehen. Keine weitere Software von Nöten.
    R ist somit eine gute Wahl sowohl für WissenschaftlerInnen, die komplizierte, statistische Modelle erstellen, als auch für freischaffende BiologInnen, die Geschäftszahlen oder Ergebnisse für einen Projektbericht darstellen möchten. Mitunter greifen auch Journalisten zunehmend auf R zurück, wenn sie in Datensätze nach spannenden Geschichten suchen.
  2. Community: Die „Online-Gemeinschaft“ von R zeichnet sich als aktiv und hilfsbereit aus. Für die meisten Probleme reicht in der Regel eine kurze Webrecherche, um Lösungen zu finden. Probleme tauchen beim Erlernen jeder Software auf; garantiert auch bei R. Wer mit R arbeitet, verbringt 30 Prozent der Arbeitszeit in Foren (grobe Expertenschätzung).
  3. Grafik: Wer schöne Visualisierungen und statistische Darstellungen produzieren möchte, liegt mit R goldrichtig. Die Funktionen der R Grundinstallation liefern bereits hervorragende Ergebnisse. Die Zusatzpakete lattice oder ggplot2 erweitern die Palette grafischer Möglichkeiten zusätzlich. Diese beiden Pakete leisten besonders gute Dienste bei multifaktoriellen und verschachtelten Daten. Ein paar (nicht ausschließlich exzellente) Eindrücke bieten zB diesediese und diese Seite.
  4. Aktualität: R wächst stetig an allen Ecken und Enden. Die aktive Community treibt die Software-Entwicklung rasch voran. Somit sind neue Analysetechniken und moderne Visualisierungsmethoden sofort in Form eines entsprechenden Erweiterungs-Paketes für R erhältlich.
  5. Open-Source: Alle genannten Gründe sind letztlich darauf zurückzuführen, dass R ein Open-Source-Produkt ist. Das heißt, der Quellcode ist offen und einsehbar. Somit können alle, die das möchten, R herunterladen, vervielfältigen und verändern (in geregelten Bahnen). Dadurch können Fehler oder Unzulänglichkeiten im Programmcode rasch entdeckt und korrigiert werden. Es bedeutet außerdem, dass R kostenlos zum Download bereitsteht. Ein starkes Argument – nicht nur für Universitäten, sondern auch für freie BiologInnen, für Schulen, … für alle.

Hört sich gut an. Sollen sich nun alle Biologinnen und Biologen sofort in die R-Sprache einarbeiten? Statistikerinnen und Statistiker, oder Bioinformatikerinnen und Bioinformatiker werden sich die Frage kaum stellen – die kommen sowieso nicht um R herum. Wie aber sieht es aus mit „Wald- und Wiesenstatistikerinnen und -statistikern“? Leute, deren Hauptinteresse nicht in der statistischen Programmierung liegt, aber R trotzdem für gelegentliche Datenauswertungen nutzen möchten? Sich in R einzuarbeiten, ist nicht gerade der Weg des geringsten Widerstandes. Es erfordert schon eine beträchtliche Zeitinvestition. Sollten zwei oder drei der folgenden Punkte zutreffen, lohnt sich dieser Zeitaufwand vermutlich nicht.

5 Gründe für Biologinnen und Biologen R nicht zu lernen

  1. Wenn R den Taschenrechner ersetzen soll. Wenn es nur darum geht, Spaltensummen und Mittelwerte zu berechnen, reicht ein Tabellenkalkulationsprogramm wie Excel oder Calc von LibreOffice völlig aus.
  2. Wenn R selten benutzt wird. Wer nur für einen Jahresbericht einige Balkendiagramme oder alle paar Monate einfache Auswertungen benötigt, vergisst in R von einem Einsatz zum nächsten alle Befehle und Funktionen. Nur wenn regelmäßig mit R gearbeitet wird, kann man den notwendigen Grundstock an Funktionen erlernen und behalten.
  3. Wenn Ergebnisse auf Knopfdruck gewünscht werden. R-Beginner merken schnell: Es gibt keine rasche Lösung. Niemals. Die Programmierumgebung zwingt den Benutzer oder die Benutzerin, sich näher mit einzelnen Rechenschritten und Methoden zu beschäftigen. Ein „Herumprobieren“, wie auf grafischen Benutzeroberflächen, ist entgegen vielfacher Behauptungen in R genauso möglich wie in SPSS. Allerdings erfordert alleine das Nachschlagen der richtigen Syntax und der Funktionsparameter ein Mindestmaß an Auseinandersetzung mit der gewünschten Analyse.
  4. Wenn am Arbeitsplatz, der Branche oder der Forschungsgruppe niemand sonst mit R arbeitet. Sich alleine in R einzuarbeiten ist löblich und auch gut möglich. Es kann aber frustrieren, wenn man sich nicht austauschen kann und man den eigenen, innovativen Lösungsansatz nicht stolz anderen präsentieren kann. Wie bei allen Dingen, fördert der Informationsaustausch mit Kolleginnen und Kollegen die Motivation. Das kann die aktive Online-Community nur bedingt ausgleichen. ;)
  5. Wenn Standard-Lösungen und Grafiken ausreichen. Für einfache Linien- und Punktdiagramm liefert Excel seit einigen Jahren wirklich brauchbare Ergebnisse. Wer damit auskommt und zufrieden ist muss sich nicht in R einarbeiten. Wenn nicht das Interesse oder die Zeit nicht vorhanden ist, sich mit Details von Funktionen zu beschäftigen und sich selbst eine individuelle Lösung zu erarbeiten, dann wird die Arbeit mit R eher in Frust enden, als dem befriedigenden Gefühl etwas Neues geschafft und gelernt zu haben.

Fazit: Wer Lust hat, neue Methoden zu erlernen, und Geduld und Ausdauer mitbringt, ist mit R gut beraten. Es gibt unzählige Online-Ressourcen, um in R reinzuschnuppern (zB hier oder hier). Einfach ausprobieren! Wer Lust hätte, aber keine Zeit: Tja, wie soll ich da helfen? Und wer Zeit, aber keine Lust hat: Hmm, dann hat sich das wohl erübrigt.

 

Facebooktwittertumblr
twitterrss
Keine Kommentare

Kommentar hinterlassen

*