[2]{.chapter-number}  [Statistische Programmierung mit R]{.chapter-title}

2 Statistische Programmierung mit R

Hinweis

Für eine optimale technische Stabilität empfehlen wir, dieses Online-Lehrbuch auf einem Notebook oder Desktop-Computer zu nutzen. Die interaktiven Komponente, insbesondere die R-Konsole (WebR), sind rechenintensiv und funktionieren auf mobilen Geräten nur eingeschränkt.

── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.4     ✔ readr     2.1.5
✔ forcats   1.0.0     ✔ stringr   1.5.1
✔ ggplot2   3.5.1     ✔ tibble    3.2.1
✔ lubridate 1.9.3     ✔ tidyr     1.3.1
✔ purrr     1.0.2     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

Attaching package: 'kableExtra'


The following object is masked from 'package:dplyr':

    group_rows

Warning: package 'modelsummary' was built under R version 4.3.3

`modelsummary` 2.0.0 now uses `tinytable` as its default table-drawing
  backend. Learn more at: https://vincentarelbundock.github.io/tinytable/

Revert to `kableExtra` for one session:

  options(modelsummary_factory_default = 'kableExtra')
  options(modelsummary_factory_latex = 'kableExtra')
  options(modelsummary_factory_html = 'kableExtra')

Silence this message forever:

  config_modelsummary(startup_message = FALSE)

Warning: package 'gt' was built under R version 4.3.3

Dieses Kapitel ist nicht als umfassende Einführung in R konzipiert, sondern behandelt Kernfunktionen aus der Paketsammlung tidyverse. Wenngleich die Inhalte deutlich über ein Hallo-Welt-Beispiel¹ hinausgehen, betrachten wir hier grundlegende Funktionen für Datenmanipulation und Visualisierung unter dem Paradigma Funktionale Programmierung, mit einem starken Fokus auf Pipelines und Transformationen von Datenstrukturen. Diese Grundlagen sind Voraussetzung für das Verständnis fortgeschrittener Code-Bausteine in späteren Kapiteln. Falls Sie bereits über Grundkenntnisse im Umgang mit dem tidyverse verfügen, können Sie dieses Kapitel überspringen. Sollten Sie nicht oder nur teilweise mit den hier gezeigten Befehlen vertraut sein oder keinerlei Erfahrung mit R haben, empfiehlt sich vorab eine Erarbeitung bzw. Wiederholung dieser Inhalte. Nachstehende Ressourcen finden wir über dieses Kapitel hinaus hilfreich:

¹ https://de.wikipedia.org/wiki/Hallo-Welt-Programm

Feedbackgestützte interaktive Übungsaufgaben bei DataCamp², bspw.
Open-Source-Literatur wie
- der umfangreiche Leitfaden von Ellis und Mayer (2023)
- R for Data Science
- Hands-On Programming with R
Advanced R vertieft wichtige Programmierkonzepte und bietet einen umfassenden Einblick in die Funktionsweise von R. Das Buch richtet sich an erfahrenere R-Nutzer, kann jedoch auch für (Quer)Einsteiger*innen ein hilfreiches Nachschlagewerk sein.

² Der überwiegende Teil des angebotenen Katalogs (exklusive Einführung in R!) ist kostenpflichtig.

2.1 tidyverse

tidyverse ist eine Sammlung von R-Paketen, die für Datenmanipulation, -analyse und -visualisierung entwickelt wurden, und einen konsistenten, benutzerfreundlichen und funktionalen Programmierstil fördern. Im Fokus der bereitgestellten Funktionen sind saubere, strukturierte und reproduzierbare Data-Science-Workflows.

Wir laden zunächst die Paketsammlung tidyverse in R. Für die Reproduktion mit dem R GUI oder mit RStudio muss das Paket vorab mit install.packages() installiert werden. In den interaktiven R-Konsolen in diesem Kapitel (und im Rest des Buchs) sind die benötigten R-Pakete bereits installiert und geladen, sofern nicht anders beschrieben.

# Paket tidyverse installieren
# install.packages("tidyverse")

# Paket 'tidyverse' laden
library(tidyverse)

Für das Verständnis von Code-Chunks ist es hilfreich, Zwischenergebnisse explizit zu evaluieren und in der Konsole auszugeben. Hierfür umschließen wir häufig Code-Zeilen mit runden Klammern. Der nächste Chunk illustriert dies für die Variable x.

2.1.1 Lange, weite und “tidy” Datenformate

Wir betrachten den in Tabelle 2.1 dargestellten Datensatz Klausurergebnisse.

Name	Mikro	Makro	Mathe
Tim	NA	1.3	3
Lena	1	3	NA
Ricarda	2	1.7	1.3
Simon	2.3	3.3	NA

Tabelle 2.1: Datensatz Klausurergebnisse

Der Datensatz ist noch nicht in der R-Arbeitsumgebung verfügbar. Mit der Funktion tribble() können wir Tabelle 2.1 händisch als R-Objekt der Klasse tibble definieren

klausurergebnisse enthält die Klausurnoten der vier Studierenden (Beobachtungen) spaltenweise pro Modul, d.h. die Spaltennamen Mikro, Makro und Mathe sind Ausprägungen der Variable Modul. Der Datensatz liegt also nicht im sog. Tidy-Format vor.

Tidy-Format

Tidy-Format: Jede Spalte ist eine Variable, jede Reihe ist eine Beobachtung und jede Zelle enthält einen einen Wert. Datensätze im Tidy-Format sind häufig lang: Die Zeilendimension ist größer als die Spaltendimension.

Das Tidy-Format ist hilfreich für statistische Analysen mit tidyverse-Funktionen wie bspw. ggplot(). Wir nutzen die Funktion tidyr::pivot_longer(), um klausurergebnisse ein (langes) Tidy-Format zu transformieren.

Beachte, dass die Spalte Name die Zugehörigkeit der Ausprägungen (Note) jeder Variable (Modul) zu einer Beobachtung identifiziert. Mit dieser Information können wir den langen Datensatz wieder in das ursprüngliche (weite) Format zurückführen. Wir nutzen hierzu tidyr::pivot_wider().

Wenn die Zuweisung von Zwischenergebnissen in Variablen nicht benötigt wird, kann eine Verkettung von Funktionsaufrufen die Verständlichkeit des Codes verbessern. Hierzu wird der Pipe-Operator %>% genutzt. Wir wiederholen die Transformationen mit den tidyr::pivot_*-Funktion bei Verwendung von %>%.

Ein Beispiel für den Nachteil des weiten Formats im Umgang mit tidyverse-Paketen ist die Funktion tidyr::drop_na(). Diese entfernt sämtliche Zeilen eines Datensatzes, die NA-Einträge (d.h. fehlende Werte) aufweisen. Beachte, dass diese Operation im ursprünglichen weiten Format zum Entfernen ganzer Beobachtungen aus wide führt.

Im Tidy-Format long hingegen bleiben die übrigen Informationen betroffener Beobachtungen erhalten.

2.1.2 Pinguine und Pipes

In diesem Abschnitt zeigen wir die Verwendung häufig verwendeter dplyr-Funktionen (s.g. Verben) für die Transformation von Datensätzen: mutate(), select(), filter(),summarise() und arrange().

Für die Illustration verwenden wir den Datensatz penguins aus dem R-Paket palmerpenguins. Dieser Datensatz wurde im Zeitraum 2007 bis 2009 von Dr. Kristen Gorman im Rahmen des Palmer Station Long Term Ecological Research Program zusammengetragen und enthält Größenmessungen für drei Pinguinarten, die auf den Inseln des Palmer-Archipels in der Antarktis beobachtet wurden.

# Paket 'palmerpenguins' installieren
# install.packages("palmerpenguins")

# Paket 'palmerpenguins' laden
library(palmerpenguins)

Mit data() wird der Datensatz in der Arbeitsumgebung verfügbar gemacht. Wir nutzen glimpse(), um einen Überblick zu erhalten.

2.1.2.1 `dplyr::mutate()`

Mit mutate() können bestehende Variablen überschrieben oder neue Variablen als Funktion bestehender Variablen definiert werden. mutate() operiert in der Spaltendimension des Datensatz.

Wir definieren eine neue Variable body_mass_kg als Transformation body_mass_g/1000.

Mit across() kann die dieselbe Operation auf mehrere Variablen angewendet werden.

Im nachstehenden Beispiel ändern wir den Typ (type) der Variablen species, island, sex und year zu character.

transmute() ist eine Variante von mutate(), die lediglich die transformierten Variablen beibehält.

2.1.2.2 `dplyr::select()`

Mit select() werden Variablen aus dem Datensatz ausgewählt. Dies geschieht entweder über den Variablennamen…

… oder über eine Indexmenge.³

³ Hilfreich: dplyr::pull() selektiert eine Variable und wandelt diese in einen Vektor um.

Variablen können anhand eines Muster im Namen selektiert werden. Die Selektion von ends_with("mm") bezieht nur Variablen mit Endung mm im Namen ein:

Mit where() können wir Variablen aufgrund bestimmter Eigenschaften ihrer Ausprägungen selektieren.

2.1.2.3 `dplyr::filter()`

Das Verb filter() filtert den Datensatz in der Zeilendimension. So können Beobachtungen ausgewält werden, deren Merkmalsausprägungen bestimmte Kriterien erfüllen. Hierzu muss filter() ein logischer (logical) Ausdruck übergeben werden. Häufig erfolgt dies über Vergleichsoperatoren.

Oft ist es praktisch, mehrere Kriterien zu kombinieren.

Analog: komma-getrennte Kriterien werden intern über den Und-Operator (&) verknüpft.

Ähnlich wie bei select() verwenden wir häufig nützliche Funktionen, welche die Interpretation des Codes erleichtern. dplyr::between() erlaubt filtern innerhalb eines Intervalls.

Mit diesen Verben sind wir bereits in der Lage, den Datensatz gemäß folgender Vorschrift zu bereinigen:

Entfernen der Maßeinheiten aus den Variablennamen
Entfernen von Pinguinen mit fehlenden Werten (NA)
Entfernen von Pinguinen mit einem Gewicht oberhalb des 95%-Stichprobenquantils

Durch die Verkettung mit %>% können wir sämtliche Schritte für die Bereinigung ohne das Abspeichern von Zwischenergebnissen durchführen.

2.1.2.4 `dplyr::summarise()`

Das Verb summarise() fasst Variablen über Beobachtungen hinweg zusammen. Der nachstehende Code-Chunk erzeugt eine Tabelle mit Stichprobenmittelwert und -standardabweichung von flipper_length_mm.⁴ Um zu vermeiden, dass die Auswertung aufgrund fehlender Werte (NA) in flipper_length_mm scheitert, lassen wir NAs mit na.rm = TRUE bei der Berechnung unberücksichtigt (wir verwenden weiterhin den unbereinigten Datensatz penguins).

⁴ dplyr::summarise() darf nicht mit base::summary() verwechselt werden!

Varianten von summarise() können über mehrere Variablen angewendet werden. Wir verwenden across() und where(), um lediglich numerische Variablen mit den in der liste definierten Funktionen zusammenzufassen. Beachte, dass \(x) mean(x) eine anonyme Funktion definiert.

2.1.2.5 `dplyr::arrange()`

Mit arrange() können Datensätze in Abhängigkeit der beobachteten Ausprägungen von Variablen sortiert werden.

Die Funktion dplyr::desc() kehrt die Reihenfolge zu einer absteigenden Sortierung um.

Komplexe Sortier-Muster werden durch Übergabe von Variablennamen in der gewünschten Reihenfolge erreicht.

2.1.2.6 Operationen mit gruppierten Datensätzen

Für manche Transformationen ist eine Gruppierung der Daten hilfreich. Wir illustrieren nachfolgend die unterschiedlichen Verhaltensweisen ausgewählter Verben durch Vergleiche von gruppierten und nicht-gruppierten Anwendungen.

species hat drei Ausprägungen. Entsprechend ist penguins_grouped nun in drei Gruppen eingeteilt.

Bei gruppierten Datensätzen fasst summarise() die Variablen pro Guppe zusammen.

mutate() definiert bzw. transformiert für jede Gruppe separat. Im dies zu veranschaulichen, ziehen wir eine Zufallsstichprobe von 10 Pinguinen aus der Datensatz.

Für den ungruppierten Datensatz berechnet mutate() das Stichprobenmittel von bill_length_mm über alle zehn Datenpunkte und weist diesen Wert jeweils in der Variable mean zu.

Bei gruppierten Daten berechnet mutate() das Stichprobenmittel pro Gruppe und weist die Mittelwerte entsprechend zu.

2.1.3 Eine explorative Analyse mit ggplot2

Der bereinigte Datensatz penguins_cleaned eignet sich gut für eine graphische Auswertung mit dem R-Paket ggplot2, welches Bestandteil des tidyverse ist. Nachfolgend untersuchen wir Zusammenhänge zwischen den Körpermaßen der Pinguine.

Wir erstellen zunächst einen einfachen Punkteplot des Gewichts (body_mass) und der Schnabeltiefe (bill_depth).

Die Grafik zeigt einen positiven Zusammenhang zwischen dem Gewicht und der Schnabeltiefe. Als nächstes passen wir den Code so an, dass die Datenpunkte entsprechend der Art (species) eingefärbt sind.

Offenbar gibt es deutliche Unterschiede in der (gemeinsamen) Verteilung von Gewicht und Schnabeltiefe zwischen den verschiedenen Arten.

Um den Zusammenhang zwischen Gewicht und Schnabeltiefe zu untersuchen, schätzen wir lineare Regressionen \[body\_mass = \beta_0 + \beta_1 bill\_depth + u\] separat für jede der drei Pinguinarten mit der KQ-Methode. Anschließend zeichnen wir die geschätzten Regressionsgeraden ein.

Die Schätzungen bekräftigen die Vermutung, dass der lineare Zusammenhang zwischen Gewicht und Schnabeltiefe sich nicht zwischen den verschiedenen Pinguinarten unterscheidet: Pinguine der Art Gentoo sind im Mittel schwerer als Pinguine der übrigen Arten, haben jedoch eine geringere Schnabeltiefe.

Der nachfolgende Code fügt der Grafik eine Regressionslinie über alle Arten hinzu. Wir setzen hierbei das Argument inherit_aes = FALSE und legen damit fest, dass die Regression für body_mass und bill_depth ohne Differenzierung per species durchgeführt wird.

Offenbar ist die vorherige Analyse per Spezies sinnvoller: Die Regression über alle Arten suggeriert einen negativen Zusammenhang zwischen Gewicht und Schnabeltiefe.

Facetting mit facet_wrap() erlaubt eine Untersuchung des Zusammenhangs je Insel (island), auf der die Messung erfolgt ist.

Wir sehen, dass es hinsichtlich des Zusammenhangs von Gewicht und Schnabeltiefe keine wesentlichen Diskrepanzen zwischen den drei Inseln gibt. Darüber hinaus lässt sich anhand der Facetten leicht erkennen, wie die drei Arten über die Inseln verteilt sind.

--- webr: show-startup-message: true packages: [ 'broom', 'cowplot', 'dplyr', 'ggplot2', 'palmerpenguins', 'tidyr', 'readr' ] cell-options: editor-font-scale: .85 autorun: true --- # Statistische Programmierung mit R ```{r} #| results: "asis" #| echo: false library(tidyverse) library(kableExtra) library(modelsummary) library(gt) # Formatierung von gt-Tabellen tabopts <- function(x) { fmt_number(x, decimals = 3, drop_trailing_zeros = T) %>% tab_options( # general table.width = "80%", # fonts table.font.color = "black", table.font.size = 16, column_labels.font.weight = "bold", # table header column_labels.padding = 15, column_labels.border.bottom.color = "black", column_labels.border.bottom.width = "1px", column_labels.border.top.color = "black", # group labels row_group.border.top.width = 0, row_group.border.bottom.width = 0, row_group.font.weight = "bold", row_group.padding = 20, # body table_body.hlines.width = 0, table_body.border.bottom.color = "black", table_body.border.bottom.width = "1px", table_body.border.top.width = "0px", table.border.bottom.color = "black" ) } ``` Dieses Kapitel ist *nicht* als umfassende Einführung in R konzipiert, sondern behandelt Kernfunktionen aus der Paketsammlung [*tidyverse*](https://www.tidyverse.org). Wenngleich die Inhalte deutlich über ein Hallo-Welt-Beispiel^[https://de.wikipedia.org/wiki/Hallo-Welt-Programm] hinausgehen, betrachten wir hier grundlegende Funktionen für Datenmanipulation und Visualisierung unter dem Paradigma [*Funktionale Programmierung*](http://adv-r.had.co.nz/Functional-programming.html), mit einem starken Fokus auf Pipelines und Transformationen von Datenstrukturen. Diese Grundlagen sind Voraussetzung für das Verständnis fortgeschrittener Code-Bausteine in späteren Kapiteln. Falls Sie bereits über Grundkenntnisse im Umgang mit dem *tidyverse* verfügen, können Sie dieses Kapitel überspringen. Sollten Sie nicht oder nur teilweise mit den hier gezeigten Befehlen vertraut sein oder keinerlei Erfahrung mit R haben, empfiehlt sich vorab eine Erarbeitung bzw. Wiederholung dieser Inhalte. Nachstehende Ressourcen finden wir über dieses Kapitel hinaus hilfreich: - Feedbackgestützte interaktive Übungsaufgaben bei DataCamp^[Der überwiegende Teil des angebotenen Katalogs (exklusive *Einführung in R*!) ist kostenpflichtig.], bspw. - [Einführung in R](https://campus.datacamp.com/courses/einfuhrung-in-r/) - [Introduction to Data Visualization with ggplot2](https://www.datacamp.com/courses/introduction-to-data-visualization-with-ggplot2) - [Data Manipulation with dplyr](https://www.datacamp.com/courses/data-manipulation-with-dplyr) - Open-Source-Literatur wie - der umfangreiche Leitfaden von [Ellis und Mayer (2023)](https://methodenlehre.github.io/einfuehrung-in-R/) - [R for Data Science](https://r4ds.hadley.nz/) - [Hands-On Programming with R](https://rstudio-education.github.io/hopr/) - [Advanced R](http://adv-r.had.co.nz) vertieft wichtige Programmierkonzepte und bietet einen umfassenden Einblick in die Funktionsweise von R. Das Buch richtet sich an erfahrenere R-Nutzer, kann jedoch auch für (Quer)Einsteiger*innen ein hilfreiches Nachschlagewerk sein. ## tidyverse *tidyverse* ist eine Sammlung von R-Paketen, die für Datenmanipulation, -analyse und -visualisierung entwickelt wurden, und einen konsistenten, benutzerfreundlichen und funktionalen Programmierstil fördern. Im Fokus der bereitgestellten Funktionen sind saubere, strukturierte und reproduzierbare Data-Science-Workflows. Wir laden zunächst die Paketsammlung `tidyverse` in R. Für die Reproduktion mit dem [R GUI](https://www.r-project.org/) oder mit [RStudio](https://posit.co/download/rstudio-desktop/) muss das Paket vorab mit `install.packages()` installiert werden. In den interaktiven R-Konsolen in diesem Kapitel (und im Rest des Buchs) sind die benötigten R-Pakete bereits installiert *und* geladen, sofern nicht anders beschrieben. ```{r} # Paket tidyverse installieren # install.packages("tidyverse") # Paket 'tidyverse' laden library(tidyverse) ``` Für das Verständnis von Code-Chunks ist es hilfreich, Zwischenergebnisse explizit zu evaluieren und in der Konsole auszugeben. Hierfür umschließen wir häufig Code-Zeilen mit runden Klammern. Der nächste Chunk illustriert dies für die Variable `x`. ```{webr-r} # Variable definieren... x <- pi # ... und evaluieren x # Äquivalent: ( x <- pi ) ``` ### Lange, weite und "tidy" Datenformate Wir betrachten den in @tbl-Klausurergebnisse dargestellten Datensatz *Klausurergebnisse*. ```{r, echo=F, eval = T} #| tbl-cap: "Datensatz *Klausurergebnisse*" #| label: tbl-Klausurergebnisse klausurergebnisse <- tribble( ~Name, ~Mikro, ~Makro, ~Mathe, "Tim", NA, 1.3, 3.0, "Lena", 1.0, 3.0, NA, "Ricarda", 2.0, 1.7, 1.3, "Simon", 2.3, 3.3, NA ) gt(klausurergebnisse) %>% tabopts() ``` Der Datensatz ist noch nicht in der R-Arbeitsumgebung verfügbar. Mit der Funktion `tribble()` können wir @tbl-Klausurergebnisse händisch als R-Objekt der Klasse `tibble` definieren ```{webr-r} # 'klausurergebnisse' als tibble definieren ( klausurergebnisse <- tribble( ~Name, ~Mikro, ~Makro, ~Mathe, "Tim", NA, 1.3, 3.0, "Lena", 1.0, 3.0, NA, "Ricarda", 2.0, 1.7, 1.3, "Simon", 2.3, 3.3, NA ) ) ``` `klausurergebnisse` enthält die Klausurnoten der vier Studierenden (Beobachtungen) spaltenweise *pro Modul*, d.h. die Spaltennamen `Mikro`, `Makro` und `Mathe` sind Ausprägungen der Variable *Modul*. Der Datensatz liegt also *nicht* im sog. *Tidy-Format* vor. ::: {.callout-tip} ## Tidy-Format Tidy-Format: Jede Spalte ist ***eine*** Variable, jede Reihe ist ***eine*** Beobachtung und jede Zelle enthält einen ***einen*** Wert. Datensätze im Tidy-Format sind häufig lang: Die Zeilendimension ist größer als die Spaltendimension. ::: Das Tidy-Format ist hilfreich für statistische Analysen mit `tidyverse`-Funktionen wie bspw. `ggplot()`. Wir nutzen die Funktion `tidyr::pivot_longer()`, um `klausurergebnisse` ein (langes) Tidy-Format zu transformieren. ```{webr-r} # 'klausurergebnisse' in Tidy-Format überführen ( long <- pivot_longer( data = klausurergebnisse, cols = Mikro:Mathe, names_to = "Modul", values_to = "Note" ) ) ``` Beachte, dass die Spalte `Name` die Zugehörigkeit der Ausprägungen (`Note`) jeder Variable (`Modul`) zu einer Beobachtung identifiziert. Mit dieser Information können wir den langen Datensatz wieder in das ursprüngliche (weite) Format zurückführen. Wir nutzen hierzu `tidyr::pivot_wider()`. ```{webr-r} # langes Format in das Ausgangsformat transformieren ( wide <- long %>% pivot_wider( id_cols = "Name", names_from = "Modul", values_from = "Note" ) ) ``` Wenn die Zuweisung von Zwischenergebnissen in Variablen nicht benötigt wird, kann eine Verkettung von Funktionsaufrufen die Verständlichkeit des Codes verbessern. Hierzu wird der [Pipe-Operator](https://magrittr.tidyverse.org/reference/pipe.html) `%>%` genutzt. Wir wiederholen die Transformationen mit den `tidyr::pivot_*`-Funktion bei Verwendung von `%>%`. ```{webr-r} # langes Format mit %>% ( long <- klausurergebnisse %>% pivot_longer( cols = Mikro:Mathe, names_to = "Modul", values_to = "Note" ) ) # weites Format mit %>% ( wide <- long %>% pivot_wider( id_cols = "Name", names_from = "Modul", values_from = "Note" ) ) ``` Ein Beispiel für den Nachteil des weiten Formats im Umgang mit `tidyverse`-Paketen ist die Funktion `tidyr::drop_na()`. Diese entfernt sämtliche *Zeilen* eines Datensatzes, die `NA`-Einträge (d.h. fehlende Werte) aufweisen. Beachte, dass diese Operation im ursprünglichen weiten Format zum Entfernen ganzer Beobachtungen aus `wide` führt. ```{webr-r} # NA-Einträge aus dem "weiten" Format entfernen wide %>% drop_na() ``` Im Tidy-Format `long` hingegen bleiben die übrigen Informationen betroffener Beobachtungen erhalten. ```{webr-r} # NA-Einträge aus dem "langen" Format entfernen long %>% drop_na() ``` ### Pinguine und Pipes {#sec-pp} In diesem Abschnitt zeigen wir die Verwendung häufig verwendeter `dplyr`-Funktionen (s.g. *Verben*) für die Transformation von Datensätzen: `mutate()`, `select()`, `filter()`,` summarise()` und `arrange()`. Für die Illustration verwenden wir den Datensatz `penguins` aus dem R-Paket `palmerpenguins`. Dieser Datensatz wurde im Zeitraum 2007 bis 2009 von Dr. Kristen Gorman im Rahmen des *Palmer Station Long Term Ecological Research Program* zusammengetragen und enthält Größenmessungen für drei Pinguinarten, die auf den Inseln des [Palmer-Archipels](https://en.wikipedia.org/wiki/Palmer_Archipelago) in der Antarktis beobachtet wurden. ```{r} # Paket 'palmerpenguins' installieren # install.packages("palmerpenguins") # Paket 'palmerpenguins' laden library(palmerpenguins) ``` Mit `data()` wird der Datensatz in der Arbeitsumgebung verfügbar gemacht. Wir nutzen `glimpse()`, um einen Überblick zu erhalten. ```{webr-r} # Datensatz in der Arbeitsumgebung verfügbar machen data(penguins) # Übersicht anzeigen lassen glimpse(penguins) ``` #### `dplyr::mutate()` Mit `mutate()` können bestehende Variablen überschrieben oder neue Variablen als Funktion bestehender Variablen definiert werden. `mutate()` operiert in der Spaltendimension des Datensatz. Wir definieren eine neue Variable `body_mass_kg` als Transformation `body_mass_g/1000`. ```{webr-r} # Neue Variable mit Gewicht in Kg definieren penguins %>% mutate( body_mass_kg = body_mass_g/1000 ) %>% glimpse() ``` Mit `across()` kann die dieselbe Operation auf mehrere Variablen angewendet werden. Im nachstehenden Beispiel ändern wir den Typ (`type`) der Variablen `species`, `island`, `sex` und `year` zu `character`. ```{webr-r} # species, island, sex und year in Typ 'character' umwandeln penguins %>% mutate( across( c(species, island, sex, year), .fns = as.character ) ) %>% glimpse() ``` `transmute()` ist eine Variante von `mutate()`, die lediglich die transformierten Variablen beibehält. ```{webr-r} # Nur transformierte Variablen behalten penguins %>% transmute( body_mass_kg = body_mass_g/1000 ) ``` #### `dplyr::select()` Mit `select()` werden Variablen aus dem Datensatz ausgewählt. Dies geschieht entweder über den Variablennamen... ```{webr-r} # 'species' auswählen penguins %>% select(species) ``` ... oder über eine Indexmenge.^[Hilfreich: `dplyr::pull()` selektiert eine Variable und wandelt diese in einen Vektor um.] ```{webr-r} # Teilmenge von Variablen per Index auswählen penguins %>% select( c(1, 2, 3) ) ``` Variablen können anhand eines Muster im Namen selektiert werden. Die Selektion von `ends_with("mm")` bezieht nur Variablen mit Endung `mm` im Namen ein: ```{webr-r} # Nur in mm gemessene Variablen auslesen penguins %>% select( ends_with("mm") ) ``` Mit `where()` können wir Variablen aufgrund bestimmter Eigenschaften ihrer Ausprägungen selektieren. ```{webr-r} # Nur numerische Variablen auswählen penguins %>% select( where(is.numeric) ) ``` #### `dplyr::filter()` Das Verb `filter()` filtert den Datensatz in der Zeilendimension. So können Beobachtungen ausgewält werden, deren Merkmalsausprägungen bestimmte Kriterien erfüllen. Hierzu muss `filter()` ein logischer (`logical`) Ausdruck übergeben werden. Häufig erfolgt dies über Vergleichsoperatoren. ```{webr-r} # Nur Pinguine mit bill_length_mm >= 39 penguins %>% filter( bill_length_mm >= 39 ) ``` ```{webr-r} # Nur Pinguine mit bill_length_mm <= 40 penguins %>% filter( bill_length_mm <= 40 ) ``` Oft ist es praktisch, mehrere Kriterien zu kombinieren. ```{webr-r} # Kombinierter Filter -- Variante 1 penguins %>% filter( bill_length_mm >= 39 & bill_length_mm <= 40 ) ``` Analog: komma-getrennte Kriterien werden intern über den Und-Operator (`&`) verknüpft. ```{webr-r} # Kombinierter Filter -- Variante 2 penguins %>% filter( bill_length_mm >= 39, bill_length_mm <= 40 ) ``` Ähnlich wie bei `select()` verwenden wir häufig nützliche Funktionen, welche die Interpretation des Codes erleichtern. `dplyr::between()` erlaubt filtern innerhalb eines Intervalls. ```{webr-r} # Filtern mit Hilfsfunktion penguins %>% filter( between( bill_length_mm, left = 39, right = 40 ) ) ``` Mit diesen Verben sind wir bereits in der Lage, den Datensatz gemäß folgender Vorschrift zu bereinigen: 1. Entfernen der Maßeinheiten aus den Variablennamen 2. Entfernen von Pinguinen mit fehlenden Werten (`NA`) 3. Entfernen von Pinguinen mit einem Gewicht *oberhalb* des 95\%-Stichprobenquantils ```{webr-r} # Schritt 1 ( penguins_cleaned <- penguins %>% rename( bill_length = bill_length_mm, bill_depth = bill_depth_mm, flipper_length = flipper_length_mm, body_mass = body_mass_g ) ) ``` ```{webr-r} # Schritt 2 ( penguins_cleaned <- penguins_cleaned %>% drop_na() ) ``` ```{webr-r} # Schritt 3 penguins_cleaned %>% filter( body_mass < quantile(body_mass, probs = .95) ) %>% glimpse() ``` Durch die Verkettung mit `%>%` können wir sämtliche Schritte für die Bereinigung ohne das Abspeichern von Zwischenergebnissen durchführen. ```{webr-r} # Verketteter Funktionsaufruf # für Datensatzbereinigung penguins_cleaned <- penguins %>% rename( bill_length = bill_length_mm, bill_depth = bill_depth_mm, flipper_length = flipper_length_mm, body_mass = body_mass_g ) %>% drop_na() %>% filter( body_mass < quantile(body_mass, .95) ) penguins_cleaned %>% glimpse() ``` #### `dplyr::summarise()` Das Verb `summarise()` fasst Variablen über Beobachtungen hinweg zusammen. Der nachstehende Code-Chunk erzeugt eine Tabelle mit Stichprobenmittelwert und -standardabweichung von `flipper_length_mm`.^[`dplyr::summarise()` darf nicht mit `base::summary()` verwechselt werden!] Um zu vermeiden, dass die Auswertung aufgrund fehlender Werte (`NA`) in `flipper_length_mm` scheitert, lassen wir `NA`s mit `na.rm = TRUE` bei der Berechnung unberücksichtigt (wir verwenden weiterhin den unbereinigten Datensatz `penguins`). ```{webr-r} # statistische Zusammenfassung mit 'summarise()' penguins %>% select(flipper_length_mm) %>% summarise( mean = mean(flipper_length_mm, na.rm = TRUE), sd = sd(flipper_length_mm, na.rm = TRUE) ) ``` Varianten von `summarise()` können über mehrere Variablen angewendet werden. Wir verwenden `across()` und `where()`, um lediglich numerische Variablen mit den in der liste definierten Funktionen zusammenzufassen. Beachte, dass `\(x) mean(x)` eine anonyme Funktion definiert. ```{webr-r} penguins %>% summarise( across( where(is.numeric), .fns = list( mean = \(x) mean(x, na.rm = TRUE), sd = \(x) sd(x, na.rm = TRUE) ) ) ) %>% glimpse() ``` #### `dplyr::arrange()` Mit `arrange()` können Datensätze in Abhängigkeit der beobachteten Ausprägungen von Variablen sortiert werden. ```{webr-r} # Datensatz aufsteigend nach 'body_mass_g' sortieren penguins %>% arrange(body_mass_g) ``` Die Funktion `dplyr::desc()` kehrt die Reihenfolge zu einer absteigenden Sortierung um. ```{webr-r} # Absteigende Sortierung nach 'body_mass_g' penguins %>% arrange( desc(body_mass_g) ) ``` Komplexe Sortier-Muster werden durch Übergabe von Variablennamen in der gewünschten Reihenfolge erreicht. ```{webr-r} # Erst Sortierung nach 'sex', dann gruppenweise absteigend # nach 'body_mass_g' sortieren penguins %>% arrange( sex, desc(body_mass_g) ) ``` #### Operationen mit gruppierten Datensätzen Für manche Transformationen ist eine Gruppierung der Daten hilfreich. Wir illustrieren nachfolgend die unterschiedlichen Verhaltensweisen ausgewählter Verben durch Vergleiche von gruppierten und nicht-gruppierten Anwendungen. ```{webr-r} # Datensatz gruppieren penguins_grouped <- penguins %>% group_by(species) # Datensatz hat nun die Eigenschaft 'Groups' glimpse(penguins_grouped) ``` `species` hat drei Ausprägungen. Entsprechend ist `penguins_grouped` nun in drei Gruppen eingeteilt. Bei gruppierten Datensätzen fasst `summarise()` die Variablen pro Guppe zusammen. ```{webr-r} # summarise -- ungruppiert: penguins %>% summarise( across( where(is.numeric), \(x) mean(x, na.rm = T) ) ) ``` ```{webr-r} # summarise -- gruppiert: penguins_grouped %>% summarise( across( where(is.numeric), ~ mean(., na.rm = T) ) ) ``` `mutate()` definiert bzw. transformiert für jede Gruppe separat. Im dies zu veranschaulichen, ziehen wir eine Zufallsstichprobe von 10 Pinguinen aus der Datensatz. ```{webr-r} # Zufallsstichprobe generieren set.seed(123) ( penguins_sample <- penguins %>% slice_sample(n = 10) ) ``` ```{webr-r} # mutate() -- ungruppiert: penguins_sample %>% transmute( mean = mean(bill_length_mm) ) ``` Für den ungruppierten Datensatz berechnet `mutate()` das Stichprobenmittel von `bill_length_mm` über *alle* zehn Datenpunkte und weist diesen Wert jeweils in der Variable `mean` zu. ```{webr-r} # mutate() -- gruppiert penguins_sample %>% group_by(species) %>% transmute( mean = mean(bill_length_mm) ) ``` Bei gruppierten Daten berechnet `mutate()` das Stichprobenmittel *pro Gruppe* und weist die Mittelwerte entsprechend zu. ### Eine explorative Analyse mit ggplot2 Der bereinigte Datensatz `penguins_cleaned` eignet sich gut für eine graphische Auswertung mit dem R-Paket `ggplot2`, welches Bestandteil des `tidyverse` ist. Nachfolgend untersuchen wir Zusammenhänge zwischen den Körpermaßen der Pinguine. Wir erstellen zunächst einen einfachen Punkteplot des Gewichts (`body_mass`) und der Schnabeltiefe (`bill_depth`). ```{webr-r} # Punkteplot: body_mass vs. bill_depth penguins_cleaned %>% ggplot( mapping = aes( x = body_mass, y = bill_depth ) ) + geom_point() ``` Die Grafik zeigt einen positiven Zusammenhang zwischen dem Gewicht und der Schnabeltiefe. Als nächstes passen wir den Code so an, dass die Datenpunkte entsprechend der Art (`species`) eingefärbt sind. ```{webr-r} # Punkteplot: Farbliche Darstellung verschiedener Arten penguins_cleaned %>% ggplot( mapping = aes( x = body_mass, y = bill_depth, color = species ) ) + geom_point() ``` Offenbar gibt es deutliche Unterschiede in der (gemeinsamen) Verteilung von Gewicht und Schnabeltiefe zwischen den verschiedenen Arten. Um den Zusammenhang zwischen Gewicht und Schnabeltiefe zu untersuchen, schätzen wir lineare Regressionen $$body\_mass = \beta_0 + \beta_1 bill\_depth + u$$ separat für jede der drei Pinguinarten mit der KQ-Methode. Anschließend zeichnen wir die geschätzten Regressionsgeraden ein. ```{webr-r} # Lineare Regression per Art penguins_cleaned %>% ggplot( aes( x = body_mass, y = bill_depth, color = species ) ) + geom_point() + geom_smooth(method = "lm", se = F) ``` Die Schätzungen bekräftigen die Vermutung, dass der lineare Zusammenhang zwischen Gewicht und Schnabeltiefe sich nicht zwischen den verschiedenen Pinguinarten unterscheidet: Pinguine der Art *Gentoo* sind im Mittel schwerer als Pinguine der übrigen Arten, haben jedoch eine geringere Schnabeltiefe. Der nachfolgende Code fügt der Grafik eine Regressionslinie *über alle* Arten hinzu. Wir setzen hierbei das Argument `inherit_aes = FALSE` und legen damit fest, dass die Regression für `body_mass` und `bill_depth` ohne Differenzierung per `species` durchgeführt wird. ```{webr-r} # Zusatz: Globale Regression penguins_cleaned %>% ggplot( mapping = aes( x = body_mass, y = bill_depth, color = species ) ) + geom_point() + geom_smooth(method = "lm", se = F) + # Regression für alle Datenpunkte geom_smooth( mapping = aes( x = body_mass, y = bill_depth ), method = "lm", se = F, inherit.aes = F ) ``` Offenbar ist die vorherige Analyse per Spezies sinnvoller: Die Regression über alle Arten suggeriert einen negativen Zusammenhang zwischen Gewicht und Schnabeltiefe. *Facetting* mit `facet_wrap()` erlaubt eine Untersuchung des Zusammenhangs je Insel (`island`), auf der die Messung erfolgt ist. ```{webr-r} # Facettierung des Zusammenhangs per Insel penguins_cleaned %>% ggplot( mapping = aes( x = body_mass, y = bill_depth, color = species) ) + geom_point() + geom_smooth(method = "lm", se = F) + facet_wrap(~ island) ``` Wir sehen, dass es hinsichtlich des Zusammenhangs von Gewicht und Schnabeltiefe keine wesentlichen Diskrepanzen zwischen den drei Inseln gibt. Darüber hinaus lässt sich anhand der Facetten leicht erkennen, wie die drei Arten über die Inseln verteilt sind.

2.1 tidyverse

2.1.1 Lange, weite und “tidy” Datenformate

2.1.2 Pinguine und Pipes

2.1.2.1 dplyr::mutate()

2.1.2.2 dplyr::select()

2.1.2.3 dplyr::filter()

2.1.2.4 dplyr::summarise()

2.1.2.5 dplyr::arrange()