Einführung in Pandas¶

Pandas ist eine leistungsstarke Bibliothek für die Datenanalyse in Python. Sie bietet effiziente Werkzeuge zur Verarbeitung, Filterung und Aggregation von Daten.

1. Installation und Import¶

Falls Pandas noch nicht installiert ist, kann es mit folgendem Befehl installiert werden:

python -m pip install pandas

Der Import erfolgt standardmässig so:

import pandas as pd

2. Einlesen von Daten¶

CSV-Datei einlesen¶

Eine der häufigsten Methoden zum Einlesen von Daten ist das Laden einer CSV-Datei:

df = pd.read_csv("daten.csv")

Excel-Datei einlesen¶

Falls die Daten in einer Excel-Datei gespeichert sind:

df = pd.read_excel("daten.xlsx")

3. Anzeige von Daten¶

Die ersten Zeilen anzeigen¶

Um einen schnellen Überblick über die ersten fünf Zeilen des DataFrames zu erhalten:

df.head()

Die letzten Zeilen anzeigen¶

Falls die letzten Zeilen betrachtet werden sollen:

df.tail()

Grundlegende Informationen über den DataFrame¶

Um eine Übersicht über Spalten, Datentypen und fehlende Werte zu bekommen:

df.info()

Statistische Kennzahlen anzeigen¶

Für eine schnelle statistische Analyse numerischer Spalten:

df.describe()

4. Daten filtern¶

Zeilen basierend auf einer Bedingung auswählen¶

Um nur Zeilen anzuzeigen, bei denen eine bestimmte Spalte einen bestimmten Wert hat:

df[df["Spalte"] == "Wert"]

Mehrere Bedingungen kombinieren¶

df[(df["Alter"] > 30) & (df["Stadt"] == "Zürich")]

Filtern mit der `query`-Funktion¶

Die query-Methode ermöglicht eine elegante und lesbare Filterung des DataFrames:

df.query("Alter > 30 and Stadt == 'Zürich'")

Diese Methode eignet sich besonders für komplexe Filterabfragen und verbessert die Lesbarkeit des Codes.

5. Aggregationen auf Spalten¶

Berechnungen auf eine einzelne Spalte anwenden¶

Summe aller Werte einer Spalte:

df["Umsatz"].sum()

Durchschnittswert einer Spalte:

df["Preis"].mean()

6. Sampling von Daten¶

Zufällige Stichprobe ziehen¶

Eine zufällige Stichprobe von n Zeilen aus dem DataFrame ziehen:

df.sample(n=10)

Zufällige Stichprobe mit einem bestimmten Anteil der Daten¶

Um z.B. 20% der Zeilen zufällig auszuwählen:

df.sample(frac=0.2)

Stichprobe mit einer festen Zufallsgenerierung¶

Falls man reproduzierbare Zufallsauswahlen treffen möchte, kann ein Zufallszahlengenerator gesetzt werden:

df.sample(n=10, random_state=42)