Skip to content

Einführung in Pandas

Pandas ist eine leistungsstarke Bibliothek für die Datenanalyse in Python. Sie bietet effiziente Werkzeuge zur Verarbeitung, Filterung und Aggregation von Daten.

1. Installation und Import

Falls Pandas noch nicht installiert ist, kann es mit folgendem Befehl installiert werden:

python -m pip install pandas

Der Import erfolgt standardmässig so:

import pandas as pd

2. Einlesen von Daten

CSV-Datei einlesen

Eine der häufigsten Methoden zum Einlesen von Daten ist das Laden einer CSV-Datei:

df = pd.read_csv("daten.csv")

Excel-Datei einlesen

Falls die Daten in einer Excel-Datei gespeichert sind:

df = pd.read_excel("daten.xlsx")

3. Anzeige von Daten

Die ersten Zeilen anzeigen

Um einen schnellen Überblick über die ersten fünf Zeilen des DataFrames zu erhalten:

df.head()

Die letzten Zeilen anzeigen

Falls die letzten Zeilen betrachtet werden sollen:

df.tail()

Grundlegende Informationen über den DataFrame

Um eine Übersicht über Spalten, Datentypen und fehlende Werte zu bekommen:

df.info()

Statistische Kennzahlen anzeigen

Für eine schnelle statistische Analyse numerischer Spalten:

df.describe()

4. Daten filtern

Zeilen basierend auf einer Bedingung auswählen

Um nur Zeilen anzuzeigen, bei denen eine bestimmte Spalte einen bestimmten Wert hat:

df[df["Spalte"] == "Wert"]

Mehrere Bedingungen kombinieren

df[(df["Alter"] > 30) & (df["Stadt"] == "Zürich")]

Filtern mit der query-Funktion

Die query-Methode ermöglicht eine elegante und lesbare Filterung des DataFrames:

df.query("Alter > 30 and Stadt == 'Zürich'")
Diese Methode eignet sich besonders für komplexe Filterabfragen und verbessert die Lesbarkeit des Codes.

5. Aggregationen auf Spalten

Berechnungen auf eine einzelne Spalte anwenden

Summe aller Werte einer Spalte:

df["Umsatz"].sum()

Durchschnittswert einer Spalte:

df["Preis"].mean()

6. Sampling von Daten

Zufällige Stichprobe ziehen

Eine zufällige Stichprobe von n Zeilen aus dem DataFrame ziehen:

df.sample(n=10)

Zufällige Stichprobe mit einem bestimmten Anteil der Daten

Um z.B. 20% der Zeilen zufällig auszuwählen:

df.sample(frac=0.2)

Stichprobe mit einer festen Zufallsgenerierung

Falls man reproduzierbare Zufallsauswahlen treffen möchte, kann ein Zufallszahlengenerator gesetzt werden:

df.sample(n=10, random_state=42)