Mini-Challenge¶

In dieser Mini-Challenge kannst du dein Wissen anwenden, um reale Sensordaten zu untersuchen und wichtige Zusammenhänge zwischen Variablen zu modellieren.

Ziel ist es, einen Datensatz auszuwählen, diesen gründlich zu bereinigen, die Datenanalyse durchzuführen und anschliessend mithilfe eines ML-Modells eine Vorhersage oder Beziehung zwischen zwei Variablen zu quantifizieren und zu visualisieren. Der Fokus liegt auf der praktischen Umsetzung des gelernten Stoffes und der kritischen Auseinandersetzung mit den Daten.

Vorgehen¶

Wähle einen Sensordatensatz aus, der in mehreren Dateien vorliegt. Du kannst Daten aus einem früheren Modul oder aus öffentlich zugänglichen Quellen wie Kaggle nutzen. Kläre deine Auswahl mit dem Dozenten ab, damit der Datensatz wirklich geeignet ist.

Hier einige Beispielsdatensätze:

Bereinige die Daten gründlich, indem du unvollständige, fehlerhafte oder inkonsistente Daten behandelst. Vor der Analyse müssen alle Dateien in eine einzige Datei zusammengeführt werden, damit du eine einheitliche und umfassende Datengrundlage hast.

Untersuche den Datensatz explorativ und beschreibe auffällige Muster, Anomalien oder fehlende Werte. Erstelle Visualisierungen, die dir helfen, die Daten besser zu verstehen.

Identifiziere zwei Variablen, deren Zusammenspiel du analysieren möchtest, und wähle ein geeignetes ML-Modell, um eine Korrelation zu beschreiben. Eine lineare Regression eignet sich beispielsweise gut, um Zusammenhänge zwischen zwei kontinuierlichen Variablen zu visualisieren. Fasse die Ergebnisse zusammen und interpretiere, was die Modellierung über die Beziehung der Variablen aussagt.

Warning

Dies ist eine Einzelarbeit. Besprich die genauen Auftragsdetails jedoch im Unterricht, damit deine Herangehensweise sinnvoll bleibt. Wähle eine Fragestellung, die eine ausgewogene Balance zwischen Herausforderung und Machbarkeit bietet.

Tip

Die Nutzung von ChatGPT oder anderen KI-Tools ist erlaubt und für Wissensfragen sogar ausdrücklich empfohlen. Achte aber darauf, dass du verstehst, was gemacht wird und warum bestimmte Entscheidungen getroffen werden. In der Abschlussprüfung können dazu Fragen gestellt werden.

Abgabe¶

Die Ergebnisse dokumentierst du in einem Bericht (als PDF), der maximal 8 Seiten umfasst (ohne Titelblatt, Inhaltsverzeichnis oder Ähnliches). Der Bericht sollte eine klare Struktur haben und die folgenden Punkte abdecken:

Beschreibung des Datensatzes und der Zielsetzung
Vorgehen bei der Datenanalyse und -bereinigung
Beschreibung der Modellierung und Interpretation der Ergebnisse

Gib zusätzlich den Code als ZIP oder Notebook ab.

Die Abgabe des Berichts und Code erfolgt bis spätestens am Sonntag nach der Prüfung am 07.06.2026.

Check-In¶

Um sicherzustellen, dass du auf dem richtigen Weg bist, gib bis Ende Semesterwoche 5 auf Teams das Check-in dieser Mini-Challenge ab. Beschreibe dort in zwei bis drei Sätzen kurz, welchen Datensatz du verwenden willst und welches Analyseziel du verfolgst. So lässt sich früh prüfen, ob der Aufwand passt und ob sich der Datensatz für die Mini-Challenge eignet.

Wenn du schon früher beginnen willst, kannst du selbstverständlich auch eine E-Mail schreiben.

Bewertungsraster¶

1. Datenauswahl und Zieldefinition (10%)¶

Punktebereich	Beschreibung
5–10 Punkte	Der Datensatz ist gut gewählt und passt hervorragend zur Zielsetzung der Aufgabe. Er setzt sich aus mindestens 2 Dateien zusammen. Das Ziel der Analyse ist klar formuliert.
3–4 Punkte	Der Datensatz ist grösstenteils geeignet, aber es gibt kleinere Unsicherheiten bei der Zieldefinition oder der Auswahl des Datensatzes.
1–2 Punkte	Der Datensatz passt nicht gut zur Aufgabe oder das Ziel ist unklar formuliert.
0 Punkte	Kein geeigneter Datensatz ausgewählt oder das Ziel ist nicht definiert.

2. Datenbereinigung (30%)¶

Punktebereich	Beschreibung
20–30 Punkte	Die Daten wurden zu einem DataFrame zusammengeführt und gründlich/systematisch bereinigt. Alle relevanten Probleme (fehlende Werte, Inkonsistenzen, Ausreisser) wurden angemessen adressiert.
10–19 Punkte	Die Datenbereinigung wurde grösstenteils durchgeführt, jedoch gibt es kleinere Mängel.
5–9 Punkte	Die Datenbereinigung ist oberflächlich und viele Probleme wurden nicht adressiert.
0 Punkte	Es wurde keine oder eine unzureichende Datenbereinigung durchgeführt.

3. Datenanalyse und Visualisierung (20%)¶

Punktebereich	Beschreibung
15–20 Punkte	Die explorative Datenanalyse ist fundiert und umfassend. Alle wichtigen Aspekte (Muster, Anomalien) des Datensatzes wurden untersucht und aussagekräftige Visualisierungen erstellt.
10–14 Punkte	Die Datenanalyse ist grösstenteils fundiert, aber einige Aspekte oder Muster wurden möglicherweise übersehen.
5–9 Punkte	Die Analyse ist oberflächlich, und die Visualisierungen sind nicht sehr aussagekräftig.
0–4 Punkte	Es wurden keine aussagekräftigen Visualisierungen oder Analysen durchgeführt.

4. Modellierung und Interpretation (20%)¶

Punktebereich	Beschreibung
15–20 Punkte	Ein geeignetes Modell mit mindestens 2 Variablen wurde ausgewählt, und die Ergebnisse sind klar interpretiert. Die Wahl des Modells ist gut begründet, und die Interpretation ist nachvollziehbar.
10–14 Punkte	Ein angemessenes Modell mit mindestens 2 Variablen wurde verwendet, aber die Interpretation der Ergebnisse ist unklar oder nicht vollständig.
5–9 Punkte	Das Modell ist unpassend oder es fehlt eine klare Begründung. Die Ergebnisse sind schwer zu interpretieren.
0–4 Punkte	Es wurde kein Modell angewendet oder die Interpretation der Ergebnisse ist unverständlich.

5. Bericht (20%)¶

Punktebereich	Beschreibung
15–20 Punkte	Der Bericht ist klar strukturiert, übersichtlich und gut dokumentiert. Alle Schritte der Analyse und Bereinigung sind nachvollziehbar und begründet. Die Dokumentation ist verständlich und präzise.
10–14 Punkte	Der Bericht ist grösstenteils strukturiert, aber es fehlen teilweise Details oder er könnte klarer formuliert werden.
5–9 Punkte	Der Bericht hat strukturelle Mängel und wichtige Aspekte sind unzureichend dokumentiert.
0–4 Punkte	Der Bericht ist unstrukturiert oder unvollständig. Wichtige Informationen fehlen.