Programmierpraktikum: Datensysteme SoSe 2025
(PR, 41136 Programmierpraktikum: Datensysteme)

Das Programmierpraktikum Datensysteme ist ein 6 ECTS Kurs der zum Ziel hat Methoden der Softwaretechnik praktisch anhand einer komplexen Aufgabenstellung zu erproben, Teamerfahrungen zu sammeln, und Methoden der effizienten Implementierung ausgewählter Komponenten von Datenbanksystemen kennen zu lernen. Zu Beginn jedes Semesters wird ein neues Projekt (oder mehrere) im Kontext der Implementierung von Datenbanksystemen (z.B., Indexstrukturen, Operatoren wie Joins oder Aggregationen, Bufferpool mit Seitenverdrängung) definiert. Die Studierenden erhalten die API dieser Komponente sowie ausgewählte Benchmarks, und die Aufgabe ist es in selbstorganisierten Teams von 4 Personen korrekte Implementierungen in C, C++, Java, oder Python zu erstellen. Neben der Protypenentwicklung sind auch der systematische Umgang mit Versionsverwaltung, testgetriebener Entwicklung, Entwurfsdokumentation, sowie Laufzeitexperimenten und -verbesserungen von großer Bedeutung. Gleichzeitig erlaubt dieses Programmierpraktikum den Umgang mit vertiefenden Methoden der Gebiete Informationssysteme und Datenanalyse sowie Algorithmen und Datenstrukturen. Der Schwerpunkt liegt jedoch auf dem Erlernen des problemorientieren Einsatzes von Programmierkenntnissen zur Lösung konkreter Fragestellungen, nicht die ganzheitliche funktionale Betrachtung der Implementierung von Datenbanksystemen.


Inhalt

Das Programmierpraktikum hat eine Gesamtkapazität von 80 Studierenden, wobei drei Instanzen mit leicht unterschiedlicher thematischer Ausrichtung durch die Fachgebiete DAMS, DIMA, und D2IP angeboten werden (mit gemeinsamen Kickoff und Abschlusspräsentationen, ansonsten alternierend; Montag 16-17.30 Uhr im H0111). PPDS ist unbenotet, jedoch werden die folgende Prüfungselemente zur Evaluierung eines positiven Abschlusses einbezogen:

  • Projektimplementierung (Source Code des Projekts) [45%]
  • Tests fuer Komponenten und Funktionen (Source Code der Tests) [10%]
  • Laufzeitexperimente (Erreichung Performance-Ziel) [15%]
  • Dokumentation (Design Dokument bis 5 Seiten) [15%]
  • Ergebnispräsentation (10min Vortrag) [15%]


Thema: Efficient Duplicate Detection

Kapazität: 16/80 Studierende (4 Teams a 4 Studierende)

API (Python) dedup.py

Datasets data.zip

Updated Laptop Dataset and Ground Truth Z1_and_ZY1_update.zip

Vorlesungen:

  • 21.04.2025: Kickoff and IntroductionKickoff and Introduction [Slides; Pandas Cheat-sheet]
  • [Room EN-148]28.04.2025: Duplicate Detection [Slides]
  • 05.05.2025 - 07.07.2025: We provide weekly tutorials. Please check the room assignment in ISIS page.
  • 08.07.2025: Project submission via TUB ISIS
  • [Room H0111] 14.07.2025: Project presentations all teams


Organization

  • Lecturer: Prof. Dr. Ziawasch Abedjan, D2IP
  • Teaching Assistant: Men, Dakai (dakai.men@tu-berlin.de); Mohamed, Mohamed Ahmed Abdelmaksoud (mohamed@tu-berlin.de), D2IP
  • Project submission: July 08, 2025
  • Project presentations: July 14, 2025 16:00-17:30
  • Grading: passed ≥ 50% points