Data Integration and Lineage

Lecture
Readers
Melanie Herschel

Die Integration heterogener Datenquellen stellt eine große Herausforderung dar, die auch auf absehbare Zeit Gegenstand von Forschungsarbeiten bleiben wird. Zudem gilt es bei solchen Anwendungen, die Herkunft der Daten (data lineage) nicht aus den Augen zu verlieren, um die Glaubwürdigkeit der Daten oder auch rechtliche Aspekte zu gewährleisten.

In dieser Vorlesung sollen die Unterstützung der Interoperabilität zwischen heterogenen Datenquellen und die Bereitstellung homogener Sichten auf heterogene, verteilte Datenbestände betrachtet werden. Zudem betrachten wir Methoden, die Datenherkunft in solchen Szenarien zu berechnen oder zu speichern.

Themen, die in der Vorlesung genauer besprochen werden sind z.B.:

  • Arten der Integration und Architektur entsprechender integrierender Informationssysteme.
  • Anfragebearbeitung in integrierten Informationssystemen.
  • Überbrückung schematischer Unterschiede in den integrierten Datenquellen (schema mapping und schema matching)
  • Duplikaterkennung und Datenfusion zur Integration der eigentlichen Daten.
  • Arten der Datenherkunft und deren Berechnung.

Prüfung / Nachprüfung

Die mündlichen Prüfungen finden am Montag, den 21. Februar 2011 in Raum B315, Sand 13 statt. Zwecks Termin wenden Sie sich bitte an Frau Herschel.

Übungsaufgaben

  • Die Übung findet i.d.R. alle zwei Wochen statt (siehe Termine unten).
  • Die Übung besteht aus fünf Teilaufgaben, in denen Sie schrittweise ein integrierendes System für Filmdaten implementieren.
  • Sie dürfen und sollten die Aufgaben in Zweier-Gruppen bearbeiten.
  • Der Abgabetermin für die Gesamtlösung ist der 26.1.2011, an dem Sie Ihre Ergebnisse präsentieren. Zudem werden Teillösungen ausgewählter Gruppen zu den restlichen Terminen präsentiert und diskutiert.
  • Zur Bewertung der Übungsleistung werden sowohl die Inhalte als auch die Form der Präsentationen in Betracht gezogen.

Ergebnisse der Übung

Literatur

Leser, Naumann

Informationsintegration Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen , Dpunkt Verlag, 2006 , ISBN 3898644006

Dieses Buch deckt die meisten Inhalte dieser Vorlesung sehr gut ab (teilweise orientiert sich die Vorlesung direkt an ausgewählten Kapiteln).

Semesterwochenstunden / Leistungspunkte / Hörerkreis

  • 3 SWS Vorlesung + 1 SWS Übung zur Vorlesung
  • 6 LP
  • Studierende Hauptstudium Diplom Informatik, Bioinformatik und Lehramt Informatik
  • Studierende in Informatik Master-Studiengängen

Voraussetzungen

Modul Datenbanksysteme (Datenbanksysteme I) oder vgl. Vorkenntnisse


Link to trello card: Data Integration and Lineage

Labels

Lecture,