Website
Modulhandbuch

Modul CS3130-KP08

Non-Standard-Datenbanken und Data-Mining (NDBDM)

Dauer:
1 Semester
Angebotsturnus:
Jedes Wintersemester
Leistungspunkte:
8
Studiengang, Fachgebiet und Fachsemester:
  • Bachelor Informatik 2019 (Wahlpflicht), Kernbereich Informatik, Beliebiges Fachsemester
  • Bachelor Informatik 2019 (Pflicht), Kanonische Vertiefung Web und Data Science, 5. Fachsemester
  • Bachelor Medizinische Informatik 2019 (Wahlpflicht), Informatik, 4. bis 6. Fachsemester
  • Bachelor Medieninformatik 2014 (Wahlpflicht), Informatik, 5. oder 6. Fachsemester
  • Bachelor IT-Sicherheit 2016 (Wahlpflicht), Informatik, Beliebiges Fachsemester
  • Bachelor Informatik 2016 (Wahlpflicht), Kernbereich Informatik, Beliebiges Fachsemester
  • Bachelor Informatik 2016 (Pflicht), Kanonische Vertiefung Web und Data Science, 5. Fachsemester
Lehrveranstaltungen:
  • CS3130-Ü: Non-Standard-Datenbanken und Data-Mining (Übung, 2 SWS)
  • CS3130-V: Non-Standard-Datenbanken und Data-Mining (Vorlesung, 4 SWS)
Workload:
  • 40 Stunden Prüfungsvorbereitung
  • 110 Stunden Selbststudium
  • 90 Stunden Präsenzstudium
Lehrinhalte:
  • Ergänzungen zum Relationalen Modell: * Erreichbarkeitsanfragen, Datalog, Rekursion: Sichere Anfragen, Negation: Stratifizierte Anfragen, Semi-Naive Auswertung von Anfragen, Magic Set-Transformation von Anfragen mit Konstanten * Verteilte Datenbanken, Föderierte Datenbanken, Datenintegration, Elastizität bei der Anfragebeantwortung in Cloud-Datenbanken * Mehrdimensionale Indexstrukturen, First-n-, Top-k-, und Skyline-Anfragen * Semistrukturierte Datenbankmodelle (z.B. JSON, XML), Pfad-Anfragen: Anfragebeantwortungsverfahren und Indexstrukturen
  • Informationsrecherche (Information Retrieval): * Volltextsuche, invertierter Index, TF-IDF-Merkmalsvektoren für Textdaten, Vektorraum-Modell * Latente Semantische Indexierung: SVD-Dimensionsreduktion, Relevanzrückkopplung: Rocchio-Algorithmus zur Anfragetransformation * Instanz-basiertes Lernen für Merkmalsvektorenhäufungen, Indexstrukturen zur Anfrage von ähnlichen Merkmalsvektoren
  • Umgang mit unsicheren Daten: * Bayessche Netzwerke: kompakte Repräsentation von Verbundwahrscheinlichkeiten, exakte und approximative Anfragebeantwortungsalgorithmen, Lernen von Bayesschen Netzwerken, Maximum-Likelihood-Methode, EM-Algorithmus * Probabilistische Informationsrecherche * Verallgemeinerung von Bayesschen Netzwerken: Probabilistisch-Graphische Modelle (PGMs) * Probabilistische Datenbanken (PDBs), Anfragebeantwortungsverfahren, Transformation von Anfragen in sichere Anfragen, Herkunftsstrukturen (Provenienz) und allgemeine Anfragebeantwortung in PDBs, Lernen von Tupel-Wahrscheinlichkeiten, Top-k-Anfragen und Open-World-Annahme in PDBs * Probabilistische Clusterbildung, Häufungspunktanalyse: Lernen gemischter Modelle, inkrementelles Lernen von Kern-basierten Dichteschätzern (OKDEs), Anfragebeantwortung für OKDEs
  • Temporale Datenbanken: * Probabilistisch-Temporale Datenbanken, Anfragen und Anfragebeantwortungsverfahren, Lernen von probabilistisch-temporalen Modellen * Stromdatenbanken, kontinuierliche Anfragen, Prinzipien der Fenster-orientierten inkrementellen Anfragebeantwortung, Approximationstechniken in Stromdatenverarbeitungsverfahren (z.B. zur Analyse von Häufigkeiten), Lernen von PGMs aus Stromdaten * Raum-Zeitliche Anfragen, Anfragebeantwortungsalgorithmen und Indexstrukturen (z.B. für ortsbezogene Dienste)
  • Von NoSQL- zu NewSQL-Datenbanken, CAP-Theorem, Blockchain-Datenmanagement
  • Graphdatenbanken (GDBs): * Approximationstechniken zur Beantwortung von Graphanfragen, Musteridentifikation und -erkennung in GDBs
Qualifikationsziele/Kompetenzen:
  • Wissen: Studierende können die Hauptmerkmale von Standard-Datenbanken benennen und erläutern, welche Non-Standard-Datenmodelle entstehen, wenn die Merkmale fallengelassen werden. Sie können beschreiben, welche Kernideen hinter den in der Veranstaltung behandelten Non-Standard-Datenmodellen stehen, indem sie erklären, wie die entsprechenden Anfragesprachen zu verstehen sind (Syntax und Semantik) und welche Implementierungstechniken hauptsächlich zu ihrer praktischen Umsetzung eingesetzt werden. Weiterhin können Studierende elementare Data-Mining-Techniken auch im Zusammenhang mit Nicht-Standard Datenbanken erläutern.
  • Fertigkeiten: Studierende können Anfragesprachen für Non-Standard-Datenmodelle, die im Kurs eingeführt wurden, anwenden, um bestimmte Strukturen aus Beispieldatenbeständen heraussuchen zu können, so dass sich Informationsbedürfnisse befriedigen lassen. Die Studierenden sind in der Lage, Datenmodelle in das relationale Datenmodell unter Verwendung von eingeführten Kodierungstechniken zu übersetzen, so dass sie demonstrieren können, wie neue Formalismen mit dem relationalen Modell in Beziehung stehen und in SQL implementiert werden können (insbesondere SQL-2011). Für den Fall, dass eine Übersetzung in SQL nicht möglich ist, können die Studierenden angepasste Algorithmen erläutern und anwenden. Studierende können weiterhin demonstrieren, wie Indexstrukturen eine schnelle Anfragebeantwortung ermöglichen, indem sie zeigen, wie Indexstrukturen aufgebaut, verwaltet und bei der Anfragebeantwortung ausgenutzt werden. Die Kursteilnehmer können Anfrageantworten Schritt für Schritt herleiten, indem sie optimierte Ausführungspläne bestimmen. Darüber hinaus können sie elementare Techniken für das Data-Mining umsetzen.
  • Sozialkompetenz und Selbständigkeit: Studierende arbeiten in Gruppen, um Aufgaben zu bearbeiten und zu lösen, und sie werden angeleitet, selbst erarbeitete Lösungen in einem Kurzvortrag zur Diskussion zu stellen (in der Übung). Weiterhin wird die Selbständigkeit der Studierenden durch Aufzeigen von konkret verfügbaren Datenbanksystemen gefördert, so dass die Studierenden selbstbestimmt Arbeiten in einem praktischen Kontext durchführen können.
Vergabe von Leistungspunkten und Benotung durch:
  • Klausur oder mündliche Prüfung nach Maßgabe des Dozenten
Setzt voraus:
Modulverantwortlicher:
Lehrende:
Literatur:
  • S. Abiteboul, P. Buneman, D. Suciu: Data on the Web - From Relations to Semistructured Data and XML - Morgan-Kaufmann, 1999
  • Ch. Aggarwal: Data Mining - The Textbook - Springer, 2015
  • S. Chakravarthy, Q. Jiang: Stream Data Processing - A Quality of Service Perspective - Springer, 2009
  • J. Leskovec, A. Rajaraman: Mining of Massive Datasets - Cambridge University Press, 2012
  • P. Revesz: Introduction to Databases: From Biological to Spatio-Temporal - Springer 2010
  • P. Rigaux, M. Scholl, A. Voisard: Spatial Databases With Applications to GIS - Morgan-Kaufmann, 2001
  • D. Suciu, D. Olteanu, Chr. Re, Chr. Koch: Probabilistic Databases - Morgan & Claypool, 2011
Sprache:
  • Wird nur auf Deutsch angeboten
Bemerkungen:

Früherer Name des Moduls: Algorithmische Datenanalyse

Letzte Änderung:
17.7.2019