Dokumentbasierte Datenbanken - wofür braucht man sie?

by Peter
3 Minuten
Dokumentbasierte Datenbanken - wofür braucht man sie?

Klassische relationale Datenbanken funktionieren in der Regel mit Schlüsseln. Der wichtigste unter ihnen ist der Primärschlüssel. Dieses Merkmal kann einen Datensatz eindeutig definieren und mit anderen verbinden. Ein solchen Merkmal wäre zum Beispiel die Kundennummer, die jeder Klient eines Geschäfts exklusiv zugewiesen bekommt. Aber die Welt da draußen ist manchmal zu komplex, um sie mit relationalen Datenbanken zu bewältigen. Daher gibt es Software, die dokumentenorientiert arbeitet. Wie das geht und wieso das so wichtig ist, das erklären wir hier.

Wer war wann mit wem wo?

Im Jahr 2016 wurde in Panama der Offshore Dienstleister Mossack-Fonseca gehackt. Eine Firma, die reichen Menschen dabei half Geld zu waschen und Schwarzgeld zu verstecken. Unzählige digitale Dokumente wurden dabei freigelegt. Reporternetzwerke aus der ganzen Welt halfen in unermüdlicher Handarbeit dabei sie zu sichten und auszuwerten. Dies geschah mit Hilfe von dokumentenorientierten Datenbanken. Man muss sich das so vorstellen:

Reporter A findet ein Papier, welches beweist, dass sich am 20. Mai 2012 Mr. XYZ mit Mr. ABC in Rio getroffen hat.

Reporter B findet ein Dokument, aus dem hervorgeht, dass am 01. Juli 2013 Mr. XYZ an Mr. FGH in Rom Geld überwiesen hat.

In diesen Angaben stecken nun mehrere wichtige Details: Datum, Name und Ort. Wer schon das Vergnügen hatte und bei einem Arbeitgeber tätig war, der über HCL Notes Lizenzen verfügt hat, der weiß, dass sich diese Dinge damit optimal in Verbindung bringen lassen.

Sämtliche Dokumente liegen eingescannt vor. Stellen mit wichtigen Informationen lassen sich an entsprechenden Passagen miteinander verknüpfen, bzw. mit einem Merkmal versehen. Sollten sich zum Beispiel weitere Erkenntnisse über den 20. Mai 2012 ergeben, dann lassen sich diese anhand des Datums identifizieren. Kommt Mr. XYZ an anderer Stelle nochmal vor, dann kann sein Name als Verbindung zwischen allen betroffenen Dokumenten fungieren.

Am Ende erhält man dann eine Datenbank, in der unzählige Papiere nach bestimmten Kriterien auswertbar sind. Man kann zum Beispiel alle abrufen, in denen Mr. ABC genannt wird. Man kann sich aber auch anschauen, ob am 20. Mai 2012 noch mehr Transaktionen gelaufen sind. Möglich ist es auch zu prüfen, ob Mr. FGH ebenfalls irgendwann die Wege von Mr. ABC kreuzt. Mit solchen Markierungen entsteht ein Verzeichnis darüber, wer mit wem wann und wo Kontakt hatte.

Mit Hilfe dieser Methode konnten die Journalisten später sämtlichen Personen all die aufgefundenen Beweise exakt zuordnen. Sie konnten sie kreuz-und-quer Verbindungen zwischen wichtigen Protagonisten nachvollziehen. Nicht umsonst hat dieses Thema solche Wellen geschlagen und zahlreiche Steuerhinterzieher überführt.

Es handelt sich bei dieser Art von Datenbank um einen etwas anderen Aufbau als bei relationalen. Hier gibt es keine Vollständigkeit oder falschen Datensätze. Man nimmt einfach die Dokumente, die einem zur Verfügung stehen und kann sie dann miteinander verknüpfen.

Vor allem bei eMails gehen solche Analysen recht einfach. Sie liegen in digitaler Form vor und lassen sich sofort nach Keywords abscannen. Bei fotografierten Papieren ist die Sache etwas schwerer. Aber auf jeden Fall sind solche Tools sehr mächtig und können den Anwendern in vielen Gebieten nützlich sein. Vor allem polizeilichen Ermittlern, Historikern oder eben den Journalisten.