Ursachen und Entstehung von Dark Data

Reto Wittmer
20. Nov. 2023
3 Min. Lesezeit

Im heutigen digitalen Zeitalter sammeln Unternehmen eine Unmenge an Daten. Viele dieser Informationen verschwinden jedoch im Schatten, bleiben unbeachtet und ungenutzt. Dieses Phänomen nennt man Dark Data, und es wirft nicht nur Fragen zur Datensicherheit auf, sondern hat auch erhebliche Auswirkungen auf die Effizienz und Entscheidungsfindung von Organisationen.

Was genau ist Dark Data?

Dark Data bezieht sich auf jene Daten, die zwar von Informationssystemen erfasst und gespeichert werden, jedoch nicht aktiv verwendet werden bzw. verwendet werden können.

Es gibt vier Szenarien, in denen Dark Data entstehen kann:

Daten, deren Existenz unbekannt ist
Daten mit Unsicherheiten – es besteht Zweifel an der Vollständigkeit oder Genauigkeit der vorhandenen Daten.
Daten, die ungenutzt aufbewahrt werden
Daten, die noch gar nicht erfasst wurden

In jedem dieser Szenarien kann man zwischen zwei Fälle unterscheiden:

Die Organisation ist sich bewusst, dass Daten fehlen oder unvollständig sind. In diesem Fall kann das Unternehmen gegensteuern und versuchen, vollständigere Daten zu erlangen oder die vorhandenen Daten mit einer Unsicherheit im Hinterkopf bewerten.
Die Organisation ist nicht darüber informiert, dass Daten fehlen oder geht davon aus, dass die vorliegenden Daten vollständig sind. Dies kann zu suboptimalen Entscheidungen führen, da Schlussfolgerungen aus lückenhaften Daten gezogen werden, was letztendlich die Effektivität und Effizienz der Geschäftsprozesse beeinträchtigen kann.

Ursachen für Dark Data

Moderne Informationsverarbeitungsprozesse erzeugen laufend Daten, von denen jedoch ein Teil zu Dark Data wird. Dies kann auf den Verlust der Information über ihre Existenz oder auf von Anfang an fehlende Daten zurückzuführen sein.

Nicht mehr zugängliche Daten

Ein erheblicher Anteil von Dark Data besteht aus nicht mehr zugänglichen Daten. Hierbei handelt es sich um Daten, die entweder vergessen wurden oder nicht mehr abgerufen werden können. Es werden laufend Daten auf persönlichen und dienstlichen Geräten gespeichert und es dauert meist nicht lange, bis diese Informationen in Vergessenheit geraten und zu Dark Data werden. Auch Daten auf USB-Sticks, externen Festplatten, sowie den internen Festplatten ausgemusterter Geräte sind davon betroffen.

Die unbegrenzte Skalierbarkeit ist zweifellos einer der größten Vorteile von Cloud Computing, hat jedoch auch zur Folge, dass im Cloud-Speicher kontinuierlich Daten angesammelt werden können, ohne dabei auf eine Grenze zu stoßen.

Es kann auch sein, dass Daten, die digital gespeichert wurden nicht mehr aufgerufen werden können. Grund dafür ist meist ein vergessenes Login-Passwort oder ein nicht mehr auffindbarer Schlüssel zum Entschlüsseln der Daten.

Unvollständige oder veraltete Daten

Dark Data umfassen nicht nur Daten ohne Zugriffsmöglichkeiten, sondern auch unvollständige oder veraltete Informationen.

Daten bilden die Grundlage der Informationshierarchie. Ungenauigkeiten und Abweichungen auf der Datenebene manifestieren sich auch in den darüber liegenden Informationsstufen. Häufig kommt es dabei zu einem Kaskadeneffekt, bei dem kleine Unstimmigkeiten zu großen Veränderungen führen können. Unvollständige Daten können jedoch erhebliche Auswirkungen haben.

Gleiches gilt für veraltete Daten. Die enthaltenen Informationen sind möglicherweise nur dann nützlich, wenn sie in Echtzeit ausgewertet werden. Zum Beispiel muss ein ortsabhängiges Angebot an einen Nutzer gemacht werden, solange sich dieser noch an einem bestimmten Ort aufhält.

Nicht ausgewertete Daten

Eine bedeutende Kategorie von Dark Data besteht aus erfassten und gespeicherten, jedoch nicht ausgewerteten Daten. Ein erheblicher Teil dieses Datenvolumens stammt dabei aus automatisierten Quellen wie Sensoren, Logdateien und Besucherstatistiken von Websites. Die generierten Daten werden oft über längere Zeiträume gespeichert, ohne dass die darin enthaltenen Informationen extrahiert und analysiert werden. Es kann auch vorkommen, dass Daten zwar vorhanden sind, jedoch unbeachtet bleiben, da diese lediglich aus Compliance-Gründen erfasst wurden.

Noch nicht erfasste Daten

Daten, die bisher nicht gesammelt wurden, befinden sich außerhalb des Blickfelds der Organisation und fallen ebenfalls unter den Begriff Dark Data.

Warum ist Dark Data ein Problem?

Dark Data kann zu erhöhten Kosten führen, da die Speicherung jeglicher Daten Ressourcen benötigt. Diese Ressourcen umfassen vor allem Speicherplatz und Energie seitens des Speicher-Betreibers.

Es kann auch sein, dass sich nützliche Informationen mit den Dark Data vermischen. Somit besteht die Gefahr, dass nützliche Informationen in Verborgenheit geraten. Unklar ist auch, welche Informationen genau sich im Dark Data-Berg befinden. Es lässt sich nicht ausschließen, dass die Daten sensible Informationen enthalten, welche nicht in falsche Hände gelangen dürfen.

Ein weiteres Risiko im Zusammenhang mit Dark Data besteht darin, dass Daten in der Regel für längere Zeiträume gespeichert werden. Da Dark Data für Unternehmen einen geringeren Nutzen hat, werden diese oft nicht ausreichend abgesichert. Nach einem Störfall werden diese Daten bei der Disaster Recovery leicht übersehen.

Dark Data wird in den meisten Fällen ignoriert, was zur Auswirkung hat, dass sich der Berg an nicht verwendeten Daten mit der Zeit immer weiter ausweitet.

Ursachen und Entstehung von Dark Data

Was genau ist Dark Data?