Geheimnis enthüllt: Scheitert die NSA an mangelnder Datenqualität?

Datenqualität

Der Abhörskandal um den US-Geheimdienst NSA zieht immer größere Kreise. Laut einem Bericht der „Washington Post“ spähen die Agenten jedes Jahr Kontaktdaten von mehreren hundert Millionen Internetnutzern in aller Welt aus. Die Informationen werden dabei aus persönlichen E-Mail-Adressbüchern, Freundeslisten und von Twitter abgeschöpft. Online gespeicherte Kontaktlisten – so zitiert der Bericht Geheimdienstexperten – seien ergiebigere Datenquellen als das Abhören von Mobiltelefonen. Denn die Adressbücher enthielten nicht nur Namen und E-Mail-Adressen, sondern häufig auch Telefonnummern, Anschriften und Informationen über Familien und Geschäfte.

An einem einzigen Tag des vergangenen Jahres sollen die Schnüffler 444.743 E-Mail-Adressbücher von Yahoo, 105.068 von Hotmail, 82.857 von Facebook und 33.697 von Googlemail für ihre Zwecke gesammelt haben. Weitere 22.881 Datensätze stammten aus nicht näher aufgeschlüsselten Quellen, wie die Zeitung aus einer internen Powerpoint-Präsentation der NSA erfahren hat. Sind das z.B. Kundendatensätze aus cloudbasierten Systemen für das Customer Relationship Management (CRM)?

Doch ob sich für den US-Geheimdienst dieser illegale Sammeleifer tatsächlich lohnt, scheint mehr als fraglich. Denn viele Adressverzeichnisse sind unvollständig, inkonsistent, veraltet oder enthalten Dubletten. Dies ist auch nicht weiter verwunderlich, denn alleine in Deutschland gibt es im Jahr ca. 4 Millionen Umzüge und etwa 30.000 Änderungen bei Straßen, Postleitzahlen und Orten. Dazu kommen mehrfach angelegte Datensätze, Falscherfassungen und typische Buchstabendreher bei der telefonischen Aufnahme der Adressen oder falsch ausgefüllte Online-Formulare. Solche Fehler verursachen für die Unternehmen hohe Kosten – beispielsweise in Form von verpufften Marketingaktionen, unzustellbaren Rechnungen oder geschäftlichen Fehlentscheidungen aufgrund unzutreffender Analysen.

Im Whitepaper „Power auf Knowledge“ beschreiben die Datenqualitätsexperten von Human Inference, wie man aus diesem Dillema herauskommt und gehen auf die Geheimnisse der Adressdaten ein. Unter anderem wird erklärt, warum traditionelle Methoden wie das Matching in der Regel nicht zum gewünschten Ergebnis führen. Und es werden automatisierte Lösungen für die Datenbereinigung vorgestellt, die mathematische Verfahren mit der Verarbeitung natürlicher Sprache kombinieren. Denn es gilt, die Wissenslücke zwischen mathematischen und statistischen Techniken auf der einen und der Verwendung einer intelligenten Interpretationsmaschine und großer Wissenssammlungen auf der anderen Seite zu überbrücken. Nur dann kommen am Ende brauchbare Ergebnisse heraus und unvollständige oder fehlerhafte Adressdatenbanken können automatisch bereinigt und angereichert werden.

Im Gegensatz zur NSA betreibt Human Inference jedoch keine Geheimniskrämerei, sondern stellt seine Erkenntnisse allen Interessierten kostenfrei  zur Verfügung.

Weitere Informationen finden Sie in unserem Whitepaper: „Power of Knowledge“

Kommentieren Sie den Artikel