Die Digitalisierung ist in vollem Gange und mittlerweile essentieller Bestandteil eines jeden Wirtschaftsunternehmens. Auch Betrug ist im Netz allgegenwärtig, daher stehen gerade diese Unternehmen vor der großen Herausforderung sich vor Betrug zu schützen. Fakt ist, jedes Unternehmen bietet zahlreiche Angriffsflächen für unrechtmäßiges Verhalten.
Betrügerische Aktivitäten hinterlassen oft vielfältige Spuren in Daten. Können diese Spuren automatisiert erkannt werden, eventuell sogar bereits bevor Schaden entsteht?
Die Antwort auf diese Frage hängt stark von der konkreten Anwendung innerhalb der jeweiligen Branche ab. Ein generell hilfreicher Ansatz ist die Gegenüberstellung der konkreten Ziele von Betrügern (z.B. Warenzugriff und Identitätsverschleierung) mit den verfügbaren Daten (z.B. personenbezogene Daten oder Endgerät-Informationen), um herauszufinden, in welchen Datenteilen die Betrüger nur eingeschränkte Handlungsspielräume zum Erreichen Ihrer Ziele haben. Solch ein datengetriebenes Vorgehen identifiziert Schwachstellen der Betrüger und liefert konkrete Betrugsindikatoren.
Standardindikatoren richten den Fokus auf einzelne Datensätze, z.B. auf das Alter eines Kunden-Accounts oder die Distanz zwischen Liefer- und Rechnungsadresse. Ein anderer Indikatortyp erfasst hingegen die Zusammenhänge zwischen mehreren Datensätzen, z.B. auffällig starke Ähnlichkeiten zwischen zwei Bestellvorgängen verschiedener Accounts. Derartige Verbindungen zwischen Datensätzen liefern oft sehr gute Betrugsmerkmale. Ein solches Geflecht von Verbindungen definiert, mathematisch betrachtet, einen Graphen.
Dies schlägt die Brücke zum Forschungsgebiet der Graphentheorie und ermöglicht es, dessen ausgereifte Methoden zur Betrugsprävention einzusetzen. In der Praxis zeigt sich, dass die größte Schwierigkeit einer Graphenanalyse nicht im Berechnen der interessanten Graph-Eigenschaften liegt, sondern vielmehr in der vorangehenden Modellierung: Durch welche Verbindungen wird der Graph überhaupt sinnvoll definiert, so dass sich betrügerische Aktivitäten adäquat in seinen Eigenschaften widerspiegeln?
Im Rahmen der solutions.hamburg 2017, präsentierte Dr. Sven Kurras, Senior Data Scientist bei RISK IDENT, anhand von Praxisbeispielen, wie eine solche Graphenanalyse in verschiedenen Domänen zur Betrugsprävention anwendbar ist. Insbesondere können derartige Graphen genutzt werden, um Risikomodelle des maschinellen Lernens mit graphbasierten Merkmalen auszustatten, was die Güte solcher Modelle oft deutlich verbessert. Hierbei sind jedoch einige Feinheiten im Machine Learning-Prozess zu beachten, da graphbasierte Merkmale bei unbedachtem Einsatz schnell zum Einfallstor für sogenannte Target-Leaks werden können. Das heißt, die Modelle laufen Gefahr, indirekt mit dem verbotenen Wissen um ihre Testdaten trainiert zu werden. Auch hier gilt „With Great Power Comes Great Responsibility“.
Dr. Sven Kurras erforscht im Rahmen des Data-Science-Teams bei RISK IDENT das Potenzial und die Praxistauglichkeit derartiger graphbasierter Ansätze. Mehr Informationen zu RISK IDENT erfahren Sie hier: www.riskident.com.