Zum Inhalt Zur Navigation Zur Subnavigation

Künstliche Intelligenz

Die Künstliche Intelligenz des Fake-Shop Detectors

Zahlreiche Fake-Shop Betreiber kopieren Teile ihres Online-Auftritts, da sie rasch für großen Schaden sorgen wollen bevor sie exponiert werden. Auch wenn Fake-Shops auf den ersten Blick gänzlich anders aussehen, hinterlassen ProgrammiererInnen unbewusst eine eigene Handschrift im Code. Wie häufig werden etwa dieselben Bibliotheken genutzt, existieren wiederkehrende strukturelle Patterns im Code, aber auch das Nichtvorhandensein von Merkmalen kann einen wesentlichen Einfluss auf die Entscheidungsfindung der Künstlichen Intelligenz haben.

Die zentrale Aufgabe der Detector-Modelle ist es aus tausenden von Merkmalen einer Website und deren Wechselwirkung klare Muster und Fingerabdrücke zur Klassifizierung und Abgrenzung von Fake-Shops gegüber legitimen Online-Händlern zu erlernen. Trainiert wurden die drei im Einsatz befindlichen Detector-Modelle auf über 6.000 archivierten Online-Shops. Die hierbei erzielte Genauigkeit der KI bei der Unterscheidung von betrügerischen und seriösen Händlern beträgt 97% auf der wissenschaftlichen Ground-Truth.

Die Evaluierung der KI im Praxiseinsatz hat gezeigt, dass gerade diese Vielzahl an über 22.000 erlernten Merkmalen, an für sich unbedeutenden Einzelfaktoren, jeweils mit geringer Gewichtung in die Gesamteinschätzung der KI beitragen, jedoch in Summe mit einer Genauigkeit von 90,38% zu einer großen Robustheit des Detectors beitragen. Um neu auftretende Angriffsmuster zu erlernen ist ein stetiges Re-Learning der Modell notwendig.

Vorgangsweise

Folgende Merkmale wurden durch eine Evaluierung der Data Science and Artificial Intelligence ExpertInnen des AIT in der KIRAS Studie KOSOH als relevante Features identifiziert: tokenisiertes HTML, CSS- und JS-Text, Kommentare sowie einzelne Tags, Tag-Attribut-Wert Muster und die Baumstruktur in den archivierten HTML-Skripten. Für die Merkmalsanalyse und Datenbereinigung wurde t-SNE (t-Distributed Stochastic Neighbor Embedding) verwendet. Die resultierenden Textdaten werden in numerische Werte konvertiert, um die ML-Modelle zu trainieren und ihre Fähigkeit der Klassifikation zu evaluieren. Die Implementierung der Analytik basiert auf Tf-idf-Vectorizer, einer Funktion, die Textdaten in eine Matrixdarstellung von tf-idf-Merkmalen (Term Frequency - Inverse Document Frequency) konvertiert. Tf-idf zielt darauf ab Vektoren zu erstellen, die codieren wie wichtig ein Wort für ein Dokument in einer Dokumentensammlung ist (in diesem Fall die Codebasis der zu analysierenden Websites). Der tf-idf-Wert erhöht sich proportional zu der Häufigkeit, mit der ein Wort im Dokument vorkommt, und wird um die Anzahl der Dokumente im Corpus, in denen das Wort enthalten ist, ausgeglichen. Dies trägt dazu bei, das Modell um den Umstand auszugleichen, dass gewisse Wörter im Allgemeinen generell häufiger vorkommen.

Performanz der Detector-Modelle

Folgende Machine-Learning Verfahren wurden auf ihre Eignung in der Klassifizierung und Vorhersage überprüft: tree-based Algorithmen wie Random Forest und Boosted Trees, Support Vector Machines (SVMs mit Kernel mit linearer und radialer Basisfunktion), Naive Bayes, Neuronale Netze und unsupervised Clustering-Methoden. Insgesamt zeigten tree-­based Algorithmen bei allen Metriken die beste Leistung, insbesondere XGBoost (eXtreme Gradient Boosting) mit angepasster Parametrisierung. Dieser ist eine schnelle und besonders gut ad­aptierte Implementierung des allgemeinen Boosted Tree-Algorithmus, der ein Set an Features ver­wendet, um einen Zielwert vorherzusagen. Darüber hinaus ist dieser so konzipiert, dass die Entscheidungen, basierend auf Features im Entscheidungsbaums, nachvollziehbar sind und somit einen guten Grad Erklärbarkeit der Klassifizierung ermöglichen.Wie bereits in den Ergebnissen der Publikation auf ausgewählten Datensätzen dargelegt zeigt sich, dass es auch in der Praxis möglich ist unter Verwendung eines aggregierten Gesamtmodells bestehend aus gleichverteilten Anteilen der drei trainierten Machine Learning Modelle XGBoost, Random Forest und eines Neuronalen Netzes eine deutlich höhere True Positive Rate im Fake-Shop Detector zu erzielen.

Anbei präsentieren wir die Receiver Operating Characteristics (ROC), welche (1) die TPR oder die Rate der wahr-positiven und (2) die FPR oder die Rate der falsch-positiven Werte einander gegenüberstellt, sowie (3) T-SNE der einzelnen Modelle, welche die Visualisierung von hochdimensionalen Daten und intrinsischen Clustern ermöglicht. Die wahr-positive Rate ist die Beobachtung, die sich aus allen positiven Beobachtungen korrekt als positive Vorhersage ergibt. Folgende Begrifflichkeiten wurden hierbei zugeordnet.

  • True Positives: Ein Shop wird von dem Modell korrekt als Fake eingestuft.
  • False Positives: Ein Shop wird von dem ML-Modell fehlerhaft als Fake eingestuft.
  • True Negatives: Ein Shop wird von dem Modell korrekt als sicher identifiziert.
  • False Negatives: Ein Shop wird von dem Modell fälschlicherweise als sicher eingestuft.
Ergebnisse der trainierten MAL2 Einzeldetektionsmodelle
Model Accuracy Precision Recall F1-Score
Random Forest 95% 97% 94% 96%
Neural Net 94% 99% 90% 94%
XG Boost 97% 97% 97% 97%

Werkzeuge der Cybercrime-Prävention

Das Expert Analyse Dashboard bietet den ExpertInnen eine direkte Interaktionsmöglichkeit zur interaktion mit den trainierten KI Modellen. Die Integration der Explainability Werkzeuge Local Interpretable Model-agnostic Explanations (LIME) und Shapley Additive exPlanations (SHAP) erlauben detaillierte Einblicke hinsichtlich der gelernten Zusammenhänge im Modell und Einfluss einzelner Features und deren Gewichtung auf getroffenen Prognosen zu untersuchen.