Erkennung von Kreditkartenbetrug durch binäre Klassifikation und ML.NET
Es ist kein Geheimnis, dass wir im digitalen Zeitalter leben, was bedeutet, dass alles online erledigt wird. Dies beinhaltet das Geldmanagement und den gesamten Bereich des elektronischen Handels. Kreditkartenbetrug ist daher oft ein Problem, das zu einem Verlust vieler wichtiger Dinge führt. Dieses Problem kann durch den Einsatz von maschinellem Lernen und Algorithmen verhindert werden. Es gibt verschiedene Methoden, um dieses Problem zu lösen, wie zum Beispiel Neuronale Netze, Logistische Regression, Naive Bayes und Entscheidungsbäume.
In diesem Bericht werde ich einen Vergleich zwischen ihnen ziehen, wobei ich mich auf binäre Klassifikationsmethoden konzentriere. Wir werden den Vergleich auf mehreren Datensätzen durchführen. Ich habe auch versucht, reale Beispiele einzubeziehen, um die Skalierbarkeit zu zeigen.
In einer Zeit, in der alles schnell passiert, vergessen wir manchmal, die Sicherheit unserer Kreditkarte zu überprüfen. Aus Bequemlichkeit speichern wir die Kreditkarte in Apps. Dies kann zu Kreditkartenbetrug führen. Um möglichen Kreditkartenbetrug zu bekämpfen, könnten wir KI einsetzen, aber es gibt viele Möglichkeiten, dies zu tun. Wir könnten uns auf Neuronale Netze, Logistische Regression, Naive Bayes, Entscheidungsbäume, Random Forest und Mehrschichtperzeption stützen, aber wir werden uns auf die Leistung der binären Klassifikationsmethoden konzentrieren und sie mit anderen Ergebnissen vergleichen.
Leistung ist der Schlüssel für jede Software, da unsere Welt schnelllebig ist. Wie oft haben wir dieses Problem? Dies ist ein Problem, das seit der Pandemie im Jahr 2020, die alle betroffen hat, besteht. Mit der weltweiten Sperrung stieg die Beliebtheit des Online-Shoppings drastisch an, was bedeutet, dass sich der Kreditkartenbetrug bis Ende 2020 verdoppeln könnte. Und in solchen Zeiten ist das Letzte, was jemand will, all sein Geld zu verlieren.
Das Problem hat das Interesse vieler brillanter Köpfe geweckt, und die Lösung für dieses Problem wäre die Erkennung von Kreditkartenbetrug mit Entscheidungsbäumen und Support Vector Machines, wie von Y.Sahin und E.Duman gezeigt: „Mit zunehmender Größe der Trainingsdatensätze erreicht die Genauigkeitsleistung der SVM-basierten Modelle die Leistung der Entscheidungsbaum-basierten Modelle“. Aber wir sprechen hier nicht über Leistung. Dies war schon lange ein Problem. Zum Beispiel hat Gosh, Reilly im Jahr 1994 ein neuronales Netzwerk entwickelt, das Konten als Betrug mit einer höheren Erfolgsquote als regelbasierte Verfahren erkannte und klassifizierte. Eine andere Idee entstand 1996 bei Dhar und Buescher, die historische Daten über Kreditkartentransaktionen verwendeten, um ein Betrugs-Score-Modell zu erstellen und einen Clustering-Ansatz in einem radialen Basisfunktionsnetzwerk anwendeten. Andere Ansätze umfassten den Einsatz von klassischen Algorithmen wie Gradient Boosting, Entscheidungsbäumen und logistischer Regression, von denen alle unterschiedliche Ergebnisse erzielten, die in den folgenden Kapiteln verglichen werden.
Binäre Klassifikationsmethoden
Wie bereits erwähnt, gibt es viele Möglichkeiten, dieses Problem zu lösen, aber wir werden uns auf die binären Klassifikationslösungen konzentrieren, da gemäß dem Dokument „Credit Card Fraud Detection“ die besten Ergebnisse in Bezug auf Genauigkeit mit binären Klassifikationsmethoden erzielt wurden. Zum Beispiel hatten Random Forests eine Genauigkeit von 95,5%. An zweiter Stelle lag der Entscheidungsbaum-Algorithmus mit 94,3% und die logistische Regression mit 90%.
Datensatz
Der verwendete Datensatz ist ein beliebter Datensatz, der von Kaggle heruntergeladen werden kann und Daten von europäischen Karteninhabern aus dem Jahr 2013 enthält. Dieser Datensatz umfasst etwa 284.807 Transaktionen, von denen nur 492 als Betrug gekennzeichnet wurden. Der Datensatz wird durch die Hauptkomponentenanalyse transformiert. Die Variablen V1….V28 repräsentieren PCA-Merkmale, während die restlichen Merkmale wie Zeit, Betrag und Klasse als nicht-PCA-Merkmale betrachtet werden. Da die Verteilungsproportionen der Klassen ein entscheidender Aspekt der experimentellen Ergebnisse sind, erfordern die Daten eine gewisse Vorverarbeitung.
Methodik
Nicht alle Merkmale sind nützlich und wenn wir sie beibehalten, kann Overfitting auftreten. Daher müssen wir sorgfältig die wichtigsten Merkmale auswählen und die anderen entfernen, um die Trainingszeit zu reduzieren und die Genauigkeit zu verbessern. Um alle wertvollen Merkmale zu filtern, wurde das Tool von Will Koehrsen verwendet, mit dem die Anzahl der wertvollen Merkmale um 95% reduziert wurde. Nur 27 Merkmale haben es in die nächste Phase geschafft. Da die Daten sehr unausgewogen sind, wird eine Klassenverteilungsanpassungsmethode angewendet. Die häufigsten Methoden sind: Überabtastung der Minderheitsklasse, Unterabtastung der Mehrheitsklasse oder eine Kombination aus beiden. Eine beliebte Überabtastungsmethode, die in beiden Artikeln verwendet wurde, ist SMOTE (Synthetic Minority Oversampling Technique), da sie bei unausgewogenen Datensätzen sehr effektiv ist.
Verwendete binäre Klassifikationsmethoden
Von Anfang an war unser Ziel, die Leistung verschiedener binärer Klassifikationsmethoden zu betrachten. Daher haben wir in diesem Artikel Modelle erstellt und trainiert und werden die Ergebnisse vergleichen, um festzustellen, welche die besten Ergebnisse in Bezug auf Genauigkeit und Präzision erzielen. Logistische Regression beschreibt eine Beziehung zwischen Prädiktoren, die kategorisch, binär und kontinuierlich sein können.
Basierend auf einigen Prädiktoren bestimmen wir, ob etwas passieren wird, und bestimmen die Wahrscheinlichkeit, zu welcher Kategorie des gegebenen Prädiktorensatzes zu gehören. Naive Bayes ist ein weiterer überwachter Lernalgorithmus, bei dem die Attribute unabhängig voneinander sind und auf dem Bayes-Theorem basieren. Im Experiment wurde die Bernoulli-Verteilung verwendet, um betrügerische Transaktionen zu erkennen. Entscheidungsbäume sind ein weiterer überwachter Lernalgorithmus, bei dem die Struktur einem echten Baum ähnelt, jedoch drei Arten von Knoten aufweist: Wurzelknoten, innere Knoten und Blattknoten, den Terminalknoten.
Basierend auf einer Reihe von Faktoren überprüft ein Entscheidungsbaum, um eine richtige Klassifizierung vorzunehmen, eine Reihe von Bedingungen auf jeder Ebene und navigiert durch den Entscheidungsbaum, bis er zu einer Schlussfolgerung gelangt. Eine Support Vector Machine ist ein überwachter Lernalgorithmus, der auf einem bereits in die richtigen Kategorien eingeteilten Datensatz trainiert wird und dann versucht, das ursprüngliche Modell wiederherzustellen, indem es die Daten sortiert. Random Forests können für Klassifikation oder Regression verwendet werden, wobei eine Sammlung von Entscheidungsbäumen für die Klassifikation verwendet wird, jedoch mit Verbesserungen. Der Datensatz wurde im Verhältnis 80:20 aufgeteilt, 80% für das Training und 20% für die Tests.
Experimentelle Ergebnisse
Wie bereits erwähnt, werden wir uns auf die Leistung der binären Klassifikationsmethoden konzentrieren und sie in Bezug auf Genauigkeit und Präzision vergleichen. Die Gesamtzahl der Proben beträgt 56.962; von dieser Anzahl waren 98 betrügerische Transaktionen.
Logistische Regression
Genauigkeit: 58,72%
Präzision: 97,46%
Vorhersage von Betrug: 1530
Tatsächlicher Betrug: 98
Als kein Betrug vorhergesagt: 55432
Tatsächlich kein Betrug: 56864
Naive Bayes
Genauigkeit: 16,17%
Präzision: 99,23%
Vorhersage von Betrug: 501
Tatsächlicher Betrug: 98
Als kein Betrug vorhergesagt: 56461
Tatsächlich kein Betrug: 56864
Random Forests
Genauigkeit: 96,38%
Präzision: 99,96%
Vorhersage von Betrug: 83
Tatsächlicher Betrug: 98
Als kein Betrug vorhergesagt: 56879
Tatsächlich kein Betrug: 56864
Entscheidungsbaum
Genauigkeit: 98,14%
Präzision: 97,08%
Support Vector Machine
Genauigkeit: 98,31%
Präzision: 97,18%
Wie im Artikel vorgeschlagen, zeigen die Ergebnisse, dass ein klassischer Ansatz genauso erfolgreich sein kann wie populäre Optionen wie Deep-Learning-Algorithmen. Diese Idee wird in den Artikeln detaillierter erläutert und unterstützt. „Die Ergebnisse dieser Studie zeigen vielversprechende Ergebnisse mit SMOTE-basierten Abtaststrategien. Die beste Recall-Wertung wurde mit der SMOTE-Abtaststrategie unter Verwendung des DRF-Klassifikators mit 0,81 erreicht.“
Schlussfolgerung
Wie wir gesehen haben, stellt der Kreditkartenbetrug ein reales Problem dar. Nicht zu vergessen, dass in diesem Jahr auch die Einführung von NFC-Zahlungsanwendungen zu beachten ist, was für eine Person mit Kenntnissen über Klonen von Kreditkarten ein großes Problem darstellen kann. Es wurden verschiedene Möglichkeiten vorgeschlagen, dieses Problem anzugehen.
Wie wir aus den experimentellen Ergebnissen gesehen haben, sind die klassischen Algorithmen genauso erfolgreich wie Deep-Learning-Methoden, aber nur wenn der Datensatz mit der SMOTE-Strategie vorverarbeitet wird. Der beste überwachte Lernalgorithmus in Bezug auf Genauigkeit war die Support Vector Machine mit einer Genauigkeit von 98,31% und in Bezug auf Präzision waren es die Random Forests mit einer Genauigkeit von 99,69%. Und die oben genannte Beobachtung „Mit zunehmender Größe der Trainingsdatensätze erreicht die Genauigkeitsleistung der SVM-basierten Modelle die Leistung der Entscheidungsbaum-basierten Modelle“.
Die Idee, die binäre Klassifikation zur Lösung dieses Problems zu verwenden, wurde auch von Microsoft aufgegriffen, um ein Modell zu entwickeln, das als API in ML.NET trainiert und konsumiert werden kann. Der von ihnen verwendete Algorithmus war ihr innovativer FastTree (eine optimierte Variante eines Entscheidungsbaums) und die binäre Klassifikation. Ich beabsichtige, weitere Arbeiten zu untersuchen, die das genaue Problem mit Hilfe von binären Klassifikationsmethoden gelöst haben, aber um sicher zu gehen, werde ich nach aktuelleren Datensätzen suchen, die aus realen Banken auf der ganzen Welt stammen.