Abgeschlossene Arbeiten

Alternative call metrics and their performance with support vector classifiers in SPIT detection

Art der Arbeit:
Bachelorarbeit Informatik
    Status:
    Abgeschlossene Arbeit
    Ansprechpartner:

    Kurzfassung

    Mit zunehmener Kostensenkung von Telekommunikationsdiensten und dem zunehmend einfacheren Zugang zu selbigen werden auch Spamanrufe, die in Form und Umfang mehr mit der Spammail als mit der Werbung lokaler Dienstleister gemein haben, wirtschaftlich tragfähig und stellen somit eine Ergänzung im Arsenal der Spammer dar. Um dem entgegenzuwirken wurden für den Geschäftsbereich bereits Methoden entwickelt, die die Anrufdauer und die Vernetzung zwischen Kommunikationspartnern verwenden, um Spamanrufe zu erkennen und den Angerufenen vor dem Anrufer warnen. Whoscall ist ein Dienst, der über eine Smartphoneapp
    Informationen über Anrufe und Anrufer sammelt und dem Nutzer die Möglichkeit gibt, den Anrufer als Spammer zu melden. Die gesammelten Informationen werden den Nutzern dann bei weiteren Anrufen angezeigt, um den Nutzer bei der Entscheidung über Annahme oder Ablehnung des Anrufs zu unterstützen. Basierend auf einem anonymisierten Auszug des Datensatzes von Whoscall evaluieren wir die Leistung sowohl von bereits etablierten Metriken wie der durchschnittlichen Anrufdauer und der normalisierten Anrufsfrequenz als auch Alternativmetriken wie dem Median der Anrufdauer, anrufdauerbasierte Metriken basierend auf dem
    Anrufsverhalten des Benutzers und Metriken basierend auf der Approximation der Verortung des Anrufers relativ zur Verortung des Benutzers oder dessen sozialen Netzwerkes. Wir testen diese Metriken mit dem Support Vector Machine Klassizierungsalgorithmus in der Erkennung von Interaktionen mit Spammern. Dabei wollen wir herausfinden, ob die Klassifizierungsleistung vergleichbar ist mit den aktuellen graph-basierten Methoden, die von FrauDetector verwendet wurden. Unsere Ergebnisse zeigen, dass einige alternative Metriken basierend auf der Nähe des Anrufers zum Benutzer oder der relative Median der Anrufsdauer brauchbare
    Indikatoren zur Verwendung mit graph-basierten Ansätzen sein könnten, diese aber keine bessere Leistung als die normalisierten Anrufsfrequenz versprechen. Weiter stellen wir fest, dass die Klassifizierungsleistung der Support Vector Machine auf dem Niveau von FrauDetector liegt, sich beide Ansätze aber in der Art des verursachten Klassifizierungsfehlers unterscheiden.