Wikipedia vs. Google: Trendforschung per Algorithmus?

03.03.2016 von Tom Leonhardt in Forschung, Wissenschaft
Filme, Technik und sogar Grippewellen: Mit dem Online-Dienst Google Trends lässt sich nachvollziehen, nach welchen Themen Internetnutzer besonders häufig suchen. Doch das Angebot der Suchmaschine hat einige Nachteile: Nur Google weiß, woher die Zahlen kommen – und ändert ständig seine Algorithmen. Physiker der Uni Halle haben mit Kollegen aus England und den USA deshalb untersucht, ob die Online-Enzyklopädie Wikipedia eine sinnvolle Alternative ist.
Dr. Jan Kantelhardt hat mit seinem Doktoranden Mirko Kämpf Wikipedia erforscht.
Dr. Jan Kantelhardt hat mit seinem Doktoranden Mirko Kämpf Wikipedia erforscht. (Foto: Maike Glöckner)

Zu den Forschungsgebieten von Physikern gehören nicht nur Spins, Linsen und Solarzellen. Sie befassen sich auch mit Bewegungsdaten von Handys, Organfunktionen im Körper oder der Online-Enzyklopädie Wikipedia. „Als theoretische Physiker wenden wir Methoden der Physik auf viele unterschiedliche Bereiche an“, so Dr. Jan Kantelhardt vom Institut für Physik. „Unser Ziel ist es, Gesetzmäßigkeiten in der Welt mit Hilfe von Algorithmen zu erkennen und zu nutzen.“

Im Rahmen des EU-Projekts „Socionical“ haben sich Kantelhardt und sein Doktorand Mirko Kämpf damit beschäftigt, wie Menschen Online-Informationen nutzen und weiter verbreiten. Die Erkenntnisse aus dem Projekt können zum Beispiel dabei helfen, Besucher von Großveranstaltungen mit nützlichen Programm-Informationen zu versorgen oder im Katastrophenfall Menschenströme zu koordinieren. „Aus dieser Arbeit entstand auch die Idee, sich mit Wikipedia zu beschäftigen. Wir wollten herausfinden, ob man mit Wikipedia Trends oder Marktentwicklungen beobachten kann“, sagt Mirko Kämpf.

 

Trends mit Google erkennen

Derzeit sei häufig noch Google Trends das Mittel der Wahl, um zu beobachten, wie viel Interesse an einem Thema im Moment besteht. Über eine Weboberfläche können Benutzer Suchbegriffe eingeben und erhalten dann eine Auswertung darüber, wie häufig dieser Begriff in einem bestimmten Zeitraum in einer bestimmten Region gesucht wurde.

Beispiel für eine Suchanfrage in „Google Trends“: Hier werden die Suchbegriffe „winter“ und „starwars“ miteinander verglichen.

In Sachsen-Anhalt zeigt der Dienst zum Beispiel seit dem 14. Dezember 2015 einen sehr starken Anstieg für Suchanfragen nach „Star Wars“ – am 17. Dezember 2015 kam der neue Teil der Filmreihe in die deutschen Kinos. Das Problem an den Angaben von Google sei aber, so Kantelhardt, dass man nicht genau wisse, woher sie kommen. Google gibt die Werte für die Suchanfragen nur auf einer Skala von 1 bis 100 an – gibt aber keine Auskunft darüber, wie oft genau ein bestimmter Begriff gesucht wurde. „Die Suchbegriffe können auch mehrdeutig sein. Am Ende weiß man nicht genau, was mit einer Suchanfrage gemeint war“, erklärt der Physiker weiter. So könnte sich „Star Wars“ auf einen einzelnen Film oder die ganze Marke beziehen

Wikipedia: Eine sinnvolle Alternative?

Anders ist das bei Wikipedia: Auf der Plattform gibt es jeweils separate Einträge, falls ein Wort mehrere Bedeutungen hat. „Für das Portal sind außerdem sämtliche Rohdaten zugänglich“, berichtet Mirko Kämpf. Das heißt, es gibt genaue Zahlen dafür, wie viele Klicks eine bestimmte Seite innerhalb eines Zeitraums erzielt hat. Anhand von Protokollen können die Wissenschaftler auch nachvollziehen, wie häufig ein Artikel bearbeitet wurde und wie stark er mit anderen Seiten innerhalb der Enzyklopädie vernetzt ist, d.h. wie viele andere Einträge auf einen bestimmten Artikel verweisen und umgekehrt. „Mit Google Trends kann ich nur herausfinden, was gesucht wird. Mit Wikipedia auch das, was wirklich gelesen wird“, fasst Kantelhardt zusammen. Der Nachteil: Ist das Themengebiet nicht groß genug oder zu groß, gibt es zu wenig bzw. zu viele Daten auf Wikipedia – beides kann für die spätere Analyse Probleme bereiten.

Das Ziel der Wissenschaftler war es, diese unterschiedlichen und teilweise unübersichtlichen Daten zu modellieren und zu analysieren, um Aussagen über Entwicklung eines Themengebietes treffen zu können. Für ihre Forschung hat sich die Gruppe den Bereich „Big Data“-Software angeschaut. Sie wollte nachvollziehen, ob sich der Boom von Systemen, die riesengroße Datensätze verarbeiten können, auch bei Wikipedia – anhand der Anzahl von Suchanfragen, von Artikeln und auch der Länge von Artikeln generell – nachvollziehen lässt. Unterstützung bekamen die beiden halleschen Wissenschaftler dabei zum einen von Eric Tessenow, einem Alumnus der Uni Halle, der mittlerweile an der University of Leeds studiert. Tessenow lieferte das linguistische Know-How für die Analyse der Artikel. „Da ging es unter anderem darum, Aussagen über die Länge der Artikel zu treffen und auch, wie sie aufgebaut sind“, erläutert Jan Kantelhardt. Der Physiker Dr. Dror Kenett von der Boston University unterstützte sie bei der Interpretation der Ergebnisse.

(Grafik: Wikimedia Foundation, CC 3.0 BY SA)
(Grafik: Wikimedia Foundation, CC 3.0 BY SA)

Auf das Forschungsprojekt aus Halle war zwischenzeitlich auch der schwedische Ableger von Wikipedia aufmerksam geworden und förderte ein kleines Forschungsprojekt: Für ein halbes Jahr ging eine wissenschaftliche Hilfskraft aus Halle der Frage nach, inwiefern Nutzer auf die englisch-sprachige Wikipedia zugreifen, obwohl Englisch nicht ihre Muttersprache ist.

Generell haben die Forscher festgestellt, dass die Suchanfragen für Big-Data-Angebote seit 2010 kontinuierlich zugenommen haben. „Das allein ist noch nichts Besonderes, denn überall gab es seitdem eine Steigerung der Klickzahlen“, kommentiert Kantelhardt. Die Wissenschaftler konnten aber zeigen, dass es für bestimmte Big-Data-Angebote nicht nur ein schwaches Wachstum, sondern sogar einen starken Sprung im Interesse gibt – so ließ sich auch nachweisen, dass ein bestimmtes Angebot häufiger auf Wikipedia nachgefragt wurde als andere. „Ob sich darüber Rückschlüsse auf die Beliebtheit eines Systems ziehen lassen, bleibt Interpretationssache“, fasst Kantelhardt zusammen. Rückblickend können die Forscher aber anhand ihrer Algorithmen beschreiben, ob beispielsweise ein Artikel bei Wikipedia innerhalb eine bestimmten Zeit häufig gelesen, bearbeitet und verlinkt wurde.

Damit sich Forscher künftig nicht immer wieder durch die großen und unübersichtlichen Datenmengen kämpfen müssen, arbeitet Mirko Kämpf an einer Plattform, mit der die Datensätze künftig einfacher ausgewertet werden können. Das Ziel ist es, dass Nutzer künftig mit Hilfe der in Halle entwickelten Methoden zum Beispiel Daten von Wikipedia auswerten können.

Zur Publikation:
Kämpf M, Tessenow E, Kenett DY, Kantelhardt JW (2015) The Detection of Emerging Trends Using Wikipedia Traffic Data and Context Networks. PLoS ONE 10(12): e0141892. doi: 10.1371/journal.pone.0141892

Kontakt: PD Dr. Jan Kantelhardt
Institut für Physik
Tel.: 0345 5525433
E-Mail schicken

Schlagwörter

Physik

Kommentar schreiben

Auf unserer Webseite werden Cookies gemäß unserer Datenschutzerklärung verwendet. Wenn Sie weiter auf diesen Seiten surfen, erklären Sie sich damit einverstanden. Einverstanden