Methodische Probleme von Big Data im Umgang mit Social Media

Hinterlasse einen Kommentar
Wissenschaft

In einem neuen Aufsatz beschreibt Zeynep Tufekci Probleme, die auftauchen, wenn Plattformen von sozialen Netzwerken als Datenquellen benutzt werden, um mit der maschinellen Verarbeitung von großen Datenbanken (»Big Data« genannt) Erkenntnisse über das menschliche Verhalten zu sammeln.

Ich fasse die wesentlichen Beobachtungen und Schlüsse von Tufekci zusammen, empfehle aber allen eine genaue Lektüre des Originaltextes. Im Folgenden verwende ich SMBD als Abkürzung für »Social-Media-Big-Data«.

  1. SMBD bezieht sich oft auf spezifische Plattformen wie Twitter. 
    Die Twitter-Daten sind leicht zu bekommen, dabei beeinflussen aber bestimmte Phänomene oder Affordances von Twitter die Resultate aus der Datenverarbeitung. Tufekci vergleicht hier Big Data mit der Biologie, die sich auf bestimmte Organismen oder Lebewesen konzentriere, weil die einfache Forschung ermöglichen – gerade deswegen gewisse biologische Strukturen in einer untypischen Form aufweisen, welche die Untersuchung verzerren.
    Ein wesentliches Problem ist die fehlende Repräsentativität: Nur wenige Menschen sind auf Twitter präsent und sind in Bezug auf Bildung, Geschlecht, Ethnie etc. kein gutes Sample.
  2. SMBD führt oft zu methodischen Problemen, weil nicht repräsentative Daten verwendet werden oder abhängige Variablen untersucht werden. 
    Tufekci verweist auf Beispiele in der medizinischen Forschung, die beispielsweise Patientinnen untersucht, die ein bestimmtes Medikament nehmen. Daraus ergibt sich der falsche Eindruck, das Medikament helfe bei bestimmten Risiken, obwohl es letztlich schadet. Der Eindruck entsteht, weil nur gesunden Frauen das Medikament nehmen und so im Vergleich mit anderen in jeder Hinsicht bessere Werte zeigen. Analog ist die Auswertung von Hashtags, die bei bestimmten Ereignissen eingesetzt werden, gefährlich, weil die Hashtags von Usern selbst als Mittel gewählt werden.
  3. SMBD bilden oft komplexe und nicht quantifizierbare Interaktionen ab.
    Man denke beispielsweise an die unterschiedlichen Bedeutungen, die ein Facebook-Like oder ein Twitter-Fav haben können. Tufekci verweist darauf, dass leicht berechenbar ist, wie viele Menschen like gedrückt haben oder auf eine Meldung klicken: Aber wie viele sie sehen, ohne zu klicken, kann oft kaum ermittelt werden. Retweets auf Twitter erfolgen oft auch, weil man negative Wertungen weitergeben oder Abgrenzungen vornehmen will – sie sind nicht immer ein Zeichen von Einfluss oder positiver Resonanz. Ihre Bedeutung kann von Maschinen nur dann erfasst werden, wenn sie vorher interpretiert wird.
  4. Der isolierte Blick auf eine Plattform kann ein Phänomen nicht erfassen. 
    Informationen verbreiten sich on- und offline in verschiedenen Medien. Hier eine bestimmte Art der Interaktion rauszugreifen ergibt ein unvollständiges Bild.
  5. Viele Social-Media-Bezüge sind schwer maschinenlesbar. 
    Tufekci verweist auf Bezüge auf Kontext, Screenshots, Nonmentions und Hate-Linking, also das Verlinken auf einen Beitrag oder Tweet, statt ihn mit den Standardmethoden zu teilen.
  6. Bewusste Einflussnahme wird unterschätzt. 
    Analog zum Google-Suchalgorithmus, dessen Funktionsweise von SEO-Spezialisten sofort missbraucht wird, wenn sie verstehen, wie er funktioniert, werden alle maschinenlesbaren Metriken von Social Media von Menschen beeinflusst, die bestimmte Meinungen vertreten wollen. Tufekcis Daten beinhalten beispielsweise Versuche türkischer Politiker, Hashtags wie #stoplyingCNN zum Trenden zu bringen, also regional oder global in Charts aufzutauchen, die zeigen, welche Themen momentan wichtig sind.

Tufekci schlägt für Untersuchungen folgende Punkte vor:

  • Messwerte und Variablen verwenden, die außerhalb von Social Media überprüfbar sind (Wahlresultate, Arbeitslosenzahlen etc.)
  • Kleine Samples auch qualitativ untersuchen, um beispielsweise feststellen zu können, welche Rolle Hate-Linking spielt.
  • Mit Vertretern der Social-Media-Anbietern zusammenarbeiten, um an bessere Daten zu gelangen.
  • Immer mehrere Methoden und mehrere Plattformen einbeziehen.
  • Mit Wissenschaftlerinnen und Wissenschaftlern verschiedener Disziplinen zusammenarbeiten.

    Karten-Daten-Visualisierung Linkedin l luc legay CC – Flickr

The Author

philippe-wampfler.ch

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s