USUMA-Newsletter 1/2023
Background: Datenaufbereitung
Was geschieht eigentlich, nachdem die Telefoninterviews einer Studie abgeschlossen sind (nach der so genannten „Feldzeit“), also z.B. 4.000 GEDA Interviews geführt und damit 4.000 Datensätze gewonnen wurden? Darum soll es in diesem „Background“-Artikel gehen.
Zum einen geht es darum, die Plausibilität der gewonnenen Daten zu prüfen, also ob die Angaben der Befragten möglichst vollständig und in sich schlüssig (konsistent) sind, bzw. ob sich in der Vielzahl gegebener Antworten eventuell logische Fehler „eingeschlichen“ haben. Dazu kann USUMA-Mathematikerin/Statistikerin Ewa Sprysak (41) bei der Analyse des Datensatzes gezielt Suchaufgaben stellen. Ein Beispiel: Zeige mir Datensätze mit Minderjährigen, die bereits Kinder haben. Bei einer 16-jährigen Zielperson wurde eingetragen, dass sie mit einem Partner, einer Partnerin und 2 Kindern (Tochter/Sohn) in einem Haushalt lebt. „Wir würden die ersten beiden Angaben zu ‚Mutter‘ und ‚Vater‘ korrigieren, die weitere Person „Tochter/Sohn“ dann zu „Sonstige Person“ (Geschwister)“.
​
Zum anderen werden die Daten auch auf fehlerhafte oder unlogische Werte überprüft und ggf. korrigiert oder gelöscht. Ein Beispiel dafür: „Liste mir regionale Widersprüche“. Wenn evtl. der Landkreis Goslar (Niedersachsen) als Wohnort angegeben wurde, als Bundesland aber Sachsen-Anhalt, hätte man zumindest bei Interviews mit Festnetznummer die Möglichkeit, anhand der Vorwahl die Angaben zu korrigieren. Oft sind es auch einfache kleine Zahlendreher bei der Erfassung der Postleitzahl, die dann zunächst nicht zum „richtigen“ Bundesland gehört. Bei einem offensichtlich falsch erfassten Geburtsjahr wie „1900“ oder „2010“ (unter 16-Jährige werden nicht befragt), könnten wir dann zum Abgleich ggf. auf die Altersangabe im Schwedenschlüssel zurückgreifen.
​
In wissenschaftlichen Umfragen geht es immer auch darum, eine nicht verzerrte Stichprobe zu erhalten, die die gesamte Bevölkerung möglichst gut repräsentiert. Eine häufig genutzte Möglichkeit dafür ist am Ende der Datenaufbereitung die Gewichtung von Interviews.
​
Gewichtung bedeutet dabei vereinfacht, dass bestimmte Merkmale von Befragten in der Umfrage mit amtlich verfügbaren Statistiken verglichen werden. Zum Beispiel kann die Gewichtung genutzt werden, um sicherzustellen, dass die Stichprobe die richtige Altersverteilung, Geschlechterverteilung, ethnische Zugehörigkeit und geografische Verteilung hat.
​
Wären beispielsweise so viele junge Männer im Alter zwischen 18 und 24 Jahren befragt worden, wie es ihrem Prozentanteil in der gesamten Bevölkerung in Deutschland entspricht, bräuchte man gar keine Gewichtung. Jeder Telefoninterviewer weiß aber, wie schwer es ist, sehr junge Menschen für eine Telefonbefragung zu erreichen, insbesondere über das Festnetz. „Umso mehr junge Personen befragt werden, desto geringer sind die benötigten Gewichtungsfaktoren.“, erklärt Georg Grewer. Am Ende erreicht man meist trotzdem prozentual nicht genügend Mitglieder dieser Gruppe.
​
Passt man die Interviewverteilung anhand definierter Alters- und Geschlechtsgruppen an, verändern sich durch diese Gewichtung eventuell die Anteile der Bildungsabschlüsse im Gesamtdatensatz. Ausgehend von dieser ersten Anpassung, erhalten die Datensätze dann auch nach weiteren Kriterien, wie z.B. der Wohnregion einen neuen Gewichtungswert – wieder ändert sich die Verteilung der bereits berücksichtigten Merkmale. Die Daten werden also erneut „glatt gezogen“. Man sagt dazu, das Gewichtungsverfahren wird „iterativ“ durchgeführt. Das heißt, jedem Interview wird in mehreren Durchgängen immer wieder ein neuer Zahlenwert zugewiesen, der sich mit jedem weiteren Durchlauf der sog. „Anpassungsgewichtung“ immer weniger verändert, bis ein statistisches Optimum für alle gewichteten Merkmale in der Gesamtstichprobe entsteht.
​
„Am besten wäre es natürlich, wenn wir keine Gewichtung bräuchten“, formuliert Georg Grewer pointiert. „Ein Markenzeichen von USUMA ist, einen starken Fokus auf die Stichprobenziehung und die Feldarbeit zu legen.“
​
Dennoch ist die Gewichtung von Interviewdaten generell ein wichtiger Schritt bei der Aufbereitung von repräsentativen Umfragedaten. Denn diese kann bei sorgsamer Durchführung auch erheblich dazu beitragen, dass die Ergebnisse der Umfragen genauer und zuverlässiger sind und dadurch eine bessere Repräsentation der Gesamtbevölkerung darstellen, oder diese überhaupt erst ermöglichen.