François Höpflinger

Stichprobenauswahl und Samplingverfahren

Inhalt

1) Problemstellung und Begriffe
2) Zur Wahl der Untersuchungspopulation
3) Zur Wahl der Stichprobengrösse
4) Kurzbeschreibung verschiedener Samplingstrategien


1) Problemstellung und Begriffe

Entscheidende Aspekte bei jeder grösseren Umfrage ist die Wahl von Stichprobe und das Samplingverfahren. Eine optimale Stichprobenauswahl ist umso wichtiger, je eher ein Anspruch auf Repräsentativität gestellt wird.

Zu den Begriffen:

Stichprobe (oder Sample): = befragte Personen aus einer grösseren Menge von Personen. Eine Stichprobe umfasst immer nur einen ausgewählten Teil der interessierenden Bevölkerung. Beispielsweise werden 1000 Personen aus der Wohnbevölkerung einer Region befragt, um Auskunft über die Lebenslage dieser Personen zu erhalten.

Eine Alternative zur Stichprobenerhebung besteht in einer Totalerhebung (etwa im Rahmen von Volkszählungen). Es ist offensichtlich, dass eine Stichproben-Befragung einen wesentlich geringeren Zeit- und Kostenaufwand erfordert als eine Totalerhebung. Aufgrund statistischer Gesetzmässigkeiten (Gesetz der grossen Zahl) können bei zufällig ausgewählten Stichproben trotz einer im Vergleich zur Gesamtbevölkerung relativ kleinen Zahl von Befragungen dennoch gültige Aussagen über die Gesamtbevölkerung gemacht werden.

Samplingverfahren (oder kurz: Sampling): = Verfahren, mit dem Befragte (bzw. Personen der Stichprobe) aus der Gesamtmenge an möglichen Personen ausgewählt werden. Es bestehen - wie nachfolgend gezeigt wird - sehr unterschiedliche Samplingverfahren, wobei nur ein Teil der denkbaren Auswahlverfahren zu einer repräsentativen Erhebung führen (vgl. Kurzbeschreibung unterschiedlicher Samplingverfahren)

Repräsentativität: Eine Befragung kann dann und nur dann als repräsentativ angesehen werden, wenn die Stichprobe in ihrer sozialen Verteilung der Grundgesamtheit entspricht. Repräsentativität bedeutet, dass die aus einer Teilbefragung von Personen gewonnenen Informationen für die Grundgesamtheit aller Personen gültig sind. Beispielsweise kann bei einer repräsentativen Telefonbefragung aus den Antworten von 1000 StimmbürgerInnen auf die politische Einstellung aller StimmbürgerInnen einer Region geschlossen werden.

Die Verallgemeinerung von Forschungsresultaten einer Stichprobenbefragung auf die Grundgesamtheit hat allerdings nur dann Gültigkeit, wenn die Stichprobe gemäss der statistischen Theorie gebildet wurde. Die wichtigste Regel ist, dass die zu befragenden Personen im statistischen Sinne zufällig ausgewählt werden müssen. Und eine reine Zufallsauswahl bedeutet prinzipiell nichts anderes, als dass jede Person (bzw. Untersuchungseinheit, etwa bei Haushalts- oder Organisationsbefragungen) aus der Untersuchungspopulation statistisch die genau gleiche Wahrscheinlichkeit aufweist, befragt zu werden (Für Ausnahmeverfahren, wie disproportional geschichtete Stichprobenverfahren, vgl. Kurzbeschreibung unterschiedlicher Samplingverfahren).

Repräsentative Umfragen setzen ein Zufalls-Sampling (engl. random sampling) voraus. Nur eine Zufallsauswahl lässt einen spätere Verallgemeinerung der Forschungsresultate und das Testen von allgemeinen Hypothesen zu. Und im Grunde sind Signifikanz-Tests nur bei repräsentativ erhobenen Daten sinnvoll (sowohl bei grob verzerrten, nicht-repräsentativen Stichproben als auch bei Vollerhebungen sind Signifikanz-Tests sinnlos).

Bei der Vorbereitung einer (repräsentativen) Befragung stehen primär drei zentrale Schritte zu entscheiden:

a) Genaue Definition der Untersuchungspopulation: Wer genau soll befragt werden?

b) Wahl der Stichprobengrösse: Wieviele Personen sollen befragt werden?

c) Auswahl der geeigneten Samplingstrategie: Welches Auswahlverfahren ist geeignet bzw. möglich?

Bei allen drei Schritten sind neben theoretisch-statistischen Aspekten immer auch praktisch-pragmatische Aspekte zu berücksichtigen. Die statistisch beste Samplingstrategie nützt wenig, wenn zu wenig Mittel, Zeit oder Grundlagen (z.B. aktuelle Adressen) vorliegen, und auch die Wahl der Stichprobengrösse wird oft von vorhandenen finanziellen Rahmenbedingungen mitbestimmt.

2) Zur Wahl der Untersuchungspopulation

Der erste Schritt ist sachgemäss eine klare und operationalisierbare Definition der Untersuchungspopulation, d.h. dh. die Bestimmung der für die jeweilige Umfrage interessierenden Gruppen von Personen, Haushalte oder Organisationen. Die Definition der Untersuchungspopulation ist im wesentlichen von den Forschungszielen und den Fragestellungen abhängig (und sie sollte frühzeitig entschieden werden) (vgl. Forschungsplan und Forschungsdesign).

Die Untersuchungspopulation muss sowohl sozio-demographisch als auch geographisch klar abgrenzbar sein, wobei diesbezüglich auch forschungspraktische Faktoren mitspielen. So bedeutet eine repräsentative gesamtschweizerische Befragung, dass etwa der Fragebogen in mehreren Sprachen übersetzt werden muss (was sich auch finanziell auswirkt). Eine Umfrage bei städtischen Bevölkerungen muss klar definieren, welche Gemeinden zu den städtischen oder stadtnahen Gebiete gezählt werden. Bei einer Mitgliederbefragung etwa muss klar bestimmbar sein, wer als Mitglied gezählt wird, usw. Zu berücksichtigen ist immer auch, dass verschiedene Bevölkerungsgruppen nicht oder nur unter erschwerten Bedingungen befragbar sind (wie etwa Gefängnisinsassen, kranke und behinderte Menschen u.a.). Kinder und minderjährige Personen dürfen im allgemeinen häufig nur mit Einwilligung der Eltern befragt werden, abgesehen davon, dass die Befragung von Kindern andere Befragungsinstrumente einschliesst als die Befragung von Erwachsenen. Umfragen bei betagten Menschen stehen vor dem Problem, dass Personen in privaten und institutionellen Haushaltungen unterschiedlichen Befragungssituationen unterliegen (und etwa demenzkranke Betagte höchstens via proxy-Interviews (=Befragung von Angehörigen oder Pflegepersonen) erfasst werden können.

Je heterogener die Untersuchungspopulation in geographischer, sozialer, altersmässiger oder kultureller Hinsicht ist, desto aufwändiger wird eine Befragung, abgesehen davon, dass heterogene Untersuchungspopulationen die Bereitstellung eines für alle gut verständlichen Fragebogens erschweren. Fragen, welche für Jugendliche wichtig sind, sind für ältere Menschen unangebracht, und umgekehrt.

Speziell dort, wo von vornherein mit eingeschränkten finanziellen Mitteln gearbeitet wird, ist in vielen Fällen eine geographische, soziale, altersmässige und kulturelle Homogenisierung der Untersuchungspopulation zu empfehlen (z.B. Beschränkung auf Agglomerationsgebiete, altersmässige Limitierung der Stichprobe.

3) Zur Wahl der Stichprobengrösse

Eine zweite zentrale Entscheidung bei jeder (repräsentativen) Befragung ist die Wahl der Stichprobengrösse bzw. Samplegrösse (= Zahl der zu befragenden Personen). Sollen 500, 1000 oder 2000 Personen befragt werden?

Die Stichprobengrösse wird zum einen von finanziellen Überlegungen beeinflusst: Je mehr Interviews, desto kost- und zeitaufwendiger ist Befragung, namentlich bei kostenintensiven Umfrageformen (wie face-to-face-Interviews). Aber auch bei kostengünstigen Verfahren - wie telefonische oder schriftliche Befragung - nehmen die Kosten mit steigender Stichprobengrösse linear zu. Einzig bei elektronischen Befragungen (Internet-Umfrage) ergeben sich höchstens indirekte Mehrkosten (z.B. Nachkontrollaufwendungen). Aus finanziellen Gründen wird somit namentlich bei mündlichen, teilweise aber auch bei telefonischen Befragungen eine möglichst geringe Zahl von Befragungen gewünscht.

Die Wahl der Stichprobengrösse wird zum anderen durch statistische Überlegungen bestimmt. Das Gesetz der grossen Zahl besagt, das ein Stichprobenwert identisch mit dem echten Wert der Grundgesamtheit ist, wenn die Stichprobengrösse sich der Grösse der Grundgesamtheit nähert. Daraus ergibt sich, dass die aus einer beschränkten Stichprobe gewonnenen Werte mehr oder minder stark von ihrem wahren Wert abweichen müssen (= Stichprobenfehler). Wenn man z.B. in einem Land mit 30 Mio. Erwachsenen eine Stichprobe von 2'000 Personen über 18 Jahren befragt und feststellt, dass das Durchschnittsalter der Befragten 49 Jahre beträgt, so stimmt diese Zahl nur in bestimmten Zufallsvariationen mit dem wahren Durchschnittsalter überein.

Alle aus Stichproben gewonnenen Ergebnisse können daher lediglich wahrscheinlichkeitstheoretische Aussagen sein, deren Genauigkeit vom Stichprobenfehler abhängt. Der Stichprobenfehler seinerseits hängt mit der Zahl an Befragten ab, und er reduziert sich mit zunehmender Stichprobengrösse. Je genauer die gemachten Aussagen sein sollen, desto mehr Personen müssen befragt werden.

Die "Kunst" liegt darin namentlich bei kostenintensiven Befragungsformen zwischen finanziellen Grenzen (möglichst wenig Interviews) und statistischer Genauigkeit (möglichst viele Interviews) zu optimieren.

Bei reinen Zufallsstichproben lässt sich im übrigen der Stichprobenfehler (= wahrscheinliche Abweichung des Stichprobenwertes vom wahren Wert) ohne grosse Probleme errechnen. Der Stichprobenfehler bei einem gemessenen Merkmal hängt von zwei Grössen ab:

a) von der Variabilität des Merkmals in der Grundgesamtheit, die durch die Stichprobenvarianz geschätzt wird. Je grösser die Streuung (s) eines Merkmales, desto grösser der Schätzfehler. Bei einer Streuung von p = 50% (bzw. 50% Ja, 50% Nein) ist der Schätzfehler am höchsten.

b) von der Grösse der Stichprobe. Der Stichprobenfehler verändert sich umgekehrt proportional zur Quadratwurzel aus n (= Stichprobegrösse). In anderen Worten: Um den Stichprobenfehler zu halbieren, muss man einen viermal so grossen Personenkreis befragen. Wegen dieser nichtlinearen Relation zwischen Sample-Umfang und Fehler verzichtet man in der Praxis oft auf eine minimale Fehlereinengung zugunsten der niedrigeren Kosten einer kleineren Stichprobengrösse.

Konkrete Beispiele: Bei einer Befragung von 1000 Personen hat eine Frage einen Prozentsatz positiver Antworten von p = 80% erbracht. Als Stichprobenfehler ergibt sich folgendes:

sp= √ p (100-p)/N = 80 * 20/1000 = 1.265.

= Quadratwurzel

Bei Verdoppelung der Stichprobengrösse auf 2000 reduziert sich der Stichprobenfehler bei dieser Antwortverteilung auf 0.89. Bei 500 Befragten erhöht er sich auf 1.79.

Variiert die Verteilung zwischen positiven und negativen Antworten stärker, im Verhältnis von 50% zu 50%, ergibt sich bei einer Stichprobengrösse von 1000 gemäss obiger Formel ein Stichprobenfehler von 1.58. Bei N= 500 ist der Fehler schon 2.24.

Bei nicht allzu kleinen Stichproben kann von normalverteilten Grössen ausgegangen werden, und der Stichprobenfehler kann zur Berechnung von Vertrauensintervallen (oder Konfidenzintervallen) benützt werden. Nehmen wir etwa eine Sicherheitswahrscheinlichkeit von 95%, ergibt sich aus der statistischen Tafel zur Normalverteilung eine Standardabweichung (SD) von 1.96. Eine Multiplikation der SD mit dem oben errechneten Stichprobenfehler zeigt uns, in welchem Bereich sich der effektive Wert befindet.

Beispiel: N: 1000, 80% positive Antworten. Stichprobenfehler: 1.265 * 1.96 = 2.48. D.h. Aufgrund unserer Stichprobe können wir davon ausgehen, dass in der Gesamtbevölkerung zwischen 77.5% und 82.5% eine positive Antwort geben. Hätten wir jedoch nur 500 Leute befragt, könnten wir nur sagen, dass sich der wahre Wert zwischen 76.5% und 83.5% bewegt. Und bei einem Sample von nur 100 Personen wird die Unsicherheit noch grösser (Stichprobenfehler: 4.0 * 1.96= +/- 7.84. Dh. Wahrer Wert bewegt sich zwischen 72% und 88%.

Zu beachten: Die oben angeführten Formel gilt nur für einfache Zufallsstichproben. Bei mehrstufigem Sampling gelten komplexere Formel zur Berechnung des Stichprobenfehlers bzw. der Vertrauensintervalle. Zudem gilt die obige Formel unkorrigiert nur, wenn die Stichprobe nicht mehr als 20% der Untersuchungspopulation umfasst (vgl. Henry, Gary T. (1990) Practical Sampling, Sage, Newbury Park.

Es ist zudem wichtig zu verstehen, dass Umfrageergebnisse nur dann auf die Grundgesamtheit verallgemeinert werden dürfen, wenn die Stichprobe nach den Regeln der Zufälligkeit gezogen wurde. Nur eine statistische Zufallsauswahl gewährleistet eine unverzerrte Widerspiegelung der Gesamtbevölkerung. Verzerrungen einer Stichprobe - durch verzerrte Adressenwahl, durch Verweigerungen - schränken ihre "Repräsentativität" ein.

Faktisch ist bei allen Umfragen mit Ausfällen zu rechnen; sei es dass bestimmte Zielpersonen nicht erreicht werden können (z.B. wegen Auslandsaufenthalt, ungenügenden Adressenangaben usw.). Zudem ist immer auch mit Verweigerungen zu rechnen (vgl. Ausfälle und Verweigerungen bei Befragungen).

Deshalb muss zusätzlich zur Bestimmung der Stichprobengrösse auch die Zahl der Adressen bzw. verteilten Interviews frühzeitig entschieden werden. Bei einer "Erfolgsquote" von 80% müssen, um etwa 1000 münliche Interviews durchzuführen, 1250 Adressen geliefert werden. Bei schriftlichen Umfragen variiert die Rücklaufquote je nach Thema zwischen 40-60%, und was darüberliegt, ist schon aussergewöhnlich erfolgreich. Bei einer erwarteten Rücklaufquote von 50% müssen, um beispielsweise 500 ausgefüllte Fragebogen zu erhalten, 1000 Fragebogen verschickt werden. Eine solche Umfrage kann allerdings höchstens sehr bedingt als repräsentativ gelten.

Generell gilt: Ein frühzeitiges Abklären der Möglichkeiten und Probleme, welche sich bei der Auswahl von Befragten aus einer definierten Untersuchungspopulation ergeben können, erspart später viele Probleme. So ist es etwa in der Schweiz durchaus möglich, aktualisierte Adressen der Einwohnergemeinden zu erhalten, bei zunehmend mehr Gemeinden braucht es dazu allerdings eine Genehmigung durch die politischen Oberbehörden (was sachgemäss Zeit braucht). Bei spezifischen sozialen Gruppen (wie z.B. Alleinerziehenden, Singles, working poors usw.) liegen zudem keine brauchbaren Adressen vor, und teilweise ist eine repräsentative Stichprobe nur via telefonischen Suchinterviews überhaupt erreichbar (was entsprechende zeitliche und finanzielle Aufwendungen beim Sampling einschliesst).

4) Kurzbeschreibung unterschiedlicher Samplingverfahren

Es gibt unterschiedliche Samplingverfahren und -strategien. Im folgenden werden wichtige Verfahren kurz aufgeführt:

A) Einfache Zufallsstichprobe (simple random sampling)

Diese statistisch optimalste und theoretisch klare Auswahlmethode bringt in der Praxis oft Schwierigkeiten mit sich. Die einfache Zufallsstichprobe ist deshalb in der Forschungspraxis weniger verbreitet als in statistischen Lehrbüchern, da die einfache Zufallsstichprobe ein guter Ausgangspunkt zur Darstellung einer Zufallsauswahl ist.

Die einfache Zufallsauswahl setzt im wesenlichen voraus, dass von der Grundgesamtheit eine vollständige (Adressen)kartei vorliegt, in der jedes Mitglied einmal vertreten ist. Aus dieser Kartei werden rein zufällig soviele Adressen gezogen wie benötigt werden. Die Auswahl geschieht etwa dadurch, dass jede Kartei eine Nummer erhält, und Zufallszahlen bestimmen, welche Kartei gezogen werden. Durch diese Methode hat jede Person die gleiche Chance, ausgewählt zu werden.

Eine einfache Zufallsauswahl funktioniert somit am besten, wenn aktualisierte und vollständige Adressenlisten vorliegen (z.B. Studentenverzeichnis, Mitgliederlisten, Einwohnerkarteien). Allerdings sind Mitglieder- oder Einwohnerlisten selten voll aktualisiert. In kommunalen Einwohnerkarteien werden Wegzug, Todesfälle, Namensänderungen durch Heirat usw. erst nach Wochen, wenn nicht sogar Monaten registriert. So wurde bei einer Befragung junger Menschen in der Stadt Lausanne festgestellt, dass ein hoher Prozentsatz der jungen Frauen und Männer nicht dort lebten, wo sie offiziell registriert wurden. Zudem kennen nicht alle Länder Einwohnerregister.

B) Systematische Zufallsstichprobe (systematic sampling)

Bei grösseren Grundgesamtheiten - z.B. Einwohner einer Stadt - ist die einfache Zufallsauswahl (mit ihrer Durchnummerierung aller Personen und Zuordnung von Zufallszahlen) faktisch zu aufwändig. In der Praxis hat sich deshalb vielfach die systematische Zufallsstichprobe durchgesetzt. Man wählt die Adressen aus einer Kartei nicht mit Hilfe von Zufallszahlen aus, sondern zieht systematisch jede x-te Adresse. Der Abstand zwischen den gezogenen Adressen bleibt fix und berechnet sich gemäss der Formel k= N/n. Z.B.: In einer Gemeinde von 10'000 Stimmbürger/innen wird bei einer Stichprobe von 500 Adressen jede 20 Einwohnerkarte ausgewählt. Die Zufälligkeit der systematischen Auswahl ist dadurch gegeben, dass die erste auszuwählende Adresse mit Hilfe einer Zufallszahl aus den ersten k-Adressen gezogen wird.

Bei diesem Verfahren ergeben sich sachgemäss ebenfalls die oben erwähnten Probleme unvollständiger oder veralteter Adressen. Zudem dürfen Adressen bei einem systematischen Sampling keine periodische Anordnung aufweisen (was allerdings faktisch selten der Fall ist). Sind Karteien nach sozialen Merkmalen (Alter, Zivilstand, Semesterzahl usw) geordnet, ist das systematische Sampling für jede Kategorie zu wiederholen (wobei sich hier die Möglichkeit eines geschichtetes Sampling eröffnet).

C) Geschichtete Stichprobenauswahl (stratified sampling)

Das Ziel einer Stichprobenauswahl ist es, möglichst genaue Ergebnisse zu erzielen bzw. den Stichprobenfehler möglichst gering zu halten, ohne die Kosten allzu sehr in die Höhe zu treiben. Ein einfaches Mittel, um bei gleicher Stichprobengrösse eine höhere Genauigkeit bzw. einen geringeren Stichprobenfehler zu erzielen, ist eine geschichtete Stichprobenauswahl. Bei diesem Verfahren werden einzelne bedeutsame Merkmale der Zielgruppe (wie Geschlecht, Alter, Zivilstand, Wohnort usw.) schon von vornherein in ihrem richtigen Verhältnis im Sample repräsentiert.

Beispiel: Bei einer Befragung von Studierenden an einer gegebenen Universität weiss man, dass sich die Studierendenpopulation zu 55% aus Männern und zu 45% aus Frauen zusammensetzt. Der Stichprobenplan wird so organisiert, dass die Stichprobe von vornherein 55% Studenten und 45% Studentinnen enthält, z.B. dadurch dass die (systematische) Zufallsauswahl je nach Geschlecht getrennt durchführt wird. Das Merkmal Geschlecht entfällt bei der eigentlichen Zufallsauswahl. Damit wird auch der Stichprobenfehler reduziert, da ja der Stichprobenfehler nichts anderes ist als der Einfluss der Zufälligkeit auf die Zusammensetzung der Stichprobe. (Bei geschichteten Stichproben ist der Stichprobenfehler die gewichtete Durchschnittsvarianz der Standardabweichungen innerhalb der einzelnen Schichten).

Je mehr Stichprobenschichten (sample stratifications) gebildet werden, desto mehr wird der Stichprobenfehler bei sonst gleicher Samplegrösse verringert. Eine geschichtete Stichprobe bleibt dennoch eine zufällige Stichprobe, da die Auswahl der Zielpersonen innerhalb jeder Schicht nach den Regeln statistischer Zufälligkeit erfolgt.

Die Auswahl der Schichten hängt zum einen davon ab, welche Informationen über die Grundgesamtheit und ihre sozio-demographische Zusammensetzung vorliegen. Zum anderen sollten die vorhandenen Adressenkarteien eine entsprechende Gliederung aufweisen. Dabei ist es primär sinnvoll, nach Merkmalen zu schichten, die eng mit dem Untersuchungsziel zusammenhängen.

Die faktisch am häufigsten benützten Schichtungsmerkmale sind Geschlecht, Alter und Wohnort. Sofern die vorliegenden Adressen dies erlauben, wird unter Umständen auch nach Zivilstand oder Berufskategorie geschichtet (wobei solche Kriterien teilweise darunter leiden, dass etwa Zivilstand und notierter Beruf nicht (mehr) den tatsächlichen Lebens- bzw. Berufsverhältnissen entsprechen).

Bei Telefonbefragungen ist schon aufgrund des Charakters des Telefons (haushaltsgebundener Telefonanschluss kombiniert mit individualisierenden Mobiltelefons) oft eine sorgfältige Schichtung nach Haushaltsgrösse bzw. Benützerzahl pro Telefonanschluss notwendig, um nicht etwa Ein-Personen-Haushalte gegenüber Mehr-Personen-Haushalte zu privilegieren.

Werden die einzelnen Stichprobenschichten proportional zur ihrer Verteilung in der Grundgesamtheit ausgewählt, spricht man von einer proportional geschichteten Stichprobe (proportionate stratification).

In anderen Fällen kann jedoch eine disproportional geschichtete Stichprobe (disproportionate stratification) sinnvoll sein. Eine bestimmte Bevölkerungsgruppe kann in der Stichprobe gezielt übervertreten sein (oversampling), um genügend Interviews für diese spezifische Gruppe zu erhalten. Beispiel: Umfrage bei Müttern. Es ist klar, dass gegenwärtig in der Schweiz die meisten Mütter verheiratet sind. Daneben gibt es aber auch ledige, verwitwete und geschiedene Mütter. Werden etwa 600 Mütter interviewt, und die Gesamtpopulation enthält nur 6% ledige Mütter, werden demgemäss nur etwa 36 ledige Mütter befragt. Dies ist für Aussagen zur Situation lediger Mütter sicherlich zu wenig. Es kann daher sinnvoll sein, ledige Mütter schon bei der Stichprobenauswahl stärker zu berücksichtigen (so dass z.B. 100 Interviews mit ledigen Müttern vorliegen). Um bei proportionaler Schichtung 100 ledige Mütter zu erhalten, müssten sonst 1667 Interviews durchgeführt werden. Bei gerontologischen Studien werden nach Alter disproportional geschichtete Stichproben oft auch benützt, um genügend Hochbetagte zu erhalten (vgl. Betémps et al. 1997).

Ein disproportionales Sampling (mit oversampling) ist vor allem sinnvoll, wenn neben einem repräsentativen Querschnitt der Bevölkerung auch Minderheiten oder zahlenmässig schwach vertretene Gruppen speziell analysiert werden sollen.

D) Klumpen und Mehrstufenverfahren (cluster and multistage sampling)

Sofern eine Befragung eine umfassende Region oder gar ein ganzes Land abdeckt, ergeben sich zusätzliche Probleme: Zum einen sind in der Schweiz die Einwohnerkarteien kommunal dezentralisiert. Zum anderen setzt eine grossflächige Stichprobe ein fein verteiltes Interview-Netz voraus. Namentlich bei mündlichen Befragungen entstehen umso mehr Reisekosten, je dezentralisierter die Befragung ist.

Aus diesen Gründen wird bei mündlichen Interviews (face-to-face-interviews) teilweise ein Klumpenverfahren (cluster) benützt, um die regionale Verteilung von Interviews einzugrenzen. Anstatt z.B. aus 3000 Schweizer Gemeinden eine Adressenauswahl zu treffen, beschränkt man sich auf z.B. auf 60 Gemeinden, in denen etwa je 10 Interviews durchgeführt werden. Das heisst die Stichprobe wird in 60 Klumpen à je 10 Interviews aufgegliedert.

Zur Bestimmung der einzelnen Klumpen in einem zweistufigen Samplingverfahren wird in der Praxis oft das sogenannte Kumulationsverfahren angewandt, weil es eine Zufallsauswahl proportional zur Einwohnerverteilung ergibt (engl.: probability proportional to size sampling). Mit diesem Verfahren wird etwa unter 3000 Schweizer Gemeinden eine Submenge an Gemeinden ausgewählt, in denen Interviews durchgeführt werden. Durch das Kumulationsverfahren wird gewährleistet, dass die regionale Verteilung der Stichprobe der Bevölkerungsverteilung entspricht (so dass ländliche und städtische Gebiete proportional vertreten sind) (zum technischen Vorgehen, vgl. Holm,1982: 154ff.).

Ein Klumpenverfahren reduziert den Aufwand für Adressenbeschaffung und Interviewspesen (vor allem innerhalb dünnbesiedelter Gebiete). Andererseits erhöht jedes Klumpenverfahren den Stichprobenfehler. Die Cluster sollten demzufolge nicht zu gross sein (um z.B. die Gefahr zu verhindern, dass ganze Gebiete wegfallen). (Faustregel: höchstens 20-30, eventuell auch nur 10 Interviews pro Cluster).

Bei schriftlichen, telefonischen oder elektronischen Befragungen sind Klumpenverfahren sachgemäss weniger nützlich

Die einzelnen Klumpen (cluster) (z.B. Befragungsgemeinden) können ebenfalls via Zufallsverfahren ausgewählt werden. Wird innerhalb einzelner Klumpen eine weitere Auswahl getroffen, spricht man von einer mehrstufigen Stichprobe (multistage sampling). Zum Beispiel wird zuerst eine (geschichtete) Auswahl von Bezirken oder Gemeinden gewählt. Innerhalb jeder Gemeinde wird die vorgesehene Adressenauswahl ebenfalls gemäss Zufallsprinzip gewählt. Oder bei einer Befragung von Krankenschwestern wird zuerst eine (eventuell nach Spitalgrösse geschichtete) Auswahl von Spitälern getroffen, und innerhalb jedes Spitals wird eine Abteilung gewählt, um danach eine Auswahl von Pflegefachpersonen zu treffen.

In Ländern, wo keine brauchbaren Bevölkerungskarteien oder Einwohnerregister vorliegen - wie z.B. den USA oder Grossbritannien - wird oft ein Klumpenverfahren verwendet, das unter dem Begriff der Flächenstichprobe bekannt ist: Auf einer Landkarte oder einem Stadtplan wird das in Frage kommende Gebiet in Einzelflächen oder Quadrate aufgeteilt. Gemäss Zufallsprinzip wird eine bestimmte Zahl von Planquadraten ausgewählt, und in jedem ausgewählten Planquadrat werden entweder alle Personen oder eine Zufallsauswahl davon befragt. Sofern die Einwohnerzahl der einzelnen Planquadrate allerdings unbekannt ist, können sich mit diesem Verfahren regionale Verzerrungen ergeben (z.B. in dem ländliche, grossflächige Gegenden überpräsentiert sind).

Ein anderes Verfahren, welches bei fehlender Adresseninformation ebenfalls häufig benützt wird, ist ein "random-route"-Verfahren: InterviewerInnen müssen - ausgehend von einem gegebenen Standort - gemäss einfachen Zufallsregeln (drittes Haus von links, oberste Klingel) zu einem Hauseingang geleitet, um dort ein Interview durchzuführen. Ein solches Verfahren ist allerdings relativ aufwändig, und zudem muss gewährleistet werden, dass die InterviewerInnen tatsächlich auch eine zufällige Route wählen.

E) Zwei-Phasen-Verfahren (two-phase-sampling)

Sofern kein geeignetes Adressenmaterial für die Personenauswahl zur Verfügung steht oder unklar ist, wie gross die Zielgruppe ist, sind die vorher diskutierten Sampling-Verfahren unbrauchbar. Dies gilt etwa für Befragung spezieller Gruppen (z.B. Befragung von Alleinerzieherinnen, Leuten, die letztes Jahr eine Wohnung gewechselt haben usw.). In solchen Fällen kann bzw. muss ein Zwei-Phasen-Verfahren (two-phase sampling) verwendet werden: In einer ersten Erhebungsstufe sammelt man aus einer grossen Zufallsstichprobe die notwendigen Informationen, etwa via telefonischen Suchinterviews. In der zweiten Stufe wird aus der ersten Stichprobe eine neue Stichprobe von Personen gezogen, welche die gewünschten Merkmale aufweisen. Z.B. sollen 300 Frauen befragt werden, die in feministischen Organisationen aktiv sind. In diesem Fall muss zuerst eine grosse Stichprobe von etwa 2000-3000 Frauen danach gefragt werden, ob sie politisch aktiv sind (z.B. via Telefon-Interviews). Aus der Zahl an erfassten aktiven Frauen werden 300 Frauen für das eigentliche Interview gezogen.

F) Panelstudie und Längsschnittuntersuchung (panel design/longitudinal study)

Die bisher vorgestellten Verfahren bezogen sich faktisch auf einmalige Querschnittsbefragungen (cross-sectional study). Geht es jedoch um Kausalzusammenhänge ist vielfach eine Längsschnittbetrachtung sinnvoll bzw. unumgänglich. In einem solchen Fall wird am besten eine Panelstudie durchgeführt, bei welcher die gleichen Personen zwei- oder mehrmals befragt werden, z.B. im Abstand von zwei Jahren. Die Stichprobenauswahl der ersten Panel-Befragung kann gemäss den oben angeführten Samplingverfahren durchgeführt werden. Bei der Zweitbefragung ergeben sich allerdings zusätzliche Probleme, und die Erhaltung der Stichprobe kann schwierig sein, z.B. müssen einige der Befragten neu aufgesucht und ihre Adresse muss verfolgt werden (etwa bei Wegzug). Zudem können sich Ausfälle durch Todesfälle oder Verweigerung des Zweitinterviews ergeben. Bei langjährigen Längsschnitt-Studien werden Ausfälle etwa durch Wegzug teilweise ersetzt, um die Stichprobengrösse zu behaupten. Dabei wird nach sogenannt "statistischen Zwillingen" gesucht, dh. es werden Personen neu ausgewählt werden, die weitgehend dieselben Charakteristika haben wie die ausgefallenen Personen. In anderen Panelstudien werden neue Altergruppen an das Panel "angehängt", um z.B. auch die nachwachsende Generation zu berücksichtigen und zusätzlich zu Alterseffekten auch Kohorteneffekte zu überprüfen (vgl. Alter, Kohorte und Periode - Grundsätze und Problematik einer Kohortenanalyse)

Die unter A) bis F) aufgeführten Verfahren sind alles Samplingverfahren, welche in irgendeiner Weise ein Zufallsverfahren einschliessen. Es sind somit Verfahren, welche die Repräsentativität zumindest der Stichprobenziehung gewährleisten. Es ist allerdings nochmals zu erwähnen, dass auch eine Zufallsstichprobe von Personen noch keineswegs die Repräsentativität einer Umfrage gewährleistet. Verweigerungen können etwa zu systematischen Verzerrungen der Ergebnisse führen (vgl. Ausfälle und Verweigerungen bei Befragungen).

Neben den eigentlichen Random-Verfahren bestehen zusätzliche Auswahlverfahren für Umfragen, die je nach Forschungszwecken ebenfalls sinnvoll sein können. Zu erwähnen sind als "nonprobability sampling" namentlich:

G) Pragmatische Auswahl (haphazard, convenience or accidental sampling)

Es werden die Leute befragt, die gerade zur Verfügung stehen oder die man gerade auf der Strasse antrifft (z.B. Strassenbefragung). Oder es werden Fragebogen aufgelegt oder einer Zeitung bzw. dem Internet beigelegt und es werden diejenigen berücksichtigt, die antworten (z.B. Leserumfrage einer Zeitung). Wichtig ist die Tatsache, dass auch eine sehr hohe Zahl von Rückantworten - etwa auf einen aufgelegten Fragebogen oder eine Web-Befragung - keine Repräsentativität gewährleistet.

In einigen Fällen wird auch ein "Schneeballprinzip" verwendet: Befragte werden um Adressen von Freunden/Bekannten gebeten. Das "Schneeballprinzip" ist etwa zur Untersuchung sozialer Netzwerke/"peer-groups" usw. nützlich. Aber auch hier ist streng genommen keine Zufallsauswahl vorhanden.

H) Gesteuerte Auswahl (purposive sampling, expert choice)

Dieses Verfahren wird vor allem bei Experteninterviews benützt. Um beispielsweise Kenntnisse über eine bestimmte Unternehmung zu erhalten, ist es oft nicht sinnvoll, eine Zufallsauswahl aller Beschäftigten zu befragen, sondern für interne, organisatorische Dimensionen genügt die Befragung einiger weniger ausgewählter Personen, die sich auskennen.

I) Quotensampling (quota sampling)

Eine Form nicht-randomisierter Befragung, die praktisch oft benützt wird, ist das Quota-Verfahren. Es findet etwa in Marktumfragen, aber auch bei vielen Umfrageinstituten regen Gebrauch. Es ist häufig, wenn ein Personenkreis befragt werden soll, für den kein (aktualisiertes) Adressenmaterial vorliegt.

Der Unterschied zur Random-Stichprobe ist, dass hier keine Adressen zugrunde liegen, sondern die Zielpersonen werden nach "Quoten" ausgewählt: Der Interviewer hat keine Adresse zur Verfügung, sondern er sucht sich die Zielpersonen selber aus, allerdings nach genauen Vorgaben von bestimmten Merkmalen, eben den Quoten. Diese Quoten schreiben ihm etwa vor, wieviele Frauen und Männer er mündlich oder telefonisch zu befragen hat, wobei neben dem Geschlecht meist auch noch alters- und berufsbezogene Quoten einbezogen sind (Z.B. eine Interviewerin erhält den Auftrag, 3 Hausfrauen unter 30, 2 erwerbstätige Frauen unter 30 J., die in Büroberufen arbeiten, usw. zu interviewen). Die Quoten entsprechen oft einer geschichteten Auswahl, welche eine Repräsentativität der Befragten zumindest gemäss den Quotenmerkmalen gewährleisten sollen. Um zu vermeiden, dass die Erreichbarkeit zu allzu starken Verzerrungen führt, sollten die Quoten auch Merkmale umfassen, die mit der Erreichbarkeit stark korrelieren.

Eine breite Streuung der Stichprobe erhält man bei einem Quoten-Sample dadurch, dass verschiedene Quoten-Merkmale miteinander gekoppelt werden (z.B. Geschlecht mit Alter mit Beruf). Je mehr Koppelungen vorgesehen sind, desto besser wird die Stichprobe, aber desto schwerer werden es die Interviewer finden, eine geeignete Person zu finden.

Die Quotenmethode ist seit Jahrzehnten Gegenstand von methodischen Diskussionen. Statistiker und Theoretiker werfen ihr mit Recht vor, dass sie letztlich keine Zufallsauswahl sei (womit man auch den Stichprobenfehler nicht abschätzen könne). Auch ergeben sich stille Verzerrungen dadurch, dass InterviewerInnen sachgemäss primär jene Personen mündlich oder telefonisch befragen, welche leicht erreichbar und zugänglich sind. Dennoch wird ein Quotensampling in der Markt- und Umfrageforschung vor allem wegen seiner pragmatischen Vorteile oft verwendet, namentlich auch bei Telefonumfragen, welche innert kurzer Zeit durchgeführt werden müssen.

Generell gilt: Eine frühzeitige Abklärung der jeweilig sinnvollen - und auch zeitbudgetkonformen und finanziell machbaren Samplingstrategie bei der jeweils angestrebten Untersuchungspopulation ist zu empfehlen, da damit viele Probleme schon frühzeitig erkannt werden können. Je nach benützter Umfragemethoden ergeben sich sachgemäss unterschiedliche Samplingprobleme. So ist bei Web-Umfragen streng genommen solange keine repräsentative Umfrage möglich, als die Angaben und Informationen über die Gesamtpopulation von Internet-Benützern fehlen. Bei Telefon-Interviews gewährleistet selbst eine zufällige Auswahl von Telefonnummern keine reine Zufallsauswahl, solange die Schichtung nach Haushaltsgrösse nicht adequat ist oder primär jene Leute interviewt werden, welche telefonisch leicht erreicht werden können. Bei schriftlichen Umfragen garantiert auch eine hohe Rücklaufquote noch keine Repräsentativität, sofern die angeschriebenen Adressen keine Zufallsauswahl einschliessen. (Zu den Folgen von Ausfällen und Verweigerungen vgl.Ausfälle und Verweigerungen bei Befragungen).

Literaturhinweise

Althoff, Stefan (1997) Quoten-Auswahlverfahren - Warum nicht?, in: Siegfried Gabler, Jürgen H.P. Hoffmeyer-Zlotnik (Hrsg.) Stichproben in der Umfragepraxis, Opladen: Westdeutscher Verlag.

Bétemps, Christine; Bickel, Jean-François; Brunner, Matthias; Hummel, Cornelia (1997) Journal d'une enquête: La récolte des données d'une recherche transversale par échantillon aléatoire stratifié, Lausanne: Réalités Sociales.

Biemer, P.P.; Lyberg. L.E. (2003) Introduction to Survey Quality, New York: Wiley.

Gabler, Siegfried; Hoffmeyer-Zlotnik, Jürgen H.P. (Hrsg.) (1997) Stichproben in der Umfragepraxis, Opladen: Westdeutscher Verlag.

Gabler, S.; Häder, S. (Hrsg.) (2002): Telefonstichproben. Methodische Innovationen und Anwendungen in Deutschland. Münster u.a.: Waxmann.

Faulbaum, Frank; Wolf, Christof (Hrsg.) (2006) Stichprobenqualität in Bevölkerungsumfragen, Bonn: Informationszentrum Sozialwissenschaften.

Häder, Michael; Häder, Sabine (Hrsg.) (2009) Telefonbefragungen über das Mobilfunknetz. Konzept, Design und Umsetzung einer Strategie zur Datenerhebung, Wiesbaden: VS Verlag für Sozialwissenschaften.

Henry, Gary T. (1990) Practical Sampling, Newbury Park: Sage.

Hoffmeyer-Zlotnik, Jürgen H.P. (2006) Stichprobenziehung in der Umfragepraxis. Die unterschiedlichen Ergebnisse von Zufallsstichproben in face-to-face-Umfragen, in: Frank Faulbaum, Christof Wolf (Hrsg.) Stichprobenqualität in Bevölkerungsumfragen, Bonn: Informationszentrum Sozialwissenschaften: 19-36.

Holm, Kurt (Hrsg.) (1986) Die Befragung 1. Der Fragebogen - Die Stichprobe, Tübingen: Francke-Verlag (3. Auflage).

Jann, Ben (2006) Der Berner Stichprobenplan. Ein Vorschlag für eine effiziente Klumpenstichprobe am Beispiel der Schweiz, in: Frank Faulbaum, Christof Wolf (Hrsg.) Stichprobenqualität in Bevölkerungsumfragen, Bonn: Informationszentrum Sozialwissenschaften: 63-83.

Kalton, Graham (1983) Introduction to Survey Sampling, Beverly Hills: Sage.

Neubäumer, Renate (1982) Die Eigenschaften verschiedener Stichprobenverfahren bei wirtschafts- und sozialwissenschaftlichen Untersuchungen, Bern/Frankfurt: Lang Verlag.

Sudman, Seymour (1976) Applied Sampling, New York.

Weisberg, H.F. (2005) The total survey error approach, Chicago: University of Chicago Press.


Letzte Veränderung: 10. Januar 2010.

Zurück zur Menuseite 'Methoden' /Zurück zur Homepage (Text zu Alter, Generationen, Familien)