Mit ihren Rankingprodukten veröffentlicht die Bertelsmann Stiftung regelmäßig Studien, die Ein fluss bis auf höchste politische Ebenen ausüben. Dabei beschreiben sie vermeintlich nicht nur einen Ist-Zustand, sondern formulieren ausführliche Elandlungsanweisungen für die Zukunft, ln diesem Beitrag erklären drei methodenerfahrene Psychologinnen wissenschaftliche Grundlagen der Rau hin g-Verfahren. An konkreten Beispielen aus aktuellen Rankings der Stiftung weisen sie nach, wo diese erhebliche methodische Mängel aufweisen. Als politischer Kompass weisen sie exakt ins Ungewisse.
Mit diesem Beitrag möchten die Autorinnen keinesfalls erklären, Rankings und ähnliche Methoden seien per se sinnfrei oder irreführend. Vielmehr möchten wir mit unseren Anmerkungen dazu beitragen, derartige Veröffentlichungen mit angebracht kritischem Bewusstsein betrachten zu können - es fehlt in der Öffentlichkeit am nötigen Grundlagenwissen, um die Qualität eines Rankings einschätzen und seine Interpretation beurteilen zu können. Wer dieses grundlegende Handwerkszeug nicht beherrscht, ist leicht durch Rankings manipulierbar. Nicht jede Tabelle mit Zahlen ist das Ergebnis gewissenhaft wissenschaftlicher Arbeit. In diesem Kapitel möchten wir uns daher mit den Fragen beschäftigen, was Rankings überhaupt sind, welche Aussagen sie ermöglichen (und welche nicht), und an welchen Stellen typische Stolperfallen lauern.
Das Problemfeld Ranking ist nicht Bertelsmann-spezifisch. Viele unserer kritischen Anmerkungen in diesem Kapitel lassen sich leicht auf Ranglisten und Umfrageergebnisse anderer Herkunft übertragen. Die Bertelsmann Stiftung ist allerdings Quell einiger ausgesprochen einflussreicher Rankings; dieser Einfluss erstreckt sich dabei mehr oder weniger transparent bis auf Regierungsebene.
Um hierfür nur ein Beispiel anzuführen: Der saarländische Ministerpräsident Peter Müller zitiert das Standortranking der Bundesländer, das die Bertelsmann Stiftung durchgeführt hat (Berthold et al. 2003), gerne unkritisch als Beleg für den
Erfolg der eigenen Politik. In seiner Regierungserklärung zu Beginn der 13. Legislaturperiode (Müller 2004) hieß es:
Wir haben unsere Position im Vergleich der Bundesländer deutlich verbessert: In der Arbeitslosenquote vom Platz 9 auf Platz 5 und im Standortranking vom Platz 10 auf Platz 6 aller Bundesländer.
In der 19. Sitzung der 13. Wahlperiode des Saarländischen Landtags (Landtag des Saarlandes 2005) zitiert er die Studie in längeren Passagen wörtlich und schließt mit:
Das ist der Befund der Bertelsmann Stiftung. Gewinner Saarland. Dieses Land ist Aufsteigerland. Dieses Land soll Aufsteigerland bleiben. Reden Sie deshalb dieses Land nicht schlecht!
Dem Vorwurf des Realitätsverlusts durch die Opposition begegnet er schließlich mit der Macht des Faktischen:
Es ist so: Wenn man es nicht sehen will, dann kann man es auch nicht sehen. Das ist das alte Prinzip: Da nicht sein kann, was nicht sein darf, ist es halt nicht, was Wirklichkeit ist. [...] Herr Kollege Jost, Zahlen lügen nicht. Auch wenn es Ihnen nicht gefällt: Diese Landesregierung ist erfolgreich.
In der vom Bayerischen Staatsministerium für Wissenschaft, Forschung und Kunst herausgegebenen Zeitschrift aviso, die vierteljährlich erscheint und kostenlos im Ministerium, an bayerischen Universitäten, Fachhochschulen sowie staatlichen Theatern und Museen ausliegt, erhält Detlef Müller-Böling, seit 1994 Leiter des Centrums für Hochschulentwicklung (CHE), sechs Seiten lang Gelegenheit, in eigenen Worten das hauseigene Hochschulranking als internationalen Tonangeber zu bewerben:
Mobile Studierende und Lehrende wünschen sich ein Informationsangebot, das mit ihnen Grenzen überschreitet. Mit der Ausdehnung des CHE-Hochschulrankings auf Österreich und die Schweiz ist ein erster Schritt zur Internationalisierung eines Angebots getan. Weitere Länder, die sich an dieser Methodik orientieren, werden sicherlich folgen, so dass sich der europäische Hochschulraum zukünftig vermehrt in Rankings abbilden wird. [...] Deutlich ist insofern erkennbar, dass Rankings auf absehbare Zeit ein spannendes Thema bleiben werden. Und noch eines ist sicher: Das CHE wird mit seinen Rankings einigen Anteil an dieser Entwicklung haben. (Müller-Böling 2006)
Im Oktober 2006 berief der Landtag Mecklenburg-Vorpommern den CHE-Chef direkt in seine Expertenkommission zur »Zukunft der Erziehung und Bildung unter Berücksichtigung des lebenslangen Lernens« (MVregio 2006), die dem Landtag u. a. konkrete Handlungsempfehlungen zur »Erhöhung von Autonomie und Flexibilität in Lehre und Forschung« sowie den »Finanzierungsperspektiven des Hochschulsystems« (Landtag Mecklenburg-Vorpommern 2006) unterbreiten soll.
Wir kommen im Folgenden immer wieder vom Allgemeinen zum Konkreten und werden die lauernden Stolperfallen in Rankings vornehmlich an Beispielen aus dem Bertelsmann-Portfolio exemplarisieren. Wenn Sie dieses Kapitel gelesen haben, hoffen wir, ihnen die grundlegenden Ideen hinter Rankings und Co. verdeutlicht zu haben, so dass sie beim nächsten sensationellen Fund eines Medienimperiums selbst mit kritischem Blick erfassen können, ob seriöse Information oder konzerninterne Motive ausschlaggebend für die Veröffentlichung waren.1
Rankings sind >in<. Aus der sogenannten Neuen Sozialen Marktwirtschaft (selbst ein Buzz-Word mit Bertelsmann-Verbindungen)1 sind sie nicht wegzudenken, dienen sie dort doch als Evaluationsinstrument und Stimmungsbarometer der Bereiche, in die durch mehr Wettbewerb Bewegung kommen soll. Rankings, Ratings und Indizes sollen den Stand der Dinge quantifizieren, sie bringen Ordnung in das Chaos unendlicher Wahlmöglichkeiten. Dabei versprechen uns ihre Autorinnen, aus den Rangfolgen auch die Ursachen für eine gute oder schlechte Platzierung ableiten zu können:
Landesspezifische Ursachen für Erfolg und Misserfolg lassen sich somit benennen, messen und vergleichen. Einzelne Bundesländer können also von den Erfolgen, Misserfolgen und Erfahrungen anderer Länder lernen. Die vorliegende Studie liefert dafür die Grundlage. (Berthold et al. 2003: 22)
Mitunter geben sie sogar Ratschläge für die Zukunft. So berechnet beispielsweise Bertelsmanns Standortranking der Bundesländer anhand von Bruttoinlandsprodukt, Wirtschaftswachstum, Arbeitslosigkeit, Erwerbstätigkeit, Sozialhilfeempfängerinnenanteil und Zahl der nicht aufgeklärten Straftaten >Erfolg< und >Aktivität< der Länder, kürt Hamburg zum Spitzenreiter und weiß im Zwischenbericht auch weit mehr als 200 Seiten lang, was in nächster Zeit zu tun ist. Die Empfehlungen sind bemerkenswert konkret:
Die beschlossene Ortsumgehung um Finkenwerder ist ein weiterer wichtiger Schritt, den Hamburger Airbus-Standort zu stärken. Hamburg steht im Wettbewerb mit Toulouse, wo Airbus ebenfalls seine Flugzeuge montiert. Reglementierungen, etwa bezüglich des Lärmschutzes, könnten Finkenwerder dabei zurückwerfen. Nach dem Gezerre um die Landebahnverlängerung hätte es eine fatale Signalwirkung, wenn Airbus in Hamburg nun neue Hürden in den Weg gestellt würden. (Berthold et al. 2005: 117)
Können die veröffentlichten Rankings ihrem Anspruch tatsächlich gerecht werden? Sind die Instrumente so nützlich, wie sie angepriesen werden? Wie müssen wir diesen Rangfolgen begegnen, die vermeintlich objektiv die Spreu vom Weizen trennen? Anders gefragt: Kann uns eine aus Wirtschaftswachstum und Sozialhilfeanteil berechnete Zahl wirklich dazu raten, in Finkenwerder den Lärmschutz zu vernachlässigen?
Ein Ranking (zu deutsch »Rangordnung«) lässt sich definieren als das Ergebnis einer Sortierung von mehreren vergleichbaren Objekten, die mit einer vergleichenden Bewertung einhergeht. Rangordnungen ermöglichen es beispielsweise, komplexe Informationsangebote nach bestimmten Kriterien zu bewerten und eine Auswahl zu treffen. So werden beispielsweise in einer Suchmaschine die Webseiten automatisch nach ihrer Relevanz sortiert. Andere Ranglisten sind das Ergebnis von aufwendigen Vergleichsstudien oder Bestandteil der Hierarchie in sozialen Systemen (Wikipedia 2006d).
Bei der obigen Definition fällt auf, dass von »vergleichbaren Objekten« gesprochen wird. Hierin ist eine erste Sollbruchstelle vieler diskutierter Rankings zu sehen, auf die wir an späterer Stelle noch genauer eingehen werden.
Im wissenschaftlichen Kontext ist eine Rangfolge oft als sogenannte Rangskala (oder auch Ordinalskala) definiert (Bortz 1993: 21). Diese Skalenform ordnet den Eigenschaften von Objekten Zahlen zu, aus denen sich eine Rangreihe erstellen lässt bzw. ein Rangplatz ergibt. Zu beachten ist bei der Interpretation von Rangskalen, dass der Unterschied zwischen zwei Rangplätzen in der statistischen Wissenschaft nicht genau quantifiziert werden kann. Um das Verhältnis der Objekte zueinander zu beschreiben, sind definitionsgemäß lediglich Aussagen im Rahmen einer sogenannten >monotonen Transformation< gültig. Nehmen wir an, sie hätten ihre drei Lieblingsschokoladen in eine Rangreihe gebracht: Am liebsten mögen sie Vollmilch, gefolgt von Trauben-Nuss und schließlich Zartbitter. Aus dieser Reihe ließe sich korrekt ableiten, dass Sie Vollmilch lieber als Trauben-Nuss, und diese lieber als Zartbitter mögen. Daraus ergibt sich zwingend auch die Aussage, dass Sie Vollmilch lieber als Zartbitter mögen. Es ist jedoch nicht erlaubt, ein Verhältnis abzuleiten, z. B. im Sinne von >Sie mögen Vollmilch doppelt so gerne wie Zartbitter.<
Zum ähnlichen Begriff des Ratings lesen wir im Internet-Lexikon Wikipedia: Rating (englisch für »Bewertung«, »Einschätzung«) bezeichnet allgemein ein Verfahren für die Einschätzung von Personen, Gegenständen oder Unternehmen (Wikipedia 2006e). Ratings sind in der Wissenschaft sehr beliebt. Hier sind meist Aussagen auf einer Skala zu bewerten, beispielsweise, wie sehr Sie der Aussage zustimmen würden, ein umgänglicher Mensch zu sein. Im Alltag wird dieses Verfahren z. B. bei den Fernsehsendern zur Ermittlung von Einschaltquoten und bei Produktbefragungen, -einführungen oder der Popularität von Politikerinnen (als sogenannte Kopfnoten) eingesetzt.
Meist werden mehrere dieser Aussagen zur Beurteilung vorgelegt und daraus ein einziger Wert errechnet, ein sogenannter Index. Ein Index ist in der Statistik eine Maßzahl, bei der eine errechnete Zahl (meist aus verschiedenen zeitabhängigen Komponenten zusammengesetzt) als Abweichung zu einer zeitlich konstanten Bezugsgröße dargestellt wird (vgl. Wikipedia 2006b). Die Berechnungsmethoden von Indizes sind vielfältig und ihre Verwendung ist sehr weit verbreitet. Beispiele sind der Aktienindex (Dow Jones, DAX, usw.), der Preisindex zur Berechnung der Inflation oder der Pearl-Index, zur Errechnung der Erfolgsquote von Verhütungsmitteln, etc. Wir sehen, dass ein Index uns Informationen über den Stand einer gewissen Sachlage geben soll. Allerdings ist in der Regel ein spezifisches Wissen vonnöten, um die gegebene Information sinnvoll interpretieren zu können - der reine Rohwert eines Aktienindex ist ohne Hintergrundwissen wenig informativ. Ohne diese erforderlichen Kenntnisse ist eine Fehlinterpretation nicht mehr auszuschließen.
Zur Berechnung von Indizes, Ratings und Rankings können Daten unterschiedlicher Herkunft herangezogen werden. Meist finden entweder >harte Zahler< aus amtlichen Statistiken (z. B. die Anzahl verkaufter Computer) Verwendung, oder eher >weiche Zahlern aus Befragungen (z. B. >Besitzen sie einen Computer?<): Die Befragung ist eine wissenschaftliche Methode, um systematisch Informationen über Eigenschaften von Menschen zu gewinnen. Befragungen als Basis für die Analyse- und Dokumentationsarbeit sind ein wichtiges Instrument der empirischen Sozialwissenschaft, in der Psychologie, der Sprachwissenschaft (Sprachatlas, Mundartforschung), in der Volkskunde (Gewährsleute, Oral History), und in der Geschichtswissenschaft (Zeitzeugen, Technikgeschichte, Sozialgeschichte) (vgl. Wikipedia 2006a).
Die Übergänge zwischen diesen Verfahren sind fließend. Das liegt oftmals daran, dass Untersuchungen aus mehreren Teilen zusammengesetzt sind, so dass eine Befragung, ein Rating und abschließend ein Präferenzranking in einem Instrument vereint werden. Dieses multimodale Vorgehen ist sowohl in der Meinungsumfrage
Meik Michalke, Oliver Naß, Anna Nitsche
wie auch in der empirischen Sozialforschung weit verbreitet. Auch im diagnostischen Kontext der Psychologie erscheint eine Integration der Verfahren oftmals als sinnvoll. Wie an den Definitionen gerade der Indizes zu erkennen ist, kann eine Einschätzung der Ergebnisse aufgrund eines der Verfahren lediglich dann erfolgen, wenn alle am Zustandekommen des Ergebnisses beteiligten Informationen zugänglich sind. Ein veranschaulichendes Beispiel aus dem Bereich Sport bietet die Fußball-Weltmeisterschaft 2006 in Deutschland. Für einen Unwissenden wäre der dritte Platz der deutschen Nationalmannschaft eine Überraschung gewesen, war das bundesdeutsche Team vor der WM doch nur auf Rang 19 der FIFA-Weltrangliste. Die fehlende Information, die die sportliche Leistung weniger ungewöhnlich erscheinen lässt, ist, dass Deutschland als Gastgeberland keine Qualifikation für die WM durchlaufen musste und daher kaum Weltranglistenpunkte sammelte, denn ein Freundschaftsspiel vergütet die FIFA nur mit einem Viertel der Punkte, die durch ein Qualifikationsspiel zu bekommen wären. Durch diese unterschiedliche Punktevergabe landet eine Mannschaft auch bei guter Leistung nur auf einem hinteren Weltranglistenplatz.
Wir sehen, dass ohne entscheidende Hintergrundinformation eine Fehlinterpretation aufgrund einer Rangreihe vorprogrammiert sein kann. Es ist daher grundsätzlich Vorsicht geboten, wenn die Informationen nicht zugänglich sind, die ein Ergebnis bedingen. Insbesondere bei der Berechnung von Indizes besteht die Gefahr, Ungleiches miteinander zu vermengen. Wir können aus drei Äpfeln, einem Liter Milch und zwei Würstchen problemlos einen Durchschnitt von »zwei Lebensmitteln« errechnen. Ob von diesem Durchschnittswert auch eine Vegetarierin satt wird, müssten wir raten, denn der Information »zwei Lebensmittel« ist nicht (mehr) zu entnehmen, ob es sich nicht vielleicht ausschließlich um Fleisch handelt. Eine Vegetarierin interessiert sich mehr für das Vorhandensein von fleischlosen Lebensmitteln. Um einen solchen Index für sie interessant zu machen, müssten die Eingangswerte dementsprechend unterschiedlich stark berücksichtigt, also gewichtet werden. Zum Beispiel könnte man das Vorhandensein von Obst mit 2, das von Milch mit 1 und das von Fleisch mit 0 multiplizieren - der so berechnete Lebensmittelindex (hier 2x3 + lxl + 0x2 = 7) würde nur die Dinge berücksichtigen, die Vegetarierinnen wirklich essen. Diese Gewichtung der eingehenden Faktoren (hier: Obst, Milch und Fleisch im Verhältnis 2:1:0) hat also großen Einfluss auf das Endergebnis, d. h. es genügt zur Interpretation von Indexwerten nicht zu wissen, welche Variablen berücksichtigt wurden - man muss auch wissen, mit welchem Gewicht sie in die Berechnung eingingen.
116
lm Beispiel spielt die Menge an Fleisch durch die Gewichtung mit Null gar keine Rolle mehr für das Ergebnis, obwohl sie streng genommen in die Berechnung eingeht, eine Veränderung der Obstwerte würde das Endergebnis dagegen durch die doppelte Gewichtung sehr stark beeinflussen. Dennoch bliebe bei diesem - der Verständlichkeit wegen arg konstruierten - Beispiel das Problem bestehen, ungleiche Dinge miteinander verrechnet zu haben: Drei Früchte, einen Liter Flüssigkeit und zwei abgepackte Einheiten Fleischmasse. Damit bliebe auch zu diskutieren, wie sinnvoll es ist, das Ergebnis überhaupt zu interpretieren. Dies veranschaulicht, wie leicht eine Formel tatsächliche Unterschiede unter den Tisch fallen lässt und welchen Einfluss eine Gewichtung auf das Ergebnis haben kann.
Eine spannende Frage ist hierbei natürlich, wie die Gewichte zustande kommen - im Beispiel haben wir sie nach unserem Gutdünken willkürlich festgelegt. Wenn ein Index wissenschaftlichen Kriterien entsprechen soll, können wir dies selbstverständlich nicht tun. Üblich ist vielmehr, über Korrelationen zu berechnen, wie stark einzelne Faktoren mit dem Gesamtergebnis Zusammenhängen und die gefundenen Korrelationskoeffizienten als Schätzung für das Gewicht zu verwenden. Gerade an diesem zentralen Punkt herrscht bei vielen veröffentlichten Rankings und Indizes vollkommene Intransparenz. Streng genommen sind die Ergebnisse damit aus wissenschaftlicher Sicht wertlos, weil eine Geheimhaltung unmöglich macht, das Ergebnis auf Fehler zu prüfen. Auch das Standortranking der Bundesländer der Bertelsmann Stiftung (Berthold et al. 2003; 2005) baut auf Indizes, die nach ihrer Berechnung in eine Rangreihe gebracht werden. Sie bilden sozusagen die zentralen Eckpfeiler des Projekts, dessen statische Fähigkeiten damit gut beschrieben sein dürften. Zur Entstehung der sogenannten >Erfolgs-< und >Aktivitätsindizes< wird erklärt:
Wie sich die einzelnen Länder entwickeln, wird anhand der drei Bereiche »Einkommen< (mit den beiden Zielgrößen Bruttoinlandsprodukt und Wirtschaftswachstum), »Beschäftigung« (Arbeitslosigkeit und Erwerbstätigkeit) sowie »Sicherheit« (Sozialhilfeempfängeranteil für die soziale Sicherheit und Zahl der nicht aufgeklärten Straftaten für die innere Sicherheit) untersucht.
Zur Gewichtung der drei Faktoren heißt es weiter lapidar:
Wanderungsbewegungen und Umfrageerhebungen legen nahe, die drei Bereiche mit
1:1:0,25 zu gewichten. (Berthold et al. 2005: 12)
Eigentlich geht es also fast ausschließlich um Einkommen und Beschäftigung. Das Übergewicht dieser Faktoren veranschaulicht der Ranking-Abräumer Hamburg, der trotz seines vorletzten Platzes in puncto Sicherheit in der Gesamtwertung vorne bleibt. Was das im Einzelnen für >Wanderungsbewegungen< sind und um welche >Umfragen< es sich handelt, erfahren wir an dieser Stelle nicht.
Bei derart schönen Gewichtungsfaktoren ist jedenfalls davon auszugehen, dass sie über den Daumen gepeilt wurden - wären sie das Ergebnis statistischer Berechnungen, wäre es äußerst unwahrscheinlich, nicht drei >krumme Zahlen< erhalten zu haben. Es ist zudem wirklich spannend, einmal darüber zu sinnieren, welche inhaltliche Aussagekraft z. B. eine Zahl hat, die aus der Anzahl der Sozialhilfeempfängerinnen und der Quote2 unaufgeklärter Verbrechen berechnet wird - laut Bertelsmann bildet sie die Sicherheit eines Bundeslandes ab. Überhaupt ist schwer nachvollziehbar, warum genau die drei Faktoren Einkommen, Beschäftigung und Sicherheit verwendet werden, und warum sie sich wie angegeben zusammensetzen. In ihren Erklärungen zum methodischen Ansatz behaupten die Autoren immerhin, die Indizes stünden »in einem theoretisch plausiblen und empirisch abgesicherten Ursache-Wirkungs-Zusammenhang« (Berthold et al. 2003: 22). Die Faktoren machen dabei jedoch nicht den Eindruck, das Ergebnis einer vorangegangenen empirischen Analyse zu sein. Dagegen spricht z. B., dass sowohl Arbeitslosigkeit und Erwerbstätigkeit als auch Bruttoinlandsprodukt und Wirtschaftswachstum nicht unabhängig voneinander sein dürften. Wenn zwei Größen stark miteinander Zusammenhängen, erklären sie gemeinsam nicht viel mehr, als eine der beiden es alleine schon täte - man würde daher aus Gründen der Testökonomie auf eine verzichten. Falls diese Überschneidungen nicht berücksichtigt werden, vergrößert sich womöglich der Einfluss eines Faktors künstlich, weil vereinfacht ausgedrückt ein und dieselbe Eigenschaft doppelt in die Rechnung eingeht.3 Allerdings ist schon viel früher Obacht angebracht: Was bedeutet eigentlich »theoretisch plausibel«? Aus welcher Theorie wurden die Plausibilitäten abgeleitet? Es ist ja beispielsweise leicht nachzuvollziehen, dass ein Globalisierungskritiker andere Zusammenhänge auf dem Weltmarkt als »theoretisch plausibel« annimmt als eine überzeugte Globalisierungsbefürworterin.
Während sich für den Erfolgsindex noch diverse Statistiken für eine wie auch immer durchgeführte Rechnung heranziehen lassen, möchte der Aktivitätsindex das politische Handeln der Länder messen. Nach einem uns nicht bekannten Schema, das sich auf die undurchsichtige theoretische Plausibilität< stützt, werden hierbei politische Entscheidungen irgendwie in Punkte übersetzt - Willkür und Absurdität dieses Unterfangens liegen auf der Hand. Die Konstrukteure des Aktivitätsindex stellen diesen dar als einen »zum Erfolgsindex spiegelbildlich konstruierten Indikator der landespolitischen Aktivitäten, die die Position der Länder im Erfolgsindex beeinflussen« (Berthold et al. 2003: 35ff). Diese Aktivitäten seien demnach die Ursache, der gemessene Erfolg die Wirkung. Wieder bleibt vollkommen schleierhaft, auf welche Weise sie zu den berücksichtigten Zielgrößen ihrer »ökonometrischen Schätzung« kamen. So entnehmen wir den Tabellen des Berichts (Berthold et al. 2003: 42-43) lediglich im Ergebnis, dass öffentliche Beschäftigung positiv mit einem geschätzten Gewicht von 18,0 % auf den Sozialhilfeempfängerinnenanteil wirke, jedoch negativ mit 16,2 % auf das Bruttoinlandsprodukt, und dass das Bruttoinlandsprodukt selbst wieder ein positiver Wirkfaktor (14,8 %) für die nicht aufgeklärten Straftaten sei.
Offensichtlich muss den Ranking-Autoren also sogar bewusst gewesen sein, dass die Faktoren in verschiedener Weise Zusammenhängen; trotzdem war es ihnen nicht der Mühe wert, die gegenseitige Abhängigkeit ihrer Zielgrößen zu untersuchen. Im Gegenteil: Da die im Aktivitätsindex aufgeführten Faktoren als Ursache für die Werte des Erfolgsindex angesehen werden, bedeutet dies im Klartext, dass das Bruttoinlandsprodukt herangezogen wird, um sich selbst vorherzusagen. Die Spiegelbildlichkeit der Indizes ist damit in gewisser Weise wörtlich zu verstehen.
Manche Aktivitäten fallen im Sinne der Ranking-Autoren durchweg positiv oder negativ auf: Patentanmeldungen wirken ihren Schätzungen nach grundsätzlich positiv, und zwar sowohl auf die Arbeitslosigkeit, den Erwerbstätigenanteil, das Bruttoinlandsprodukt, das Wirtschaftswachstum und sogar den Anteil der Sozialhilfeempfängerinnen, wohingegen die Höhe der Sozialhilfe bzw. Ausgaben für Sozialhilfe in den Zielgrößen Arbeitslosigkeit, Bruttoinlandsprodukt, Wirtschaftswachstum und ungeklärte Verbrechen ausschließlich negativen Einfluss haben. Der Effekt: Wer Patentanmeldungen forciert und an der Sozialhilfe spart, kann sich auf allen Skalen der Bundesländer-Studie nur verbessern.
Eine weitere Überlegung lässt das gesamte Konstrukt ins Wanken geraten: Die Ranking-Autoren machen zu Anfang der Studie deutlich, dass alle Länder direkt vergleichbar sind, schließlich stünden sie alle im selben Wettbewerb miteinander (Berthold et al. 2003: 25). Dennoch heben sie selbst hervor, dass eine Reihe deutlicher Unterschiede zwischen den Bundesländern existiert. So beschreiben sie z. B. ein starkes Ost-West-Gefälle, insbesondere bei den Arbeitslosenquoten (die Zahl der Beispiele ist beliebig erweiterbar). Hieraus ließe sich schlüssig ableiten, ostdeutsche Länder müssten sich in ihren Aktivitäten vergleichsweise stärker in der Arbeitsmarktpolitik engagieren als westdeutsche, bei denen dieses Problem deutlich weniger gravierend auftritt. Trotzdem werden alle Aktivitäten und Erfolge für alle Bundesländer im Ranking grundsätzlich gleich stark gewichtet: Völlig ungeachtet landesspezifischer Gegebenheiten geht so auch der Bevölkerungsanteil in Großstädten mit 18,1 % negativ in den Aktivitätsfaktor für unaufgeklärte Verbrechen ein.4 Bei dieser Berechnung ist es natürlich kein Wunder, dass sich Berlin, Hamburg und Bremen auf den hinteren Rängen wiederfinden.
Aus dieser Perspektive wird offensichtlich, dass das >Eine Formel für alle<-Vorge-hen schlicht nicht praktikabel ist. Über die Unbrauchbarkeit dieses Ansatzes kann auch das Wettbewerbsargument nicht hinwegtäuschen. Wenn aber die Eigenarten der Bundesländer ins Blickfeld geraten, steht gleichzeitig ihre direkte Vergleichbarkeit zur Diskussion: Das gesamte Ranking verliert seine methodische Basis. Die Studie bemängelt dagegen fehlende Bewegung, wenn sie die Aktivitätsindizes im Verlauf der Zeit miteinander vergleicht:
Waren schon beim Erfolgsindex die Veränderungen nicht extrem, sind sie im Aktivitätsindex noch geringer ausgefallen. Hieraus ergibt sich das Bild eines wenig intensiven Standortwettbewerbs zwischen den Bundesländern.
Selbstkritik ist nicht die Stärke der Verfasser, denn eine alternative Erklärung dieses Befundes, die an dieser Stelle in jedem wissenschaftlichen Artikel diskutiert werden müsste, wäre mangelnde Güte des Messinstruments.
Ein Index, bei dem sich einzelne Unterfaktoren gegenseitig verstärken und wieder aufheben, ohne dass diese Zusammenhänge ordentlich untersucht werden, ist vielleicht eher konstruktionsbedingt unfähig, die gewünschten Veränderungen zu erfassen. Berthold et al. (2003) kommen jedoch zu einem anderen Schluss, zu dem sie überdies keine Alternative zulassen:
Für die anstehende Reform des Föderalismus in Deutschland kann das nur heißen, die Gestaltungsspielräume der Länder zu erhöhen, um so auch mehr Wettbewerb zu ermöglichen.
Es besteht hier in der Sache kein großer Unterschied, ob die Intelligenz einer Einzelperson, die Qualität einer Hochschule oder der Erfolg einer Industrienation gemessen werden soll. In allen Fällen müssen wir zunächst begründet und so exakt wie möglich definieren, was wir mit Intelligenz respektive Qualität oder Erfolg überhaupt meinen. Haben Sie schon einmal versucht, Intelligenz zu definieren? Falls Sie in dieser kniffligen Frage aushelfen können, wären ihnen die in der Psychologie Forschenden sicher für einen zweckdienlichen Hinweis dankbar, denn diese erst einmal so trivial scheinende Frage führte hier zu einer wachsenden Anzahl von Modellen und regalfüllenden Diskussionen. Jedes Intelligenzmodell bedarf zur Messung selbstverständlich anderer Verfahren, und so gilt noch immer als ehrlichste Definition: »Intelligenz ist das, was ein (bestimmter) Intelligenztest misst.«
Kehren wir also noch einmal zurück zur grundlegenden Frage: Was ist überhaupt >Erfolg<? Die Bertelsmann Stiftung weiß es, denn wie bereits erläutert, berechnet sie einen >Erfolgsindex< für Industrienationen und Bundesländer, der fast ausschließlich Einkommen und Beschäftigung berücksichtigt. Aber ließen sich nicht auch andere Faktoren finden, die mindestens gleichsam plausibel als Erfolg definiert werden könnten? Immerhin befinden auch die Autoren des Rankings:
Um zur Aggregation in einem Erfolgsindex geeignet zu sein, müssen Zielgrößen die
Lebens- und Standortqualität der Bundesländer möglichst umfassend und repräsentativ abbilden. (Berthold et al. 2003: 27)
Mithin soll also auch die Lebensqualität umfassend abgebildet werden, und man könnte begründet der Auffassung sein, dass dies allein über Einkommen, Beschäftigung und einen verschwindenden Teil Sicherheit nicht gelingt. Wie wäre es beispielsweise mit
• dem prozentualen Anteil von Kindern sogenannter >bildungsferner Schichten< an Hochschulen
• der Anzahl ehrenamtlich engagierter Bürgerinnen
• dem durchschnittlichen Geräuschpegel in den Städten
• der Anzahl von Kommunen, deren Verwaltung auf freier Software basiert
• dem Angebot an Sportvereinen, Jugend- und Kulturzentren
• der Zufriedenheit mit den Fahrplänen des ÖPNV
• der durchschnittlichen Entfernung der Wohnungen von Kindern zu ihren
Schulen
• der Dichte an instandgehaltenen Sehenswürdigkeiten
• der jährlichen Pro-Kopf-Zahl von Kino-, Theater- und Konzertbesuchen
• der Zahl frei verfügbarer Bücher in öffentlichen Bibliotheken
• dem Stellenwert eines künstlerisch-kreativen Undergrounds
• der öffentlichen Akzeptanz nicht-ehelicher oder gleichgeschlechtlicher Lebensgemeinschaften
• Sterblichkeit und Geburtenrate
• Wasserqualität
• Prozentsatz alternativ gewonnener Energie
• Wahlbeteiligung der Bevölkerung
•
Da letztendlich nicht überprüft werden kann, wie sich die einzelnen Werte tatsächlich zusammensetzen, womit auch die Interpretation der Daten im weiteren Verlauf der Studie eigentlich obsolet wird, können ihre Autoren dementsprechend nach eigenem Gutdünken erklären, welche politische Maßnahme ihnen besonders gefiel und was sie sich für die Zukunft an Entscheidungen erhoffen. Mit Empirie und Wissenschaft hat dies nichts zu tun. Diese Simplifizierung komplexer Sachverhalte und Zusammenhänge sowie ihre >alternativlose< Interpretation im Sinne einer nebulösen Theorie kann nur mehr als Propaganda5 bezeichnet werden.
Wie eingangs schon erwähnt, hängt der Boom von Rankings eng mit der westlichen Wirtschaftspolitik zusammen. Diese nehmen wir derzeit wahr als dominiert von einem gemeinhin als Wettbewerb bezeichneten Selbstverständnis des Gegeneinanders. Es gilt, sich von Mitbewerberinnen abzusetzen, z. B. durch Andersartigkeit, also das Darstellen einer Alternative. Wenn es geglückt ist, eine Lösung oder ein Produkt >anders< herzustellen, muss im nächsten Schritt die potentielle Kundschaft davon überzeugt werden, dass die eigene Alternative auch die bessere ist, sonst bestünde für diese außer Zufall, Neugier oder Langeweile wenig Anlass zu einer (Um-)Entscheidung zugunsten des entsprechenden Angebots.
Nehmen wir ein vereinfachendes Beispiel: Wie würden Sie vorgehen, wenn Sie zum ersten Mal Milch kaufen sollten? Ein Dutzend unterschiedlicher Sorten und Marken verwirren Sie. Vermutlich würden Sie sich in ihrem Bekanntenkreis nach deren Erfahrungen mit Milch informieren. Wenn ihnen dabei eine Mehrheit zum Kauf der Frischmilch »Glückliche Kuh< rät, haben Sie quasi ein eigenes Alltags-Ranking vorliegen, und vermutlich wird es auch die Gestalt ihres Einkaufzettels bestimmen - schließlich war das Ihr zentrales Anliegen. Die Beschäftigung mit einem Ranking bekommt also besonderes Gewicht, wenn Sie sich in einem Entscheidungsprozess, einer Meinungsbildung befinden. Aber wonach haben Sie eigentlich genau gefragt? Welche Milch am besten schmeckt? Welche sich am längsten hält? Welche am günstigsten zu bekommen ist? Welche die hübscheste Verpackung hat oder vom renommiertesten Betrieb stammt? Letztere sind vielleicht Fragen, die Ihnen jetzt nicht in den Sinn gekommen wären, weil Sie sich wenig brauchbare Information davon versprechen. Trotzdem ist es natürlich problemlos möglich, eine Umfrage nur darauf aufzubauen und das Ergebnis als >Großes Milch-Ranking< zu veröffentlichen. Wenn Sie selbst im Milchgeschäft tätig sind, kann das durchaus lukrativ sein. Sie hätten in diesem Fall natürlich wenig Interesse daran, ein Ranking zu veröffentlichen, das eine Konkurrentin anführt. Wie ließe sich dies verhindern? Sie könnten z. B. die Antwortmöglichkeiten vorgeben und dabei ernsthafte Konkurrenz unerwähnt lassen.
Sie finden das abstrus? Bertelsmann nicht: Das Centrum für Hochschulentwicklung (CHE) veröffentliche sowohl 1998 also auch 2003 die Ergebnisse beim Meinungsforschungsinstitut forsa in Auftrag gegebener Umfragen, nach denen die Mehrheit der Studierenden in Deutschland die Einführung von Studiengebühren befürworten würde. Es ist sicher kein Zufall, dass diese Umfrageergebnisse zu Zeiten präsentiert wurden, in denen Abertausende von Studierenden durch Proteste auf sich aufmerksam machten. Wie sich herausstellte, sollten in beiden Umfragen lediglich verschiedene Gebührenmodelle bewertet werden - eine Möglichkeit, sich explizit gegen Gebühren auszusprechen, war überhaupt nicht vorhanden (Struben 2004).
Rankings beginnen also - wie eigentlich alle wissenschaftlichen Studien - mit einer anfänglichen Fragestellung. Wie unser Milch-Beispiel veranschaulichte, kann es bereits von großer Bedeutung sein, wer die Fragestellung aufwirft. Ein sehr interessanter Punkt an Rankings ist daraufhin, wonach und in welcher Form genau gefragt wurde. Die exakte Formulierung einer Frage, oder ihre Einbettung in einen inhaltlichen Kontext, hat dabei größeren Einfluss auf das Ergebnis als man allgemein vermutet. So präsentierten Loftus und Palmer (1974) in einer psychologischen Untersuchung ihren Probandlnnen einen kurzen Film, in dem ein Autounfall zu sehen ist. Anschließend baten sie um eine Schätzung der Geschwindigkeit der Fahrzeuge. Dabei variierten sie das Verb, mit dem sie den Unfallhergang bezeichneten: Nach zufälligem Muster wurden die Versuchspersonen also gefragt, mit welcher Geschwindigkeit die Wagen ineinander »fuhren«, »rasten« oder »krachten«.7 Obwohl alle Probandlnnen exakt identisches Filmmaterial gesehen hatten, schätzten diejenigen, deren Frage ein schneller oder drastischer klingendes Verb enthielt, im Durchschnitt auch deutlich höhere Geschwindigkeiten. Stellen Sie sich vor, Sie wären Rechtsanwältin und sollten in einem ähnlichen Fall den Unfallfahrer vertreten -
7 »How fast were the cars going when they (contacted/hit/bumped/collided/smashed) each other?«
wie würden Sie nach Kenntnis dieser Studie wohl ihre Fragen an eine Zeugin formulieren, um ihren Mandanten möglichst gut dastehen zu lassen?
Der Erkenntnisgewinn dieses relativ einfachen, aber eindrucksvollen Experiments ist enorm. Da nur eine Variable (das Verb) verändert wurde, und dies auch noch zufällig, kann der gefundene Effekt auf die Form der Frage zurückgeführt werden. Dies ist für uns in diesem Kapitel nicht nur konkret von Interesse, weil wir nun wissen, dass auch Formulierungen nachweislich Antworten beeinflussen können. Es ist darüber hinaus auch ein anschauliches Beispiel dafür, wie unter methodisch günstigen Umständen auch recht sicher Ursache-Wirkungs-Zusammenhänge überprüft werden können. Anders ausgedrückt ist der Nachweis von kausalen Zusammenhängen nur in einem Experiment möglich, in dem gezielt einzelne als wirkungsvoll vermutete Komponenten manipuliert werden und die daraus resultierenden Veränderungen beobachtbar sind. Ohne die Möglichkeit zur experimentellen Veränderung der vermeintlichen Wirkkomponenten können wir nicht sicher sein, ob ein beobachteter Effekt tatsächlich von einem bestimmten zuvor aufgetretenen Ereignis verursacht wurde, oder nicht z. B. beide Größen von einem dritten, unbekannten Ereignis gleichermaßen beeinflusst werden.
Bei Rankings fällt der Nachweis dieser Zusammenhänge schwerer. Wir müssen sogar fragen, ob er auf diese Weise überhaupt möglich ist. Wenn jedoch Universitäten, Bundesländer oder Industrienationen einem Ranking unterliegen, begnügen sich die Autorinnen in der Regel mit >plausiblen< Schlussfolgerungen. Die augenscheinlichen Zusammenhänge werden mit gesundem Menschenverstand interpretiert. So wird meist am interessantesten Punkt - der Interpretation der Ergebnisse -mit verklärender Plausibilität zunichte gemacht, was zuvor zum Teil mit beachtlicher mathematischer Präzision errechnet wurde. Der Verweis auf Zahlen mit ein paar Nachkommastellen erzeugt gewissermaßen das Image von Wissenschaftlichkeit, obgleich die inhaltliche Auslegung bei genauerem Hinsehen nicht viel mehr bleibt als reine Spekulation. Drews (2005) spricht in seiner Doktorarbeit »Gestaltungsmöglichkeiten und Aussagekraft des Rankings von Standorten - unter besonderer Berücksichtigung des Bundesländer-Standortrankings der Bertelsmann Stiftung« ebenfalls von »Ursache-Wirkungs-Zusammenhängen«, die sich aus den »Regressionsergebnissen« des Rankings ablesen ließen (229). Im veröffentlichten Standortranking von 2003, dessen Co-Autor Drews war (Berthold et al. 2003), ist der Begriff »Regression« allerdings nicht auffindbar.6
Wie Grundlagenliteratur in Statistik (vgl. z. B. Bortz 1993: 173ff) erklärt, lassen sich aus korrelativen Zusammenhängen (und bei Regressionen handelt es sich etwas vereinfacht ausgedrückt um solche) streng genommen auch überhaupt keine Kausalzusammenhänge ableiten. Dies ist an einem Beispiel schnell verdeutlicht: Im Sommer werden mehr T-Shirts getragen als im Winter. Wenn Sie dazu entsprechende Daten erheben würden, ergäbe sich beispielsweise sicherlich eine statistisch bedeutsame Korrelation zwischen der Ärmellänge der Oberbekleidung und dem Kalendermonat. Dies bedeutet allerdings nicht, dass sie ein T-Shirt tragen, weil gerade August ist - sie tragen es, weil es warm ist; die Temperatur wurde bei der Rechnung jedoch gar nicht beachtet, es liegen dazu vielleicht nicht einmal Daten vor. Korrelationen stellen also lediglich (aber immerhin!) die Stärke eines Zusammenhangs dar, lassen aber keine Ursachenbestimmung zu. Sie lassen eigentlich nicht einmal eine Richtung des Zusammenhangs erkennen - wir könnten aus der obigen Korrelation genauso gut (und falsch) ablesen, dass aus einem Monat deswegen ein August wurde, weil viele Menschen T-Shirts getragen haben. Dass diese Ursacheninterpretation nicht zutreffen kann, leuchtet sofort ein; nur sind derartige Trugschlüsse eben nicht immer so offensichtlich.
Die »Initiative Neue Soziale Marktwirtschaft (INSM)« wird von den Arbeitgeberverbänden der Metall- und Elektro-Industrie finanziert (http://www.insm.de). Ihr Botschafter Prof. Dr. Ulrich van Suntum, seit 2002 Geschäftsführender Direktor des »Centrums für angewandte Wirtschaftsforschung Münster (CAWM)«, ist für die Bertelsmann Stiftung seit 1996 u. a. als Autor des Internationalen Standort-Rankings tätig (van Suntum 2004; LobbyControl 2006). In der »Arbeitskommission zum Carl-Bertelsmann-Preis« saß 2005 INSM-Kurator Prof. Dr. Michael Hüther (Bertelsmann Stiftung 2005). Oswald Metzger (B90/Die Grünen), ebenfalls Kurator der Initiative, stellte 2003 eine Bertelsmann-Studie vor, die vor der »Bedrohung durch den demographischen Wandel« warnt (Bertelsmann Stiftung 2003).
Im veröffentlichten Standortranking ist abwechselnd von >Anzahl< oder >Quote< unaufgeklärter Straftaten die Rede. Diese begriffliche Ungenauigkeit erschwert eine Interpretation zusätzlich, denn zwei unaufgeklärte Verbrechen sind sicher ein geringer Wert; falls es jedoch überhaupt die einzigen Verbrechen gewesen sind, läge die Quote bei 100% und damit sehr hoch. Wir wissen auch nicht, ob es sich bei den Verbrechen in einem Land mehrheitlich um Steuerhinterziehung, Fahrerflucht oder Mord handelt.
Hierbei handelt es sich zwangsläufig um beispielhafte Spekulationen unsererseits, da im Rahmen des Rankings die wirkliche (Un-)Abhängigkeit der Faktoren nicht untersucht wurde.
Die Ranking-Autoren begründen dies mit dem statistischen Befund, dass die Kriminalitätsrate in Großstädten durchschnittlich höher liegt als auf dem Land. Bundesländer wie z. B. Hamburg bestehen aber eigentlich zu 100 % aus Großstadt - für die Ranking-Autoren ist dies dennoch kein Grund, von einer Pauschalberechnung abzusehen.
»Unter Propaganda versteht man die gezielte und organisierte Verbreitung einer Nachricht oder Ideologie, meist im politischen Umfeld. Der Propagandatreibende hat das Ziel, das soziale Handeln und Denken anderer im eigenen Sinn zu beeinflussen. Eine jeweils konkret verbreitete Information kann richtig oder falsch sein.« (Wikipedia 2006c)
Wir durchsuchten den Volltext der Studie (http://www.bertelsmann-stiftung.de/bst/de/me-dia/xcms_bst_dms_l 7364_17365_2.pdf) nach »Regression« und ähnlichen Begriffen.