Sie wollen es genauer wissen?
Wenn Sie neugierig auf weitere Details der
Testkonstruktion sind:
Kaufen
oder leihen Sie sich den Lienert und Raatz.
Testverfahren
lassen sich nur vergleichen, wenn die
Ergebnisse in einheitlichen Normwerten ausgegeben sind. Die
Umrechnungs-App ist dabei eine praktische Hilfe für die Diagnostik.
Doch nun kurzgefasst:
Anliegen
Lehrkräfte, Schulpsychologische Fachkräfte,
entsprechend qualifizierte Mitarbeiter in Landesinstituten für Schule
oder Pädagogik erfinden eigene Testverfahren.
Sie haben unter Umständen aufgrund ihrer
Kenntnisse von Schule und Unterricht bessere Möglichkeiten, sinnvolle,
das heißt altersgemäße, lehrplanorientierte und unterrichtsbezogene
Aufgabensammlungen zusammenzustellen und die Aufgaen nach den
Gesichtspunkten der klassischen Testtheorie zu überprüfen und
auszuwählen. Das Ergebnis sind relativ kurze und aussagefähige
Verfahren, die man für eine Vielzahl von Fragestellungen einsetzen kann.
Natürlich werden die genannten Fachleute nicht
in der Lage sein, solche Verfahren zu normieren. Das ist aber für viele
Fragestellungen auch gar nicht erforderlich oder sogar irreführend. Oft
reicht es schon, innerschulische oder sogar städtische Vergleichswerte
zu erheben.
Hierzu einige Gesichtspunkte:
Einleitung
Tests werden nach anerkannten Regeln
konstruiert und normiert.
Das Standardwerk der Testkonstruktion ist : Lienert-Raatz, Testaufbau und Testanalyse.
Dort finden Sie alle Anweisungen und Berechnungsformeln, die
erforderlich sind.
Der Vorteil von Testverfahren gegenüber am
Schreibtisch erdachter Prüfungen liegt in der
-
Aufgabenanalyse und der
-
Normierung.
Aufgabenanalyse
Die Aufgabenanalyse hat nur sehr bedingt etwas
mit dem Inhalt des Tests und dem konkreten Prüf-Gegenstand zu tun.
Zunächst geht es darum, einen Aufgabentypus zu
finden, der leicht auswertbar ist. Meistens handelt es sich um
sogenannte Mehrfachwahl-Aufgaben. Alle Aufgaben, deren Lösungen frei
formuliert werden, sind von der Auswertung her mehr oder weniger
problematisch, ihre Objektivität ist geringer. Man behilft sich mit
Katalogen von Aufgabenlösungen, die vorliegende Lösung wird mit diesen
verglichen.
Die eigentliche Aufgabenanalyse hat das Ziel,
unbrauchbare Aufgaben auszuschließen und den Test damit kürzer und
aussagekräftiger zu machen.
Aufgaben-Schwierigkeit: Prozentanteil
der Leute, die die Aufgabe richtig lösen.
Bei reinen Geschwindigkeitstests wählt man
Aufgaben gleicher Schwierigkeit. Beispiel: Quersummen von Zahlenreihen
mit 8 Zahlen ausrechnen.
Bei Niveautests, also Tests ohne oder mit
einer großzügigen Zeitbegrenzung wählt man Aufgaben mit ansteigender
Schwierigkeit, also leichte, mittlere und schwere.
Aufgaben-Trennschärfe: Insgesamt Leistungsstarke sollen auch
diese Aufgabe lösen, Leistungsschwache sie nicht lösen können. Der
Statistiker sagt: die Aufgabenlösung soll mit dem Testgesamtwert (minus
dem Wert der betrachteten Aufgabe) hoch korrelieren.
Warum ist das
wichtig? Jede Aufgabe soll zu dem Gesamtergebnis des Tests beitragen.
Sie ist sozusagen für sich genommen ein aussagekräftiger Test.
Aufgaben, die das nicht leisten, verlängern den Test unnötig und
schwächen die Zuverlässigkeit der Testaussage. Also: raus damit.
Und wenn man
einen Test will, der aus unterschiedlichen Leistungskomponenten
besteht? Dann muss man mehrere Tests konstruieren, sozusagen eine
Testbatterie.
Die
Trennschärfe-Berechnung ist etwas umständlich, weil man für jede
Aufgabe den Gesamtwert minus dem Ergebnis der einzelnen Aufgabe neu
berechnen muss.
Die Anzahl der
verbleibenden Aufgaben bestimmt mit über die Zuverlässigkeit
(Reliabilität) eines Tests. Zwanzig bis vierzig Testaufgaben, das ist
in Ordnung.
Um zu der
vorläufigen Endform zu gelangen, muss jetzt beschrieben werden: wie ist
die Testanweisung, wie sollen die Testbedingungen sein, wie wird das
Material gestaltet? Insgesamt soll der Test so aufgebaut sein, dass die
Personengrupe, für die das Verfahren gedacht ist, mit der Testgabe und
der Testauswertung gut zurecht kommt.
Gütekriterien
Zuverlässigkeit (Reliabilität): es gibt zwei
Aspekte:
Der Test soll bei einer Wiederholung zu
derselben Einstufung einer Leistung führen
(Wiederholungszuverlässigkeit oder Stabilität).
Teile des Tests sollen zur selben
Leistungs-Einstufung führen wie der gesamte Test (Innere Konsistenz).
Gültigkeit oder Validität: das ist schon fast
ein inhaltlicher Gesichtspunkt: es geht um die
Übereinstimmung der Leistungs-Einstufung mit
einem Außenkriterium, das ebenfalls zählbar (quantifizierbar) sein
muss. Beispiel: Lesetestergebnis mit der Zeugnis-Note im Lesen. Gern
wird auch die Übereinstimmung mit einem älteren Test des gleichen
Merkmals als Beleg für die Validität genommen. Wenn es um ein
bestimmtes Verhalten geht, kann man Beobachter auch das Verhalten auf
einer Skala von meinetwegen 1 bis 5 einschätzen lassen und hat dann
sein quantitatives Kriterium.
Die Validität ist ein ganz kniffeliges Ding,
vor allem, wenn das Leistungsmerkmal nicht eindeutig definiert werden
kann oder wenn es unterschiedliche Auffassungen über das Kriterium
gibt. Was ist eigentlich Lesen? Was Lernbehinderung? Was Intelligenz?
Konzentrationsfähigkeit?
Manche Testautoren machen gar keine
empirischen Angaben zur Validität, sie nennen das „logische Validität“,
sieht man doch, was der Test misst. Das ist oft unzulässig, die
Validität ist dann oft nur Schein. Beispiel: Ein Rechentest für
Tischler, der sich von anderen Rechentests nur dadurch unterscheidet,
dass mit Möbeln und Holz gerechnet wird statt mit Brötchen oder Hühnern.
Normen
Leistungen sind im Allgemeinen nicht absolut,
sondern relativ, das heißt, wie bei den Schulzensuren beziehen sich
Leistungsbewertungen auf Vergleiche: mit den Schülerinnen und Schülern
einer Klasse, eines Jahrgangs, mit vorgegebenen Mindest-Kriterien. Wenn
man zum Beispiel wissen möchte: „Wo steht die getestete Person im
Vergleich zu ihrer gesamten deutschen Altersgruppe?“ muss das
Testverfahren normiert sein. Das heißt: er ist an einer repräsentativen
Stichprobe überprüft worden. Diese ist genau so zusammengesetzt, wie
die Grundgesamtheit. Normierte Tests machen es möglich, die Zahl der
richtigen Lösungen (Rohwert) in einen Standardwert zu übersetzen, der
mir dann eine Information darüber gibt, wo die Testperson im Vergleich
zu ihrer Bezugsgruppe leistungsmäßig steht. Standardwerte sind Werte
der Normalverteilung. Der IQ ist zum Beispiel so ein Wert. Man kann die
Leistung aber auch in Prozenträngen ausdrücken, wie viele Personen
meiner Bezugsgruppe erzielen die gleiche oder eine schlechtere
Leistung?
Das Gewinnen solcher Normwerte ist im
allgemeinen teuer und aufwändig, vor allem bei Einzeltestverfahren. Es
ist interessant, in den Manualen nachzulesen, wie groß denn die
Strichprobe war und hinsichtlich welcher Merkmale sie denn
repräsentativ ist. Da wird zum Beispiel gesagt, die Stichprobe bestand
aus 320 Menschen, der tatsächliche Vergleich wird dann aber mit
12-jährigen Kindern getroffen, und da sehen wir dann 25 Personen. So
ein Verfahren ist wohl kaum als normiert zu bezeichnen. So etwas findet
man bei ausgesprochen teuren Testverfahren.
Gruppentests sind leichter zu normieren. Man
kann sie ganzen Klassen vorlegen. Dabei ist allerdings zu bedenken,
dass die Autoren die Tests oft durch Fremde durchführen und sich dann
die Ergebnisse schicken lassen. So besteht keine Kontrolle, ob beim
Testen alles mit rechten Dingen zugegangen ist.
Die Bezugsgruppe für die Normen kann auch
falsch gewählt sein. Ein gutes Beispiel sind die internationalen
Vergleichsuntersuchungen. Es macht keinen Sinn, unkorrigiert
Bundesländer oder Staaten zu vergleichen, wenn die Zusammensetzung der
Bevölkerung unterschiedlich ist. Da ist es manchmal besser, regionale
Vergleichswerte zu verwenden und gar nicht erst den Anspruch auf
Repräsentativität zu erheben.
Sind repräsentative Vergleichsnormen
erforderlich?
Das Wichtige an einem Test sind die
Aufgabenanalyse und die Überprüfung der Gütekriterien. Sie können sich
für Ihre Schule selber Tests konstruieren und eine Aufgabenanalyse
vornehmen. Sie können bei der Erstellung der Aufgaben über Ihre
Konzepte diskutieren (messen die Aufgaben das, was ich den Schülerinnen
und Schülern vermitteln will?). Aus den genannten Gründen ist ein
solcher informeller, also nicht normierter Test einer am Schreibtisch
erdachten schriftlichen Prüfung total überlegen.
Ob Sie Normen benötigen, hängt von Ihrer
Fragestellung ab. Manchmal sind keine Normen besser als schlechte
Normierungen. Manchmal benötigen Sie sie einfach nicht. Wenn Sie zum
Beispiel 10 Plätze für eine Fördergruppe belegen müssen, brauchen Sie
eine Leistungs-Rangreihe Ihrer Schülerinnen und Schüler, nicht ihren
Leistungstand im Vergleich zu allen Schülern der Altersgruppe in
Deutschland.
Vielleicht tun Sie sich mit für Ihren
Test-Eigenbau mit einem Methodiker, zum Beispiel einer
Schulpsychologin, einem Schulpsychologen zusammen.
|