Informelle Tests – Normierte Tests – gültige Tests

Eine Präsentation zu dem Thema.

Sie wollen es genauer wissen?

Lesen Sie den Ausschnitt aus "Schulpsychologie" von Dr. Uwe Wiest

Wenn Sie neugierig auf weitere Details der Testkonstruktion sind:

Kaufen oder leihen Sie sich den Lienert und Raatz.

Vorlesungs-Manuskript „Testdiagnostik für die Schule“

Psychometrica.de - Ein Umrechner für verschiedene Normwerte

Testverfahren lassen sich nur vergleichen, wenn die Ergebnisse in einheitlichen Normwerten ausgegeben sind. Die Umrechnungs-App ist dabei eine praktische Hilfe für die Diagnostik.

Doch nun kurzgefasst:

Anliegen

Klassenarbeiten und Tests im Rahmen des Unterrichts beziehen sich vor allem auf die Lernkontrolle gerade zurückliegenden Unterrichts. Informelle Testverfahren mit Vergleichswerten bilden metrisch einigermaßen sauber den Stand von Schülern in bestimmten Fertigkeiten ab. Rechtschreibung, Lesen, Grundrechenarten. Unter anderem kann man mit solchen Verfahren dramatische allgemeine Lernrückstände aufdecken, die im Alltag überspielt werden können.

Man stellt sinnvolle, das heißt altersgemäße, lehrplanorientierte und unterrichtsbezogene Aufgabensammlungen zusammen und und überprüft die Aufgaen nach den Gesichtspunkten der klassischen Testtheorie und wählt sie danach aus. Das Ergebnis sind relativ kurze und aussagefähige Verfahren, die man für eine Vielzahl von Fragestellungen einsetzen kann.

Je nach Stichprobe entwickelt man Vergleichswerte für Schüler innerhalb einer Schule, von Jahrgängen, oder schulübergreifende Vergleichswerte. Diese liegen dann in Tabellenform vor und können dann zur Erfassung der Leistungen von Klassen, Gruppen und einzelnen Schülern genutzt werden.

Von Testnormen spricht man, wenn die Vergleichswerte repräsentativ für eine Gruppe sind.

Hierzu einige Gesichtspunkte:

Einleitung

Tests werden nach anerkannten Regeln konstruiert und normiert.

Das Standardwerk der Testkonstruktion ist : Lienert-Raatz, Testaufbau und Testanalyse.
Dort finden Sie alle Anweisungen und Berechnungsformeln, die erforderlich sind.

Der Vorteil von Testverfahren gegenüber am Schreibtisch erdachter Prüfungen liegt in der

Aufgabenanalyse und der
Normierung.

Aufgabenanalyse

Zunächst geht es darum, einen Aufgabentypus zu finden, der schnell und vor allem möglichst fehlerfrei auswertbar ist. Alle Aufgaben, deren Lösungen frei formuliert werden, sind prinzipiell weniger objektiv auszuwerten, dafür ist es schwerer, zu raten und sind bei komplexen Aufgabenstellungen angemessener. Man behilft sich mit Katalogen von Aufgabenlösungen, die vorliegenden Lösungen werden mit diesen verglichen.

Nach Lienert und Raatz, Seite 24f, gibt es folgende Aufgabentypen: die ...

Richtig-Falsch-Aufgabe (RF). Hohe Auswertungs-Objektivität, wenig geeignet für komplexe Inhalte. Hohe Möglichkeit, durch raen zu richtiger Lösung zu kommen.

Ergänzungs-Aufgabe (EG). Geringere Auswertungs-Objektivität, gut geeignet für komplexe Inhalte, geinge Möglichkeit, zu raten.

Mehrfachwahl-Aufgabe (MW). Vereint Vorteile der RF und EG. Stellt unter Umständen hohe Ansprüche beim Formulieren der Alternativen zur richtigen Lösung.

Zurodnungs-Aufgabe (ZO). Beispiel Lesetest: Wortkarten zu Bildkarten. Gute Objektivität. Es sollten beispielsweise mehr Bilder als Wortkarten vorliegen, um die Ratemöglichkeit zu reduzieren.

Umordnungs-Aufgabe (UO). Beispiel: Formlegen von Einzelteilen nach einer Vorlage.

Kurzaufsatz-Aufgabe (KA). Beispiel: Erzählung zu einer Bildvorlage. Geringe Objektivität, hohe Komplexität.

Die eigentliche Aufgabenanalyse hat das Ziel, unbrauchbare Aufgaben auszuschließen und den Test damit kürzer und aussagekräftiger zu machen.

Aufgaben-Schwierigkeit: Prozentanteil der Leute, die die Aufgabe richtig lösen.

Bei reinen Geschwindigkeitstests wählt man Aufgaben gleicher Schwierigkeit. Beispiel: Quersummen von Zahlenreihen mit 8 Zahlen ausrechnen.

Bei Niveautests, also Tests ohne oder mit einer großzügigen Zeitbegrenzung wählt man Aufgaben mit ansteigender Schwierigkeit, also leichte, mittlere und schwere.

Aufgaben-Trennschärfe: Insgesamt Leistungsstarke sollen auch diese Aufgabe lösen, Leistungsschwache sie nicht lösen können. Der Statistiker sagt: die Aufgabenlösung soll mit dem Testgesamtwert (minus dem Wert der betrachteten Aufgabe) hoch korrelieren.

Warum ist das wichtig? Jede Aufgabe soll zu dem Gesamtergebnis des Tests beitragen. Sie ist sozusagen für sich genommen ein aussagekräftiger Test. Aufgaben, die das nicht leisten, verlängern den Test unnötig und schwächen die Zuverlässigkeit der Testaussage. Also: raus damit.

Und wenn man einen Test will, der aus unterschiedlichen Leistungskomponenten besteht? Dann muss man mehrere Tests konstruieren, sozusagen eine Testbatterie.

Die Trennschärfe-Berechnung ist etwas umständlich, weil man für jede Aufgabe den Gesamtwert minus dem Ergebnis der einzelnen Aufgabe neu berechnen muss.

Die Anzahl der verbleibenden Aufgaben bestimmt mit über die Zuverlässigkeit (Reliabilität) eines Tests. Zwanzig bis vierzig Testaufgaben, das ist in Ordnung.

Um zu der vorläufigen Endform zu gelangen, muss jetzt beschrieben werden: wie ist die Testanweisung, wie sollen die Testbedingungen sein, wie wird das Material gestaltet? Insgesamt soll der Test so aufgebaut sein, dass die Personengrupe, für die das Verfahren gedacht ist, mit der Testgabe und der Testauswertung gut zurecht kommt.

Gütekriterien

Zuverlässigkeit (Reliabilität): es gibt zwei Aspekte:

Der Test soll bei einer Wiederholung zu derselben Einstufung einer Leistung führen (Wiederholungszuverlässigkeit oder Stabilität).

Teile des Tests sollen zur selben Leistungs-Einstufung führen wie der gesamte Test (Innere Konsistenz).

Gültigkeit oder Validität: das ist schon fast ein inhaltlicher Gesichtspunkt: es geht um die

Übereinstimmung der Leistungs-Einstufung mit einem Außenkriterium, das ebenfalls zählbar (quantifizierbar) sein muss. Beispiel: Lesetestergebnis mit der Zeugnis-Note im Lesen. Gern wird auch die Übereinstimmung mit einem älteren Test des gleichen Merkmals als Beleg für die Validität genommen. Wenn es um ein bestimmtes Verhalten geht, kann man Beobachter auch das Verhalten auf einer Skala von meinetwegen 1 bis 5 einschätzen lassen und hat dann sein quantitatives Kriterium.

Die Validität ist ein ganz kniffeliges Ding, vor allem, wenn das Leistungsmerkmal nicht eindeutig definiert werden kann oder wenn es unterschiedliche Auffassungen über das Kriterium gibt. Was ist eigentlich Lesen? Was Lernbehinderung? Was Intelligenz? Konzentrationsfähigkeit?

Manche Testautoren machen gar keine empirischen Angaben zur Validität, sie nennen das „logische Validität“, sieht man doch, was der Test misst. Das ist oft unzulässig, die Validität ist dann oft nur Schein. Beispiel: Ein Rechentest für Tischler, der sich von anderen Rechentests nur dadurch unterscheidet, dass mit Möbeln und Holz gerechnet wird statt mit Brötchen oder Hühnern.

Normen

Leistungen sind im Allgemeinen nicht absolut, sondern relativ, das heißt, wie bei den Schulzensuren beziehen sich Leistungsbewertungen auf Vergleiche: mit den Schülerinnen und Schülern einer Klasse, eines Jahrgangs, mit vorgegebenen Mindest-Kriterien. Wenn man zum Beispiel wissen möchte: „Wo steht die getestete Person im Vergleich zu ihrer gesamten deutschen Altersgruppe?“ muss das Testverfahren normiert sein. Das heißt: er ist an einer repräsentativen Stichprobe überprüft worden. Diese ist genau so zusammengesetzt, wie die Grundgesamtheit. Normierte Tests machen es möglich, die Zahl der richtigen Lösungen (Rohwert) in einen Standardwert zu übersetzen, der mir dann eine Information darüber gibt, wo die Testperson im Vergleich zu ihrer Bezugsgruppe leistungsmäßig steht. Standardwerte sind Werte der Normalverteilung. Der IQ ist zum Beispiel so ein Wert. Man kann die Leistung aber auch in Prozenträngen ausdrücken, wie viele Personen meiner Bezugsgruppe erzielen die gleiche oder eine schlechtere Leistung?

Das Gewinnen solcher Normwerte ist im allgemeinen teuer und aufwändig, vor allem bei Einzeltestverfahren. Es ist interessant, in den Manualen nachzulesen, wie groß denn die Strichprobe war und hinsichtlich welcher Merkmale sie denn repräsentativ ist. Da wird zum Beispiel gesagt, die Stichprobe bestand aus 320 Menschen, der tatsächliche Vergleich wird dann aber mit 12-jährigen Kindern getroffen, und da sehen wir dann 25 Personen. So ein Verfahren ist wohl kaum als normiert zu bezeichnen. So etwas findet man bei ausgesprochen teuren Testverfahren.

Gruppentests sind leichter zu normieren. Man kann sie ganzen Klassen vorlegen. Dabei ist allerdings zu bedenken, dass die Autoren die Tests oft durch Fremde durchführen und sich dann die Ergebnisse schicken lassen. So besteht keine Kontrolle, ob beim Testen alles mit rechten Dingen zugegangen ist.

Die Bezugsgruppe für die Normen kann auch falsch gewählt sein. Ein gutes Beispiel sind die internationalen Vergleichsuntersuchungen. Es macht keinen Sinn, unkorrigiert Bundesländer oder Staaten zu vergleichen, wenn die Zusammensetzung der Bevölkerung unterschiedlich ist. Da ist es manchmal besser, regionale Vergleichswerte zu verwenden und gar nicht erst den Anspruch auf Repräsentativität zu erheben.

Sind repräsentative Vergleichsnormen erforderlich?

Das Wichtige an einem Test sind die Aufgabenanalyse und die Überprüfung der Gütekriterien. Sie können sich für Ihre Schule selber Tests konstruieren und eine Aufgabenanalyse vornehmen. Sie können bei der Erstellung der Aufgaben über Ihre Konzepte diskutieren (messen die Aufgaben das, was ich den Schülerinnen und Schülern vermitteln will?). Aus den genannten Gründen ist ein solcher informeller, also nicht normierter Test einer am Schreibtisch erdachten schriftlichen Prüfung total überlegen.

Ob Sie Normen benötigen, hängt von Ihrer Fragestellung ab. Manchmal sind keine Normen besser als schlechte Normierungen. Manchmal benötigen Sie sie einfach nicht. Wenn Sie zum Beispiel 10 Plätze für eine Fördergruppe belegen müssen, brauchen Sie eine Leistungs-Rangreihe Ihrer Schülerinnen und Schüler, nicht ihren Leistungstand im Vergleich zu allen Schülern der Altersgruppe in Deutschland.

Vielleicht tun Sie sich mit für Ihren Test-Eigenbau mit einem Methodiker, zum Beispiel einer Schulpsychologin, einem Schulpsychologen zusammen.