Kapitelverantwortlich und Autor: Hans Ulrich Burger, Andrea Berghold, Christoph Grimm, Christian Schauer
1. GRUNDLEGENDE STATISTISCHE KONZEPTE
- • Konfidenzintervall: Konfidenzintervalle werden beim Schätzen von Endpunkten verwendet und
basieren auf der dem verwendeten Schätzer zugrundeliegenden Variabilität. Diese Intervalle
werden durch die sogenannte Überdeckungswahrscheinlichkeit definiert, das heißt ein Konfidenzintervall ist ein Intervall, das den wahren Wert mit einer bestimmten Wahrscheinlichkeit überdeckt.
So gibt ein 95%-Konfidenzintervall für den Mittelwert des Alters einer Stichprobe beispielsweise
an, dass der wahre Altersmittelwert mit 95%-Wahrscheinlichkeit in diesem Intervall enthalten ist,
also von ihm überdeckt wird.
- • Hypothesentests und p-Werte: Das Grundkonzept der schließenden Statistik beruht auf Hypothesentests. Hierbei werden zwei Hypothesen gegeneinandergestellt, und ein entsprechendes
Testverfahren soll sich dann für eine der zwei Hypothesen entscheiden. Dabei definiert man eine
Nullhypothese und eine Alternativhypothese.
Beim Vergleich zweier Therapien kann man die Nullhypothese definieren als „es existiert kein
Unterschied zwischen den zwei Therapien bezüglich eines gewählten Endpunktes“ und die Alternative als „es existiert ein Unterschied“. Das Testverfahren entscheidet sich dann für die Alternative, wenn die Wahrscheinlichkeit des beobachteten Unterschiedes oder eines noch größeren
Unterschiedes zwischen den zwei Therapien im gewählten Endpunkt unter der Nullhypothese nicht
größer als ein vordefinierter Wert ist. Dieser Wert wird als Fehler 1. Art oder Signifikanzniveau
bezeichnet. Der Fehler 1. Art wird gewöhnlich mit 5 % (zweiseitig) oder 2,5 % (einseitig)
definiert.
Die berechnete Wahrscheinlichkeit des beobachteten Unterschiedes oder eines noch größeren
Unterschiedes zwischen den zwei Therapien unter der Nullhypothese wird als p-Wert bezeichnet.
Ist der p-Wert kleiner als der zuvor bestimmte Fehler 1. Art, entscheidet man sich für die Alternative („Nachweis eines Therapieunterschiedes“). Ist der p-Wert allerdings größer als der zuvor
bestimmte maximale Fehler 1. Art, so kann die Nullhypothese nicht abgelehnt werden. Daraus
kann man jedoch nicht schließen, dass die Nullhypothese korrekt ist („Absence of evidence is not
evidence of absence“).
- • Überlegenheits- und Nichtunterlegenheitshypothesen: Normalerweise werden in klinischen
Studien neue Therapien auf Überlegenheit („Superiority“) getestet. Das heißt, die Nullhypothese
besagt im einseitigen Fall, dass die neue Therapie gleich gut oder schlechter als der Standard
ist, und die Alternativhypothese besagt, dass die neue Therapie besser ist als der Standard. Im
zweiseitigen Fall besagt die Nullhypothese, dass die neue Therapie gleich gut wie der Standard ist,
mit der Alternativhypothese, dass sie besser oder schlechter ist.
XIV. Statistische Begriffe 183
Bei Nichtunterlegenheitshypothesen („Non-Inferiority“) nimmt im einseitigen Fall die Nullhypothese an, dass die neue Therapie um mindestens einen gewissen Wert Δ schlechter ist als der
Standard, mit der Alternativhypothese, dass die neue Therapie höchstens um Δ schlechter oder
besser ist. Bei zweiseitigen Nichtunterlegenheitshypothesen („Equivalence“) besagt schließlich die
Nullhypothese, dass die neue Therapie sich um einen Wert Δ oder mehr vom Standard unterscheidet, mit der Alternativhypothese, dass sich beide Therapien um höchstens Δ unterscheiden. Der
Wert Δ wird dabei als Nichtunterlegenheitswert („Non-Inferiority Limit“ oder „Equivalence Limit“)
bezeichnet.
Ist man interessiert zu zeigen, dass die neue Therapie besser ist als der Standard, muss man
Überlegenheitstests verwenden. Ist man hingegen nur daran interessiert zu zeigen, dass die neue
Therapie so gut ist wie der Standard – weil ihre Vorteile zum Bespiel in einer besseren Verträglichkeit liegen – dann sind Nichtunterlegenheitstests zu verwenden. Hierzu muss man dann den
Nichtunterlegenheitswert definieren und entsprechende Verfahren für das Testen von Nichtunterlegenheitshypothesen verwenden.