Stand: 2025
Herausgeber: Für die Arbeitsgemeinschaft für gynäkologische Onkologie (AGO) der Österreichischen Gesellschaft für Gynäkologie und Geburtshilfe (OEGGG): Christoph Grimm (christian.grimm@meduniwien.ac.at),Christian Schauer (christianschauer45@gmail.com).

XIV. GLOSSAR: STATISTISCHE FACHBEGRIFFE IN KLINISCHEN STUDIEN

Autor:innen: Hans Ulrich Burger, Andrea Berghold, Christoph Grimm, Christian Schauer

1. GRUNDLEGENDE STATISTISCHE KONZEPTE

• Konfidenzintervall:Konfidenzintervalle werden beim Schätzen von Endpunkten verwendet und basieren auf der dem verwendeten Schätzer zugrundeliegenden Variabilität. Diese Intervalle werden durch die sogenannte Überdeckungswahrscheinlichkeit definiert, das heißt ein Konfidenzintervall ist ein Intervall, das den wahren Wert mit einer bestimmten Wahrscheinlichkeit überdeckt. So gibt ein 95%-Konfidenzintervall für den Mittelwert des Alters einer Stichprobe beispielsweise an, dass der wahre Altersmittelwert mit 95%-Wahrscheinlichkeit in diesem Intervall enthalten ist, also von ihm überdeckt wird.
• Hypothesentests und p-Werte: Das Grundkonzept der schließenden Statistik beruht auf Hypothesentests. Hierbei werden zwei Hypothesen gegeneinandergestellt, und ein entsprechendes Testverfahren soll sich dann für eine der zwei Hypothesen entscheiden. Dabei definiert man eine Nullhypothese und eine Alternativhypothese. Beim Vergleich zweier Therapien kann man die Nullhypothese definieren als „es existiert kein Unterschied zwischen den zwei Therapien bezüglich eines gewählten Endpunktes“ und die Alternative als „es existiert ein Unterschied“. Das Testverfahren entscheidet sich dann für die Alternative, wenn die Wahrscheinlichkeit des beobachteten Unterschiedes oder eines noch größeren Unterschiedes zwischen den zwei Therapien im gewählten Endpunkt unter der Nullhypothese nicht größer als ein vordefinierter Wert ist. Dieser Wert wird als Fehler 1. Art oder Signifikanzniveau bezeichnet. Der Fehler 1. Art wird gewöhnlich mit 5 % (zweiseitig) oder 2,5 % (einseitig) definiert. Die berechnete Wahrscheinlichkeit des beobachteten Unterschiedes oder eines noch größeren Unterschiedes zwischen den zwei Therapien unter der Nullhypothese wird als p-Wert bezeichnet. Ist der p-Wert kleiner als der zuvor bestimmte Fehler 1. Art, entscheidet man sich für die Alternative („Nachweis eines Therapieunterschiedes“). Ist der p-Wert allerdings größer als der zuvor bestimmte maximale Fehler 1. Art, so kann die Nullhypothese nicht abgelehnt werden. Daraus kann man jedoch nicht schließen, dass die Nullhypothese korrekt ist („Absence of evidence is not evidence of absence“).
• Überlegenheits- und Nichtunterlegenheitshypothesen: Normalerweise werden in klinischen Studien neue Therapien auf Überlegenheit („Superiority“) getestet. Das heißt, die Nullhypothese besagt im einseitigen Fall, dass die neue Therapie gleich gut oder schlechter als der Standard ist, und die Alternativhypothese besagt, dass die neue Therapie besser ist als der Standard. Im zweiseitigen Fall besagt die Nullhypothese, dass die neue Therapie gleich gut wie der Standard ist, mit der Alternativhypothese, dass sie besser oder schlechter ist. Bei Nichtunterlegenheitshypothesen („Non-Inferiority“) nimmt im einseitigen Fall die Nullhypothese an, dass die neue Therapie um mindestens einen gewissen Wert Δ schlechter ist als der Standard, mit der Alternativhypothese, dass die neue Therapie höchstens um Δ schlechter oder besser ist. Bei zweiseitigen Nichtunterlegenheitshypothesen („Equivalence“) besagt schließlich die Nullhypothese, dass die neue Therapie sich um einen Wert Δ oder mehr vom Standard unterscheidet, mit der Alternativhypothese, dass sich beide Therapien um höchstens Δ unterscheiden. Der Wert Δ wird dabei als Nichtunterlegenheitswert („Non-Inferiority Limit“ oder „Equivalence Limit“) bezeichnet. Ist man interessiert zu zeigen, dass die neue Therapie besser ist als der Standard, muss man Überlegenheitstests verwenden. Ist man hingegen nur daran interessiert zu zeigen, dass die neue Therapie so gut ist wie der Standard – weil ihre Vorteile zum Bespiel in einer besseren Verträglichkeit liegen – dann sind Nichtunterlegenheitstests zu verwenden. Hierzu muss man dann den Nichtunterlegenheitswert definieren und entsprechende Verfahren für das Testen von Nichtunterlegenheitshypothesen verwenden.

MANUAL DER GYNÄKOLOGISCHEN ONKOLOGIE

XIV. GLOSSAR: STATISTISCHE FACHBEGRIFFE IN KLINISCHEN STUDIEN