Propensity Score Matching

Modellansatz - A podcast by Gudrun Thäter, Sebastian Ritterbusch

Categories:

Auf der Gulaschprogrammiernacht 2019 traf Sebastian auf den Podcaster Data Science Phil Philipp Packmohr @PPackmohr. Sein Interesse zur Data Science entstand während seines Studiums in den Life Sciences an der Hochschule Furtwangen in den Bereichen der molekularen und technischen Medizin und zu Medical Diagnostic Technologies. In seiner Masterarbeit hat er sich betreut von Prof. Dr. Matthias Kohl mit der statistischen Aufbereitung von Beobachtungsstudien befasst, genauer mit der kausalen Inferenz aus Observationsdaten mit Propensity Score Matching Algorithmen. Kausale Inferenz, das Schließen von Beobachtungen auf kausale Zusammenhänge, ist tatsächlich sehr wichtig in allen empirischen Wissenschaften wie zum Beispiel der Ökonomie, der Psychologie, der Politologie, der Soziologie und auch der Medizin. Idealerweise sollten Studien in der Form von randomisierten kontrollierten Studien durchgeführt werden, da nur so eine bewusste oder unbewusste Einflussnahme auf den Ergebnisse verhindert werden kann. Beispielsweise leiden Evaluationen an Hochschulen am Ende von Vorlesungen oder Studiengängen oft unter einem Survivorship Bias, da nur noch die Personen befragt werden, die bis zum Ende durchgehalten haben. Doch werden nicht alle Studien aufgrund von verschiedenen Gründen (wie zum Beispiel der hohen Kosten) randomisiert durchgeführt, und so war es auch bei dem für seine Arbeit zentralen Observationsdatensatz von Prof. Dr. Konrad Reinhart an der Klinik für Intensivmedizin vom Universitätsklinikum Jena zu Therapien zur Vermeidung von akutem Nierenversagen. Der Datensatz behandelte 21757 Patienten mit soziodemographischen und biologischen Merkmalen aus der elektronischen Gesundheitsakte mit bis zu 209 Variablen, sowie der gewählten Therapie und ob es zu Nierenversagen kam oder nicht. Die Variablen werden bei der Untersuchung als Confounder, Störfaktoren oder Kovariate benannt, die nicht als ursächlich für den Therapieverlauf gesehen werden, aber diesen sowohl beeinflussen können. In einer nicht-randomisierten Studie werden die Confounder nicht gleichmäßig über die Therapiearten verteilt sein, und damit die zusammengefassten Ergebnisse unerwünscht verfälschen. Eine Aufbereitung anhand der Confounder kann aber nie eine völlig randomisierte Studie ersetzen, da in den Daten nicht auftretende Confounder, wie bespielsweise dem athletischen Status, nicht berücksichtigt werden können. Im Propensity Score Matching werden nun die Erfolgsquoten von Therapien vereinfacht gesagt als durch einen Score gewichtete Erfolgsquote unter Berücksichtigung der aufgetretenen Häufigkeiten der Confounder zur erwarteten Häufigkeit der Confounder berechnet. Problematisch ist dabei der Umgang mit fehlenden Datenwerten, da nur ein Bruchteil der Datensätze wirklich alle Variablen definiert. Hier mussten sinnvolle Datenergänzungsverfahren eingesetzt werden. Die Auswertung erfolgte mit dem kostenlosen Open Source Projekt R (Plattform für statistische Berechnungen), (...)

Visit the podcast's native language site