Ondřej Vencálek
Nedávno se ke mně dostal článek Zachariase Fögena z února 2022 [1], ve kterém autor na základě analýzy dat z Kansasu ze srpna až října 2020 ukazuje, že povinné nošení roušek zvýšilo smrtnost (case-fatality rate CFR) onemocnění covid-19. Toto poněkud překvapivé zjištění vzbudilo mou pozornost.
Data z amerického státu Kansas za rok 2020 již dříve byla (a dost možná ještě znovu budou) analyzována právě v souvislosti s efektem nošení roušek. Na začátku července 2020 se totiž 105 kansaských okresů (counties) rozdělilo na dvě skupiny – na ty, kde bylo nošení roušek povinné, a na ty, kde povinné nebylo. Toto rozdělení ovšem nebylo náhodné – záleželo na rozhodnutí místních úřadů, které dozajista souviselo s aktuální epidemickou situací v jednotlivých okresech. Srovnáním dalšího vývoje epidemické situace v okresech s povinným a nepovinným nošením roušek dospěli v listopadu 2020 Van Dyke a kol. [2] k závěru, že zavedení povinného nošení roušek pomohlo omezit šíření nákazy virem SARS-CoV-2. O problematičnosti srovnání jsem psal na stránkách SMIS.
Ani současná Foegenova studie ovšem nevzbuzuje důvěru. Hlavní problém vzniká hned na počátku analýzy:
Poté, co rozdělí okresy do dvou skupin dle povinnosti nosit roušky (sekce 2.1), Foegen provádí tzv. paralelizaci skupin (sekce 2.2). V ní z analýzy odstraňuje údaje o 41,3 % studované populace (resp. o 56,7 % studované populace při použití druhého navrženého způsobu paralelizace), viz sekce 3.2. Už tento krok je z mého pohledu těžko obhajitelný. Důvodem k paralelizaci je fakt, že při porovnání měr úmrtnosti z „předkovidového období“ (rok 2019) je mezi srovnávanými skupinami velký rozdíl. To je podstatnou komplikací pro vyhodnocení efektu nošení roušek. Proto jsou některé okresy z analýzy vyloučeny, aby skupiny zbylých měly srovnatelné (co nejpodobnější) míry úmrtnosti v „předkovidovém období“. Ačkoliv myšlenka zohlednit výchozí rozdílnost skupin je správná, paralelizace provedená ex-post dává možnost vybírat takové podskupiny dat, až výsledek analýz potvrdí předem stanovené výsledky.
Některé další provedené analýzy (popsané v sekcích 2.5 a 2.6 a prezentované v sekcích 3.5 a 3.6) jsou pak dosti divokou hrou čísel založenou na podivných předpokladech a místy rezignující na kvantifikaci (jistě velkých) nejistot.
Pozornost statistika přitáhnou také v práci prezentované konfidenční intervaly. Např. v tabulce 4 je odhad relativního rizika 1.52 [1.24 – 1.72]. Při standardní konstrukci intervalového odhadu relativního rizika je přitom bodový odhad blíže k dolnímu okraji konfidenčního intervalu. Zde je však střed intervalu 1.48 a hodnota 1.52 je tedy blíže hornímu okraji. Při přepočtu jsem dostal odhad 1.51 [1.19 – 1.91]. Vzhledem k tomu, že podobné pozorování lze učinit i u dalších tabulek, pochybuji o správnosti prezentovaných výsledků (i když připouštím možnost použití nějakého mně neznámého nestandardního, avšak korektního, stanovení konfidenčního intervalu). Výše uvedená pozorování jsou dle mého názoru dostatečným důvodem k tomu, aby celá studie byla přidána do seznamu „the worst practice of statistics“ pro poučení příštím generacím.