У статистиці проблема множинних порівнянь або багаторазового тестування виникає, коли дослідник одночасно порівнює декілька груп за допомогою статистичного тесту.
Чим більше груп порівнюються між собою, тим вірогіднішими стають помилкові висновки статистичного тесту, а саме помилка першого типу.
Для розв'язання цієї проблеми було розроблено кілька статистичних методів, які базуються на зниженні порогу значущості (α). Таким чином, знижуючи кількість хибно відхилених нульових гіпотез.
Історія
У 1930-х роках Карло Еміліо Бонферроні розробив один з перших методів корекції для множинних порівнянь, відомий як метод Бонферроні.
Проблема множинних порівнянь привернула підвищену увагу в 1950-х роках роботами таких статистиків, як Тьюкі та Шеффе. Протягом наступних десятиліть було розроблено багато методів для розв'язання цієї проблеми. У 1996 році в Тель-Авіві відбулася перша міжнародна конференція з методів множинного порівняння.
Визначення
Під час проведення будь-якого статистичного тесту існує імовірність помилкового відкидання нульової гіпотези яка насправді є правдивою. Величина цієї імовірності () обирається дослідником заздалегідь, до проведення самого тесту, і визначається як рівень помилки першого роду. Найчастіше рівень альфа дорівнює 5 %. Тобто якщо дослідник проведе 100 тестів ми можемо очікувати що у 5 із них буде помилково відхилена нульова гіпотеза, за умови що вона є насправді вірною. Такі результати називаються хибно позитивними.
Тому у випадках, коли ми маємо багато груп або параметрів які ми хочемо попарно порівняти, 5 % результатів виявляться хибно позитивними. І чим більше попарних порівнянь, тим більша кількість результатів проведених тестів будуть помилковими. Тобто тест виявить значиму відмінність між двома групами коли її насправді не існує.
Неспроможність компенсувати множинні порівняння може мати серйозні наслідки в реальному світі, як показано на наведених нижче прикладах.
- Припустимо, що ми хочемо протестувати ефективність нової методики навчання учнів письма. Перша група буде навчатися за новою методикою, а друга — контрольна група — за старою методикою. Писемність учнів обох груп можна порівняти з точки зору граматики, орфографії, змісту тощо. У міру статистичного порівняння більшої кількості параметрів, збільшується імовірність того, що дві групи значимо відрізнятимуться за якимось з атрибутів, коли насправді значимої різниці не мало б бути.
- Припустімо, що ми розглядаємо ефективність нового медичного препарату з точки зору зменшення одного із симптомів захворювання. Перша група пацієнтів пройшла курс лікування новим препаратом, а друга, контрольна група, — старим. Як і у попередньому прикладі, ефективність обох препаратів можна порівняти багатьма параметрами. І чим більше симптомів ми порівнюватимемо, тим більш імовірно, що результати порівнянь якогось із них виявляться значимими. Тобто новий препарат виявиться кращим у порівнянні з вже існуючими препаратами з точки зору принаймні одного симптому.
В обох прикладах зі збільшенням кількості порівнянь росте імовірність того, що порівнювані групи відрізнятимуться принаймні за одним атрибутом. Росте імовірність того, що лише через велику кількість попарних порівнянь, якась пара буде статистично значимо відрізнятись. У цьому полягає суть помилки першого типу. Тому якщо інші дослідники будуть тестувати таку саму гіпотезу вони можуть і не отримати значимі результати на своїх даних. Тому такі дослідження є нереплікативними, якщо лише не була введена корекція для множинних порівнянь.
Проблема множинних порівнянь спостерігається також під час розрахунку довірчих інтервалів. Один 95 % довірчий інтервал містить справжнє істинне значення невідомого параметра в 95 % випадків. Тобто, якщо ми розрахуємо 100 довірчих інтервалів, то 5 із них не міститимуть невідомий параметр.
Приклад
При порівнянні двох груп, із параметром , імовірність правильного прийняття вірної нульової гіпотези дорівнює (. Порівнюючи три групи, ця імовірність дорівнює ()()(. Відповідно, імовірність хибного відхилення нульової гіпотези () вже дорівнює . Цей процес називається інфляцією альфа, тобто, збільшення імовірності неправильного відхилення нульової гіпотези яка насправді є вірною.
Таблиця нижче ілюструє як параметр альфа залежить від кількості порівнянь.
Кількість груп | Кількість попарних порівнянь | |
---|---|---|
2 | 2 | 0.05 |
3 | 3 | 0.098 |
4 | 6 | 0.143 |
5 | 10 | 0.185 |
Методи усунення проблеми
Найбільш консервативним методом є поправка Бонферроні згідно з якою, імовірність помилки першого типу, яка має величину , діляться на кількість попарних порівнянь : , що також веде до зниження сили тесту.
Наприклад, якщо ми маємо чотири групи які ми хочемо порівняти між собою, і параметр , то ми матимемо попарних порівнянь груп одна з одною.
Таким чином, p-значення, отримане при порівнянні кожної із шести пар, порівнюватиметься із і для того, щоб відхилити нульову гіпотезу р-значення має бути меншим за 0.0083.
Дещо менш консервативну поправку дає метод Холма–Бонферроні, який забезпечує більшу силу тесту, ніж проста корекція Бонферроні. Згідно з цим методом найнижче отримане р-значення () порівнюється із найнижчим та вищі р-значення () порівнюються із менш жорсткими критеріями:.
Масштабне багаторазове тестування
Традиційні методи множинних порівнянь, розглянуті вище, використовуються у дисперсійному аналізі, для коригування порівнянь невеликої кількості груп. Для широкомасштабного множинного тестування, під час якого виконується більша кількість тестів, існують інші методи. Наприклад, у геноміці, використовуючи такі технології, як мікроматриці, можна виміряти рівні експресії десятків тисяч генів, а також генотипи для мільйонів генетичних маркерів. Зокрема, у сфері досліджень генетичних зв'язків існувала серйозна проблема з нереплікацією — результат був статистично значущим в одному дослідженні, але його не вдалося відтворити в наступному дослідженні. Таке невідтворення може мати багато причин, але вважається, що неврахування наслідків багаторазових порівнянь є однією з причин. Прогрес у вимірюванні та інформаційних технологіях значно полегшив збіг великих масивів даних для аналізу, що збільшує кількість гіпотез які треба тестувати. У цій ситуації можна очікувати дуже високі показники хибнопозитивних результатів якщо не корегувати результати методами для множинних порівнянь.
Існує практика, коли множинні порівняння навмисно не корегуються аби збільшити шанси отримати значимі результати дослідження — що є важливим для багатьох дослідників та їх праць. Але такі некореговані значимі результати можуть бути отримані через помилку першого типу статистичного тесту. Така проблема має назву «p-hacking».
- Ключові поняття
- Хибнопозитивний показник
- Помилка першого і другого типу
- Post-hoc аналіз
- Дисперсійний аналіз
- Перевірка статистичних гіпотез
- Загальні методи коригування альфа для множинних порівнянь
- Закрита процедура тестування
- Поправка Бонферроні
- Буль–Бонферроні
- Новий багатодіапазонний тест Дункана
- Процедура гармонійного середнього р-значення
- Процедура Бенджаміна-Гоґберга
Список літератури
- 6.1: Multiple Comparisons. Statistics LibreTexts (англ.). 27 червня 2017. Процитовано 28 жовтня 2023.
- Bonferroni, Carlo E. (1936). Teoria statistica delle classi e calcolo delle probabilità (італ.). Seeber.
- Home. mcp-conference.org.
- Aickin, M; Gensler, H (May 1996). Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods. Am J Public Health. 86 (5): 726—728. doi:10.2105/ajph.86.5.726. PMC 1380484. PMID 8629727.
- Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (1 жовтня 2010). Statistical significance in genetic association studies. Clinical and Investigative Medicine. 33 (5): E266—E270. ISSN 0147-958X. PMC 3270946. PMID 20926032.
- Young, S. S., Karr, A. (2011). Deming, data and observational studies (PDF). Significance. 8 (3): 116—120. doi:10.1111/j.1740-9713.2011.00506.x.
- Smith, G. D., Shah, E. (2002). Data dredging, bias, or confounding. BMJ. 325 (7378): 1437—1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.
Інші джерела
- F. Betz, T. Hothorn, P. Westfall (2010), Multiple Comparisons Using R, CRC Press
- S. Dudoit і MJ van der Laan (2008), Multiple Testing Procedures with Application to Genomics, Springer
- PH Westfall і SS Young (1993), Multiple Testing-based Resampling: Examples and Methods for p-Value Adjustment, Wiley
- P. Westfall, R. Tobias, R. Wolfinger (2011) Багаторазові порівняння та багаторазове тестування за допомогою SAS, 2-е видання, SAS Institute
- Галерея прикладів неправдоподібних кореляцій, отриманих шляхом вичерпування даних
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici problema mnozhinnih porivnyan abo bagatorazovogo testuvannya vinikaye koli doslidnik odnochasno porivnyuye dekilka grup za dopomogoyu statistichnogo testu Chim bilshe grup porivnyuyutsya mizh soboyu tim virogidnishimi stayut pomilkovi visnovki statistichnogo testu a same pomilka pershogo tipu Dlya rozv yazannya ciyeyi problemi bulo rozrobleno kilka statistichnih metodiv yaki bazuyutsya na znizhenni porogu znachushosti a Takim chinom znizhuyuchi kilkist hibno vidhilenih nulovih gipotez IstoriyaU 1930 h rokah Karlo Emilio Bonferroni rozrobiv odin z pershih metodiv korekciyi dlya mnozhinnih porivnyan vidomij yak metod Bonferroni Problema mnozhinnih porivnyan privernula pidvishenu uvagu v 1950 h rokah robotami takih statistikiv yak Tyuki ta Sheffe Protyagom nastupnih desyatilit bulo rozrobleno bagato metodiv dlya rozv yazannya ciyeyi problemi U 1996 roci v Tel Avivi vidbulasya persha mizhnarodna konferenciya z metodiv mnozhinnogo porivnyannya ViznachennyaPid chas provedennya bud yakogo statistichnogo testu isnuye imovirnist pomilkovogo vidkidannya nulovoyi gipotezi yaka naspravdi ye pravdivoyu Velichina ciyeyi imovirnosti a displaystyle alpha obirayetsya doslidnikom zazdalegid do provedennya samogo testu i viznachayetsya yak riven pomilki pershogo rodu Najchastishe riven alfa dorivnyuye 5 Tobto yaksho doslidnik provede 100 testiv mi mozhemo ochikuvati sho u 5 iz nih bude pomilkovo vidhilena nulova gipoteza za umovi sho vona ye naspravdi virnoyu Taki rezultati nazivayutsya hibno pozitivnimi Tomu u vipadkah koli mi mayemo bagato grup abo parametriv yaki mi hochemo poparno porivnyati 5 rezultativ viyavlyatsya hibno pozitivnimi I chim bilshe poparnih porivnyan tim bilsha kilkist rezultativ provedenih testiv budut pomilkovimi Tobto test viyavit znachimu vidminnist mizh dvoma grupami koli yiyi naspravdi ne isnuye Nespromozhnist kompensuvati mnozhinni porivnyannya mozhe mati serjozni naslidki v realnomu sviti yak pokazano na navedenih nizhche prikladah Pripustimo sho mi hochemo protestuvati efektivnist novoyi metodiki navchannya uchniv pisma Persha grupa bude navchatisya za novoyu metodikoyu a druga kontrolna grupa za staroyu metodikoyu Pisemnist uchniv oboh grup mozhna porivnyati z tochki zoru gramatiki orfografiyi zmistu tosho U miru statistichnogo porivnyannya bilshoyi kilkosti parametriv zbilshuyetsya imovirnist togo sho dvi grupi znachimo vidriznyatimutsya za yakimos z atributiv koli naspravdi znachimoyi riznici ne malo b buti Pripustimo sho mi rozglyadayemo efektivnist novogo medichnogo preparatu z tochki zoru zmenshennya odnogo iz simptomiv zahvoryuvannya Persha grupa paciyentiv projshla kurs likuvannya novim preparatom a druga kontrolna grupa starim Yak i u poperednomu prikladi efektivnist oboh preparativ mozhna porivnyati bagatma parametrami I chim bilshe simptomiv mi porivnyuvatimemo tim bilsh imovirno sho rezultati porivnyan yakogos iz nih viyavlyatsya znachimimi Tobto novij preparat viyavitsya krashim u porivnyanni z vzhe isnuyuchimi preparatami z tochki zoru prinajmni odnogo simptomu V oboh prikladah zi zbilshennyam kilkosti porivnyan roste imovirnist togo sho porivnyuvani grupi vidriznyatimutsya prinajmni za odnim atributom Roste imovirnist togo sho lishe cherez veliku kilkist poparnih porivnyan yakas para bude statistichno znachimo vidriznyatis U comu polyagaye sut pomilki pershogo tipu Tomu yaksho inshi doslidniki budut testuvati taku samu gipotezu voni mozhut i ne otrimati znachimi rezultati na svoyih danih Tomu taki doslidzhennya ye nereplikativnimi yaksho lishe ne bula vvedena korekciya dlya mnozhinnih porivnyan Problema mnozhinnih porivnyan sposterigayetsya takozh pid chas rozrahunku dovirchih intervaliv Odin 95 dovirchij interval mistit spravzhnye istinne znachennya nevidomogo parametra v 95 vipadkiv Tobto yaksho mi rozrahuyemo 100 dovirchih intervaliv to 5 iz nih ne mistitimut nevidomij parametr PrikladPri porivnyanni dvoh grup iz parametrom a 0 05 displaystyle alpha 0 05 imovirnist pravilnogo prijnyattya virnoyi nulovoyi gipotezi dorivnyuye 1 a 0 95 displaystyle 1 alpha 0 95 Porivnyuyuchi tri grupi cya imovirnist dorivnyuye 1 a displaystyle 1 alpha displaystyle times 1 a displaystyle 1 alpha displaystyle times 1 a 0 953 0 9025 displaystyle 1 alpha 0 95 3 0 9025 Vidpovidno imovirnist hibnogo vidhilennya nulovoyi gipotezi a displaystyle alpha vzhe dorivnyuye 1 0 9025 0 098 displaystyle 1 0 9025 0 098 Cej proces nazivayetsya inflyaciyeyu alfa tobto zbilshennya imovirnosti nepravilnogo vidhilennya nulovoyi gipotezi yaka naspravdi ye virnoyu Tablicya nizhche ilyustruye yak parametr alfa zalezhit vid kilkosti porivnyan Kilkist grup Kilkist poparnih porivnyan a displaystyle alpha 2 2 0 053 3 0 0984 6 0 1435 10 0 185Metodi usunennya problemiNajbilsh konservativnim metodom ye popravka Bonferroni zgidno z yakoyu imovirnist pomilki pershogo tipu yaka maye velichinu a displaystyle alpha dilyatsya na kilkist poparnih porivnyan m displaystyle m a new a m displaystyle alpha mathrm new alpha m sho takozh vede do znizhennya sili testu Napriklad yaksho mi mayemo chotiri grupi yaki mi hochemo porivnyati mizh soboyu i parametr a 5 displaystyle alpha 5 to mi matimemo 4 4 1 2 6 displaystyle frac 4 4 1 2 6 poparnih porivnyan grup odna z odnoyu Takim chinom p znachennya otrimane pri porivnyanni kozhnoyi iz shesti par porivnyuvatimetsya iz a new 0 056 0 0083 displaystyle alpha mathrm new frac 0 05 6 0 0083 i dlya togo shob vidhiliti nulovu gipotezu r znachennya maye buti menshim za 0 0083 Desho mensh konservativnu popravku daye metod Holma Bonferroni yakij zabezpechuye bilshu silu testu nizh prosta korekciya Bonferroni Zgidno z cim metodom najnizhche otrimane r znachennya i 1 displaystyle i 1 porivnyuyetsya iz najnizhchim a displaystyle alpha ta vishi r znachennya i gt 1 displaystyle i gt 1 porivnyuyutsya iz mensh zhorstkimi kriteriyami a new a m i 1 displaystyle alpha mathrm new alpha m i 1 Masshtabne bagatorazove testuvannyaTradicijni metodi mnozhinnih porivnyan rozglyanuti vishe vikoristovuyutsya u dispersijnomu analizi dlya koriguvannya porivnyan nevelikoyi kilkosti grup Dlya shirokomasshtabnogo mnozhinnogo testuvannya pid chas yakogo vikonuyetsya bilsha kilkist testiv isnuyut inshi metodi Napriklad u genomici vikoristovuyuchi taki tehnologiyi yak mikromatrici mozhna vimiryati rivni ekspresiyi desyatkiv tisyach geniv a takozh genotipi dlya miljoniv genetichnih markeriv Zokrema u sferi doslidzhen genetichnih zv yazkiv isnuvala serjozna problema z nereplikaciyeyu rezultat buv statistichno znachushim v odnomu doslidzhenni ale jogo ne vdalosya vidtvoriti v nastupnomu doslidzhenni Take nevidtvorennya mozhe mati bagato prichin ale vvazhayetsya sho nevrahuvannya naslidkiv bagatorazovih porivnyan ye odniyeyu z prichin Progres u vimiryuvanni ta informacijnih tehnologiyah znachno polegshiv zbig velikih masiviv danih dlya analizu sho zbilshuye kilkist gipotez yaki treba testuvati U cij situaciyi mozhna ochikuvati duzhe visoki pokazniki hibnopozitivnih rezultativ yaksho ne koreguvati rezultati metodami dlya mnozhinnih porivnyan Isnuye praktika koli mnozhinni porivnyannya navmisno ne koreguyutsya abi zbilshiti shansi otrimati znachimi rezultati doslidzhennya sho ye vazhlivim dlya bagatoh doslidnikiv ta yih prac Ale taki nekoregovani znachimi rezultati mozhut buti otrimani cherez pomilku pershogo tipu statistichnogo testu Taka problema maye nazvu p hacking Klyuchovi ponyattyaHibnopozitivnij pokaznik Pomilka pershogo i drugogo tipu Post hoc analiz Dispersijnij analiz Perevirka statistichnih gipotezZagalni metodi koriguvannya alfa dlya mnozhinnih porivnyanZakrita procedura testuvannya Popravka Bonferroni Bul Bonferroni Novij bagatodiapazonnij test Dunkana Procedura garmonijnogo serednogo r znachennya Procedura Bendzhamina GogbergaSpisok literaturi6 1 Multiple Comparisons Statistics LibreTexts angl 27 chervnya 2017 Procitovano 28 zhovtnya 2023 Bonferroni Carlo E 1936 Teoria statistica delle classi e calcolo delle probabilita ital Seeber Home mcp conference org Aickin M Gensler H May 1996 Adjusting for multiple testing when reporting research results the Bonferroni vs Holm methods Am J Public Health 86 5 726 728 doi 10 2105 ajph 86 5 726 PMC 1380484 PMID 8629727 Qu Hui Qi Tien Matthew Polychronakos Constantin 1 zhovtnya 2010 Statistical significance in genetic association studies Clinical and Investigative Medicine 33 5 E266 E270 ISSN 0147 958X PMC 3270946 PMID 20926032 Young S S Karr A 2011 Deming data and observational studies PDF Significance 8 3 116 120 doi 10 1111 j 1740 9713 2011 00506 x Smith G D Shah E 2002 Data dredging bias or confounding BMJ 325 7378 1437 1438 doi 10 1136 bmj 325 7378 1437 PMC 1124898 PMID 12493654 Inshi dzherelaF Betz T Hothorn P Westfall 2010 Multiple Comparisons Using R CRC Press S Dudoit i MJ van der Laan 2008 Multiple Testing Procedures with Application to Genomics Springer PH Westfall i SS Young 1993 Multiple Testing based Resampling Examples and Methods for p Value Adjustment Wiley P Westfall R Tobias R Wolfinger 2011 Bagatorazovi porivnyannya ta bagatorazove testuvannya za dopomogoyu SAS 2 e vidannya SAS Institute Galereya prikladiv nepravdopodibnih korelyacij otrimanih shlyahom vicherpuvannya danih