Парадокс Сімпсона (ефект Юла-Сімпсона, парадокс об'єднання) — парадокс у статистиці, коли при наявності двох груп даних, в кожній з яких спостерігається однаково спрямована залежність, при об'єднанні цих груп ця залежність або зникає або змінює свій напрям на протилежний.
Це явище було описано [en] в технічній статті 1951 року, проте статистики Карл Пірсон у 1899 та Удні Юл у 1903 році, також згадували подібний ефект. Назву «парадокс Сімпсона» вперше застосував Колін Блайт (Blyth, Colin R.) у 1972 році. Однак, так як Сімпсон не був першовідкривачем цього ефекту, деякі автори використовують безособові назви, наприклад, «парадокс об'єднання».
Історія відкриття парадоксу
Перший раз розглянута ситуація відзначена Карлом Пірсоном у статті «Математичний внесок у теорію еволюції». Він розглядає залежність ознак різнорідних груп коней. У. Юл робить більш детальний аналіз подібних популяційних змін, вивчаючи механізми спадковості. Сімпсон розглядає те, що він називає «цікавим випадком» в кількох розділах статті «The Interpretation of Interaction in Contingency Tables». Сімпсон був першим автором, який вивчав це явище з точки зору статистики. Тому згодом математик К. Р. Блайт в статті «On Simpson's Paradox and the Sure-Thing Principle» вводить термін «парадокс Сімпсона».
Приклади
Приклад з фішками
Нехай є чотири капелюхи (два чорних і два сірих), 41 фішка (23 кольорових і 18 білих) і два столи (А і Б). Фішки розподілені по капелюхах наступним чином:
• У чорному капелюсі на столі А лежать 5 кольорових і 6 білих фішок.
• У сірому капелюсі на столі А лежать 3 кольорові і 4 білі фішки.
• У чорному капелюсі на столі Б лежать 6 кольорових і 3 білих фішки.
• У сірому капелюсі на столі Б лежать 9 кольорових і 5 білих фішок.
Припустимо, що ви хочете витягти кольорову фішку.
Якщо ви перебуваєте біля стола А, то ймовірність отримати кольорову фішку з чорного капелюха дорівнює 5/11 = 35/77, а з сірого капелюха на тому ж столі — 3/7 = 33/77; таким чином, кольорову фішку більше шансів витягнути з чорного капелюха, ніж із сірого.
Якщо ви перебуваєте біля стола Б, то ймовірність отримати кольорову фішку з чорного капелюха дорівнює 6/9 = 28/42, а із сірого капелюха — 9/14 = 27/42; таким чином, і тут кольорову фішку більше шансів витягнути із чорного капелюха, ніж із сірого.
Припустимо тепер, що фішки з двох чорних капелюхів складені в один чорний капелюх на столі В, а фішки з двох сірих капелюхів — в один сірий капелюх на столі В. На перший погляд, логічно було б припустити, що ймовірність витягнути кольорову фішку з чорного капелюха вище, ніж із сірого. Але це невірно:
• ймовірність витягнути кольорову фішку із чорного капелюха на столі В дорівнює 11/20 = 231/420,
• ймовірність витягнути кольорову фішку із сірого капелюха на столі В дорівнює 12/21 = 240/420,
тобто більше шансів отримати кольорову фішку з сірого капелюха, ніж із чорного[4].
Приклад з камінням
Нехай ми маємо чотири набори каменів. Імовірність витягти чорний камінь з набору № 1 вища, ніж з набору № 2. У свою чергу, ймовірність витягнути чорний камінь з набору № 3 більша, ніж з набору № 4. Об'єднаємо набір № 1 з набором № 3 (отримаємо набір I), а набір № 2 — з набором № 4 (набір II). Інтуїтивно можна очікувати, що ймовірність витягнути чорний камінь з набору I буде вище, ніж з набору II. Однак в загальному випадку таке твердження не вірне.
Математичне доведення таке. Нехай ni кількість чорних каменів в i-му наборі (вибірці), mi — загальна кількість каменів в i-му наборі при i = 1, 2, 3, 4. За умовою:
Імовірність витягти чорний камінь з наборів I і II, відповідно:
Вираз для набору I не завжди більший за вираз для набору II. Наприклад:. Легко перевірити, що .
В той час як .
Ймовірність
У доповіді Павлідова та Перлманова представляється доказ того, що у випадковій 2 × 2 × 2 таблиці із рівномірним розподілом, парадокс Сімпсона буде відбуватися з ймовірністю точно 1/60. Дослідження, проведене Коком передбачає, що ймовірність того, що парадокс Сімпсона відбуватиметься випадковим чином в моделях шляху (тобто моделі, що генеруються за допомогою аналізу шляху (статистики)) з двома предикторами і однією змінною становить приблизно 12,8 відсотка; трохи вище, ніж 1 поява на 8 моделей шляху.
Застосування
Парадокс Сімпсона ілюструє неправомірність деяких іноді небезпечних для життя узагальнень. Так, наприклад, в ході експерименту в групі чоловіків і групі жінок, хворих на одну й ту ж хворобу, до стандартного лікування додали новий лікарський препарат. Результат в обох групах окремо підтверджував ефективність нового засобу.
Чоловіки | Вживали ліки | Не вживали ліки |
---|---|---|
Видужали | 700 | 80 |
Не видужали | 800 | 130 |
Співвідношення | 0.875 | 0.615 |
Жінки | Вживали ліки | Не вживали ліки |
---|---|---|
Видужали | 150 | 400 |
Не видужали | 70 | 280 |
Співвідношення | 2.142 | 1.429 |
Інтуїтивно здається, що якщо в обох групах простежується залежність, вона повинна проявитися і при об'єднанні цих груп. Але хоча існує позитивна кореляція між вживанням ліків та одужанням як серед чоловіків, так і серед жінок, при об'єднанні пацієнтів в одну групу кореляція стає негативною.
Сума | Приймали ліки | Не приймали ліки |
---|---|---|
Видужали | 850 | 480 |
Не видужали | 870 | 410 |
Співвідношення | 0.977 | 1.171 |
Співвідношення в агрегованих даних 850/870 <480/410, тобто 0,977 <1,171. Отже, кореляція між вживанням та одужанням виходить негативною.
Причина парадоксу полягає у неправильному перенесенні висновків, справедливих для окремих груп людей, на їх об'єднання. Конкретно в цьому випадку серед вибірки жінок був непропорційно високий відсоток тих, що не вживали ліків (порівняно з чоловіками), у той час як ліки більше допомагали жінкам, ніж чоловікам.
Одним із способів вирішення парадоксу є використання формули повної ймовірності. Парадокс Сімпсона показує, що висновки з результатів соціологічних опитувань і непрофесійних, з точки зору статистики, експериментів не можна приймати як незаперечні, доведені науковим шляхом.
Примітки
- Simpson, Edward H. (1951). The Interpretation of Interaction in Contingency Tables. [en], Series B. 13: 238—241.
- Pearson, Karl; Lee, Alice; Bramley-Moore, Lesley (1899). Genetic (reproductive) selection: Inheritance of fertility in man, and of fecundity in thoroughbred racehorses. Philosophical Transactions of the Royal Society A. 192: 257—330. doi:10.1098/rsta.1899.0006.
- G. U. Yule (1903). Notes on the Theory of Association of Attributes in Statistics. [en]. 2 (2): 121—134. doi:10.1093/biomet/2.2.121.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Paradoks Simpsona efekt Yula Simpsona paradoks ob yednannya paradoks u statistici koli pri nayavnosti dvoh grup danih v kozhnij z yakih sposterigayetsya odnakovo spryamovana zalezhnist pri ob yednanni cih grup cya zalezhnist abo znikaye abo zminyuye svij napryam na protilezhnij Paradoks Simpsona dlya kilkisnih danih dodatnij napryam z yavlyayetsya dlya dvoh okremih grup todi yak negativnij napryam z yavlyayetsya koli grupi ob yednuyutsya Ce yavishe bulo opisano en v tehnichnij statti 1951 roku prote statistiki Karl Pirson u 1899 ta Udni Yul u 1903 roci takozh zgaduvali podibnij efekt Nazvu paradoks Simpsona vpershe zastosuvav Kolin Blajt Blyth Colin R u 1972 roci Odnak tak yak Simpson ne buv pershovidkrivachem cogo efektu deyaki avtori vikoristovuyut bezosobovi nazvi napriklad paradoks ob yednannya Istoriya vidkrittya paradoksuPershij raz rozglyanuta situaciya vidznachena Karlom Pirsonom u statti Matematichnij vnesok u teoriyu evolyuciyi Vin rozglyadaye zalezhnist oznak riznoridnih grup konej U Yul robit bilsh detalnij analiz podibnih populyacijnih zmin vivchayuchi mehanizmi spadkovosti Simpson rozglyadaye te sho vin nazivaye cikavim vipadkom v kilkoh rozdilah statti The Interpretation of Interaction in Contingency Tables Simpson buv pershim avtorom yakij vivchav ce yavishe z tochki zoru statistiki Tomu zgodom matematik K R Blajt v statti On Simpson s Paradox and the Sure Thing Principle vvodit termin paradoks Simpsona PrikladiPriklad z fishkami Nehaj ye chotiri kapelyuhi dva chornih i dva sirih 41 fishka 23 kolorovih i 18 bilih i dva stoli A i B Fishki rozpodileni po kapelyuhah nastupnim chinom U chornomu kapelyusi na stoli A lezhat 5 kolorovih i 6 bilih fishok U siromu kapelyusi na stoli A lezhat 3 kolorovi i 4 bili fishki U chornomu kapelyusi na stoli B lezhat 6 kolorovih i 3 bilih fishki U siromu kapelyusi na stoli B lezhat 9 kolorovih i 5 bilih fishok Pripustimo sho vi hochete vityagti kolorovu fishku Yaksho vi perebuvayete bilya stola A to jmovirnist otrimati kolorovu fishku z chornogo kapelyuha dorivnyuye 5 11 35 77 a z sirogo kapelyuha na tomu zh stoli 3 7 33 77 takim chinom kolorovu fishku bilshe shansiv vityagnuti z chornogo kapelyuha nizh iz sirogo Yaksho vi perebuvayete bilya stola B to jmovirnist otrimati kolorovu fishku z chornogo kapelyuha dorivnyuye 6 9 28 42 a iz sirogo kapelyuha 9 14 27 42 takim chinom i tut kolorovu fishku bilshe shansiv vityagnuti iz chornogo kapelyuha nizh iz sirogo Pripustimo teper sho fishki z dvoh chornih kapelyuhiv skladeni v odin chornij kapelyuh na stoli V a fishki z dvoh sirih kapelyuhiv v odin sirij kapelyuh na stoli V Na pershij poglyad logichno bulo b pripustiti sho jmovirnist vityagnuti kolorovu fishku z chornogo kapelyuha vishe nizh iz sirogo Ale ce nevirno jmovirnist vityagnuti kolorovu fishku iz chornogo kapelyuha na stoli V dorivnyuye 11 20 231 420 jmovirnist vityagnuti kolorovu fishku iz sirogo kapelyuha na stoli V dorivnyuye 12 21 240 420 tobto bilshe shansiv otrimati kolorovu fishku z sirogo kapelyuha nizh iz chornogo 4 Priklad z kaminnyam Nehaj mi mayemo chotiri nabori kameniv Imovirnist vityagti chornij kamin z naboru 1 visha nizh z naboru 2 U svoyu chergu jmovirnist vityagnuti chornij kamin z naboru 3 bilsha nizh z naboru 4 Ob yednayemo nabir 1 z naborom 3 otrimayemo nabir I a nabir 2 z naborom 4 nabir II Intuyitivno mozhna ochikuvati sho jmovirnist vityagnuti chornij kamin z naboru I bude vishe nizh z naboru II Odnak v zagalnomu vipadku take tverdzhennya ne virne Matematichne dovedennya take Nehaj ni kilkist chornih kameniv v i mu nabori vibirci mi zagalna kilkist kameniv v i mu nabori pri i 1 2 3 4 Za umovoyu n 1 m 1 gt n 2 m 2 n 3 m 3 gt n 4 m 4 displaystyle frac n 1 m 1 gt frac n 2 m 2 frac n 3 m 3 gt frac n 4 m 4 Imovirnist vityagti chornij kamin z naboriv I i II vidpovidno n 1 n 3 m 1 m 3 n 2 n 4 m 2 m 4 displaystyle frac n 1 n 3 m 1 m 3 frac n 2 n 4 m 2 m 4 Viraz dlya naboru I ne zavzhdi bilshij za viraz dlya naboru II Napriklad n 1 6 m 1 13 n 2 4 m 2 9 n 3 6 m 3 9 n 4 9 m 4 14 displaystyle n 1 6 m 1 13 n 2 4 m 2 9 n 3 6 m 3 9 n 4 9 m 4 14 Legko pereviriti sho 6 13 gt 4 9 6 9 gt 9 14 displaystyle 6 13 gt 4 9 6 9 gt 9 14 V toj chas yak 12 22 lt 13 23 displaystyle 12 22 lt 13 23 JmovirnistU dopovidi Pavlidova ta Perlmanova predstavlyayetsya dokaz togo sho u vipadkovij 2 2 2 tablici iz rivnomirnim rozpodilom paradoks Simpsona bude vidbuvatisya z jmovirnistyu tochno 1 60 Doslidzhennya provedene Kokom peredbachaye sho jmovirnist togo sho paradoks Simpsona vidbuvatimetsya vipadkovim chinom v modelyah shlyahu tobto modeli sho generuyutsya za dopomogoyu analizu shlyahu statistiki z dvoma prediktorami i odniyeyu zminnoyu stanovit priblizno 12 8 vidsotka trohi vishe nizh 1 poyava na 8 modelej shlyahu ZastosuvannyaParadoks Simpsona ilyustruye nepravomirnist deyakih inodi nebezpechnih dlya zhittya uzagalnen Tak napriklad v hodi eksperimentu v grupi cholovikiv i grupi zhinok hvorih na odnu j tu zh hvorobu do standartnogo likuvannya dodali novij likarskij preparat Rezultat v oboh grupah okremo pidtverdzhuvav efektivnist novogo zasobu Choloviki Vzhivali liki Ne vzhivali liki Viduzhali 700 80 Ne viduzhali 800 130 Spivvidnoshennya 0 875 0 615 Zhinki Vzhivali liki Ne vzhivali liki Viduzhali 150 400 Ne viduzhali 70 280 Spivvidnoshennya 2 142 1 429 Intuyitivno zdayetsya sho yaksho v oboh grupah prostezhuyetsya zalezhnist vona povinna proyavitisya i pri ob yednanni cih grup Ale hocha isnuye pozitivna korelyaciya mizh vzhivannyam likiv ta oduzhannyam yak sered cholovikiv tak i sered zhinok pri ob yednanni paciyentiv v odnu grupu korelyaciya staye negativnoyu Suma Prijmali liki Ne prijmali liki Viduzhali 850 480 Ne viduzhali 870 410 Spivvidnoshennya 0 977 1 171 Spivvidnoshennya v agregovanih danih 850 870 lt 480 410 tobto 0 977 lt 1 171 Otzhe korelyaciya mizh vzhivannyam ta oduzhannyam vihodit negativnoyu Prichina paradoksu polyagaye u nepravilnomu perenesenni visnovkiv spravedlivih dlya okremih grup lyudej na yih ob yednannya Konkretno v comu vipadku sered vibirki zhinok buv neproporcijno visokij vidsotok tih sho ne vzhivali likiv porivnyano z cholovikami u toj chas yak liki bilshe dopomagali zhinkam nizh cholovikam Odnim iz sposobiv virishennya paradoksu ye vikoristannya formuli povnoyi jmovirnosti Paradoks Simpsona pokazuye sho visnovki z rezultativ sociologichnih opituvan i neprofesijnih z tochki zoru statistiki eksperimentiv ne mozhna prijmati yak nezaperechni dovedeni naukovim shlyahom PrimitkiSimpson Edward H 1951 The Interpretation of Interaction in Contingency Tables en Series B 13 238 241 Pearson Karl Lee Alice Bramley Moore Lesley 1899 Genetic reproductive selection Inheritance of fertility in man and of fecundity in thoroughbred racehorses Philosophical Transactions of the Royal Society A 192 257 330 doi 10 1098 rsta 1899 0006 G U Yule 1903 Notes on the Theory of Association of Attributes in Statistics en 2 2 121 134 doi 10 1093 biomet 2 2 121