Потужність або чутливість перевірки подвійної статистичної гіпотези — це ймовірність того, що тест правильно відкидає нульову гіпотезу (Н0) коли альтернативна гіпотеза (Н1) істина. Це можна еквівалентно розглядати як ймовірність прийняття альтернативної гіпотези (Н1) Коли це істина, то тест може виявити ефект, якщо ефект дійсно існує. Тобто
Потужність тесту іноді, менш формально, належить до ймовірності відхилення нульової, якщо це не є істиною, хоча це не формальне визначення, як зазначено вище. Потужність в загальному випадку є функцією можливих розподілів, часто визначається параметром, згідно з альтернативною гіпотезою. Якщо потужність збільшується, то зменшується ймовірність помилки II типу (хибно негативна), яку також називають похибкою першого та другого роду (β), оскільки потужність дорівнює 1−β, знову ж таки, згідно з альтернативною гіпотезою. Аналогічне поняття помилки першого роду також називають «хибнопозитивною» або на рівні тесту при нульовій гіпотезі.
Аналіз потужності може бути використаний для розрахунку мінімального обсягу вибірки, необхідного, щоб можна з достатнім ступенем ймовірності визначити вплив заданого розміру. Наприклад: «скільки разів треба кинути монету, щоб зробити висновок, що це фальсифіковано ?» Аналіз потужності може також використовуватися для розрахунку мінімального ефекту, який може бути виявлений у ході дослідження, використовуючи даний розмір вибірки. Крім того, поняття потужності використовується для порівняння між різними процедурами статистичних випробувань: наприклад, між параметричним і непараметричним тестом на тій же гіпотезі.
Передумова
Статистичні тести використовують дані зі зразків для оцінки, чи роблять висновки про генеральну сукупність. У конкретній ситуації мета порівняння двох зразків, полягає в тому, щоб оцінити, чи відрізняються середні значення деякого атрибута, отримані для фізичних осіб в двох підгрупах. Наприклад, для перевірки нульової гіпотези про те, що середнє значення внеску чоловіків і жінок на тесті не відрізняються, виконується вибірка чоловіків і жінок, проводиться тест, потім результат однієї групи порівнюють з іншою групою з використанням статистичних тестів, наприклад двохвибіркового z-тесту. Потужністю тесту є ймовірність того, що тест знайде статистично значущу різницю між чоловіками і жінками, як функцію від розміру істинної різниці між цими двома популяціями.
Фактори, що впливають на потужність
Статистична потужність може залежати від цілого ряду факторів. Деякі чинники можуть бути пов'язані з конкретними ситуаціями у тестуванні, але, як мінімум, потужність майже завжди залежить від таких трьох чинників:
- від статистичної значущості критеріїв, використовуваних у тесті
- величина ефекту інтересу населення
- розмір вибірки використовується для визначення ефекту
Критерій значущості — це твердження про те, що навряд чи позитивний результат повинен бути, якщо нульова гіпотеза про відсутність ефекту істина, нульова гіпотеза повинна бути відхилена. Найбільш часто використовувані критерії ймовірності 0.05 (5 %, 1 з 20), 0.01 (1 %, 1 до 100), 0.001 (0.1 %, 1 на 1000). Якщо критерій становить 0,05, достовірність даних, маючи на увазі ефект, як мінімум, спостережуваний ефект, коли нульова гіпотеза вірна, повинен бути не менше 0,05, для нульової гіпотези про відсутність ефекту буде відхилено. Один простий спосіб збільшити потужність тесту є проведення менш консервативного тесту з використанням більшого значення критерію значущості, наприклад 0.10 замість 0.05. Це збільшує ймовірність відхилити нульову гіпотезу (тобто отримання статистично значущого результату), коли нульова гіпотеза хибна, то зменшується ризик типу II помилка (псевдонегативний щодо того, чи існує ефект). Але це також збільшує ризик отримання статистично значущого результату (тобто відхилення нульової гіпотези), коли нульова гіпотеза не хибна; тобто, це збільшує ризик помилки першого роду (помилковий позитивний результат).
Величина ефекту інтересу населення може бути визначена кількісно з точки зору ефекту, де є велика потужність, щоб виявити більше ефектів. Розмір ефекту може бути безпосереднє оцінкою величини інтересу, або він може бути стандартним показником, що також пояснює мінливість популяції. Наприклад, аналіз порівняння результатів експериментальної та контрольної популяції, різниця результатів означає Y − X було б прямою мірою ефекту розміру, в той час як (Y − X)/σ, де σ є загальне стандартне відхилення результату в оброблених і контрольних групах, був би стандартизований розмір ефекту. Якщо побудований відповідним чином, стандартизований розмір ефекту, поряд з розміром вибірки, то він буде повністю визначати потужність. Стандартизовано (прямий) розмір ефекту буде досить рідко, щоб визначити силу, так як він не містить інформації про мінливість в вимірах. Розмір вибірки визначає обсяг помилок вибірки, властиві результату тесту. За інших рівних умов, ефекти важче виявити в невеликих зразках. Збільшення розміру вибірки найчастіше є найпростішим способом підвищити статистичну потужність тесту. Як збільшення обсягу вибірки призводить до більш високої потужності — це показник ефективності тесту. Наприклад, розмір вибірки, необхідної для даної потужності.
Точність, з якою вимірюються дані також впливає на статистичну потужність. Отже, потужність часто може бути поліпшена за рахунок зменшення похибки вимірювання в даних. Пов'язана з цим концепція є підвищення «надійності» вимірювання оцінюється (як у психометрична надійність).
Планування експерименту або обсерваційне дослідження часто впливає на потужність. Наприклад, у двовибірковій ситуації з урахуванням загального розміру вибірки n, оптимальним є рівне число спостережень з двох груп, що порівнюються (до тих пір, як відмінності у двох популяціях стануть однакові). У регресійному аналізі та дисперсійному аналізі, існує безліч теорій і практичних стратегій, спрямованих на покращення потужності, заснованих на оптимальній установці значень незалежних змінних моделей.
Тлумачення
Хоча немає ніяких формальних стандартів для потужності (іноді називають як π), більшість дослідників оцінюють потужність своїх тестів з допомогою π=0.80 у ролі стандарту для адекватності. Цей договір передбачає чотири до одного співвідношенню бета-ризику і альфа-ризику. (β-ймовірність помилки другого роду; α-це ймовірність помилки першого роду, і 0,2 і 0,05 звичайні значення для β і α). Однак, будуть часи, коли цей 4-до-1 зважування буде недоцільним. У медицині, наприклад, тести часто розробляються таким чином, що ніяких помилкових негативів (Тип II помилки) не буде зроблено. Але це неминуче підвищує ризик отримання хибно-позитивного результату (помилка першого роду). Пояснення таке, що краще скажи здоровому пацієнту «ми, можливо, знайшли щось-давайте перевіримо далі», ніж сказати хворому пацієнту «все добре».
Аналіз потужності підходить для випадків, коли проблема пов'язана з правильним відсортуванням, чи ні, з нульовою гіпотезою. У багатьох випадках питання йде про те, як визначити, якщо є, чи немає різниці, а скоріше з отриманням більш точної оцінки величини ефекту населення. Наприклад, якщо ми очікували кореляції між інтелектом населення і продуктивності праці близько 0,50,розмір вибірки в 20 дасть нам приблизно 80 % потужності (альфа = 0,05, два хвоста), щоб відхилити нульову гіпотезу про нульовий кореляції. Однак, у цьому дослідженні нас, напевно, більше цікавить, чи є кореляція 0.30 або 0.50 або 0.60. В зв'язку з цим нам буде потрібно набагато більший розмір вибірки, щоб зменшити довірчий інтервал нашої оцінки в діапазоні, який є прийнятним для наших цілей. Методи, аналогічних тим, які застосовуються в традиційному силовому аналізі можна використовувати для визначення обсягу вибірки, необхідної для ширини довірчого інтервалу повинна бути менше заданого значення.
Багато статистичних аналізів передбачає оцінку кількох невідомих величин. У простих випадках, все, крім однієї з цих величин є перешкодою параметра. В цих умовах, тільки відповідні потужності відносяться до єдиної величини, яка буде проходити формальний статистичний висновок. У деяких випадках, особливо якщо цілей більше «дослідницьких» може бути цілий ряд величин, що представляють інтерес для аналізу. Наприклад, у множині регресійного аналізу ми можемо включити кілька ковариантів, які представляють потенційний інтерес. У таких ситуаціях, як ця, де знаходиться кілька гіпотез на розгляді, вона є загальною, що повноваження, пов'язані з різними гіпотезами відрізняються. Наприклад, у множинному регресійному аналізі, потужність для виявлення впливу даного розміру має відношення до дисперсії коваріантів. Оскільки різні коваріанти будуть мати різні відхилення, їх повноваження будуть відрізнятися також.
Будь-який статистичний аналіз, що включає кілька гіпотез піддається інфляції типу I помилок, якщо відповідні заходи не будуть прийняті. Такі заходи, як правило, пов'язані із застосуванням більш високого порогу жорсткості, щоб відхилити гіпотезу для того, щоб компенсувати робляться множинні порівняння (наприклад, як метод Бонферроні). У цій ситуації потужність аналізу повинна відображати багаторазові тестування. Так, наприклад, дане дослідження може бути потужним, щоб виявити певний ефект розміру, коли тільки одне випробування, але той же ефект розміру може мати набагато більш низьку потужність, якщо виконати кілька випробувань.
Важливо також враховувати статистичну потужність тестової гіпотези при інтерпретації його результатів. Тестова потужність — це ймовірність правильно відкинути нульову гіпотезу, коли вона помилкова; Тестова потужність знаходиться під впливом вибору рівня значущості для випробування, розмір ефекту вимірюється, а кількість даних наявні. Гіпотензивний тест не може відхилити нульову гіпотезу, наприклад, якщо справжня різниця між двома популяціями в порівнянні з т-тестом, але ефект невеликого розміру вибірки занадто малий, щоб відрізнити ефект від випадковості. Численні клінічні випробування, наприклад, мають низьку статистичну потужність для виявлення відмінностей в побічних ефектах лікування, оскільки такі ефекти можуть бути рідкими, а кількість потерпілих пацієнтів невеликою.
Апріорний і постфактумний аналіз
Аналіз потужності може бути зроблено раніше (апріорі або перспективному аналізу потужності) або після (постфактум або ретроспективного аналізу даних). Апріорі силовий аналіз проводиться до початку дослідження, і, як правило, використовується в оцінці вибірки достатнього розміру для досягнення адекватної потужності. Ретроспективний аналіз потужності проводиться після того, як дослідження було завершено, і використовує отримані вибірки і розміри ефекту, щоб визначити, що потужність була в дослідженні, припускаючи, що вплив розміру вибірки дорівнює впливу розміру популяції. У той час як програма перспективного аналізу в плануванні експерименту є загальноприйнятою, корисність ретроспективних методів є спірною. Падає спокусі використовувати статистичний аналіз зібраних даних для оцінки потужності приведе до неінформативних і помилкових цінностей. Зокрема, було показано, що після постфактумної потужності в найпростішому вигляді є один-до-одного функція досягнутого n-значення. Це було розширено, щоб показати, що вся постфактумна потужність аналізу хибує на «power approach paradox» (PAP), в якому дослідження з нульовим результатом, як вважають показує більше доказів того, що нульова гіпотеза не вірна, якщо р-значення менше, оскільки уявна потужність, виявляє реальний ефект який буде вище. Насправді, менша величина р розуміється належним чином, щоб зробити нульову гіпотезу, менш імовірно наявна.[]
Додаток
Фінансові установи, і науково-дослідницькі контрольні групи нерідко звертаються з проханнями щоб дослідник виконав аналіз потужності, наприклад, щоб визначив мінімальну кількість піддослідних тварин, необхідних для проведення експерименту, щоб було інформативним. У частотній статистиці, не потужні дослідження навряд чи дозволяють вибрати між гіпотезами на бажаному рівні значущості. У Байєсівській статистиці, перевірки гіпотез, які використовуються в класичному силовому аналізі не робляться. У Байєсівських рамках, його оновлення до переконання, використовуючи дані, отримані в даному дослідженні. В принципі, дослідження, яке буде вважатися недостатнім з точки зору перевірки гіпотез може використовуватися в таких процесах оновлення. Проте потужність, як і раніше, залишається корисною мірою того, наскільки даний експеримент розміру можна очікувати, щоб уточнити свої переконання. Дослідження малої потужності навряд чи призведе до більших змін у переконаннях.
Приклад
Нижче наведено приклад, який показує, як обчислюється потужність для рандомізованого експерименту: припустимо, що мета експерименту — вивчення впливу лікування на деяку кількість, і порівняння об'єктів дослідження, вимірюючи кількість до і після лікування, аналіз даних за допомогою парного T-тесту. Нехай і позначимо попередньою обробкою і пост-обробкою з цього і відповідно. Можливий ефект від лікування повинен бути видний у відмінностях , яке передбачається незалежно розподіленим, все з тим же очікуваним значенням і дисперсією.
Ефект лікування може бути проаналізований за допомогою одностороннього T-тесту. Нульова гіпотеза щодо відсутності ефект буде той, що означає різницю і дорівнюватиме нулю, тобто . У цьому випадку альтернативна гіпотеза стверджує, позитивний ефект, відповідний . В тестової статистиці є:
де n — розмір вибірки, і — це стандартна помилка. Розподіл тестової статистики при нульовій гіпотезі слід T-розподілу Стьюдента. Крім того, припустимо, що нульова гіпотеза буде відхилена при рівні значущості в . Оскільки n є великим, можна наблизити до T-розподілу нормальним законом розподілу і обчислити критичне значення за допомогою нормального розподілу. Виходить, що нульова гіпотеза буде відкинута, якщо
Тепер припустимо, що альтернативна гіпотеза істинна і . Тоді потужність
Для великих n, приблизно слідує стандартному нормальному розподілу, коли альтернативна гіпотеза, приблизна потужність можна розрахувати як
Згідно з цією формулою, сила зростає із збільшенням значення параметра . Для конкретного значення вища потужність може бути досягнута шляхом збільшення обсягу вибірки n.
Неможливо гарантувати досить велику потужність для всіх значень, бо може бути дуже близько до 0. Мінімальному значенню потужності (межею) дорівнює розміру тесту, , у цьому прикладі 0.05. Втім, не важливо розрізняти і невеликі позитивні значення. Бажано мати достатню потужність, скажімо, не менше 0,90, для виявлення значень необхідний розмір вибірки можна розрахувати приблизно:
з чого слідує, що
Звідси
або
де стандартна нормальна квантильна; див. для пояснення взаємозв'язку між і Z-значеннями.
Розширення
Байєсовська потужність
В частотному висновувані параметри, як передбачається, мають певне значення, що малоймовірно, щоб бути правдою. Цю проблему можна вирішити, припустивши, що параметр має розподіл. Результуюча сила іноді називають Байєсівської потужністю, яка зазвичай використовується в клінічних випробуваннях.
Прогностична ймовірність успіху
Як у частотній потужність так і в Байєсовській потужності використовують статистичну значимість як критерій успіху. Однак статистичної значимості часто не досить, щоб визначити успіх. Для вирішення цієї проблеми потужності концепція може бути розширена до концепції прогностичної ймовірності успіху (ПЙУ). Успіх критерії для ПЙУ не обмежується статистичною значущістю і широко використовується в клінічних випробуваннях.
Програмне забезпечення для потужності та розрахунок обсягу вибірки
Численні вільні та/або відкриті програми доступні для виконання потужності і розрахунку розміру вибірки. Вони включають
- G*Power (http://www.gpower.hhu.de/ [ 10 грудня 2016 у Wayback Machine.])
- powerandsamplesize.com [ 27 березня 2022 у Wayback Machine.] Вільне і відкрите джерело онлайн калькулятора
- [en]
- R package pwr [ 28 листопада 2016 у Wayback Machine.]
- Russ Lenth's power and sample-size page [ 21 листопада 2016 у Wayback Machine.]
- WebPower Free online statistical power analysis (http://webpower.psychstat.org)
- SampSize app for Android and iOS iPhone and iPad (https://www.epigenesys.org.uk/portfolio/sampsize/ [ 13 березня 2017 у Wayback Machine.])
Див. також
Примітки
- Alex Reinhart. . statisticsdonewrong.com (англ.). Архів оригіналу за 20 січня 2017. Процитовано 10 грудня 2016.
- Everitt, 2002, p. 321.
- Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press.
- Ellis, Paul (2010). The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Cambridge University Press. с. 52. ISBN .
- Tsang, R.; Colley, L.; Lynd, L. D. (2009). Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials. Journal of Clinical Epidemiology. 62 (6): 609—616. doi:10.1016/j.jclinepi.2008.08.005. PMID 19013761.
- Thomas, L. (1997) Retrospective power analysis [ 2 липня 2007 у Wayback Machine.].
- Hoenig and Heisey (2001)The Abuse of Power [en] 55(1):19-24 [1]
Посилання
- Everitt, Brian S. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press. ISBN .
- (1988). Statistical Power Analysis for the Behavioral Sciences (вид. 2-ге). ISBN .
- Aberson, C. L. (2010). Applied Power Analysis for the Behavioral Science. ISBN .
- StatQuest: P-value pitfalls and power calculations на YouTube
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Potuzhnist abo chutlivist perevirki podvijnoyi statistichnoyi gipotezi ce jmovirnist togo sho test pravilno vidkidaye nulovu gipotezu N0 koli alternativna gipoteza N1 istina Ce mozhna ekvivalentno rozglyadati yak jmovirnist prijnyattya alternativnoyi gipotezi N1 Koli ce istina to test mozhe viyaviti efekt yaksho efekt dijsno isnuye Tobto power P rejectH0 H1 is true displaystyle text power mathbb P big text reject H 0 big H 1 text is true big Potuzhnist testu inodi mensh formalno nalezhit do jmovirnosti vidhilennya nulovoyi yaksho ce ne ye istinoyu hocha ce ne formalne viznachennya yak zaznacheno vishe Potuzhnist v zagalnomu vipadku ye funkciyeyu mozhlivih rozpodiliv chasto viznachayetsya parametrom zgidno z alternativnoyu gipotezoyu Yaksho potuzhnist zbilshuyetsya to zmenshuyetsya jmovirnist pomilki II tipu hibno negativna yaku takozh nazivayut pohibkoyu pershogo ta drugogo rodu b oskilki potuzhnist dorivnyuye 1 b znovu zh taki zgidno z alternativnoyu gipotezoyu Analogichne ponyattya pomilki pershogo rodu takozh nazivayut hibnopozitivnoyu abo na rivni testu pri nulovij gipotezi Analiz potuzhnosti mozhe buti vikoristanij dlya rozrahunku minimalnogo obsyagu vibirki neobhidnogo shob mozhna z dostatnim stupenem jmovirnosti viznachiti vpliv zadanogo rozmiru Napriklad skilki raziv treba kinuti monetu shob zrobiti visnovok sho ce falsifikovano Analiz potuzhnosti mozhe takozh vikoristovuvatisya dlya rozrahunku minimalnogo efektu yakij mozhe buti viyavlenij u hodi doslidzhennya vikoristovuyuchi danij rozmir vibirki Krim togo ponyattya potuzhnosti vikoristovuyetsya dlya porivnyannya mizh riznimi procedurami statistichnih viprobuvan napriklad mizh parametrichnim i neparametrichnim testom na tij zhe gipotezi PeredumovaStatistichni testi vikoristovuyut dani zi zrazkiv dlya ocinki chi roblyat visnovki pro generalnu sukupnist U konkretnij situaciyi meta porivnyannya dvoh zrazkiv polyagaye v tomu shob ociniti chi vidriznyayutsya seredni znachennya deyakogo atributa otrimani dlya fizichnih osib v dvoh pidgrupah Napriklad dlya perevirki nulovoyi gipotezi pro te sho serednye znachennya vnesku cholovikiv i zhinok na testi ne vidriznyayutsya vikonuyetsya vibirka cholovikiv i zhinok provoditsya test potim rezultat odniyeyi grupi porivnyuyut z inshoyu grupoyu z vikoristannyam statistichnih testiv napriklad dvohvibirkovogo z testu Potuzhnistyu testu ye jmovirnist togo sho test znajde statistichno znachushu riznicyu mizh cholovikami i zhinkami yak funkciyu vid rozmiru istinnoyi riznici mizh cimi dvoma populyaciyami Faktori sho vplivayut na potuzhnistStatistichna potuzhnist mozhe zalezhati vid cilogo ryadu faktoriv Deyaki chinniki mozhut buti pov yazani z konkretnimi situaciyami u testuvanni ale yak minimum potuzhnist majzhe zavzhdi zalezhit vid takih troh chinnikiv vid statistichnoyi znachushosti kriteriyiv vikoristovuvanih u testi velichina efektu interesu naselennya rozmir vibirki vikoristovuyetsya dlya viznachennya efektu Kriterij znachushosti ce tverdzhennya pro te sho navryad chi pozitivnij rezultat povinen buti yaksho nulova gipoteza pro vidsutnist efektu istina nulova gipoteza povinna buti vidhilena Najbilsh chasto vikoristovuvani kriteriyi jmovirnosti 0 05 5 1 z 20 0 01 1 1 do 100 0 001 0 1 1 na 1000 Yaksho kriterij stanovit 0 05 dostovirnist danih mayuchi na uvazi efekt yak minimum sposterezhuvanij efekt koli nulova gipoteza virna povinen buti ne menshe 0 05 dlya nulovoyi gipotezi pro vidsutnist efektu bude vidhileno Odin prostij sposib zbilshiti potuzhnist testu ye provedennya mensh konservativnogo testu z vikoristannyam bilshogo znachennya kriteriyu znachushosti napriklad 0 10 zamist 0 05 Ce zbilshuye jmovirnist vidhiliti nulovu gipotezu tobto otrimannya statistichno znachushogo rezultatu koli nulova gipoteza hibna to zmenshuyetsya rizik tipu II pomilka psevdonegativnij shodo togo chi isnuye efekt Ale ce takozh zbilshuye rizik otrimannya statistichno znachushogo rezultatu tobto vidhilennya nulovoyi gipotezi koli nulova gipoteza ne hibna tobto ce zbilshuye rizik pomilki pershogo rodu pomilkovij pozitivnij rezultat Velichina efektu interesu naselennya mozhe buti viznachena kilkisno z tochki zoru efektu de ye velika potuzhnist shob viyaviti bilshe efektiv Rozmir efektu mozhe buti bezposerednye ocinkoyu velichini interesu abo vin mozhe buti standartnim pokaznikom sho takozh poyasnyuye minlivist populyaciyi Napriklad analiz porivnyannya rezultativ eksperimentalnoyi ta kontrolnoyi populyaciyi riznicya rezultativ oznachaye Y X bulo b pryamoyu miroyu efektu rozmiru v toj chas yak Y X s de s ye zagalne standartne vidhilennya rezultatu v obroblenih i kontrolnih grupah buv bi standartizovanij rozmir efektu Yaksho pobudovanij vidpovidnim chinom standartizovanij rozmir efektu poryad z rozmirom vibirki to vin bude povnistyu viznachati potuzhnist Standartizovano pryamij rozmir efektu bude dosit ridko shob viznachiti silu tak yak vin ne mistit informaciyi pro minlivist v vimirah Rozmir vibirki viznachaye obsyag pomilok vibirki vlastivi rezultatu testu Za inshih rivnih umov efekti vazhche viyaviti v nevelikih zrazkah Zbilshennya rozmiru vibirki najchastishe ye najprostishim sposobom pidvishiti statistichnu potuzhnist testu Yak zbilshennya obsyagu vibirki prizvodit do bilsh visokoyi potuzhnosti ce pokaznik efektivnosti testu Napriklad rozmir vibirki neobhidnoyi dlya danoyi potuzhnosti Tochnist z yakoyu vimiryuyutsya dani takozh vplivaye na statistichnu potuzhnist Otzhe potuzhnist chasto mozhe buti polipshena za rahunok zmenshennya pohibki vimiryuvannya v danih Pov yazana z cim koncepciya ye pidvishennya nadijnosti vimiryuvannya ocinyuyetsya yak u psihometrichna nadijnist Planuvannya eksperimentu abo observacijne doslidzhennya chasto vplivaye na potuzhnist Napriklad u dvovibirkovij situaciyi z urahuvannyam zagalnogo rozmiru vibirki n optimalnim ye rivne chislo sposterezhen z dvoh grup sho porivnyuyutsya do tih pir yak vidminnosti u dvoh populyaciyah stanut odnakovi U regresijnomu analizi ta dispersijnomu analizi isnuye bezlich teorij i praktichnih strategij spryamovanih na pokrashennya potuzhnosti zasnovanih na optimalnij ustanovci znachen nezalezhnih zminnih modelej TlumachennyaHocha nemaye niyakih formalnih standartiv dlya potuzhnosti inodi nazivayut yak p bilshist doslidnikiv ocinyuyut potuzhnist svoyih testiv z dopomogoyu p 0 80 u roli standartu dlya adekvatnosti Cej dogovir peredbachaye chotiri do odnogo spivvidnoshennyu beta riziku i alfa riziku b jmovirnist pomilki drugogo rodu a ce jmovirnist pomilki pershogo rodu i 0 2 i 0 05 zvichajni znachennya dlya b i a Odnak budut chasi koli cej 4 do 1 zvazhuvannya bude nedocilnim U medicini napriklad testi chasto rozroblyayutsya takim chinom sho niyakih pomilkovih negativiv Tip II pomilki ne bude zrobleno Ale ce neminuche pidvishuye rizik otrimannya hibno pozitivnogo rezultatu pomilka pershogo rodu Poyasnennya take sho krashe skazhi zdorovomu paciyentu mi mozhlivo znajshli shos davajte perevirimo dali nizh skazati hvoromu paciyentu vse dobre Analiz potuzhnosti pidhodit dlya vipadkiv koli problema pov yazana z pravilnim vidsortuvannyam chi ni z nulovoyu gipotezoyu U bagatoh vipadkah pitannya jde pro te yak viznachiti yaksho ye chi nemaye riznici a skorishe z otrimannyam bilsh tochnoyi ocinki velichini efektu naselennya Napriklad yaksho mi ochikuvali korelyaciyi mizh intelektom naselennya i produktivnosti praci blizko 0 50 rozmir vibirki v 20 dast nam priblizno 80 potuzhnosti alfa 0 05 dva hvosta shob vidhiliti nulovu gipotezu pro nulovij korelyaciyi Odnak u comu doslidzhenni nas napevno bilshe cikavit chi ye korelyaciya 0 30 abo 0 50 abo 0 60 V zv yazku z cim nam bude potribno nabagato bilshij rozmir vibirki shob zmenshiti dovirchij interval nashoyi ocinki v diapazoni yakij ye prijnyatnim dlya nashih cilej Metodi analogichnih tim yaki zastosovuyutsya v tradicijnomu silovomu analizi mozhna vikoristovuvati dlya viznachennya obsyagu vibirki neobhidnoyi dlya shirini dovirchogo intervalu povinna buti menshe zadanogo znachennya Bagato statistichnih analiziv peredbachaye ocinku kilkoh nevidomih velichin U prostih vipadkah vse krim odniyeyi z cih velichin ye pereshkodoyu parametra V cih umovah tilki vidpovidni potuzhnosti vidnosyatsya do yedinoyi velichini yaka bude prohoditi formalnij statistichnij visnovok U deyakih vipadkah osoblivo yaksho cilej bilshe doslidnickih mozhe buti cilij ryad velichin sho predstavlyayut interes dlya analizu Napriklad u mnozhini regresijnogo analizu mi mozhemo vklyuchiti kilka kovariantiv yaki predstavlyayut potencijnij interes U takih situaciyah yak cya de znahoditsya kilka gipotez na rozglyadi vona ye zagalnoyu sho povnovazhennya pov yazani z riznimi gipotezami vidriznyayutsya Napriklad u mnozhinnomu regresijnomu analizi potuzhnist dlya viyavlennya vplivu danogo rozmiru maye vidnoshennya do dispersiyi kovariantiv Oskilki rizni kovarianti budut mati rizni vidhilennya yih povnovazhennya budut vidriznyatisya takozh Bud yakij statistichnij analiz sho vklyuchaye kilka gipotez piddayetsya inflyaciyi tipu I pomilok yaksho vidpovidni zahodi ne budut prijnyati Taki zahodi yak pravilo pov yazani iz zastosuvannyam bilsh visokogo porogu zhorstkosti shob vidhiliti gipotezu dlya togo shob kompensuvati roblyatsya mnozhinni porivnyannya napriklad yak metod Bonferroni U cij situaciyi potuzhnist analizu povinna vidobrazhati bagatorazovi testuvannya Tak napriklad dane doslidzhennya mozhe buti potuzhnim shob viyaviti pevnij efekt rozmiru koli tilki odne viprobuvannya ale toj zhe efekt rozmiru mozhe mati nabagato bilsh nizku potuzhnist yaksho vikonati kilka viprobuvan Vazhlivo takozh vrahovuvati statistichnu potuzhnist testovoyi gipotezi pri interpretaciyi jogo rezultativ Testova potuzhnist ce jmovirnist pravilno vidkinuti nulovu gipotezu koli vona pomilkova Testova potuzhnist znahoditsya pid vplivom viboru rivnya znachushosti dlya viprobuvannya rozmir efektu vimiryuyetsya a kilkist danih nayavni Gipotenzivnij test ne mozhe vidhiliti nulovu gipotezu napriklad yaksho spravzhnya riznicya mizh dvoma populyaciyami v porivnyanni z t testom ale efekt nevelikogo rozmiru vibirki zanadto malij shob vidrizniti efekt vid vipadkovosti Chislenni klinichni viprobuvannya napriklad mayut nizku statistichnu potuzhnist dlya viyavlennya vidminnostej v pobichnih efektah likuvannya oskilki taki efekti mozhut buti ridkimi a kilkist poterpilih paciyentiv nevelikoyu Apriornij i postfaktumnij analizAnaliz potuzhnosti mozhe buti zrobleno ranishe apriori abo perspektivnomu analizu potuzhnosti abo pislya postfaktum abo retrospektivnogo analizu danih Apriori silovij analiz provoditsya do pochatku doslidzhennya i yak pravilo vikoristovuyetsya v ocinci vibirki dostatnogo rozmiru dlya dosyagnennya adekvatnoyi potuzhnosti Retrospektivnij analiz potuzhnosti provoditsya pislya togo yak doslidzhennya bulo zaversheno i vikoristovuye otrimani vibirki i rozmiri efektu shob viznachiti sho potuzhnist bula v doslidzhenni pripuskayuchi sho vpliv rozmiru vibirki dorivnyuye vplivu rozmiru populyaciyi U toj chas yak programa perspektivnogo analizu v planuvanni eksperimentu ye zagalnoprijnyatoyu korisnist retrospektivnih metodiv ye spirnoyu Padaye spokusi vikoristovuvati statistichnij analiz zibranih danih dlya ocinki potuzhnosti privede do neinformativnih i pomilkovih cinnostej Zokrema bulo pokazano sho pislya postfaktumnoyi potuzhnosti v najprostishomu viglyadi ye odin do odnogo funkciya dosyagnutogo n znachennya Ce bulo rozshireno shob pokazati sho vsya postfaktumna potuzhnist analizu hibuye na power approach paradox PAP v yakomu doslidzhennya z nulovim rezultatom yak vvazhayut pokazuye bilshe dokaziv togo sho nulova gipoteza ne virna yaksho r znachennya menshe oskilki uyavna potuzhnist viyavlyaye realnij efekt yakij bude vishe Naspravdi mensha velichina r rozumiyetsya nalezhnim chinom shob zrobiti nulovu gipotezu mensh imovirno nayavna dzherelo DodatokFinansovi ustanovi i naukovo doslidnicki kontrolni grupi neridko zvertayutsya z prohannyami shob doslidnik vikonav analiz potuzhnosti napriklad shob viznachiv minimalnu kilkist piddoslidnih tvarin neobhidnih dlya provedennya eksperimentu shob bulo informativnim U chastotnij statistici ne potuzhni doslidzhennya navryad chi dozvolyayut vibrati mizh gipotezami na bazhanomu rivni znachushosti U Bajyesivskij statistici perevirki gipotez yaki vikoristovuyutsya v klasichnomu silovomu analizi ne roblyatsya U Bajyesivskih ramkah jogo onovlennya do perekonannya vikoristovuyuchi dani otrimani v danomu doslidzhenni V principi doslidzhennya yake bude vvazhatisya nedostatnim z tochki zoru perevirki gipotez mozhe vikoristovuvatisya v takih procesah onovlennya Prote potuzhnist yak i ranishe zalishayetsya korisnoyu miroyu togo naskilki danij eksperiment rozmiru mozhna ochikuvati shob utochniti svoyi perekonannya Doslidzhennya maloyi potuzhnosti navryad chi prizvede do bilshih zmin u perekonannyah PrikladNizhche navedeno priklad yakij pokazuye yak obchislyuyetsya potuzhnist dlya randomizovanogo eksperimentu pripustimo sho meta eksperimentu vivchennya vplivu likuvannya na deyaku kilkist i porivnyannya ob yektiv doslidzhennya vimiryuyuchi kilkist do i pislya likuvannya analiz danih za dopomogoyu parnogo T testu Nehaj Ai displaystyle mathrm A iota i Bi displaystyle mathrm B iota poznachimo poperednoyu obrobkoyu i post obrobkoyu z cogo i vidpovidno Mozhlivij efekt vid likuvannya povinen buti vidnij u vidminnostyah Di Bi Ai displaystyle D i B i A i yake peredbachayetsya nezalezhno rozpodilenim vse z tim zhe ochikuvanim znachennyam i dispersiyeyu Efekt likuvannya mozhe buti proanalizovanij za dopomogoyu odnostoronnogo T testu Nulova gipoteza shodo vidsutnosti efekt bude toj sho oznachaye riznicyu i dorivnyuvatime nulyu tobto H0 mD 0 displaystyle H 0 mu D 0 U comu vipadku alternativna gipoteza stverdzhuye pozitivnij efekt vidpovidnij H1 mD gt 0 displaystyle H 1 mu D gt 0 V testovoyi statistici ye Tn D n 0s D n displaystyle T n frac bar D n 0 hat sigma D sqrt n de n rozmir vibirki D n 1n i 1nDi displaystyle bar D n frac 1 n sum i 1 n D i i s D n displaystyle hat sigma D sqrt n ce standartna pomilka Rozpodil testovoyi statistiki pri nulovij gipotezi slid T rozpodilu Styudenta Krim togo pripustimo sho nulova gipoteza bude vidhilena pri rivni znachushosti v a 0 05 displaystyle alpha 0 05 Oskilki n ye velikim mozhna nabliziti do T rozpodilu normalnim zakonom rozpodilu i obchisliti kritichne znachennya za dopomogoyu F displaystyle Phi normalnogo rozpodilu Vihodit sho nulova gipoteza bude vidkinuta yaksho Tn gt 1 64 displaystyle T n gt 1 64 Teper pripustimo sho alternativna gipoteza istinna i mD 8 displaystyle mu D theta Todi potuzhnist B 8 P Tn gt 1 64 mD 8 P D n 0s D n gt 1 64 mD 8 P D n 8 8s D n gt 1 64 mD 8 P D n 8s D n gt 1 64 8s D n mD 8 1 P D n 8s D n lt 1 64 8s D n mD 8 displaystyle begin array ccl B theta amp amp P T n gt 1 64 mu D theta amp amp P frac bar D n 0 hat sigma D sqrt n gt 1 64 mu D theta amp amp P left frac bar D n theta theta hat sigma D sqrt n gt 1 64 right mu D theta amp amp P left frac bar D n theta hat sigma D sqrt n gt 1 64 frac theta hat sigma D sqrt n right mu D theta amp amp 1 P left frac bar D n theta hat sigma D sqrt n lt 1 64 frac theta hat sigma D sqrt n right mu D theta end array Dlya velikih n Tn displaystyle T n priblizno sliduye standartnomu normalnomu rozpodilu koli alternativna gipoteza priblizna potuzhnist mozhna rozrahuvati yak B 8 1 F 1 64 8s D n displaystyle B theta approx 1 Phi 1 64 frac theta hat sigma D sqrt n Zgidno z ciyeyu formuloyu sila zrostaye iz zbilshennyam znachennya parametra 8 displaystyle theta Dlya konkretnogo znachennya 8 displaystyle theta visha potuzhnist mozhe buti dosyagnuta shlyahom zbilshennya obsyagu vibirki n Nemozhlivo garantuvati dosit veliku potuzhnist dlya vsih znachen8 displaystyle theta bo 8 displaystyle theta mozhe buti duzhe blizko do 0 Minimalnomu znachennyu potuzhnosti mezheyu dorivnyuye rozmiru testu a displaystyle alpha u comu prikladi 0 05 Vtim ne vazhlivo rozriznyati 8 0 displaystyle theta 0 i neveliki pozitivni znachennya Bazhano mati dostatnyu potuzhnist skazhimo ne menshe 0 90 dlya viyavlennya znachen 8 gt 1 displaystyle theta gt 1 neobhidnij rozmir vibirki mozhna rozrahuvati priblizno B 1 1 F 1 64 n s D gt 0 90 displaystyle B 1 approx 1 Phi 1 64 sqrt n hat sigma D gt 0 90 z chogo sliduye sho F 1 64 n s D lt 0 10 displaystyle Phi 1 64 sqrt n hat sigma D lt 0 10 Zvidsi n s D gt 1 64 z0 10 1 64 1 28 2 92 displaystyle displaystyle sqrt n hat sigma D gt 1 64 z 0 10 1 64 1 28 approx 2 92 abo n gt 8 56s D2 displaystyle displaystyle n gt 8 56 hat sigma D 2 de z0 10 displaystyle z 0 10 standartna normalna kvantilna div dlya poyasnennya vzayemozv yazku mizh F displaystyle Phi i Z znachennyami RozshirennyaBajyesovska potuzhnist V chastotnomu visnovuvani parametri yak peredbachayetsya mayut pevne znachennya sho malojmovirno shob buti pravdoyu Cyu problemu mozhna virishiti pripustivshi sho parametr maye rozpodil Rezultuyucha sila inodi nazivayut Bajyesivskoyi potuzhnistyu yaka zazvichaj vikoristovuyetsya v klinichnih viprobuvannyah Prognostichna jmovirnist uspihu Yak u chastotnij potuzhnist tak i v Bajyesovskij potuzhnosti vikoristovuyut statistichnu znachimist yak kriterij uspihu Odnak statistichnoyi znachimosti chasto ne dosit shob viznachiti uspih Dlya virishennya ciyeyi problemi potuzhnosti koncepciya mozhe buti rozshirena do koncepciyi prognostichnoyi jmovirnosti uspihu PJU Uspih kriteriyi dlya PJU ne obmezhuyetsya statistichnoyu znachushistyu i shiroko vikoristovuyetsya v klinichnih viprobuvannyah Programne zabezpechennya dlya potuzhnosti ta rozrahunok obsyagu vibirkiChislenni vilni ta abo vidkriti programi dostupni dlya vikonannya potuzhnosti i rozrahunku rozmiru vibirki Voni vklyuchayut G Power http www gpower hhu de 10 grudnya 2016 u Wayback Machine powerandsamplesize com 27 bereznya 2022 u Wayback Machine Vilne i vidkrite dzherelo onlajn kalkulyatora en R package pwr 28 listopada 2016 u Wayback Machine Russ Lenth s power and sample size page 21 listopada 2016 u Wayback Machine WebPower Free online statistical power analysis http webpower psychstat org SampSize app for Android and iOS iPhone and iPad https www epigenesys org uk portfolio sampsize 13 bereznya 2017 u Wayback Machine Div takozhRozmir vibirkiPrimitkiAlex Reinhart statisticsdonewrong com angl Arhiv originalu za 20 sichnya 2017 Procitovano 10 grudnya 2016 Everitt 2002 p 321 Ellis Paul D 2010 The Essential Guide to Effect Sizes An Introduction to Statistical Power Meta Analysis and the Interpretation of Research Results United Kingdom Cambridge University Press Ellis Paul 2010 The Essential Guide to Effect Sizes Statistical Power Meta Analysis and the Interpretation of Research Results Cambridge University Press s 52 ISBN 978 0521142465 Tsang R Colley L Lynd L D 2009 Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials Journal of Clinical Epidemiology 62 6 609 616 doi 10 1016 j jclinepi 2008 08 005 PMID 19013761 Thomas L 1997 Retrospective power analysis 2 lipnya 2007 u Wayback Machine Hoenig and Heisey 2001 The Abuse of Power en 55 1 19 24 1 PosilannyaEveritt Brian S 2002 The Cambridge Dictionary of Statistics Cambridge University Press ISBN 0 521 81099 X 1988 Statistical Power Analysis for the Behavioral Sciences vid 2 ge ISBN 0 8058 0283 5 Aberson C L 2010 Applied Power Analysis for the Behavioral Science ISBN 1 84872 835 2 StatQuest P value pitfalls and power calculations na YouTube