́Інформаційний критерій Акаіке (ІКА, англ. Akaike information criterion, AIC) — це оцінювач похибки позавибіркового передбачування, і відтак відносної якості статистичних моделей, для заданого набору даних. Маючи сукупність моделей для цих даних, ІКА оцінює якість кожної з моделей відносно кожної з інших моделей. Таким чином, ІКА пропонує засоби для обирання моделі.
ІКА ґрунтується на теорії інформації. Коли статистичну модель використовують для представлення процесу, що породив дані, це представлення майже ніколи не буде точним, тож деяка інформація при застосуванні цієї моделі для представлення цього процесу втрачатиметься. ІКА оцінює відносну кількість інформації, що втрачає задана модель: що менше інформації втрачає модель, то вищою є її якість.
В оцінюванні кількості інформації, що втрачає модель, ІКА має справу з компромісом між допасованістю моделі та її простотою. Іншими словами, ІКА працює як із ризиком перенавчання, так і з ризиком недонавчання.
Інформаційний критерій Акаіке названо на честь статистика [en], який його сформулював. Він тепер формує основу однієї з парадигм [en], а також знаходить широкого вжитку в статистичному висновуванні.
Означення
Припустімо, що ми маємо статистичну модель якихось даних. Нехай k буде числом оцінюваних параметрів у цій моделі. Нехай буде максимальним значенням функції правдоподібності для цієї моделі. Тоді значенням ІКА цієї моделі є наступне.
Для заданого набору моделей-кандидатів даних найкращою моделлю є та, що має мінімальне значення ІКА. Таким чином, ІКА винагороджує допасованість (за оцінкою функції правдоподібності), але також включає штраф, що є висхідною функцією числа оцінюваних параметрів. Цей штраф перешкоджає перенавчанню, оскільки збільшення числа параметрів у моделі майже завжди покращує її допасованість.
ІКА засновано на теорії інформації. Припустімо, що дані породжуються якимось невідомим процесом f. Ми розглядаємо дві моделі-кандидати для представлення f: g1 та g2. Якби ми знали f, то могли би знайти втрату інформації від застосування g1 для представлення f шляхом обчислення розходження Кульбака — Лейблера, DKL(f ‖ g1); аналогічно, втрату інформації від застосування g2 для представлення f може бути знайдено обчисленням DKL(f ‖ g2). Тоді би ми, загалом, обрали модель-кандидата, що мінімізує втрату інформації.
Ми не можемо обирати з упевненістю, оскільки не знаємо f. Проте Акаіке, 1974 показав, що за допомогою ІКА ми можемо оцінити, наскільки більше (або менше) інформації втрачається моделлю g1, аніж моделлю g2. Ця оцінка, проте, є вірною лише [en]: якщо кількість точок даних є малою, то часто є необхідним додаткове коригування (див. § ІКАк нижче).
Зауважте, що ІКА не каже нічого про абсолютну якість моделі, лише про якість відносно інших моделей. Таким чином, якщо всі моделі-кандидати допасовуються погано, ІКА не видасть жодного попередження про це. Отже, після обрання моделі за допомогою ІКА, зазвичай доброю практикою є підтвердити абсолютну якість моделі. Таке підтвердження зазвичай включає перевірку залишків моделі (щоби визначити, чи виглядають залишки випадковими), та перевірки передбачень моделі. Докладніше з цієї теми див. затверджування статистичної моделі.
Як використовувати ІКА на практиці
Для застосування ІКА на практиці ми починаємо з набору моделей-кандидатів, а потім знаходимо відповідні значення ІКА цих моделей. Через застосування моделі-кандидата для представлення «справжньої моделі», тобто процесу, що породив дані, втрата інформації буде майже завжди. Серед моделей-кандидатів ми хочемо обрати таку, що мінімізує цю втрату інформації. Ми не можемо обирати з упевненістю, але ми можемо мінімізувати оцінювану втрату інформації.
Припустімо, що є R моделей-кандидатів. Позначмо значення ІКА (англ. AIC) для цих моделей через AIC1, AIC2, AIC3, …, AICR. Нехай AICmin буде мінімальним із цих значень. Тоді величину exp((AICmin − AICi)/2) можливо інтерпретувати як пропорційну до ймовірності того, що i-та модель мінімізує (оцінювану) втрату інформації.
Як приклад, припустімо, що є три моделі-кандидати, значеннями ІКА яких є 100, 102 та 110. Тоді друга модель є в exp((100 − 102)/2) = 0.368 разів імовірнішою за першу модель для мінімізації втрати інформації. Аналогічно, третя модель є в exp((100 − 110)/2) = 0.007 разів імовірнішою за першу для мінімізації втрати інформації.
В цьому прикладі ми опустимо третю модель із подальшого розгляду. Тоді ми матимемо три варіанти: (1) зібрати більше даних у надії, що це дозволить здійснити чітке розрізнення між першими двома моделями; (2) просто зробити висновок, що дані є недостатніми для підтримки обрання моделі з-поміж цих двох; (3) взяти зважене середнє перших двох моделей з ваговими коефіцієнтами, пропорційними 1 та 0.368 відповідно, і потім здійснювати статистичне висновування на основі зваженої мультимоделі.
Величина exp((AICmin − AICi)/2) є відомою як відносна правдоподібність моделі i. Вона є тісно пов'язаною з відношенням правдоподібностей, що використовують у перевірці відношенням правдоподібностей. Дійсно, якщо всі моделі в наборі кандидатів мають однакове число параметрів, то застосування ІКА може спершу здаватися дуже схожим на застосування перевірки відношенням правдоподібностей. Проте є істотні відмінності. Зокрема, перевірка відношенням правдоподібностей є чинною лише для вкладених моделей, тоді як ІКА (та ІКАк) не мають такого обмеження.
Перевірка гіпотез
Кожну перевірку статистичних гіпотез може бути сформульовано як порівняння статистичних моделей. Отже, кожну перевірку статистичних гіпотез може бути відтворено через ІКА. У підрозділах нижче коротко описано два приклади. Деталі для цих прикладів, та набагато більше прикладів, наведено в Сакамото та ін., 1986, Частина II та Конісі та Кітаґава, 2008, гл. 4.
Відтворення t-критерію Стьюдента
Як приклад перевірки гіпотез, розгляньмо t-критерій для порівнювання середніх значень двох нормально розподілених сукупностей. Вхід до t-критерію складається з випадкової вибірки з кожної з цих двох сукупностей.
Щоби сформулювати цей критерій як порівняння моделей, ми будуємо дві різні моделі. Перша модель моделює ці дві сукупності як такі, що мають потенційно різні середні значення та стандартні відхилення. Функція правдоподібності для першої моделі відтак є добутком правдоподібностей для двох різних нормальних розподілів, тож вона має чотири параметри: μ1, σ1, μ2, σ2. Щоби бути точними, ця функція правдоподібності є наступною (із позначенням розмірів вибірок через n1 and n2).
Друга модель моделює ці дві сукупності як такі, що мають однакові середні, але потенційно різні стандартні відхилення. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні μ1 = μ2, тож вона має три параметри.
Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявиться лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель із подальшого розгляду: тож ми зробимо висновок, що ті дві сукупності мають різні середні.
t-критерій виходить із того, що дві сукупності мають ідентичні стандартні відхилення. Цей критерій схильний бути ненадійним, якщо це припущення є хибним, а також якщо розміри двох вибірок є дуже різними ([en] був би кращим). Порівнювання середніх значень через ІКА, як у прикладі вище, має перевагу, бо не спирається на це припущення.
Порівнювання наборів категорійних даних
Як інший приклад перевірки гіпотез, припустімо, що ми маємо дві сукупності, й кожен із членів кожної сукупності перебуває в одній з двох категоій: категорії № 1, або категорії № 2. Кожна з сукупностей є розподіленою біноміально. Ми хочемо знати, чи є розподіли цих двох сукупностей однаковими. Нам дали випадкову вибірку з кожної з двох сукупностей.
Нехай m буде розміром вибірки з першої сукупності. Нехай m1 буде числом спостережень (у цій вибірці) в категорії № 1, тож числом спостережень у категорії № 2 буде m − m1. Аналогічно, нехай n буде розміром вибірки з другої сукупності. Нехай n1 буде числом спостережень (у цій вибірці) в категорії № 1.
Нехай p буде ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії № 1. Отже, ймовірністю того, що випадково обраний член першої сукупності перебуває в категорії № 2, буде 1 − p. Зауважте, що розподіл першої сукупності має один параметр. Нехай q буде ймовірністю того, що випадково обраний член другої сукупності перебуває в категорії № 1. Зауважте, що розподіл другої сукупності також має один параметр.
Щоби порівняти розподіли цих двох сукупностей, ми будуємо дві різні моделі. Перша модель моделює, що ці дві сукупності мають потенційно різні біноміальні розподіли. Функцією правдоподібності для першої моделі відтак є добуток правдоподібностей для двох відмінних біноміальних розподілів, тож вона має два параметри: p, q. Щоби бути точними, ця функція правдоподібності є наступною:
Друга модель моделює, що ці дві сукупності мають один і той же розподіл. Функція правдоподібності для другої моделі відтак встановлює в наведеному вище рівнянні p = q, тож ця друга модель має один параметр.
Потім ми максимізуємо ці функції правдоподібності для цих двох моделей (на практиці ми максимізуємо функції логарифмічної правдоподібності), після чого стає просто обчислити значення ІКА цих моделей. Далі ми обчислюємо відносну правдоподібність. Наприклад, якщо друга модель виявилася лише в 0.01 разів правдоподібнішою за першу, то ми виключимо другу модель з подальшого розгляду: тож ми можемо зробити висновок, що ці дві сукупності мають різні розподіли.
Засади статистики
Статистичне висновування розглядають як таке, що складається з перевіряння та оцінювання гіпотез. Перевіряння гіпотез можливо здійснювати за допомогою ІКА, як обговорено вище. Стосовно оцінювання, існує два типи: точкове оцінювання та [en]. Точкове оцінювання можливо здійснювати в межах парадигми ІКА: його забезпечує оцінка максимальної правдоподібності. Проміжкове оцінювання також можливо здійснювати в межах парадигми ІКА: його забезпечують проміжки правдоподібності. Отже, статистичне висновування загалом можливо здійснювати в межах парадигми ІКА.
Найширше вживаними парадигмами статистичного висновування є частотницьке висновування та баєсове висновування. Проте ІКА можливо використовувати для статистичного висновування без покладання як на частотницьку парадигму, так і на баєсову, оскільки ІКА можливо інтерпретувати без допомоги рівнів значущості та баєсових апріорних. Іншими словами, ІКА може бути використано для формування [en], відмінних як від частотництва, так і від баєсівства.
Видозміна для маленького розміру вибірки
Коли розмір вибірки є маленьким, існує реальна ймовірність того, що ІКА обиратиме моделі, які мають забагато параметрів, тобто, що ІКА перенавчатиметься. Для подолання такого потенційного перенавчання було розроблено ІКАк: це ІКА з коригуванням для маленьких розмірів вибірок.
Формула ІКАк залежить від статистичної моделі. Якщо виходити з того, що модель є [en], лінійною відносно своїх параметрів, та має нормально розподілені залишки (обумовлені регресорами), то формула ІКАк є такою:
де n позначає розмір вибірки, а k позначає кількість параметрів. Таким чином, ІКАк по суті є ІКА з додатковим членом штрафу на число параметрів. Зауважте, що коли n → ∞, цей додатковий член штрафу збігається до 0, і відтак ІКАк збігається до ІКА.
Якщо припущення про те, що модель є одновимірною та лінійною з нормальними залишками, не виконується, то формула ІКАк в загальному випадку відрізнятиметься від наведеної вище. Для деяких моделей визначити цю формулу може бути складно. Втім, для кожної моделі, для якої існує ІКАк, формула ІКАк задається як ІКА плюс член, який включає як k, так і k2. Для порівняння, формула ІКА включає k, але не k2. Іншими словами, ІКА є [en] (втрат інформації), в той час як ІКАк є [en].
Подальше обговорення цієї формули, з прикладами та іншими припущеннями, наведено в Бернем та Андерсон, 2002, гл. 7 та Конісі та Кітаґава, 2008, гл. 7–8. Зокрема, за інших припущень, часто є придатною натяжкова оцінка цієї формули.
Щоби підсумувати, ІКАк має перевагу в схильності бути точнішим за ІКА (особливо для малих вибірок), але ІКАк також має недолік іноді бути набагато складнішим для обчислення, ніж ІКА. Зауважте, що якщо всі моделі-кандидати мають однакову k та однакові формули ІКАк, то ІКАк та ІКА даватимуть ідентичні (відносно) оцінки. Отже, не буде недоліку в застосуванні ІКА замість ІКАк. Крім того, якщо n у багато разів більше за k2, то додатковий член штрафу буде незначним, а отже, незначними будуть і недоліки застосування ІКА замість ІКАк.
Історія
Інформаційний критерій Акаіке було сформульовано статистиком [en]. Первинно його було названо «інформаційним критерієм». Англійською про нього було вперше заявлено Акаіке на симпозіумі 1971 року, протокол якого було опубліковано 1973 року. Публікація 1973 року, однак, була лише неформальним представленням цих понять. Першою формальною публікацією була праця Акаіке 1974 року. Станом на жовтень 2014 року праця 1974 року отримала понад 14 000 цитувань в Web of Science, ставши 73-тьою найцитованішою працею за всі часи.
На сьогодні ІКА став настільки поширеним, що його часто використовують без цитування праці Акаіке 1974 року. Дійсно, існує понад 150 000 наукових статей/книг, що використовують ІКА (за оцінкою Google Scholar).
Початкове виведення ІКА покладалося на деякі сильні припущення. Такеуті, 1976 показав, що ці припущення може бути зроблено значно слабшими. Але праця Такеуті була японською, і не була широко відомою за межами Японії протягом багатьох років.
ІКАк початково запропонував для лінійної регресії (лише) Суґіура, 1978. Це спровокувало працю Гурвич та Цай, 1989 та кілька подальших праць цих же авторів, що розширили ситуації, в яких можливо застосовувати ІКАк.
Першим загальним викладом підходу теорії інформації була книга Бернем та Андерсон, 2002. Вона включає англомовне представлення праці Такеуті. Ця книга призвела до поширення застосування ІКА, і наразі вона має понад 48 000 цитувань на Google Scholar.
Акаіке назвав свій підхід «принципом максимізації ентропії», оскільки він ґрунтується на понятті ентропії в теорії інформації. Дійсно, мінімізація ІКА в статистичній моделі є фактично рівнозначною максимізації ентропії в термодинамічній системі; іншими словами, підхід теорії інформації в статистиці є по суті застосуванням другого закону термодинаміки. По суті, ІКА має корені в праці Людвіга Больцмана про ентропію. Більше про ці питання див. Акаіке, 1985 та Бернем та Андерсон, 2002, гл. 2.
Поради щодо застосування
Підрахунок параметрів
Статистична модель мусить допасовуватися до всіх точок даних. Таким чином, пряма лінія сама по собі не є моделлю даних, якщо не всі точки даних лежать точно на цій лінії. Проте ми можемо обрати модель, яка є «прямою лінією плюс шум»; таку модель може бути формально описано таким чином: yi = b0 + b1xi + εi. Тут εi є залишками від допасовування прямої лінії. Якщо εi вважаються гаусовими НОР (з нульовим середнім значенням), то модель має три параметри: b0, b1 та дисперсію цих гаусових розподілів. Отже, при обчисленні ІКА цієї моделі ми повинні використовувати k=3. Загальніше, для будь-якої моделі найменших квадратів з гаусовими НОР залишками дисперсія розподілів залишків повинна рахуватися як один з параметрів.
Як інший приклад розгляньмо авторегресійну модель першого порядку, визначену як xi = c + φxi−1 + εi, де εi є гаусовими НОР (з нульовим середнім значенням). У випадку цієї моделі існує три параметри: c, φ та дисперсія εi. Загальніше, авторегресійна модель p-того порядку має p + 2 параметри. (Проте, якщо c не оцінюється з даних, а є натомість заданим заздалегідь, тоді параметрів є лише p + 1.)
Перетворювання даних
Значення ІКА для всіх моделей-кандидатів мусить бути обчислювано на одному й тому ж наборі даних. Проте іноді нам може захотітися порівняти модель змінної відгуку, y, із моделлю логарифма змінної відгуку, log(y). Загальніше, нам може захотітися порівняти модель даних із моделлю перетворених даних. Далі наведено ілюстрацію того, як давати раду перетворенням даних (пристосовано з Бернем та Андерсон, 2002, §2.11.3: «Дослідники повинні бути впевнені, що моделюють всі гіпотези, застосовуючи одну й ту ж змінну відгуку»).
Припустімо, що ми хочемо порівнювати дві моделі: одну з нормальним розподілом y, та одну з нормальним розподілом log(y). Ми не повинні порівнювати значення ІКА двох моделей напряму. Натомість ми повинні перетворити нормальну кумулятивну функцію розподілу, щоби спочатку взяти логарифм y. Для здійснення цього нам потрібно виконати відповідне [en]: таким чином, нам потрібно помножити на похідну функції (натурального) логарифма, що є 1/y. Отже, перетворений розподіл має наступну функцію густини ймовірності:
що є функцією густини ймовірності логнормального розподілу. Тепер ми можемо порівнювати значення ІКА нормальної моделі зі значенням ІКА логнормальної моделі.
Ненадійність програмного забезпечення
Деяке статистичне програмне забезпечення повідомлятиме значення ІКА або максимальне значення функції логарифмічної правдоподібності, але ці значення не завжди є правильними. Як правило, неправильність спричинюється нехтуванням сталою в логарифмічній функції правдоподібності. Наприклад, функцією логарифмічної правдоподібності для n незалежних ідентичних нормальних розподілів є
Це є функцією, що максимізують при отримуванні значення ІКА. Проте деяке програмне забезпечення нехтує сталим членом (n/2) ln(2π), і таким чином повідомляє помилкові значення максимумів логарифмічних правдоподібностей, і, відтак, ІКА. Такі помилки не мають значення для порівнянь на основі ІКА, якщо всі моделі мають нормально розподілені залишки, оскільки тоді помилки взаємно компенсуються. Проте в загальному випадку сталий член потребує включення до функції логарифмічної правдоподібності. Отже, перш ніж застосовувати програмне забезпечення для обчислення ІКА, в загальному випадку є гарною звичкою виконати якісь прості перевірки на цьому програмному забезпеченні, щоби переконатися, що значення цієї функції є правильними.
Порівняння з іншими методами обирання моделі
Порівняння з БІК
Формула баєсова інформаційного критерію (БІК) є подібною до формули ІКА, але має відмінний штраф на число параметрів. В ІКА цим штрафом є 2k, тоді як в БІК штрафом є ln(n) k.
Порівняння ІКА/ІКАк та БІК наведено в Бернем та Андерсон, 2002, §6.3-6.4, з подальшими зауваженнями в Бернем та Андерсон, 2004. Автори показують, що ІКА/ІКАк може бути виведено в такій самій баєсовій системі, що й БІК, просто застосованням інших апріорних імовірностей. Проте, в баєсовім виведенні БІК кожна модель-кандидат має апріорну ймовірність 1/R (де R є числом моделей-кандидатів). Таке виведення є «не чутливим» (англ. not sensible), оскільки апріорне повинне бути спадною функцією від k. Крім того, ці автори представляють кілька імітаційних досліджень, які наводять на думку, що ІКА має схильність мати практичні/продуктивні переваги над БІК.
Деякі дослідники підкреслили, що ІКА та БІК підходять для різних задач. Зокрема, вважають, що БІК підходить для обирання «істинної моделі» (тобто, процесу, що породив дані) з набору моделей кандидатів, тоді як ІКА для цього не підходить. Конкретніше, якщо «істинна модель» є присутньою в наборі моделей-кандидатів, то БІК обере цю «істинну модель» з імовірністю 1, за n → ∞. На противагу цьому, при здійсненні обирання за допомогою ІКА, ця ймовірність може бути меншою за 1. Прибічники ІКА стверджують, що ця проблема є незначною, оскільки «істинна модель» практично ніколи не буває присутньою в наборі кандидатів. Дійсно, у статистиці є поширеним афоризм, що [en], тож «істинна модель» (тобто, реальність) не може бути в наборі кандидатів.
Ще одне порівняння ІКА та БІК наведено у Врізе, 2012. Врізе представляє імітаційне дослідження, яке дозволяє «істинній моделі» бути в наборі кандидатів (на відміну від практично всіх реальних даних). Це імітаційне дослідження показує, зокрема, що ІКА іноді обирає набагато кращу модель, ніж БІК, навіть коли «істинна модель» перебуває в наборі кандидатів. Причина цього полягає в тім, що для скінченних n БІК може мати істотний ризик обрання з набору кандидатів дуже поганої моделі. Ця причина може проявлятися навіть коли n є набагато більшим за k2. З ІКА ризик обрання дуже поганої моделі є мінімальним.
Якщо «істинної моделі» в наборі кандидатів немає, то найбільше, що ми можемо сподіватися зробити, це обрати модель, яка найкраще наближує «істинну». ІКА підходить для пошуку найкращої наближувальної моделі, за деяких припущень. (Ці припущення включають, зокрема, те, що наближування здійснюють по відношенню до втрати інформації.)
Порівняння ІКА та БІК у контексті регресії наведено в Янг, 2005. В регресії ІКА є асимптотично оптимальним для обирання моделі з найменшою середньоквадратичною похибкою, за припущення, що «істинна модель» не перебуває в наборі кандидатів. БІК не є асимптотично оптимальним за цього припущення. Янг додатково показує, що темп, з яким ІКА збігається до оптимуму, в певному сенсі є найкращим з можливих.
Порівняння з перехресним затверджуванням
Перехресне затверджування з виключенням по одному є асимптотично рівнозначним ІКА для звичайних лінійних регресійних моделей. Асимптотична еквівалентність до ІКА також має місце й для моделей зі змішаними рівнями факторів.
Порівняння з найменшими квадратами
Іноді кожна з моделей-кандидатів передбачає, що залишки розподілено відповідно до незалежних ідентичних нормальних розподілів (з нульовим середнім). Це дає привід для допасовування моделей найменшими квадратами.
При допасовуванні найменшими квадратами оцінкою максимальної правдоподібності для дисперсії розподілів залишків моделі є , де є [en] (англ. Residual Sum of Squares): . Тоді максимальним значенням функції логарифмічної правдоподібності моделі є
де C є сталою, що не залежить від моделі, а залежить лише від конкретних точок даних, тобто, вона не змінюється, якщо не змінюються дані.
Це дає AIC = 2k + n ln(RSS/n) − 2C = 2k + n ln(RSS) − (n ln(n) + 2C). Оскільки в ІКА мають значення лише різниці, сталою (n ln(n) + 2C) можливо нехтувати, що дозволяє нам зручно брати для порівнювання моделей AIC = 2k + n ln(RSS). Зауважте, що якщо всі ці моделі мають однакове k, то обирання моделі з мінімальним ІКА є рівнозначним обиранню моделі з мінімальною RSS, що є звичайною метою обирання моделі на основі найменших квадратів.
Порівняння з Cp Меллоуза
[en] є еквівалентом ІКА у випадку (гаусової) лінійної регресії.
Див. також
- [en]
- [en]
- [en]
- Метод максимальної правдоподібності
- [en]
Примітки
- (2016). . CRC Press. с. 189. ISBN . Архів оригіналу за 25 липня 2020. Процитовано 30 грудня 2019.
AIC provides a surprisingly simple estimate of the average out-of-sample deviance.
(англ.) - Taddy, Matt (2019). . New York: McGraw-Hill. с. 90. ISBN . Архів оригіналу за 25 липня 2020. Процитовано 30 грудня 2019.
The AIC is an estimate for OOS deviance.
(англ.) - Бернем та Андерсон, 2002, §2.2.
- Акаіке, 1974.
- Бернем та Андерсон, 2002, §2.9.1, §6.4.5.
- Бернем та Андерсон, 2002.
- Бернем та Андерсон, 2002, §2.12.4.
- Мерта, 2014.
- Бернем та Андерсон, 2002, с. 99.
- Бандьопадхяя та Форстер, 2011.
- Сакамото та ін., 1986.
- МакКуоррі та Цай, 1998.
- Клаескенс та Йорт, 2008, §8.3.
- Жиро, 2015, §2.9.1.
- Кавано, 1997.
- Бернем та Андерсон, 2002, §2.4.
- Бернем та Андерсон, 2004.
- Бернем та Андерсон, 2002, §7.4.
- Фіндлі та Парцен, 1995.
- Акаіке, 1973.
- де Лев, 1992.
- Van Noordon R., Maher B., Nuzzo R. (2014), «The top 100 papers», Nature, 514. (англ.)
- Джерела, що містять як «Akaike», так і «AIC», [ 13 квітня 2021 у Wayback Machine.] на Google Scholar.
- Бернем та Андерсон, 2002, с. 63.
- Бернем та Андерсон, 2002, с. 82.
- Бернем та Андерсон, 2002, §6.3-6.4.
- Врізе, 2012.
- Ахо, Дерріберрі та Петерсон, 2014.
- Стоун, 1977.
- Фан, 2011.
- Boisbunon та ін., 2014.
Джерела
- Aho, K.; Derryberry, D.; Peterson, T. (2014), Model selection for ecologists: the worldviews of AIC and BIC, Ecology, 95 (3): 631—636, doi:10.1890/13-1452.1 (англ.)
- (1973), Information theory and an extension of the maximum likelihood principle, у Petrov, B. N.; Csáki, F. (ред.), 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971, Budapest: Akadémiai Kiadó, с. 267—281 Переопубліковано в ; , ред. (1992), Breakthroughs in Statistics, т. I, Springer-Verlag, с. 610—624 (англ.)
- (1974), A new look at the statistical model identification, IEEE Transactions on Automatic Control, 19 (6): 716—723, doi:10.1109/TAC.1974.1100705, MR 0423716 (англ.)
- (1985), Prediction and entropy, у Atkinson, A. C.; (ред.), A Celebration of Statistics, Springer, с. 1—24 (англ.)
- Bandyopadhyay, P. S.; Forster, M. R., ред. (2011), Philosophy of Statistics, North-Holland Publishing (англ.)
- Boisbunon, A.; Canu, S.; Fourdrinier, D.; Strawderman, W.; Wells, M. T. (2014), Akaike's Information Criterion, Cp and estimators of loss for elliptically symmetric distributions, International Statistical Review, 82: 422—439, doi:10.1111/insr.12052 (англ.)
- Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference: A practical information-theoretic approach (вид. 2nd), Springer-Verlag (англ.)
- Burnham, K. P.; Anderson, D. R. (2004), (PDF), [en], 33: 261—304, doi:10.1177/0049124104268644, архів оригіналу (PDF) за 15 березня 2012, процитовано 21 жовтня 2015 (англ.)
- Cavanaugh, J. E. (1997), (PDF), Statistics & Probability Letters, 31 (2): 201—208, doi:10.1016/s0167-7152(96)00128-9, архів оригіналу (PDF) за 27 березня 2016, процитовано 21 жовтня 2015 (англ.)
- ; (2008), Model Selection and Model Averaging, Cambridge University Press (англ.) [Зауваження: Визначення ІКА Клаескенс та Йорта має протилежний знак до стандартного визначення, первинно даного Акаіке, та дотримуваного іншими авторами.]
- (1992), (PDF), у ; (ред.), Breakthroughs in Statistics I, Springer, с. 599—609, архів оригіналу (PDF) за 8 січня 2016, процитовано 21 жовтня 2015 (англ.)
- Fang, Yixin (2011), (PDF), Journal of Data Science, 9: 15—21, архів оригіналу (PDF) за 4 березня 2016, процитовано 21 жовтня 2015 (англ.)
- Findley, D. F.; (1995), A conversation with Hirotugu Akaike, [en], 10: 104—117, doi:10.1214/ss/1177010133 (англ.)
- Giraud, C. (2015), Introduction to High-Dimensional Statistics, CRC Press (англ.)
- Hurvich, C. M.; Tsai, C.-L. (1989), Regression and time series model selection in small samples, [en], 76 (2): 297—307, doi:10.1093/biomet/76.2.297 (англ.)
- Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer (англ.)
- McQuarrie, A. D. R.; Tsai, C.-L. (1998), Regression and Time Series Model Selection, World Scientific (англ.)
- Murtaugh, P. A. (2014), , Ecology, 95 (3): 611—617, doi:10.1890/13-0590.1, архів оригіналу за 30 грудня 2019, процитовано 30 грудня 2019 (англ.)
- Sakamoto, Y.; Ishiguro, M.; Kitagawa, G. (1986), Akaike Information Criterion Statistics, [en] (англ.)
- Stone, M. (1977), An asymptotic equivalence of choice of model by cross-validation and Akaike's criterion, [en], 39 (1): 44—47, JSTOR 2984877 (англ.)
- Sugiura, N. (1978), Further analysis of the data by Akaike's information criterion and the finite corrections, [en], 7: 13—26, doi:10.1080/03610927808827599 (англ.)
- Помилка Lua у Модуль:Citation/CS1/Utilities у рядку 73: bad argument #1 to 'message.newRawMessage' (string expected, got nil). (яп.)
- Vrieze, S. I. (2012), Model selection and psychological theory: a discussion of the differences between the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC), [en], 17 (2): 228—243, doi:10.1037/a0027127, PMC 3366160, PMID 22309957 (англ.)
- Yang, Y. (2005), Can the strengths of AIC and BIC be shared?, [en], 92: 937—950, doi:10.1093/biomet/92.4.937 (англ.)
Література
- Akaike, H. (21 December 1981), (PDF), [en], 12 (51): 42, архів оригіналу (PDF) за 18 листопада 2017, процитовано 21 жовтня 2015 (англ.) [Хіроцуґу Акаіке коментує, як він дійшов до ІКА]
- Anderson, D. R. (2008), Model Based Inference in the Life Sciences, Springer (англ.)
- Arnold, T. W. (2010), Uninformative parameters and model selection using Akaike's Information Criterion, [en], 74 (6): 1175—1178, doi:10.1111/j.1937-2817.2010.tb01236.x (англ.)
- Burnham, K. P.; Anderson, D. R.; Huyvaert, K. P. (2011), (PDF), Behavioral Ecology and Sociobiology, 65: 23—35, doi:10.1007/s00265-010-1029-6, архів оригіналу (PDF) за 9 серпня 2017, процитовано 30 грудня 2019 (англ.)
- Cavanaugh, J. E.; Neath, A. A. (2019), The Akaike information criterion, [en], 11 (3): e1460, doi:10.1002/wics.1460 (англ.)
- Ing, C.-K.; Wei, C.-Z. (2005), Order selection for same-realization predictions in autoregressive processes, [en], 33 (5): 2423—2474, doi:10.1214/009053605000000525 (англ.)
- Ko, V.; (2019), Copula information crite rion for model selection with two-stage maximum likelihood estimation, Econometrics and Statistics, 12: 167–180, doi:10.1016/j.ecosta.2019.01.001 (англ.)
- Larski, S. (2012), (PDF) (Thesis), London School of Economics, архів оригіналу (PDF) за 24 березня 2019, процитовано 30 грудня 2019 (англ.)
- Pan, W. (2001), (PDF), [en], 57: 120—125, doi:10.1111/j.0006-341X.2001.00120.x, архів оригіналу (PDF) за 5 травня 2018, процитовано 30 грудня 2019 (англ.)
- ; Tanabe, K.; Kitagawa, G., ред. (1998), Selected Papers of Hirotugu Akaike, Springer, doi:10.1007/978-1-4612-1694-0 (англ.)
- Saefken, B.; Kneib, T.; van Waveren, C.-S.; Greven, S. (2014), A unifying approach to the estimation of the conditional Akaike information in generalized linear mixed models, [en], 8: 201—225, doi:10.1214/14-EJS881 (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Informacijnij kriterij Akaike IKA angl Akaike information criterion AIC ce ocinyuvach pohibki pozavibirkovogo peredbachuvannya i vidtak vidnosnoyi yakosti statistichnih modelej dlya zadanogo naboru danih Mayuchi sukupnist modelej dlya cih danih IKA ocinyuye yakist kozhnoyi z modelej vidnosno kozhnoyi z inshih modelej Takim chinom IKA proponuye zasobi dlya obirannya modeli IKA gruntuyetsya na teoriyi informaciyi Koli statistichnu model vikoristovuyut dlya predstavlennya procesu sho porodiv dani ce predstavlennya majzhe nikoli ne bude tochnim tozh deyaka informaciya pri zastosuvanni ciyeyi modeli dlya predstavlennya cogo procesu vtrachatimetsya IKA ocinyuye vidnosnu kilkist informaciyi sho vtrachaye zadana model sho menshe informaciyi vtrachaye model to vishoyu ye yiyi yakist V ocinyuvanni kilkosti informaciyi sho vtrachaye model IKA maye spravu z kompromisom mizh dopasovanistyu modeli ta yiyi prostotoyu Inshimi slovami IKA pracyuye yak iz rizikom perenavchannya tak i z rizikom nedonavchannya Informacijnij kriterij Akaike nazvano na chest statistika en yakij jogo sformulyuvav Vin teper formuye osnovu odniyeyi z paradigm en a takozh znahodit shirokogo vzhitku v statistichnomu visnovuvanni OznachennyaPripustimo sho mi mayemo statistichnu model yakihos danih Nehaj k bude chislom ocinyuvanih parametriv u cij modeli Nehaj L displaystyle hat L bude maksimalnim znachennyam funkciyi pravdopodibnosti dlya ciyeyi modeli Todi znachennyam IKA ciyeyi modeli ye nastupne A I C 2 k 2 ln L displaystyle mathrm AIC 2k 2 ln hat L Dlya zadanogo naboru modelej kandidativ danih najkrashoyu modellyu ye ta sho maye minimalne znachennya IKA Takim chinom IKA vinagorodzhuye dopasovanist za ocinkoyu funkciyi pravdopodibnosti ale takozh vklyuchaye shtraf sho ye vishidnoyu funkciyeyu chisla ocinyuvanih parametriv Cej shtraf pereshkodzhaye perenavchannyu oskilki zbilshennya chisla parametriv u modeli majzhe zavzhdi pokrashuye yiyi dopasovanist IKA zasnovano na teoriyi informaciyi Pripustimo sho dani porodzhuyutsya yakimos nevidomim procesom f Mi rozglyadayemo dvi modeli kandidati dlya predstavlennya f g1 ta g2 Yakbi mi znali f to mogli bi znajti vtratu informaciyi vid zastosuvannya g1 dlya predstavlennya f shlyahom obchislennya rozhodzhennya Kulbaka Lejblera DKL f g1 analogichno vtratu informaciyi vid zastosuvannya g2 dlya predstavlennya f mozhe buti znajdeno obchislennyam DKL f g2 Todi bi mi zagalom obrali model kandidata sho minimizuye vtratu informaciyi Mi ne mozhemo obirati z upevnenistyu oskilki ne znayemo f Prote Akaike 1974 pokazav sho za dopomogoyu IKA mi mozhemo ociniti naskilki bilshe abo menshe informaciyi vtrachayetsya modellyu g1 anizh modellyu g2 Cya ocinka prote ye virnoyu lishe en yaksho kilkist tochok danih ye maloyu to chasto ye neobhidnim dodatkove koriguvannya div IKAk nizhche Zauvazhte sho IKA ne kazhe nichogo pro absolyutnu yakist modeli lishe pro yakist vidnosno inshih modelej Takim chinom yaksho vsi modeli kandidati dopasovuyutsya pogano IKA ne vidast zhodnogo poperedzhennya pro ce Otzhe pislya obrannya modeli za dopomogoyu IKA zazvichaj dobroyu praktikoyu ye pidtverditi absolyutnu yakist modeli Take pidtverdzhennya zazvichaj vklyuchaye perevirku zalishkiv modeli shobi viznachiti chi viglyadayut zalishki vipadkovimi ta perevirki peredbachen modeli Dokladnishe z ciyeyi temi div zatverdzhuvannya statistichnoyi modeli Yak vikoristovuvati IKA na prakticiDlya zastosuvannya IKA na praktici mi pochinayemo z naboru modelej kandidativ a potim znahodimo vidpovidni znachennya IKA cih modelej Cherez zastosuvannya modeli kandidata dlya predstavlennya spravzhnoyi modeli tobto procesu sho porodiv dani vtrata informaciyi bude majzhe zavzhdi Sered modelej kandidativ mi hochemo obrati taku sho minimizuye cyu vtratu informaciyi Mi ne mozhemo obirati z upevnenistyu ale mi mozhemo minimizuvati ocinyuvanu vtratu informaciyi Pripustimo sho ye R modelej kandidativ Poznachmo znachennya IKA angl AIC dlya cih modelej cherez AIC1 AIC2 AIC3 AICR Nehaj AICmin bude minimalnim iz cih znachen Todi velichinu exp AICmin AICi 2 mozhlivo interpretuvati yak proporcijnu do jmovirnosti togo sho i ta model minimizuye ocinyuvanu vtratu informaciyi Yak priklad pripustimo sho ye tri modeli kandidati znachennyami IKA yakih ye 100 102 ta 110 Todi druga model ye v exp 100 102 2 0 368 raziv imovirnishoyu za pershu model dlya minimizaciyi vtrati informaciyi Analogichno tretya model ye v exp 100 110 2 0 007 raziv imovirnishoyu za pershu dlya minimizaciyi vtrati informaciyi V comu prikladi mi opustimo tretyu model iz podalshogo rozglyadu Todi mi matimemo tri varianti 1 zibrati bilshe danih u nadiyi sho ce dozvolit zdijsniti chitke rozriznennya mizh pershimi dvoma modelyami 2 prosto zrobiti visnovok sho dani ye nedostatnimi dlya pidtrimki obrannya modeli z pomizh cih dvoh 3 vzyati zvazhene serednye pershih dvoh modelej z vagovimi koeficiyentami proporcijnimi 1 ta 0 368 vidpovidno i potim zdijsnyuvati statistichne visnovuvannya na osnovi zvazhenoyi multimodeli Velichina exp AICmin AICi 2 ye vidomoyu yak vidnosna pravdopodibnist modeli i Vona ye tisno pov yazanoyu z vidnoshennyam pravdopodibnostej sho vikoristovuyut u perevirci vidnoshennyam pravdopodibnostej Dijsno yaksho vsi modeli v nabori kandidativ mayut odnakove chislo parametriv to zastosuvannya IKA mozhe spershu zdavatisya duzhe shozhim na zastosuvannya perevirki vidnoshennyam pravdopodibnostej Prote ye istotni vidminnosti Zokrema perevirka vidnoshennyam pravdopodibnostej ye chinnoyu lishe dlya vkladenih modelej todi yak IKA ta IKAk ne mayut takogo obmezhennya Perevirka gipotezKozhnu perevirku statistichnih gipotez mozhe buti sformulovano yak porivnyannya statistichnih modelej Otzhe kozhnu perevirku statistichnih gipotez mozhe buti vidtvoreno cherez IKA U pidrozdilah nizhche korotko opisano dva prikladi Detali dlya cih prikladiv ta nabagato bilshe prikladiv navedeno v Sakamoto ta in 1986 Chastina II ta Konisi ta Kitagava 2008 gl 4 Vidtvorennya t kriteriyu Styudenta Yak priklad perevirki gipotez rozglyanmo t kriterij dlya porivnyuvannya serednih znachen dvoh normalno rozpodilenih sukupnostej Vhid do t kriteriyu skladayetsya z vipadkovoyi vibirki z kozhnoyi z cih dvoh sukupnostej Shobi sformulyuvati cej kriterij yak porivnyannya modelej mi buduyemo dvi rizni modeli Persha model modelyuye ci dvi sukupnosti yak taki sho mayut potencijno rizni seredni znachennya ta standartni vidhilennya Funkciya pravdopodibnosti dlya pershoyi modeli vidtak ye dobutkom pravdopodibnostej dlya dvoh riznih normalnih rozpodiliv tozh vona maye chotiri parametri m1 s1 m2 s2 Shobi buti tochnimi cya funkciya pravdopodibnosti ye nastupnoyu iz poznachennyam rozmiriv vibirok cherez n1 and n2 L m 1 s 1 m 2 s 2 displaystyle mathcal L mu 1 sigma 1 mu 2 sigma 2 i 1 n 1 1 2 p s 1 exp x i m 1 2 2 s 1 2 i n 1 1 n 1 n 2 1 2 p s 2 exp x i m 2 2 2 s 2 2 displaystyle prod i 1 n 1 frac 1 sqrt 2 pi sigma 1 exp left frac x i mu 1 2 2 sigma 1 2 right boldsymbol cdot prod i n 1 1 n 1 n 2 frac 1 sqrt 2 pi sigma 2 exp left frac x i mu 2 2 2 sigma 2 2 right Druga model modelyuye ci dvi sukupnosti yak taki sho mayut odnakovi seredni ale potencijno rizni standartni vidhilennya Funkciya pravdopodibnosti dlya drugoyi modeli vidtak vstanovlyuye v navedenomu vishe rivnyanni m1 m2 tozh vona maye tri parametri Potim mi maksimizuyemo ci funkciyi pravdopodibnosti dlya cih dvoh modelej na praktici mi maksimizuyemo funkciyi logarifmichnoyi pravdopodibnosti pislya chogo staye prosto obchisliti znachennya IKA cih modelej Dali mi obchislyuyemo vidnosnu pravdopodibnist Napriklad yaksho druga model viyavitsya lishe v 0 01 raziv pravdopodibnishoyu za pershu to mi viklyuchimo drugu model iz podalshogo rozglyadu tozh mi zrobimo visnovok sho ti dvi sukupnosti mayut rizni seredni t kriterij vihodit iz togo sho dvi sukupnosti mayut identichni standartni vidhilennya Cej kriterij shilnij buti nenadijnim yaksho ce pripushennya ye hibnim a takozh yaksho rozmiri dvoh vibirok ye duzhe riznimi en buv bi krashim Porivnyuvannya serednih znachen cherez IKA yak u prikladi vishe maye perevagu bo ne spirayetsya na ce pripushennya Porivnyuvannya naboriv kategorijnih danih Yak inshij priklad perevirki gipotez pripustimo sho mi mayemo dvi sukupnosti j kozhen iz chleniv kozhnoyi sukupnosti perebuvaye v odnij z dvoh kategoij kategoriyi 1 abo kategoriyi 2 Kozhna z sukupnostej ye rozpodilenoyu binomialno Mi hochemo znati chi ye rozpodili cih dvoh sukupnostej odnakovimi Nam dali vipadkovu vibirku z kozhnoyi z dvoh sukupnostej Nehaj m bude rozmirom vibirki z pershoyi sukupnosti Nehaj m1 bude chislom sposterezhen u cij vibirci v kategoriyi 1 tozh chislom sposterezhen u kategoriyi 2 bude m m1 Analogichno nehaj n bude rozmirom vibirki z drugoyi sukupnosti Nehaj n1 bude chislom sposterezhen u cij vibirci v kategoriyi 1 Nehaj p bude jmovirnistyu togo sho vipadkovo obranij chlen pershoyi sukupnosti perebuvaye v kategoriyi 1 Otzhe jmovirnistyu togo sho vipadkovo obranij chlen pershoyi sukupnosti perebuvaye v kategoriyi 2 bude 1 p Zauvazhte sho rozpodil pershoyi sukupnosti maye odin parametr Nehaj q bude jmovirnistyu togo sho vipadkovo obranij chlen drugoyi sukupnosti perebuvaye v kategoriyi 1 Zauvazhte sho rozpodil drugoyi sukupnosti takozh maye odin parametr Shobi porivnyati rozpodili cih dvoh sukupnostej mi buduyemo dvi rizni modeli Persha model modelyuye sho ci dvi sukupnosti mayut potencijno rizni binomialni rozpodili Funkciyeyu pravdopodibnosti dlya pershoyi modeli vidtak ye dobutok pravdopodibnostej dlya dvoh vidminnih binomialnih rozpodiliv tozh vona maye dva parametri p q Shobi buti tochnimi cya funkciya pravdopodibnosti ye nastupnoyu L p q m m 1 m m 1 p m 1 1 p m m 1 n n 1 n n 1 q n 1 1 q n n 1 displaystyle mathcal L p q frac m m 1 m m 1 p m 1 1 p m m 1 boldsymbol cdot frac n n 1 n n 1 q n 1 1 q n n 1 Druga model modelyuye sho ci dvi sukupnosti mayut odin i toj zhe rozpodil Funkciya pravdopodibnosti dlya drugoyi modeli vidtak vstanovlyuye v navedenomu vishe rivnyanni p q tozh cya druga model maye odin parametr Potim mi maksimizuyemo ci funkciyi pravdopodibnosti dlya cih dvoh modelej na praktici mi maksimizuyemo funkciyi logarifmichnoyi pravdopodibnosti pislya chogo staye prosto obchisliti znachennya IKA cih modelej Dali mi obchislyuyemo vidnosnu pravdopodibnist Napriklad yaksho druga model viyavilasya lishe v 0 01 raziv pravdopodibnishoyu za pershu to mi viklyuchimo drugu model z podalshogo rozglyadu tozh mi mozhemo zrobiti visnovok sho ci dvi sukupnosti mayut rizni rozpodili Zasadi statistikiStatistichne visnovuvannya rozglyadayut yak take sho skladayetsya z pereviryannya ta ocinyuvannya gipotez Pereviryannya gipotez mozhlivo zdijsnyuvati za dopomogoyu IKA yak obgovoreno vishe Stosovno ocinyuvannya isnuye dva tipi tochkove ocinyuvannya ta en Tochkove ocinyuvannya mozhlivo zdijsnyuvati v mezhah paradigmi IKA jogo zabezpechuye ocinka maksimalnoyi pravdopodibnosti Promizhkove ocinyuvannya takozh mozhlivo zdijsnyuvati v mezhah paradigmi IKA jogo zabezpechuyut promizhki pravdopodibnosti Otzhe statistichne visnovuvannya zagalom mozhlivo zdijsnyuvati v mezhah paradigmi IKA Najshirshe vzhivanimi paradigmami statistichnogo visnovuvannya ye chastotnicke visnovuvannya ta bayesove visnovuvannya Prote IKA mozhlivo vikoristovuvati dlya statistichnogo visnovuvannya bez pokladannya yak na chastotnicku paradigmu tak i na bayesovu oskilki IKA mozhlivo interpretuvati bez dopomogi rivniv znachushosti ta bayesovih apriornih Inshimi slovami IKA mozhe buti vikoristano dlya formuvannya en vidminnih yak vid chastotnictva tak i vid bayesivstva Vidozmina dlya malenkogo rozmiru vibirkiKoli rozmir vibirki ye malenkim isnuye realna jmovirnist togo sho IKA obiratime modeli yaki mayut zabagato parametriv tobto sho IKA perenavchatimetsya Dlya podolannya takogo potencijnogo perenavchannya bulo rozrobleno IKAk ce IKA z koriguvannyam dlya malenkih rozmiriv vibirok Formula IKAk zalezhit vid statistichnoyi modeli Yaksho vihoditi z togo sho model ye en linijnoyu vidnosno svoyih parametriv ta maye normalno rozpodileni zalishki obumovleni regresorami to formula IKAk ye takoyu A I C c A I C 2 k 2 2 k n k 1 displaystyle mathrm AICc mathrm AIC frac 2k 2 2k n k 1 de n poznachaye rozmir vibirki a k poznachaye kilkist parametriv Takim chinom IKAk po suti ye IKA z dodatkovim chlenom shtrafu na chislo parametriv Zauvazhte sho koli n cej dodatkovij chlen shtrafu zbigayetsya do 0 i vidtak IKAk zbigayetsya do IKA Yaksho pripushennya pro te sho model ye odnovimirnoyu ta linijnoyu z normalnimi zalishkami ne vikonuyetsya to formula IKAk v zagalnomu vipadku vidriznyatimetsya vid navedenoyi vishe Dlya deyakih modelej viznachiti cyu formulu mozhe buti skladno Vtim dlya kozhnoyi modeli dlya yakoyi isnuye IKAk formula IKAk zadayetsya yak IKA plyus chlen yakij vklyuchaye yak k tak i k 2 Dlya porivnyannya formula IKA vklyuchaye k ale ne k 2 Inshimi slovami IKA ye en vtrat informaciyi v toj chas yak IKAk ye en Podalshe obgovorennya ciyeyi formuli z prikladami ta inshimi pripushennyami navedeno v Bernem ta Anderson 2002 gl 7 ta Konisi ta Kitagava 2008 gl 7 8 Zokrema za inshih pripushen chasto ye pridatnoyu natyazhkova ocinka ciyeyi formuli Shobi pidsumuvati IKAk maye perevagu v shilnosti buti tochnishim za IKA osoblivo dlya malih vibirok ale IKAk takozh maye nedolik inodi buti nabagato skladnishim dlya obchislennya nizh IKA Zauvazhte sho yaksho vsi modeli kandidati mayut odnakovu k ta odnakovi formuli IKAk to IKAk ta IKA davatimut identichni vidnosno ocinki Otzhe ne bude nedoliku v zastosuvanni IKA zamist IKAk Krim togo yaksho n u bagato raziv bilshe za k 2 to dodatkovij chlen shtrafu bude neznachnim a otzhe neznachnimi budut i nedoliki zastosuvannya IKA zamist IKAk Istoriya ja Informacijnij kriterij Akaike bulo sformulovano statistikom en Pervinno jogo bulo nazvano informacijnim kriteriyem Anglijskoyu pro nogo bulo vpershe zayavleno Akaike na simpoziumi 1971 roku protokol yakogo bulo opublikovano 1973 roku Publikaciya 1973 roku odnak bula lishe neformalnim predstavlennyam cih ponyat Pershoyu formalnoyu publikaciyeyu bula pracya Akaike 1974 roku Stanom na zhovten 2014 roku pracya 1974 roku otrimala ponad 14 000 cituvan v Web of Science stavshi 73 toyu najcitovanishoyu praceyu za vsi chasi Na sogodni IKA stav nastilki poshirenim sho jogo chasto vikoristovuyut bez cituvannya praci Akaike 1974 roku Dijsno isnuye ponad 150 000 naukovih statej knig sho vikoristovuyut IKA za ocinkoyu Google Scholar Pochatkove vivedennya IKA pokladalosya na deyaki silni pripushennya Takeuti 1976 pokazav sho ci pripushennya mozhe buti zrobleno znachno slabshimi Ale pracya Takeuti bula yaponskoyu i ne bula shiroko vidomoyu za mezhami Yaponiyi protyagom bagatoh rokiv IKAk pochatkovo zaproponuvav dlya linijnoyi regresiyi lishe Sugiura 1978 Ce sprovokuvalo pracyu Gurvich ta Caj 1989 ta kilka podalshih prac cih zhe avtoriv sho rozshirili situaciyi v yakih mozhlivo zastosovuvati IKAk Pershim zagalnim vikladom pidhodu teoriyi informaciyi bula kniga Bernem ta Anderson 2002 Vona vklyuchaye anglomovne predstavlennya praci Takeuti Cya kniga prizvela do poshirennya zastosuvannya IKA i narazi vona maye ponad 48 000 cituvan na Google Scholar Akaike nazvav svij pidhid principom maksimizaciyi entropiyi oskilki vin gruntuyetsya na ponyatti entropiyi v teoriyi informaciyi Dijsno minimizaciya IKA v statistichnij modeli ye faktichno rivnoznachnoyu maksimizaciyi entropiyi v termodinamichnij sistemi inshimi slovami pidhid teoriyi informaciyi v statistici ye po suti zastosuvannyam drugogo zakonu termodinamiki Po suti IKA maye koreni v praci Lyudviga Bolcmana pro entropiyu Bilshe pro ci pitannya div Akaike 1985 ta Bernem ta Anderson 2002 gl 2 Poradi shodo zastosuvannyaPidrahunok parametriv Statistichna model musit dopasovuvatisya do vsih tochok danih Takim chinom pryama liniya sama po sobi ne ye modellyu danih yaksho ne vsi tochki danih lezhat tochno na cij liniyi Prote mi mozhemo obrati model yaka ye pryamoyu liniyeyu plyus shum taku model mozhe buti formalno opisano takim chinom yi b0 b1xi ei Tut ei ye zalishkami vid dopasovuvannya pryamoyi liniyi Yaksho ei vvazhayutsya gausovimi NOR z nulovim serednim znachennyam to model maye tri parametri b0 b1 ta dispersiyu cih gausovih rozpodiliv Otzhe pri obchislenni IKA ciyeyi modeli mi povinni vikoristovuvati k 3 Zagalnishe dlya bud yakoyi modeli najmenshih kvadrativ z gausovimi NOR zalishkami dispersiya rozpodiliv zalishkiv povinna rahuvatisya yak odin z parametriv Yak inshij priklad rozglyanmo avtoregresijnu model pershogo poryadku viznachenu yak xi c fxi 1 ei de ei ye gausovimi NOR z nulovim serednim znachennyam U vipadku ciyeyi modeli isnuye tri parametri c f ta dispersiya ei Zagalnishe avtoregresijna model p togo poryadku maye p 2 parametri Prote yaksho c ne ocinyuyetsya z danih a ye natomist zadanim zazdalegid todi parametriv ye lishe p 1 Peretvoryuvannya danih Znachennya IKA dlya vsih modelej kandidativ musit buti obchislyuvano na odnomu j tomu zh nabori danih Prote inodi nam mozhe zahotitisya porivnyati model zminnoyi vidguku y iz modellyu logarifma zminnoyi vidguku log y Zagalnishe nam mozhe zahotitisya porivnyati model danih iz modellyu peretvorenih danih Dali navedeno ilyustraciyu togo yak davati radu peretvorennyam danih pristosovano z Bernem ta Anderson 2002 2 11 3 Doslidniki povinni buti vpevneni sho modelyuyut vsi gipotezi zastosovuyuchi odnu j tu zh zminnu vidguku Pripustimo sho mi hochemo porivnyuvati dvi modeli odnu z normalnim rozpodilom y ta odnu z normalnim rozpodilom log y Mi ne povinni porivnyuvati znachennya IKA dvoh modelej napryamu Natomist mi povinni peretvoriti normalnu kumulyativnu funkciyu rozpodilu shobi spochatku vzyati logarifm y Dlya zdijsnennya cogo nam potribno vikonati vidpovidne en takim chinom nam potribno pomnozhiti na pohidnu funkciyi naturalnogo logarifma sho ye 1 y Otzhe peretvorenij rozpodil maye nastupnu funkciyu gustini jmovirnosti y 1 y 1 2 p s 2 exp ln y m 2 2 s 2 displaystyle y mapsto frac 1 y frac 1 sqrt 2 pi sigma 2 exp left frac left ln y mu right 2 2 sigma 2 right sho ye funkciyeyu gustini jmovirnosti lognormalnogo rozpodilu Teper mi mozhemo porivnyuvati znachennya IKA normalnoyi modeli zi znachennyam IKA lognormalnoyi modeli Nenadijnist programnogo zabezpechennya Deyake statistichne programne zabezpechennya povidomlyatime znachennya IKA abo maksimalne znachennya funkciyi logarifmichnoyi pravdopodibnosti ale ci znachennya ne zavzhdi ye pravilnimi Yak pravilo nepravilnist sprichinyuyetsya nehtuvannyam staloyu v logarifmichnij funkciyi pravdopodibnosti Napriklad funkciyeyu logarifmichnoyi pravdopodibnosti dlya n nezalezhnih identichnih normalnih rozpodiliv ye ln L m s n 2 ln 2 p n 2 ln s 2 1 2 s 2 i 1 n x i m 2 displaystyle ln mathcal L mu sigma frac n 2 ln 2 pi frac n 2 ln sigma 2 frac 1 2 sigma 2 sum i 1 n x i mu 2 Ce ye funkciyeyu sho maksimizuyut pri otrimuvanni znachennya IKA Prote deyake programne zabezpechennya nehtuye stalim chlenom n 2 ln 2p i takim chinom povidomlyaye pomilkovi znachennya maksimumiv logarifmichnih pravdopodibnostej i vidtak IKA Taki pomilki ne mayut znachennya dlya porivnyan na osnovi IKA yaksho vsi modeli mayut normalno rozpodileni zalishki oskilki todi pomilki vzayemno kompensuyutsya Prote v zagalnomu vipadku stalij chlen potrebuye vklyuchennya do funkciyi logarifmichnoyi pravdopodibnosti Otzhe persh nizh zastosovuvati programne zabezpechennya dlya obchislennya IKA v zagalnomu vipadku ye garnoyu zvichkoyu vikonati yakis prosti perevirki na comu programnomu zabezpechenni shobi perekonatisya sho znachennya ciyeyi funkciyi ye pravilnimi Porivnyannya z inshimi metodami obirannya modeliPorivnyannya z BIK Formula bayesova informacijnogo kriteriyu BIK ye podibnoyu do formuli IKA ale maye vidminnij shtraf na chislo parametriv V IKA cim shtrafom ye 2k todi yak v BIK shtrafom ye ln n k Porivnyannya IKA IKAk ta BIK navedeno v Bernem ta Anderson 2002 6 3 6 4 z podalshimi zauvazhennyami v Bernem ta Anderson 2004 Avtori pokazuyut sho IKA IKAk mozhe buti vivedeno v takij samij bayesovij sistemi sho j BIK prosto zastosovannyam inshih apriornih imovirnostej Prote v bayesovim vivedenni BIK kozhna model kandidat maye apriornu jmovirnist 1 R de R ye chislom modelej kandidativ Take vivedennya ye ne chutlivim angl not sensible oskilki apriorne povinne buti spadnoyu funkciyeyu vid k Krim togo ci avtori predstavlyayut kilka imitacijnih doslidzhen yaki navodyat na dumku sho IKA maye shilnist mati praktichni produktivni perevagi nad BIK Deyaki doslidniki pidkreslili sho IKA ta BIK pidhodyat dlya riznih zadach Zokrema vvazhayut sho BIK pidhodit dlya obirannya istinnoyi modeli tobto procesu sho porodiv dani z naboru modelej kandidativ todi yak IKA dlya cogo ne pidhodit Konkretnishe yaksho istinna model ye prisutnoyu v nabori modelej kandidativ to BIK obere cyu istinnu model z imovirnistyu 1 za n Na protivagu comu pri zdijsnenni obirannya za dopomogoyu IKA cya jmovirnist mozhe buti menshoyu za 1 Pribichniki IKA stverdzhuyut sho cya problema ye neznachnoyu oskilki istinna model praktichno nikoli ne buvaye prisutnoyu v nabori kandidativ Dijsno u statistici ye poshirenim aforizm sho en tozh istinna model tobto realnist ne mozhe buti v nabori kandidativ She odne porivnyannya IKA ta BIK navedeno u Vrize 2012 Vrize predstavlyaye imitacijne doslidzhennya yake dozvolyaye istinnij modeli buti v nabori kandidativ na vidminu vid praktichno vsih realnih danih Ce imitacijne doslidzhennya pokazuye zokrema sho IKA inodi obiraye nabagato krashu model nizh BIK navit koli istinna model perebuvaye v nabori kandidativ Prichina cogo polyagaye v tim sho dlya skinchennih n BIK mozhe mati istotnij rizik obrannya z naboru kandidativ duzhe poganoyi modeli Cya prichina mozhe proyavlyatisya navit koli n ye nabagato bilshim za k 2 Z IKA rizik obrannya duzhe poganoyi modeli ye minimalnim Yaksho istinnoyi modeli v nabori kandidativ nemaye to najbilshe sho mi mozhemo spodivatisya zrobiti ce obrati model yaka najkrashe nablizhuye istinnu IKA pidhodit dlya poshuku najkrashoyi nablizhuvalnoyi modeli za deyakih pripushen Ci pripushennya vklyuchayut zokrema te sho nablizhuvannya zdijsnyuyut po vidnoshennyu do vtrati informaciyi Porivnyannya IKA ta BIK u konteksti regresiyi navedeno v Yang 2005 V regresiyi IKA ye asimptotichno optimalnim dlya obirannya modeli z najmenshoyu serednokvadratichnoyu pohibkoyu za pripushennya sho istinna model ne perebuvaye v nabori kandidativ BIK ne ye asimptotichno optimalnim za cogo pripushennya Yang dodatkovo pokazuye sho temp z yakim IKA zbigayetsya do optimumu v pevnomu sensi ye najkrashim z mozhlivih Porivnyannya z perehresnim zatverdzhuvannyam Perehresne zatverdzhuvannya z viklyuchennyam po odnomu ye asimptotichno rivnoznachnim IKA dlya zvichajnih linijnih regresijnih modelej Asimptotichna ekvivalentnist do IKA takozh maye misce j dlya modelej zi zmishanimi rivnyami faktoriv Porivnyannya z najmenshimi kvadratami Inodi kozhna z modelej kandidativ peredbachaye sho zalishki rozpodileno vidpovidno do nezalezhnih identichnih normalnih rozpodiliv z nulovim serednim Ce daye privid dlya dopasovuvannya modelej najmenshimi kvadratami Pri dopasovuvanni najmenshimi kvadratami ocinkoyu maksimalnoyi pravdopodibnosti dlya dispersiyi rozpodiliv zalishkiv modeli ye s 2 R S S n displaystyle hat sigma 2 mathrm RSS n de R S S displaystyle mathrm RSS ye en angl Residual Sum of Squares R S S i 1 n y i f x i 8 2 displaystyle textstyle mathrm RSS sum i 1 n y i f x i hat theta 2 Todi maksimalnim znachennyam funkciyi logarifmichnoyi pravdopodibnosti modeli ye n 2 ln 2 p n 2 ln s 2 1 2 s 2 R S S n 2 ln R S S n C displaystyle frac n 2 ln 2 pi frac n 2 ln hat sigma 2 frac 1 2 hat sigma 2 mathrm RSS frac n 2 ln mathrm RSS n C de C ye staloyu sho ne zalezhit vid modeli a zalezhit lishe vid konkretnih tochok danih tobto vona ne zminyuyetsya yaksho ne zminyuyutsya dani Ce daye AIC 2k n ln RSS n 2C 2k n ln RSS n ln n 2C Oskilki v IKA mayut znachennya lishe riznici staloyu n ln n 2C mozhlivo nehtuvati sho dozvolyaye nam zruchno brati dlya porivnyuvannya modelej AIC 2k n ln RSS Zauvazhte sho yaksho vsi ci modeli mayut odnakove k to obirannya modeli z minimalnim IKA ye rivnoznachnim obirannyu modeli z minimalnoyu RSS sho ye zvichajnoyu metoyu obirannya modeli na osnovi najmenshih kvadrativ Porivnyannya z Cp Mellouza en ye ekvivalentom IKA u vipadku gausovoyi linijnoyi regresiyi Div takozh en en en Metod maksimalnoyi pravdopodibnosti en Primitki 2016 CRC Press s 189 ISBN 978 1 4822 5344 3 Arhiv originalu za 25 lipnya 2020 Procitovano 30 grudnya 2019 AIC provides a surprisingly simple estimate of the average out of sample deviance angl Taddy Matt 2019 New York McGraw Hill s 90 ISBN 978 1 260 45277 8 Arhiv originalu za 25 lipnya 2020 Procitovano 30 grudnya 2019 The AIC is an estimate for OOS deviance angl Bernem ta Anderson 2002 2 2 Akaike 1974 Bernem ta Anderson 2002 2 9 1 6 4 5 Bernem ta Anderson 2002 Bernem ta Anderson 2002 2 12 4 Merta 2014 Bernem ta Anderson 2002 s 99 Bandopadhyaya ta Forster 2011 Sakamoto ta in 1986 MakKuorri ta Caj 1998 Klaeskens ta Jort 2008 8 3 Zhiro 2015 2 9 1 Kavano 1997 Bernem ta Anderson 2002 2 4 Bernem ta Anderson 2004 Bernem ta Anderson 2002 7 4 Findli ta Parcen 1995 Akaike 1973 de Lev 1992 Van Noordon R Maher B Nuzzo R 2014 The top 100 papers Nature 514 angl Dzherela sho mistyat yak Akaike tak i AIC 13 kvitnya 2021 u Wayback Machine na Google Scholar Bernem ta Anderson 2002 s 63 Bernem ta Anderson 2002 s 82 Bernem ta Anderson 2002 6 3 6 4 Vrize 2012 Aho Derriberri ta Peterson 2014 Stoun 1977 Fan 2011 Boisbunon ta in 2014 DzherelaAho K Derryberry D Peterson T 2014 Model selection for ecologists the worldviews of AIC and BIC Ecology 95 3 631 636 doi 10 1890 13 1452 1 angl 1973 Information theory and an extension of the maximum likelihood principle u Petrov B N Csaki F red 2nd International Symposium on Information Theory Tsahkadsor Armenia USSR September 2 8 1971 Budapest Akademiai Kiado s 267 281 Pereopublikovano v red 1992 Breakthroughs in Statistics t I Springer Verlag s 610 624 angl 1974 A new look at the statistical model identification IEEE Transactions on Automatic Control 19 6 716 723 doi 10 1109 TAC 1974 1100705 MR 0423716 angl 1985 Prediction and entropy u Atkinson A C red A Celebration of Statistics Springer s 1 24 angl Bandyopadhyay P S Forster M R red 2011 Philosophy of Statistics North Holland Publishing angl Boisbunon A Canu S Fourdrinier D Strawderman W Wells M T 2014 Akaike s Information Criterion Cp and estimators of loss for elliptically symmetric distributions International Statistical Review 82 422 439 doi 10 1111 insr 12052 angl Burnham K P Anderson D R 2002 Model Selection and Multimodel Inference A practical information theoretic approach vid 2nd Springer Verlag angl Burnham K P Anderson D R 2004 PDF en 33 261 304 doi 10 1177 0049124104268644 arhiv originalu PDF za 15 bereznya 2012 procitovano 21 zhovtnya 2015 angl Cavanaugh J E 1997 PDF Statistics amp Probability Letters 31 2 201 208 doi 10 1016 s0167 7152 96 00128 9 arhiv originalu PDF za 27 bereznya 2016 procitovano 21 zhovtnya 2015 angl 2008 Model Selection and Model Averaging Cambridge University Press angl Zauvazhennya Viznachennya IKA Klaeskens ta Jorta maye protilezhnij znak do standartnogo viznachennya pervinno danogo Akaike ta dotrimuvanogo inshimi avtorami 1992 PDF u red Breakthroughs in Statistics I Springer s 599 609 arhiv originalu PDF za 8 sichnya 2016 procitovano 21 zhovtnya 2015 angl Fang Yixin 2011 PDF Journal of Data Science 9 15 21 arhiv originalu PDF za 4 bereznya 2016 procitovano 21 zhovtnya 2015 angl Findley D F 1995 A conversation with Hirotugu Akaike en 10 104 117 doi 10 1214 ss 1177010133 angl Giraud C 2015 Introduction to High Dimensional Statistics CRC Press angl Hurvich C M Tsai C L 1989 Regression and time series model selection in small samples en 76 2 297 307 doi 10 1093 biomet 76 2 297 angl Konishi S Kitagawa G 2008 Information Criteria and Statistical Modeling Springer angl McQuarrie A D R Tsai C L 1998 Regression and Time Series Model Selection World Scientific angl Murtaugh P A 2014 Ecology 95 3 611 617 doi 10 1890 13 0590 1 arhiv originalu za 30 grudnya 2019 procitovano 30 grudnya 2019 angl Sakamoto Y Ishiguro M Kitagawa G 1986 Akaike Information Criterion Statistics en angl Stone M 1977 An asymptotic equivalence of choice of model by cross validation and Akaike s criterion en 39 1 44 47 JSTOR 2984877 angl Sugiura N 1978 Further analysis of the data by Akaike s information criterion and the finite corrections en 7 13 26 doi 10 1080 03610927808827599 angl Pomilka Lua u Modul Citation CS1 Utilities u ryadku 73 bad argument 1 to message newRawMessage string expected got nil yap Vrieze S I 2012 Model selection and psychological theory a discussion of the differences between the Akaike Information Criterion AIC and the Bayesian Information Criterion BIC en 17 2 228 243 doi 10 1037 a0027127 PMC 3366160 PMID 22309957 angl Yang Y 2005 Can the strengths of AIC and BIC be shared en 92 937 950 doi 10 1093 biomet 92 4 937 angl LiteraturaAkaike H 21 December 1981 PDF en 12 51 42 arhiv originalu PDF za 18 listopada 2017 procitovano 21 zhovtnya 2015 angl Hirocugu Akaike komentuye yak vin dijshov do IKA Anderson D R 2008 Model Based Inference in the Life Sciences Springer angl Arnold T W 2010 Uninformative parameters and model selection using Akaike s Information Criterion en 74 6 1175 1178 doi 10 1111 j 1937 2817 2010 tb01236 x angl Burnham K P Anderson D R Huyvaert K P 2011 PDF Behavioral Ecology and Sociobiology 65 23 35 doi 10 1007 s00265 010 1029 6 arhiv originalu PDF za 9 serpnya 2017 procitovano 30 grudnya 2019 angl Cavanaugh J E Neath A A 2019 The Akaike information criterion en 11 3 e1460 doi 10 1002 wics 1460 angl Ing C K Wei C Z 2005 Order selection for same realization predictions in autoregressive processes en 33 5 2423 2474 doi 10 1214 009053605000000525 angl Ko V 2019 Copula information crite rion for model selection with two stage maximum likelihood estimation Econometrics and Statistics 12 167 180 doi 10 1016 j ecosta 2019 01 001 angl Larski S 2012 PDF Thesis London School of Economics arhiv originalu PDF za 24 bereznya 2019 procitovano 30 grudnya 2019 angl Pan W 2001 PDF en 57 120 125 doi 10 1111 j 0006 341X 2001 00120 x arhiv originalu PDF za 5 travnya 2018 procitovano 30 grudnya 2019 angl Tanabe K Kitagawa G red 1998 Selected Papers of Hirotugu Akaike Springer doi 10 1007 978 1 4612 1694 0 angl Saefken B Kneib T van Waveren C S Greven S 2014 A unifying approach to the estimation of the conditional Akaike information in generalized linear mixed models en 8 201 225 doi 10 1214 14 EJS881 angl