У психометрії тео́рія ві́дгуку завда́ння (ТВЗ, англ. item response theory, IRT, відома також як тео́рія лате́нтних рис, англ. latent trait theory, си́льна тео́рія і́стинної оці́нки, англ. strong true score theory, та суча́сна тео́рія психометри́чного тестува́ння, англ. modern mental test theory) — це парадигма розробки, аналізу та оцінювання тестів, опитувальників та подібних інструментів, що вимірюють здібності, ставлення чи інші змінні. Це теорія тестування, яка ґрунтується на взаємозв'язку між продуктивністю осіб на окремому тестовому завданні та рівнем продуктивності тестованих за загальним показником здібності, для оцінювання якої було це завдання розроблено. Для подання характеристик як завдань, так і іспитників використовують кілька різних статистичних моделей. На відміну від простіших підходів до створення шкал та оцінювання відповідей на опитувальники, теорія відгуку завдання не виходить із того, що всі завдання мають однакову складність. Це відрізняє ТВЗ від, наприклад, лайкертового шкалювання, в якому «всі завдання вважають повтореннями одне одного, або, іншими словами, завдання розглядають як паралельні інструменти». Натомість теорія відгуку завдання враховує складність кожного завдання (характеристичні криві завдань, або ХКЗ, англ. item characteristic curve, ICC) як інформацію, яку слід включати в шкалюванні завдань.
Вона ґрунтується на застосуванні пов'язаних математичних моделей до тестових даних. Оскільки її часто вважають вищою за класичну теорію тестування, їй часто віддають перевагу для розробки шкал у США,[] особливо коли вимагаються оптимальні рішення, як у так званих тестах з високими ставками, як-то тест для вступу до магістратури (GRE) чи тест для допуску до магістерських програм з менеджменту (GMAT).
Назва теорія відгуку завдання зумовлена зосередженістю цієї теорії на завданні, на відміну від зосередженості на рівень тесту класичної теорії тестування. Таким чином, ТВЗ моделює відгук кожного іспитника заданої кваліфікації на кожне завдання в тесті. Термін завдання узагальнений, і охоплює всі види інформативних завдань. Це можуть бути завдання множинного вибору з неправильними та правильними відповідями, але також поширені й твердження в опитувальниках, які дозволяють респондентам вказувати рівень згоди (як-от чи лайкертове шкалювання), або симптоми пацієнта, оцінювані як присутні/відсутні, чи діагностична інформація в складних системах.
ТВЗ ґрунтується на ідеї, що ймовірність правильної/очікуваної відповіді на завдання є математичною функцією параметрів особи та завдання. (Вираз «математична функція параметрів особи та завдання» аналогічний , B = f(P, E), яке стверджує, що поведінка є функцією особи в її середовищі.) Параметр особи зазвичай розглядають як (єдину) латентну рису або вимір. До прикладів належать загальний рівень інтелекту та вираженість певного ставлення. До параметрів, за якими характеризують завдання, належать їхня складність (англ. difficulty, відома також як «розташування», англ. "location", через те, що їх розташовують на шкалі складності); розрізнювальність (англ. discrimination, нахил чи кореляція), яка відображає, наскільки різко рівень успіху осіб змінюється залежно від їхньої здібності; та параметр псевдовідгадуваності (англ. pseudoguessing), який характеризує (нижню) асимптоту, на якій навіть найнездібніші особи матимуть успіх через відгадування (наприклад, 25 % для чисто випадкової відповіді у завданні множинного вибору з чотирма можливими варіантами відповіді).
Аналогічним чином ТВЗ можливо використовувати для вимірювання людської поведінки в соціальних мережах в Інтернеті. Думки, висловлені різними людьми, можливо агрегувати для дослідження за допомогою ТВЗ. Також було оцінено її застосування для класифікування інформації як дезінформації чи достовірної інформації.
Огляд
Цей розділ потребує додаткових для поліпшення його .(січень 2025) |
Концепція функції відгуку завдання існувала ще до 1950 року. Піонерська робота над ТВЗ як теорією відбувалася в 1950-х та 1960-х роках. Три піонери цієї галузі — психометр зі Служби освітніх тестувань (англ. Educational Testing Service, ETS) , данський математик та австрійський соціолог Пауль Лазарсфельд, які проводили дослідження паралельно й незалежно. Серед ключових постатей, які зробили значний внесок у розвиток ТВЗ, слід згадати та . Широке використання ТВЗ розпочалося лише наприкінці 1970-х і 1980-х років, коли, з одного боку, практиків почали переконувати у «корисності» та «перевагах» ТВЗ, а з іншого — доступність персональних комп'ютерів надала багатьом дослідникам обчислювальні потужності, необхідні для застосування ТВЗ. У 1990-х роках розробила два програмні засоби для аналізу даних досліджень PISA та TIMSS: ACER ConQuest (1998) і пакет R TAM (2010).
Серед іншого, мета ТВЗ полягає у створенні системи для оцінювання ефективності роботи оцінювань та ефективності роботи окремих завдань в оцінюваннях. Найпоширенішим застосуванням ТВЗ є освіта, де психометри використовують її для розробки та проєктування іспитів, підтримування банків завдань для іспитів та вирівнювання (англ. equating) складності завдань для наступних версій іспитів (наприклад, для забезпечення можливості порівняння результатів з плином часу).
Моделі ТВЗ часто називають моделями латентних рис (англ. latent trait models). Термін латентний використовують для підкреслення того, що дискретні відповіді на завдання розглядаються як спостережувані прояви гіпотетичних рис, конструктів чи атрибутів, які безпосередньо не спостерігаються, але мусять бути виведені з проявлених відповідей. Моделі латентних рис розробили в галузі соціології, але вони практично ідентичні моделям ТВЗ.
ТВЗ зазвичай вважають вдосконаленням порівняно з класичною теорією тестування (КТТ). Для завдань, які можливо виконати за допомогою КТТ, ТВЗ зазвичай надає більшу гнучкість і пропонує витонченішу інформацію. Деякі застосування, як-от комп'ютеризоване адаптивне тестування, стають можливими завдяки ТВЗ і не можуть здійснюватися з використанням лише класичної теорії тестування. Ще однією перевагою ТВЗ над КТТ є те, що витонченіша інформація, яку надає ТВЗ, дає можливість дослідникові підвищити .
ТВЗ виходить із трьох припущень:
- Одновимірна риса, позначувана через ;
- завдань;
- Відповідь особи на завдання можливо змоделювати за допомогою математичної функції відгуку завдання (ФВЗ, англ. item response function, IRF).
Далі, вважають, що рису можливо виміряти за якоюсь шкалою (існування тесту вже виходить з цього), яку зазвичай налаштовують на стандартну шкалу із середнім значенням 0,0 і стандартним відхиленням 1,0. Одновимірність слід розуміти як однорідність, якість, яку потрібно визначити або емпірично довести відповідно до певної мети чи використання, а не як кількість, яку можливо виміряти. «Локальна незалежність» означає (а) що ймовірність використання одного завдання не залежить від використання будь-яких інших завдань і (б) що відповідь на завдання є незалежним рішенням кожного тестованого, тобто відсутнє списування або спільна робота парами чи групами. Питання вимірності зазвичай досліджують за допомогою факторного аналізу, тоді як ФВЗ є основною складовою ТВЗ і центром багатьох досліджень та літератури.
Функція відгуку завдання
Функція відгуку завдання (ФВЗ, англ. item response function, IRF) показує ймовірність того, що особа з певним рівнем здібностей відповість правильно. Особи з нижчим рівнем здібностей мають менше шансів, тоді як особи з високим рівнем здібностей, навпаки, дуже ймовірно дадуть правильну відповідь; наприклад, учні з вищими математичними здібностями з більшою ймовірністю правильно розв'яжуть математичне завдання. Точне значення ймовірності залежить, крім рівня здібностей, від набору параметрів завдання, які використовують у ФВЗ.
Трипараметрова логістична модель
Наприклад, у трипара́метровій логісти́чній моде́лі (3ПЛ, англ. three parameter logistic model, 3PL) ймовірність правильної відповіді на дихотомноме завдання i, зазвичай завдання множинного вибору, становить
де вказує, що здібності особи моделюються як вибірка з нормального розподілу для цілей оцінювання параметрів завдання. Після того як параметри завдання оцінено, оцінюються здібності окремих осіб для звітності. , та це параметри завдання. Вони визначають форму ФВЗ. Рис. 1 показує ідеальну характеристичну криву завдання (ХКЗ) 3ПЛ.
Параметри завдання можливо інтерпретувати як зміну форми стандартної логістичної функції:
Коротко, параметри інтерпретують наступним чином (для зручності індекси пропущено); b найосновніший, тому йде першим:
- b — складність, розташування завдання: середня точка між (мінімум) та 1 (максимум), а також точка, де нахил максимальний.
- a — розрізнювальність, масштаб, нахил: максимальний нахил
- c — псевдовідгадуваність, випадковість, асимптотичний мінімум
Якщо то формули спрощуються до та що означає, що b дорівнює рівню успіху в 50 % (складність), а a (поділений на чотири) є максимальним нахилом (розрізнювальністю), що виникає на рівні успіху в 50 %. Далі, (логарифм ) правильної відповіді дорівнює (за умови ): зокрема, якщо здібність θ дорівнює складності b, шанси на правильну відповідь рівні (1:1, тобто логіт 0). Що більше здібність перевищує складність (або відстає від неї), то вища (або нижча) ймовірність правильної відповіді, причому розрізнювальність a визначає, наскільки швидко збільшуються або зменшуються шанси зі зміною здібності.
Іншими словами, стандартна логістична функція має асимптотичний мінімум 0 (), центрована навколо 0 (, ) і має максимальний нахил Параметр розтягує горизонтальну шкалу, параметр зміщує горизонтальну шкалу, а параметр стискає вертикальну шкалу від до Докладніше це пояснено нижче.
Параметр подає розташування завдання, яке у випадку тестування досягнень називають складністю завдання. Це точка на , де ФВЗ має максимальний нахил і де значення знаходиться посередині між мінімальним значенням та максимальним значенням 1. Завдання в прикладі має середню складність, оскільки =0,0, що близько до центру розподілу. Зауважте, що ця модель масштабує складність завдання та рису особи на одному й тому же континуумі. Таким чином, можна говорити про те, що завдання приблизно таке ж складне, як рівень риси Особи A, або, що рівень риси особи приблизно дорівнює складності Завдання Y, в сенсі того, що успішне виконання завдання відображає певний рівень здібності.
Параметр завдання подає розрізнювальність завдання, тобто ступінь, до якого завдання розрізняє осіб у різних областях латентного континууму. Цей параметр характеризує нахил ФВЗ у точці, де він максимальний. У прикладі завдання має =1,0, що забезпечує доволі добру розрізнювальність; особи з низьким рівнем здібностей мають набагато менший шанс дати правильну відповідь, ніж особи з вищими здібностями. Цей параметр розрізнювальності відповідає ваговому коефіцієнту відповідного завдання чи показника у стандартній зваженій лінійній регресії ( ) і, таким чином, може бути використаний для створення зваженого індексу показників для некерованого вимірювання латентного поняття.
Для завдань, таких як завдання множинного вибору, параметр використовують для врахування впливу відгадування на ймовірність правильної відповіді. Він вказує ймовірність того, що особи з дуже низькими здібностями правильно відповідатимуть на це завдання випадково, математично виражену як нижня асимптота. У завданні множинного вибору з чотирма варіантами відповідей ФВЗ може виглядати так, як у прикладі; ймовірність вгадати правильну відповідь для кандидата з надзвичайно низькими здібностями становить 1/4, тому буде приблизно 0,25. Цей підхід виходить з того, що всі варіанти відповідей однаково ймовірні, оскільки, якщо один варіант виглядав би безглуздим, навіть особа з найнижчими здібностями могла б його відкинути, тож методи оцінювання параметрів у ТВЗ враховують це і оцінюють на основі спостережуваних даних.
Моделі ТВЗ
Загалом моделі ТВЗ можливо поділити на дві категорії: одновимірні та багатовимірні. Одновимірні моделі вимагають наявності однієї вимірюваної риси (здібності) . Багатовимірні моделі ТВЗ моделюють дані відгуку, що припускають виникнення з кількох рис. Проте, через значно вищу складність, більшість досліджень та застосувань ТВЗ використовують одновимірну модель.
Моделі ТВЗ також можливо класифікувати за кількістю оцінюваних відповідей. Типові завдання множинного вибору дихотомні (англ. dichotomous); навіть якщо завдання має чотири чи п'ять варіантів, його оцінюють лише як правильне/неправильне. Інший клас моделей застосовують до політомних (англ. polytomous) результатів, коли кожній відповіді надається різне значення балу. Поширеним прикладом цього є завдання лайкертового типу, наприклад, «Оцініть за шкалою від 1 до 5». Іншим прикладом є оцінювання з частковими балами, для якого можна застосовувати моделі на кшталт .
Кількість параметрів у ТВЗ
Дихотомні моделі ТВЗ описують кількістю параметрів, які вони використовують. Трипараметрову логістичну модель (3ПЛ) називають так через використання нею трьох параметрів завдань. Двопараметрова модель (2ПЛ) виходить з відсутності вгадування в даних, але дозволяє завданням варіюватися за розташуванням () та розрізнювальністю (). Однопараметрова модель (1ПЛ) виходить з того, що вгадування є частиною здібності, а всі завдання, які відповідають моделі, мають однакову розрізнювальність, тому завдання описують лише одним параметром (). Це означає, що однопараметрові моделі мають властивість специфічної об'єктивності, тобто порядок ранжування складності завдань однаковий для всіх респондентів незалежно від їхніх здібностей, а порядок ранжування здібностей осіб однаковий для завдань незалежно від їхньої складності. Таким чином, 1-параметрові моделі вибірково незалежні, що не є властивістю двопараметрових та трипараметрових моделей. На додачу, теоретично існує й чотирипараметрова модель (4ПЛ), з верхньою асимптотою, позначуваною через , де у 3ПЛ замінюють на . Проте використовують її нечасто. Зауважте, що абетковий порядок параметрів завдань не відповідає їхній практичній чи психометричній важливості; параметр розташування/складності () найважливіший, оскільки входить до всіх трьох моделей. 1ПЛ використовує лише , 2ПЛ використовує та , 3ПЛ додає , а 4ПЛ додає .
Двопараметрова модель еквівалентна трипараметровій моделі з і підходить для тестових завдань, де вгадування правильної відповіді дуже малоймовірне, як-от завдання на заповнення пропусків («Який квадратний корінь з 121?»), або де поняття вгадування незастосовне, наприклад, завдань із вимірювання особистісних рис, ставлень чи інтересів («Мені подобаються бродвейські мюзикли. Згоден/Не згоден»).
Однопараметрова модель виходить не лише з відсутності вгадування (або його неактуальності), а й з еквівалентності всіх завдань з погляду розрізнювальності, аналогічно звичайному факторному аналізу з ідентичними вагами для всіх завдань. Окремі завдання або особи можуть мати вторинні фактори, але їх вважають взаємно незалежними та спільно ортогональними.
Логістичні та нормальні моделі ТВЗ
Альтернативне формулювання будує ФВЗ на основі нормального розподілу ймовірності; такі моделі іноді називають нормально англ. normal ogive model). Наприклад, формула двопараметрової нормально ожайвової ФВЗ має вигляд
моделями (
де Φ — інтегральна функція розподілу (ІФР) стандартного нормального розподілу.
Нормально ожайвова модель випливає з припущення нормальної розподіленості похибки вимірювання, й через це теоретично приваблива. Тут — параметр складності завдання. Параметром розрізнювальності є , стандартне відхилення похибки вимірювання для завдання i, порівнянне з .
Нормально ожайвову модель латентної риси можливо оцінювати шляхом факторного аналізу матриці тетрахорних кореляцій між завданнями. Це означає, що технічно можливо оцінити просту модель ТВЗ за допомогою статистичного програмного забезпечення загального призначення.
Масштабуванням параметра здібності можливо зробити так, щоби логістична модель 2ПЛ була дуже близькою до інтегрально нормальної ожайви. Зазвичай ФВЗ логістичної 2ПЛ та нормальної-ожайвової моделей відрізняються ймовірністю не більш ніж на 0,01 по всьому діапазоні функції. Проте найбільша різниця спостерігається на хвостах розподілу, що мають більше впливу на результати.
Модель латентної риси/ТВЗ спочатку розробили з використанням нормальної ожайви, але це вважали занадто обчислювально вимогливим для комп'ютерів того часу (1960-ті роки). Логістичну модель запропонували як простішу альтернативу, й відтоді її широко використовували. Проте в подальшому було показано, що за допомогою стандартних поліноміальних наближень нормальної ІФР нормально ожайвова модель стає не вимогливішою обчислювально за логістичні моделі.
Модель Раша
часто вважають моделлю 1ПЛ ТВЗ. Проте прихильники моделювання за Рашем віддають перевагу розгляду її як цілком іншого підходу до концептуалізації взаємозв'язку між даними та теорією. Як і інші підходи до статистичного моделювання, ТВЗ наголошує на первинності допасованості моделі до спостережуваних даних, тоді як модель Раша підкреслює першорядність вимог до фундаментального вимірювання, де належна допасованість моделі є важливою, але другорядною вимогою, яку слід виконати, перш ніж тест чи інструмент дослідження можна вважати здатним вимірювати рису. Операційно це означає, що підходи ТВЗ містять додаткові параметри моделі для відображення закономірностей, спостережуваних у даних (наприклад, дозволяючи завданням варіюватися за їхньою кореляцією з латентною рисою), тоді як у підході Раша твердження щодо наявності латентної риси можливо вважати чинним лише за умови, що (а) дані допасовуються до моделі Раша, і (б) завдання тесту та іспитники відповідають цій моделі. Тому в моделях Раша недопасовані відгуки потребують діагностики причин цієї недопасованості, й можуть бути вилучені з набору даних, якщо можливо пояснити по суті, чому вони не охоплюють латентну рису. Таким чином, підхід Раша можливо вважати підтверджувальним підходом, на відміну від розвідувальних підходів, які намагаються моделювати спостережувані дані.
Наявність або відсутність параметра вгадування чи псевдовипадковості є основною й іноді суперечливою відмінністю. Підхід ТВЗ містить параметр лівої асимптоти, щоби враховувати вгадування у завданнях множинного вибору, тоді як модель Раша цього не робить, оскільки вважається, що вгадування додає до даних випадково розподілений шум. Оскільки шум розподілений випадково, вважається, що за умови тестування достатньої кількості завдань порядок ранжування осіб за латентною рисою за сирою оцінкою не зміниться, а лише зазнає лінійного масштабування. На противагу цьому, трипараметрова ТВЗ досягає допасованості даних і моделі шляхом вибору моделі, яка відповідає даним, ціною втрати .
На практиці модель Раша має принаймні дві основні переваги порівняно з підходом ТВЗ. Першою перевагою є першорядність специфічних вимог Раша, які (за умови їх виконання) забезпечують фундаментальне незалежне від особи вимірювання (коли осіб і завдання можна відобразити на одній інваріантній шкалі). Другою перевагою підходу Раша є те, що оцінювання параметрів є простішим у моделях Раша завдяки наявності достатньої статистики, що у цьому застосуванні означає взаємнооднозначне відображення сирих оцінок за кількістю правильних відповідей на оцінки у моделі Раша.
Аналіз допасованості моделі
Цей розділ не містить .(січень 2025) |
Як і з будь-яким використанням математичних моделей, важливо оцінити допасованість даних до моделі. Якщо недопасованість завдань із будь-якою моделлю пояснюється низькою якістю завдань, наприклад, заплутувальними відволіканнями в тесті множинного вибору, такі завдання може бути вилучено з цієї форми тесту й переписано або замінено в майбутніх формах тесту. Проте, якщо велика кількість недопасованих завдань спостерігається без очевидної причини цієї недопасованості, необхідно буде переглянути конструктивну валідність тесту, а специфікації тесту можуть потребувати переписування. Таким чином, недопасованість надає безцінні діагностичні інструменти для розробників тестів, дозволяючи емпірично перевіряти на основі даних гіпотези, на яких ґрунтуються специфікації тесту.
Для оцінювання допасованості існує кілька методів, як-от статистика хі-квадрат, або її стандартизована версія. Дво- та трипараметрові моделі ТВЗ коригують розрізнювальність завдань, забезпечуючи покращену допасованість даних і моделі, тому статистики допасованості не мають тієї підтверджувальної діагностичної цінності, яка спостерігається в однопараметрових моделях, де ідеалізовану модель задають заздалегідь.
Дані слід вилучати не на підставі недопасованості до моделі, а лише через те, що виявлено конструктивно доречну причину цієї недопасованості, наприклад, якщо не носій англійської мови складає тест із природничих наук, написаний англійською. Можна стверджувати, що такий кандидат не належить до тієї ж сукупності осіб залежно від вимірності тесту, і, хоча вважається, що однопараметрові моделі ТВЗ незалежні від вибірки, вони не незалежні від сукупності, тож така недопасованість є конструктивно доречною й не ставить під сумнів дійсність тесту чи моделі. Такий підхід є важливим інструментом у процесі валідації інструментів. У дво- та трипараметрових моделях, де психометричну модель коригують для допасування до даних, майбутні проведення тесту необхідно перевіряти на допасованість до тієї ж моделі, яку використовували під час початкової валідації, для підтвердження гіпотези, що оцінки з кожного проведення узагальнюються на інші проведення. Якщо ж для кожного проведення задають відмінну модель задля досягнення допасованості даних і моделі, то вимірюються відмінні латентні риси, й стверджувати, що результати тестів порівнянні між проведеннями, неможливо.
Інформація
Одним з основних внесків теорії відгуку завдання є розширення поняття
. Традиційно надійність стосується точності вимірювання (тобто ступеня, до якого вимірювання вільне від похибки). Традиційно її вимірюють за допомогою єдиного індексу, який визначають різними способами, як-от відношення дисперсії істинних оцінок до дисперсії спостережуваних оцінок. Цей індекс корисний для характеризування усередненої надійності тесту, наприклад, для порівняння двох тестів. Проте ТВЗ вияснює, що точність вимірювання не є однорідною в усьому діапазоні тестових оцінок. Оцінки на краях діапазону тесту, наприклад, зазвичай мають більшу похибку, ніж оцінки ближче до середини діапазону.Теорія відгуку завдання просуває поняття інформації завдання і тесту як заміну надійності. Інформація також є функцією параметрів моделі. Наприклад, за теорією інформації за Фішером, інформація завдання у випадку 1ПЛ для дихотомних даних відповіді є просто добутком імовірності правильної відповіді на імовірність неправильної відповіді, або
Стандартна похибка оцінювання (англ. standard error of estimation, SE) є оберненням інформації тесту на заданому рівні риси, що виражається формулою
Таким чином, більша інформація означає меншу похибку вимірювання.
Для інших моделей, як-от дво- та трипараметрових, параметр розрізнювальності відіграє у цій функції важливу роль. Функція інформації завдання для двопараметрової моделі виражається формулою
Функція інформації завдання для трипараметрової моделі має вигляд
Загалом, функції інформації завдань зазвичай мають форму дзвона. Високорозрізнювальні завдання мають високі вузькі функції інформації; вони роблять великий внесок, але у вузькому діапазоні. Менш розрізнювальні завдання надають менше інформації, але над ширшим діапазоном.
Графіки функцій інформації завдань можливо використовувати для оцінювання того, скільки інформації завдання привносить, й у якому діапазоні шкали оцінок. Завдяки локальній незалежності, функції інформації завдань похибки вимірювання.
. Відтак, функція інформації тесту є просто сумою функцій інформації завдань на іспиті. Використовуючи цю властивість разом із великим банком завдань, функціям інформації тесту можливо надавати потрібної форми для дуже точного контролюХарактеризування точності тестових оцінок є, мабуть, центральним питанням у психометричній теорії та головною відмінністю між ТВЗ і КТТ. Результати досліджень у межах ТВЗ виявляють, що поняття надійності з КТТ є спрощенням. Замість надійності ТВЗ пропонує функцію інформації тесту, яка показує ступінь прецизійності на різних значеннях тета, θ.
Ці результати дозволяють психометрам (потенційно) ретельно формувати рівень надійності для різних діапазонів здібності, включаючи ретельно підібрані завдання. Наприклад, у ситуації сертифікації, коли тест може бути лише складено або провалено, з єдиним «прохідним балом», і де фактичний прохідний бал неважливий, можливо розробити дуже ефективний тест, обравши лише завдання, що мають високу інформацію поблизу прохідного балу. Ці завдання зазвичай відповідають завданням, чия складність приблизно відповідає прохідному балу.
Оцінювання
Параметр особи подає величину латентної риси (англ. latent trait) особи, що є людською здатністю чи характеристикою, вимірюваною тестом. Це може бути когнітивна здібність, фізична здібність, навичка, знання, ставлення, особистісна риса тощо.
Оцінка параметра особи — «оцінка» (англ. "score") у тесті за ТВЗ — обчислюється та інтерпретується зовсім інакше, ніж традиційні оцінки, як-от кількість або відсоток правильних відповідей. Загальна кількість правильних відповідей особи не є фактичною оцінкою, яка натомість ґрунтується на ФВЗ, що веде до зваженої оцінки, якщо модель містить параметри розрізнювальності завдань. Фактично її отримують перемноженням функцій відгуку завдань для кожного з завдань для отримання функції правдоподібності (англ. likelihood function), найвища точка якої є оцінкою максимальної правдоподібності . Цю найвищу точку зазвичай оцінюють за допомогою програмного забезпечення ТВЗ, використовуючи метод Ньютона — Рафсона. Хоча оцінювання у ТВЗ значно складніше, для більшості тестів кореляція між оцінкою тета та традиційною оцінкою дуже висока; часто вона становить 0,95 чи більше.[] Графік оцінок ТВЗ проти традиційних оцінок має форму ожайви, що свідчить про те, що оцінки ТВЗ краще розрізняють осіб на межах діапазону, ніж у середині.
Важливою відмінністю між КТТ і ТВЗ є підхід до врахування похибки вимірювання, індексованої за допомогою стандартної похибки вимірювання. Усі тести, опитувальники та переписи є неточними інструментами; ми ніколи не можемо точно знати істинну оцінку особи, а маємо лише її оцінку, тобто спостережувану оцінку. Існує певна кількість випадкової похибки, яка може як підвищувати, так і знижувати спостережувану оцінку порівняно з істинною. КТТ виходить з того, що обсяг похибки однаковий для кожного іспитника, тоді як ТВЗ дозволяє йому варіюватися.
Крім того, нічого в ТВЗ не заперечує людський розвиток чи вдосконалення та не припускає, що рівень риси є незмінним. Особа може засвоїти навички, знання або навіть так звані «навички складання тестів», що можуть призводити до вищої істинної оцінки. Насправді частина досліджень у межах ТВЗ зосереджується на вимірюванні змін рівня риси.
Порівняння класичної теорії тестування та теорії відгуку завдання
Класична теорія тестування (КТТ) та ТВЗ загалом займаються одними й тими же задачами, але є різними теоретичними підходами та передбачають різні методи. Хоч обидві ці парадигми зазвичай і узгоджуються та взаємодоповнюють одна одну, між ними існує низка відмінностей:
- ТВЗ робить сильніші припущення, ніж КТТ, і в багатьох випадках надає відповідно сильніші висновки; насамперед це стосується характеристик похибки. Звісно, ці результати дійсні лише тоді, коли припущення моделей ТВЗ справджуються.
- Хоч результати КТТ і дозволили отримати важливі практичні висновки, модельно-орієнтована природа ТВЗ надає багато переваг над аналогічними висновками КТТ.
- Процедури оцінювання у КТТ мають перевагу в простоті обчислення (і пояснення), тоді як оцінювання за ТВЗ зазвичай вимагає відносно складних процедур.
- ТВЗ забезпечує кілька вдосконалень у шкалюванні завдань і осіб. Конкретні деталі залежать від моделі ТВЗ, але більшість моделей шкалюють складність завдань і здібності осіб за однією й тією ж метрикою. Тож складність завдання та здібності особи можливо змістовно порівнювати.
- Ще одним вдосконаленням, забезпечуваним ТВЗ, є те, що параметри моделей ТВЗ зазвичай не залежать від вибірки або тесту, тоді як істинна оцінка в КТТ визначається в контексті конкретного тесту. Таким чином, ТВЗ забезпечує значно більшу гнучкість у ситуаціях використання різних вибірок чи виглядів тесту. Ці висновки ТВЗ є засадничими для комп'ютеризованого адаптивного тестування.
Варто також згадати декілька специфічних схожостей між КТТ і ТВЗ, які допомагають зрозуміти відповідність між поняттями. По-перше, Лорд показав, що за припущення, що має нормальний розподіл, розрізнювальність у моделі 2ПЛ є приблизно монотонною функцією . Зокрема:
де — точково-бісеріальна кореляція завдання i. Таким чином, якщо припущення справджується, то за вищої розрізнювальності зазвичай спостерігатиметься вища точково-бісеріальна кореляція.
Ще однією схожістю є те, що хоча ТВЗ надає стандартну похибку для кожної оцінки й функцію інформації, також можливо отримати індекс для тесту загалом, безпосередньо аналогічний альфі Кронбаха, який називають індексом поділу (англ. separation index). Для цього потрібно почати з розкладу оцінки ТВЗ на істинне розташування та похибку, аналогічно розкладу спостережуваної оцінки на істинну оцінку та похибку в КТТ. Нехай
де — істинне розташування, а — похибка, пов'язана з оцінкою. Тоді є оцінкою стандартного відхилення для особи із заданою зваженою оцінкою, а індекс поділу отримується наступним чином:
де середньоквадратична стандартна похибка оцінки особи дає оцінку дисперсії похибок, , для різних осіб. Стандартні похибки зазвичай отримують як побічний продукт процесу оцінювання. Індекс поділу зазвичай дуже близький за значенням до альфи Кронбаха.
ТВЗ іноді називають сильною теорією істинної оцінки або сучасною теорією психометричного тестування через її сучасніший характер і чіткіше формулювання гіпотез, які в КТТ є неявними.
Втілення
Втілення різних варіацій теорії відгуку завдання доступні в багатьох статистичних програмах і мовах програмування, зокрема в мові програмування R, та Python.
Див. також
Примітки
- Колгатін, О.Г.; Колгатіна, Л.С. (2015). Інтерпретація тестових результатів на основі логістичної моделі в табличному процесорі. Теорія та методика навчання математики, фізики, інформатики (укр.). Кривий Ріг: ДВНЗ КНУ. 13 (2): 338—339. doi:10.55056/tmn.v13i2.795.
- Glossary of Important Assessment and Measurement Terms. National Council on Measurement in Education (англ.). Архів оригіналу за 22 липня 2017.
- van Alphen, A.; Halfens, R.; Hasman, A.; Imbos, T. (1994). Likert or Rasch? Nothing is more applicable than good theory. Journal of Advanced Nursing (англ.). 20: 196—201. doi:10.1046/j.1365-2648.1994.20010196.x.
- Embretson та Reise, 2000.
- ETS Research Overview (англ.). Архів оригіналу за 2 січня 2007.
- Мудрук, С. (серпень 2015). Вимоги до апробації екзаменаційних завдань та аналітичний супровід апробації. Методичний посібник (PDF) (укр.). USAID, проєкт «Справедливе правосуддя».
- Hambleton, R. K.; Swaminathan, H.; Rogers, H. J. (1991). Fundamentals of Item Response Theory (англ.). Newbury Park, CA: Sage Press.
- Bock, R.D.; (1981). Marginal maximum likelihood estimation of item parameters: application of an EM algorithm. Psychometrika (англ.). 46 (4): 443—459. doi:10.1007/BF02293801. S2CID 122123206.
- Ostini, Remo; Nering, Michael L. (2005). Polytomous Item Response Theory Models. Quantitative Applications in the Social Sciences (англ.). Т. 144. SAGE. ISBN .
- Nering, Michael L.; Ostini, Remo, ред. (2010). Handbook of polytomous item response theory models (англ.). Taylor & Francis. ISBN .
- Thissen, D.; Orlando, M. (2001). Item response theory for items scored in two categories. У Thissen, D.; Wainer, H. (ред.). Test Scoring (англ.). Mahwah, NJ: Lawrence Erlbaum Associates, Inc. с. 73—140. doi:10.4324/9781410604729.
- ; Sörbom, D. (1988). PRELIS 1 user's manual, version 1 (англ.). Chicago: Scientific Software, Inc.
- Camilli, Gregory (1994). Origin of the Scaling Constant d = 1.7 in Item Response Theory. Journal of Educational and Behavioral Statistics (англ.). 19 (3): 293—295. doi:10.3102/10769986019003293. S2CID 122401679.
- Abramowitz, M.; Stegun, I.A. (1972). Handbook of Mathematical Functions (PDF) (англ.). Washington DC: U. S. Government Printing Office. Архів (PDF) оригіналу за 21 вересня 2021.
- Uebersax, J.S. (December 1999). Probit latent class analysis with dichotomous or ordered category measures: conditional independence/dependence models. Applied Psychological Measurement (англ.). 23 (4): 283—297. doi:10.1177/01466219922031400. S2CID 120497324.
- Andrich, D (1989). Distinctions between assumptions and requirements in measurement in the Social sciences. У Keats, J.A; Taft, R.; Heath, R.A; Lovibond, S (ред.). Mathematical and Theoretical Systems (англ.). North Holland, Amsterdam: Elsevier Science Publishers. с. 7—16.
- Steinberg, J. (10 лютого 2000). Frederic Lord, Who Devised Testing Yardstick, Dies at 87. New York Times (англ.).
- Andrich, D. (January 2004). Controversy and the Rasch model: a characteristic of incompatible paradigms?. Medical Care (англ.). 42 (1): I—7. doi:10.1097/01.mlr.0000103528.48582.7c. PMID 14707751. S2CID 23087904.
- Smith, R.M. (1990). Theory and practice of fit. Rasch Measurement Transactions (англ.). 3 (4): 78.
- Zwick, R.; Thayer, D.T.; Wingersky, M. (December 1995). Effect of Rasch calibration on ability and DIF estimation in computer-adaptive tests. Journal of Educational Measurement (англ.). 32 (4): 341—363. doi:10.1111/j.1745-3984.1995.tb00471.x.
- Rasch, G. (1980) [1960, Copenhagen, Danish Institute for Educational Research]. Probabilistic models for some intelligence and attainment tests (англ.) (вид. expanded edition with foreword and afterword by B.D. Wright). Chicago: The University of Chicago Press.
- Wright, B.D. (1992). IRT in the 1990s: Which Models Work Best?. Rasch Measurement Transactions (англ.). 6 (1): 196—200.
- Fischer, G.H.; Molenaar, I.W. (1995). Rasch Models: Foundations, Recent Developments, and Applications (англ.). New York: Springer. doi:10.1007/978-1-4612-4230-7.
- de Ayala, R.J. (2009). The Theory and Practice of Item Response Theory (англ.). New York, NY: The Guilford Press. с. (6.12), p.144. ISBN .
- Lazarsfeld, P.F; Henry, N.W. (1968). Latent Structure Analysis (англ.). Boston: Houghton Mifflin.
- Thompson, N.A. (2009). Ability estimation with IRT (PDF) (англ.).
- Kolen, Michael J.; Zeng, Lingjia; Hanson, Bradley A. (June 1996). Conditional Standard Errors of Measurement for Scale Scores Using IRT. Journal of Educational Measurement (англ.). 33 (2): 129—140. doi:10.1111/j.1745-3984.1996.tb00485.x.
- Hall, L.A.; McDonald, J.L. (24–28 April 2000). Measuring Change in Teachers' Perceptions of the Impact that Staff Development Has on Teaching. Annual Meeting of the American Educational Research Association (англ.). New Orleans, LA.
- Lord, 1980.
- Andrich, D. (1982). An index of person separation in latent trait theory, the traditional KR.20 index, and the Guttman scale response pattern. Education Research and Perspectives (англ.). 9: 95—104.
- Chalmers, R. Philip (2012). mirt : A Multidimensional Item Response Theory Package for the R Environment. Journal of Statistical Software (англ.). 48 (6). doi:10.18637/jss.v048.i06.
- Bürkner, Paul-Christian (2021). Bayesian Item Response Modeling in R with brms and Stan. Journal of Statistical Software (англ.). 100 (5). doi:10.18637/jss.v100.i05.
- Mair, Patrick; Rosseel, Yves; Gruber, Kathrin (15 грудня 2023). CRAN Task View: Psychometric Models and Methods. cran.r-project.org (англ.). Процитовано 3 жовтня 2024.
- Lalor, John Patrick; Rodriguez, Pedro (January 2023). py-irt : A Scalable Item Response Theory Library for Python. INFORMS Journal on Computing (англ.). 35 (1): 5—13. doi:10.1287/ijoc.2022.1250.
Література
Було написано багато книг, які стосуються теорії відгуку завдання або містять моделі ТВЗ чи подібні до них. Це частковий перелік, зосереджений на текстах, які пропонують глибше занурення в тему.
- Lord, F.M. (1980). Applications of item response theory to practical testing problems (англ.). Mahwah, NJ: Lawrence Erlbaum Associates, Inc. doi:10.4324/9780203056615.
- Ця книга підсумовує багато робіт Лорда у сфері ТВЗ, включно з розділами про взаємозв'язок між ТВЗ і класичними методами, основи ТВЗ, оцінювання та кілька розширених тем. Розділ про оцінювання наразі застарілий, оскільки переважно обговорює метод спільної максимальної правдоподібності замість методу , втіленого Дарреллом Боком і його колегами.
- Embretson, Susan E.; Reise, Steven P. (2000). Item Response Theory for Psychologists (англ.). Psychology Press. ISBN .
- Ця книга є доступним вступом до ТВЗ, орієнтованим, як зазначено в назві, на психологів.
- Baker, Frank (2001). The Basics of Item Response Theory (англ.). ERIC Clearinghouse on Assessment and Evaluation, University of Maryland, College Park, MD.
- Ця вступна книга написана одним із піонерів у цій галузі.
- Baker, Frank B.; Kim, Seock-Ho (2004). Item Response Theory: Parameter Estimation Techniques (англ.) (вид. 2nd). Marcel Dekker. ISBN .
- У цій книзі описано різні моделі теорії відгуку завдання та надано докладні пояснення алгоритмів, які можна використовувати для оцінювання параметрів завдань і здібностей. Частини книги доступні онлайн як обмежений попередній перегляд у Google Книгах.
- van der Linden, Wim J.; Hambleton, Ronald K., ред. (1996). Handbook of Modern Item Response Theory (англ.). Springer. ISBN .
- Ця книга пропонує всебічний огляд різних популярних моделей ТВЗ. Вона добре підходить для тих, хто вже набув базового розуміння ТВЗ.
- de Boeck, Paul; Wilson, Mark (2004). Explanatory Item Response Models: A Generalized Linear and Nonlinear Approach (англ.). Springer. ISBN .
- У цьому томі пропонується інтегроване введення до моделей відгуку завдань, головним чином орієнтоване на практиків, дослідників і студентів.
- Fox, Jean-Paul (2010). Bayesian Item Response Modeling: Theory and Applications (англ.). Springer. ISBN .
- Ця книга обговорює баєсів підхід до моделювання відгуку завдань. Вона буде корисною для тих, хто знайомий із ТВЗ і має інтерес до аналізу даних відгуку завдань із баєсової перспективи.
Посилання
- HISTORY OF ITEM RESPONSE THEORY (up to 1982). (англ.).
- A Simple Guide to the Item Response Theory (PDF) (англ.).
- Psychometric Software Downloads (англ.).
- IRT Tutorial (англ.). Архів оригіналу за 10 грудня 2004.
- IRT Tutorial FAQ (англ.).
- An introduction to IRT (англ.).
- The Standards for Educational and Psychological Testing (англ.).
- IRT Command Language (ICL) computer program (англ.). Архів оригіналу за 13 червня 2006.
- IRT Programs from SSI, Inc (англ.). Архів оригіналу за 16 липня 2011.
- Latent Trait Analysis and IRT Models (англ.).
- Rasch analysis (англ.). Архів оригіналу за 25 серпня 2009.
- Rasch Analysis Programs from Winsteps (англ.).
- Item Response Theory (англ.).
- Free IRT software (англ.).
- IRT Packages in R (англ.).
- IRT / EIRT support in Lertap 5 (PDF) (англ.). Архів оригіналу (PDF) за 4 березня 2016.
- Visual IRT analysis and reporting with Xcalibre (англ.).
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U psihometriyi teo riya vi dguku zavda nnya 1 TVZ angl item response theory IRT vidoma takozh yak teo riya late ntnih ris angl latent trait theory si lna teo riya i stinnoyi oci nki angl strong true score theory ta sucha sna teo riya psihometri chnogo testuva nnya angl modern mental test theory ce paradigma rozrobki analizu ta ocinyuvannya testiv opituvalnikiv ta podibnih instrumentiv sho vimiryuyut zdibnosti stavlennya chi inshi zminni Ce teoriya testuvannya yaka gruntuyetsya na vzayemozv yazku mizh produktivnistyu osib na okremomu testovomu zavdanni ta rivnem produktivnosti testovanih za zagalnim pokaznikom zdibnosti dlya ocinyuvannya yakoyi bulo ce zavdannya rozrobleno Dlya podannya harakteristik yak zavdan tak i ispitnikiv vikoristovuyut kilka riznih statistichnih modelej 2 Na vidminu vid prostishih pidhodiv do stvorennya shkal ta ocinyuvannya vidpovidej na opituvalniki teoriya vidguku zavdannya ne vihodit iz togo sho vsi zavdannya mayut odnakovu skladnist Ce vidriznyaye TVZ vid napriklad lajkertovogo shkalyuvannya v yakomu vsi zavdannya vvazhayut povtorennyami odne odnogo abo inshimi slovami zavdannya rozglyadayut yak paralelni instrumenti 3 Natomist teoriya vidguku zavdannya vrahovuye skladnist kozhnogo zavdannya harakteristichni krivi zavdan abo HKZ angl item characteristic curve ICC yak informaciyu yaku slid vklyuchati v shkalyuvanni zavdan Vona gruntuyetsya na zastosuvanni pov yazanih matematichnih modelej do testovih danih Oskilki yiyi chasto vvazhayut vishoyu za klasichnu teoriyu testuvannya 4 yij chasto viddayut perevagu dlya rozrobki shkal u SShA dzherelo osoblivo koli vimagayutsya optimalni rishennya yak u tak zvanih testah z visokimi stavkami yak to test dlya vstupu do magistraturi GRE chi test dlya dopusku do magisterskih program z menedzhmentu GMAT Nazva teoriya vidguku zavdannya zumovlena zoseredzhenistyu ciyeyi teoriyi na zavdanni na vidminu vid zoseredzhenosti na riven testu klasichnoyi teoriyi testuvannya Takim chinom TVZ modelyuye vidguk kozhnogo ispitnika zadanoyi kvalifikaciyi na kozhne zavdannya v testi Termin zavdannya uzagalnenij i ohoplyuye vsi vidi informativnih zavdan Ce mozhut buti zavdannya mnozhinnogo viboru z nepravilnimi ta pravilnimi vidpovidyami ale takozh poshireni j tverdzhennya v opituvalnikah yaki dozvolyayut respondentam vkazuvati riven zgodi yak ot shkala ocinyuvannya inshi movi chi lajkertove shkalyuvannya abo simptomi paciyenta ocinyuvani yak prisutni vidsutni chi diagnostichna informaciya v skladnih sistemah TVZ gruntuyetsya na ideyi sho jmovirnist pravilnoyi ochikuvanoyi vidpovidi na zavdannya ye matematichnoyu funkciyeyu parametriv osobi ta zavdannya Viraz matematichna funkciya parametriv osobi ta zavdannya analogichnij rivnyannyu Levina inshi movi B f P E yake stverdzhuye sho povedinka ye funkciyeyu osobi v yiyi seredovishi Parametr osobi zazvichaj rozglyadayut yak yedinu latentnu risu abo vimir Do prikladiv nalezhat zagalnij riven intelektu ta virazhenist pevnogo stavlennya Do parametriv za yakimi harakterizuyut zavdannya nalezhat yihnya skladnist angl difficulty vidoma takozh yak roztashuvannya angl location cherez te sho yih roztashovuyut na shkali skladnosti rozriznyuvalnist angl discrimination nahil chi korelyaciya yaka vidobrazhaye naskilki rizko riven uspihu osib zminyuyetsya zalezhno vid yihnoyi zdibnosti ta parametr psevdovidgaduvanosti angl pseudoguessing yakij harakterizuye nizhnyu asimptotu na yakij navit najnezdibnishi osobi matimut uspih cherez vidgaduvannya napriklad 25 dlya chisto vipadkovoyi vidpovidi u zavdanni mnozhinnogo viboru z chotirma mozhlivimi variantami vidpovidi Analogichnim chinom TVZ mozhlivo vikoristovuvati dlya vimiryuvannya lyudskoyi povedinki v socialnih merezhah v Interneti Dumki vislovleni riznimi lyudmi mozhlivo agreguvati dlya doslidzhennya za dopomogoyu TVZ Takozh bulo ocineno yiyi zastosuvannya dlya klasifikuvannya informaciyi yak dezinformaciyi chi dostovirnoyi informaciyi Zmist 1 Oglyad 2 Funkciya vidguku zavdannya 2 1 Triparametrova logistichna model 3 Modeli TVZ 3 1 Kilkist parametriv u TVZ 3 2 Logistichni ta normalni modeli TVZ 3 3 Model Rasha 4 Analiz dopasovanosti modeli 5 Informaciya 6 Ocinyuvannya 7 Porivnyannya klasichnoyi teoriyi testuvannya ta teoriyi vidguku zavdannya 8 Vtilennya 9 Div takozh 10 Primitki 11 Literatura 12 PosilannyaOglyadred Cej rozdil potrebuye dodatkovih posilan na dzherela dlya polipshennya jogo perevirnosti Bud laska dopomozhit udoskonaliti cej rozdil dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno sichen 2025 Koncepciya funkciyi vidguku zavdannya isnuvala she do 1950 roku Pionerska robota nad TVZ yak teoriyeyu vidbuvalasya v 1950 h ta 1960 h rokah Tri pioneri ciyeyi galuzi psihometr zi Sluzhbi osvitnih testuvan angl Educational Testing Service ETS Frederik M Lord inshi movi 5 danskij matematik Georg Rash inshi movi ta avstrijskij sociolog Paul Lazarsfeld yaki provodili doslidzhennya paralelno j nezalezhno Sered klyuchovih postatej yaki zrobili znachnij vnesok u rozvitok TVZ slid zgadati Bendzhamina Drejka Rajta inshi movi ta Devida Andriha inshi movi Shiroke vikoristannya TVZ rozpochalosya lishe naprikinci 1970 h i 1980 h rokiv koli z odnogo boku praktikiv pochali perekonuvati u korisnosti ta perevagah TVZ a z inshogo dostupnist personalnih komp yuteriv nadala bagatom doslidnikam obchislyuvalni potuzhnosti neobhidni dlya zastosuvannya TVZ U 1990 h rokah Margaret Vu inshi movi rozrobila dva programni zasobi dlya analizu danih doslidzhen PISA ta TIMSS ACER ConQuest 1998 i paket R TAM 2010 Sered inshogo meta TVZ polyagaye u stvorenni sistemi dlya ocinyuvannya efektivnosti roboti ocinyuvan ta efektivnosti roboti okremih zavdan v ocinyuvannyah Najposhirenishim zastosuvannyam TVZ ye osvita de psihometri vikoristovuyut yiyi dlya rozrobki ta proyektuvannya ispitiv pidtrimuvannya bankiv zavdan dlya ispitiv ta virivnyuvannya 6 angl equating skladnosti zavdan dlya nastupnih versij ispitiv napriklad dlya zabezpechennya mozhlivosti porivnyannya rezultativ z plinom chasu 7 Modeli TVZ chasto nazivayut modelyami latentnih ris angl latent trait models Termin latentnij vikoristovuyut dlya pidkreslennya togo sho diskretni vidpovidi na zavdannya rozglyadayutsya yak sposterezhuvani proyavi gipotetichnih ris konstruktiv chi atributiv yaki bezposeredno ne sposterigayutsya ale musyat buti vivedeni z proyavlenih vidpovidej Modeli latentnih ris rozrobili v galuzi sociologiyi ale voni praktichno identichni modelyam TVZ TVZ zazvichaj vvazhayut vdoskonalennyam porivnyano z klasichnoyu teoriyeyu testuvannya KTT Dlya zavdan yaki mozhlivo vikonati za dopomogoyu KTT TVZ zazvichaj nadaye bilshu gnuchkist i proponuye vitonchenishu informaciyu Deyaki zastosuvannya yak ot komp yuterizovane adaptivne testuvannya stayut mozhlivimi zavdyaki TVZ i ne mozhut zdijsnyuvatisya z vikoristannyam lishe klasichnoyi teoriyi testuvannya She odniyeyu perevagoyu TVZ nad KTT ye te sho vitonchenisha informaciya yaku nadaye TVZ daye mozhlivist doslidnikovi pidvishiti nadijnist inshi movi ocinyuvannya inshi movi TVZ vihodit iz troh pripushen Odnovimirna risa poznachuvana cherez 8 displaystyle theta nbsp Lokalna nezalezhnist inshi movi zavdan Vidpovid osobi na zavdannya mozhlivo zmodelyuvati za dopomogoyu matematichnoyi funkciyi vidguku zavdannya FVZ angl item response function IRF Dali vvazhayut sho risu mozhlivo vimiryati za yakoyus shkaloyu isnuvannya testu vzhe vihodit z cogo yaku zazvichaj nalashtovuyut na standartnu shkalu iz serednim znachennyam 0 0 i standartnim vidhilennyam 1 0 Odnovimirnist slid rozumiti yak odnoridnist yakist yaku potribno viznachiti abo empirichno dovesti vidpovidno do pevnoyi meti chi vikoristannya a ne yak kilkist yaku mozhlivo vimiryati Lokalna nezalezhnist oznachaye a sho jmovirnist vikoristannya odnogo zavdannya ne zalezhit vid vikoristannya bud yakih inshih zavdan i b sho vidpovid na zavdannya ye nezalezhnim rishennyam kozhnogo testovanogo tobto vidsutnye spisuvannya abo spilna robota parami chi grupami Pitannya vimirnosti zazvichaj doslidzhuyut za dopomogoyu faktornogo analizu todi yak FVZ ye osnovnoyu skladovoyu TVZ i centrom bagatoh doslidzhen ta literaturi Funkciya vidguku zavdannyared Funkciya vidguku zavdannya FVZ angl item response function IRF pokazuye jmovirnist togo sho osoba z pevnim rivnem zdibnostej vidpovist pravilno Osobi z nizhchim rivnem zdibnostej mayut menshe shansiv todi yak osobi z visokim rivnem zdibnostej navpaki duzhe jmovirno dadut pravilnu vidpovid napriklad uchni z vishimi matematichnimi zdibnostyami z bilshoyu jmovirnistyu pravilno rozv yazhut matematichne zavdannya Tochne znachennya jmovirnosti zalezhit krim rivnya zdibnostej vid naboru parametriv zavdannya yaki vikoristovuyut u FVZ Triparametrova logistichna modelred nbsp Ris 1 Priklad FVZ 3PL de punktirnimi liniyami pokazano vpliv parametriv Napriklad u tripara metrovij logisti chnij mode li 3PL angl three parameter logistic model 3PL jmovirnist pravilnoyi vidpovidi na dihotomnome zavdannya i zazvichaj zavdannya mnozhinnogo viboru stanovit p i 8 c i 1 c i 1 e a i 8 b i displaystyle p i theta c i frac 1 c i 1 e a i theta b i nbsp de 8 displaystyle theta nbsp vkazuye sho zdibnosti osobi modelyuyutsya yak vibirka z normalnogo rozpodilu dlya cilej ocinyuvannya parametriv zavdannya Pislya togo yak parametri zavdannya ocineno ocinyuyutsya zdibnosti okremih osib dlya zvitnosti a i displaystyle a i nbsp b i displaystyle b i nbsp ta c i displaystyle c i nbsp ce parametri zavdannya Voni viznachayut formu FVZ Ris 1 pokazuye idealnu harakteristichnu krivu zavdannya HKZ 3PL Parametri zavdannya mozhlivo interpretuvati yak zminu formi standartnoyi logistichnoyi funkciyi P t 1 1 e t displaystyle P t frac 1 1 e t nbsp Korotko parametri interpretuyut nastupnim chinom dlya zruchnosti indeksi propusheno b najosnovnishij tomu jde pershim b skladnist roztashuvannya zavdannya p b 1 c 2 displaystyle p b 1 c 2 nbsp serednya tochka mizh c i displaystyle c i nbsp minimum ta 1 maksimum a takozh tochka de nahil maksimalnij a rozriznyuvalnist masshtab nahil maksimalnij nahil p b a 1 c 4 displaystyle p b a cdot 1 c 4 nbsp c psevdovidgaduvanist vipadkovist asimptotichnij minimum p c displaystyle p infty c nbsp Yaksho c 0 displaystyle c 0 nbsp to formuli sproshuyutsya do p b 1 2 displaystyle p b 1 2 nbsp ta p b a 4 displaystyle p b a 4 nbsp sho oznachaye sho b dorivnyuye rivnyu uspihu v 50 skladnist a a podilenij na chotiri ye maksimalnim nahilom rozriznyuvalnistyu sho vinikaye na rivni uspihu v 50 Dali logit inshi movi logarifm shansiv inshi movi pravilnoyi vidpovidi dorivnyuye a 8 b displaystyle a theta b nbsp za umovi c 0 displaystyle c 0 nbsp zokrema yaksho zdibnist 8 dorivnyuye skladnosti b shansi na pravilnu vidpovid rivni 1 1 tobto logit 0 Sho bilshe zdibnist perevishuye skladnist abo vidstaye vid neyi to visha abo nizhcha jmovirnist pravilnoyi vidpovidi prichomu rozriznyuvalnist a viznachaye naskilki shvidko zbilshuyutsya abo zmenshuyutsya shansi zi zminoyu zdibnosti Inshimi slovami standartna logistichna funkciya maye asimptotichnij minimum 0 c 0 displaystyle c 0 nbsp centrovana navkolo 0 b 0 displaystyle b 0 nbsp P 0 1 2 displaystyle P 0 1 2 nbsp i maye maksimalnij nahil P 0 1 4 displaystyle P 0 1 4 nbsp Parametr a displaystyle a nbsp roztyaguye gorizontalnu shkalu parametr b displaystyle b nbsp zmishuye gorizontalnu shkalu a parametr c displaystyle c nbsp stiskaye vertikalnu shkalu vid 0 1 displaystyle 0 1 nbsp do c 1 displaystyle c 1 nbsp Dokladnishe ce poyasneno nizhche Parametr b i displaystyle b i nbsp podaye roztashuvannya zavdannya yake u vipadku testuvannya dosyagnen nazivayut skladnistyu zavdannya Ce tochka na 8 displaystyle theta nbsp de FVZ maye maksimalnij nahil i de znachennya znahoditsya poseredini mizh minimalnim znachennyam c i displaystyle c i nbsp ta maksimalnim znachennyam 1 Zavdannya v prikladi maye serednyu skladnist oskilki b i displaystyle b i nbsp 0 0 sho blizko do centru rozpodilu Zauvazhte sho cya model masshtabuye skladnist zavdannya ta risu osobi na odnomu j tomu zhe kontinuumi Takim chinom mozhna govoriti pro te sho zavdannya priblizno take zh skladne yak riven risi Osobi A abo sho riven risi osobi priblizno dorivnyuye skladnosti Zavdannya Y v sensi togo sho uspishne vikonannya zavdannya vidobrazhaye pevnij riven zdibnosti Parametr zavdannya a i displaystyle a i nbsp podaye rozriznyuvalnist zavdannya tobto stupin do yakogo zavdannya rozriznyaye osib u riznih oblastyah latentnogo kontinuumu Cej parametr harakterizuye nahil FVZ u tochci de vin maksimalnij U prikladi zavdannya maye a i displaystyle a i nbsp 1 0 sho zabezpechuye dovoli dobru rozriznyuvalnist osobi z nizkim rivnem zdibnostej mayut nabagato menshij shans dati pravilnu vidpovid nizh osobi z vishimi zdibnostyami Cej parametr rozriznyuvalnosti vidpovidaye vagovomu koeficiyentu vidpovidnogo zavdannya chi pokaznika u standartnij zvazhenij linijnij regresiyi zvichajnih najmenshih kvadratah inshi movi i takim chinom mozhe buti vikoristanij dlya stvorennya zvazhenogo indeksu pokaznikiv dlya nekerovanogo vimiryuvannya latentnogo ponyattya Dlya zavdan takih yak zavdannya mnozhinnogo viboru parametr c i displaystyle c i nbsp vikoristovuyut dlya vrahuvannya vplivu vidgaduvannya na jmovirnist pravilnoyi vidpovidi Vin vkazuye jmovirnist togo sho osobi z duzhe nizkimi zdibnostyami pravilno vidpovidatimut na ce zavdannya vipadkovo matematichno virazhenu yak nizhnya asimptota U zavdanni mnozhinnogo viboru z chotirma variantami vidpovidej FVZ mozhe viglyadati tak yak u prikladi jmovirnist vgadati pravilnu vidpovid dlya kandidata z nadzvichajno nizkimi zdibnostyami stanovit 1 4 tomu c i displaystyle c i nbsp bude priblizno 0 25 Cej pidhid vihodit z togo sho vsi varianti vidpovidej odnakovo jmovirni oskilki yaksho odin variant viglyadav bi bezgluzdim navit osoba z najnizhchimi zdibnostyami mogla b jogo vidkinuti tozh metodi ocinyuvannya parametriv u TVZ vrahovuyut ce i ocinyuyut c i displaystyle c i nbsp na osnovi sposterezhuvanih danih 8 Modeli TVZred Zagalom modeli TVZ mozhlivo podiliti na dvi kategoriyi odnovimirni ta bagatovimirni Odnovimirni modeli vimagayut nayavnosti odniyeyi vimiryuvanoyi risi zdibnosti 8 displaystyle theta nbsp Bagatovimirni modeli TVZ modelyuyut dani vidguku sho pripuskayut viniknennya z kilkoh ris Prote cherez znachno vishu skladnist bilshist doslidzhen ta zastosuvan TVZ vikoristovuyut odnovimirnu model Modeli TVZ takozh mozhlivo klasifikuvati za kilkistyu ocinyuvanih vidpovidej Tipovi zavdannya mnozhinnogo viboru dihotomni angl dichotomous navit yaksho zavdannya maye chotiri chi p yat variantiv jogo ocinyuyut lishe yak pravilne nepravilne Inshij klas modelej zastosovuyut do politomnih angl polytomous rezultativ koli kozhnij vidpovidi nadayetsya rizne znachennya balu 9 10 Poshirenim prikladom cogo ye zavdannya lajkertovogo tipu napriklad Ocinit za shkaloyu vid 1 do 5 Inshim prikladom ye ocinyuvannya z chastkovimi balami dlya yakogo mozhna zastosovuvati modeli na kshtalt politomnoyi modeli Rasha inshi movi Kilkist parametriv u TVZred Dihotomni modeli TVZ opisuyut kilkistyu parametriv yaki voni vikoristovuyut 11 Triparametrovu logistichnu model 3PL nazivayut tak cherez vikoristannya neyu troh parametriv zavdan Dvoparametrova model 2PL vihodit z vidsutnosti vgaduvannya v danih ale dozvolyaye zavdannyam variyuvatisya za roztashuvannyam b i displaystyle b i nbsp ta rozriznyuvalnistyu a i displaystyle a i nbsp Odnoparametrova model 1PL vihodit z togo sho vgaduvannya ye chastinoyu zdibnosti a vsi zavdannya yaki vidpovidayut modeli mayut odnakovu rozriznyuvalnist tomu zavdannya opisuyut lishe odnim parametrom b i displaystyle b i nbsp Ce oznachaye sho odnoparametrovi modeli mayut vlastivist specifichnoyi ob yektivnosti tobto poryadok ranzhuvannya skladnosti zavdan odnakovij dlya vsih respondentiv nezalezhno vid yihnih zdibnostej a poryadok ranzhuvannya zdibnostej osib odnakovij dlya zavdan nezalezhno vid yihnoyi skladnosti Takim chinom 1 parametrovi modeli vibirkovo nezalezhni sho ne ye vlastivistyu dvoparametrovih ta triparametrovih modelej Na dodachu teoretichno isnuye j chotiriparametrova model 4PL z verhnoyu asimptotoyu poznachuvanoyu cherez d i displaystyle d i nbsp de 1 c i displaystyle 1 c i nbsp u 3PL zaminyuyut na d i c i displaystyle d i c i nbsp Prote vikoristovuyut yiyi nechasto Zauvazhte sho abetkovij poryadok parametriv zavdan ne vidpovidaye yihnij praktichnij chi psihometrichnij vazhlivosti parametr roztashuvannya skladnosti b i displaystyle b i nbsp najvazhlivishij oskilki vhodit do vsih troh modelej 1PL vikoristovuye lishe b i displaystyle b i nbsp 2PL vikoristovuye b i displaystyle b i nbsp ta a i displaystyle a i nbsp 3PL dodaye c i displaystyle c i nbsp a 4PL dodaye d i displaystyle d i nbsp Dvoparametrova model ekvivalentna triparametrovij modeli z c i 0 displaystyle c i 0 nbsp i pidhodit dlya testovih zavdan de vgaduvannya pravilnoyi vidpovidi duzhe malojmovirne yak ot zavdannya na zapovnennya propuskiv Yakij kvadratnij korin z 121 abo de ponyattya vgaduvannya nezastosovne napriklad zavdan iz vimiryuvannya osobistisnih ris stavlen chi interesiv Meni podobayutsya brodvejski myuzikli Zgoden Ne zgoden Odnoparametrova model vihodit ne lishe z vidsutnosti vgaduvannya abo jogo neaktualnosti a j z ekvivalentnosti vsih zavdan z poglyadu rozriznyuvalnosti analogichno zvichajnomu faktornomu analizu z identichnimi vagami dlya vsih zavdan Okremi zavdannya abo osobi mozhut mati vtorinni faktori ale yih vvazhayut vzayemno nezalezhnimi ta spilno ortogonalnimi Logistichni ta normalni modeli TVZred Alternativne formulyuvannya buduye FVZ na osnovi normalnogo rozpodilu jmovirnosti taki modeli inodi nazivayut normalno ozhajvovimi inshi movi modelyami angl normal ogive model Napriklad formula dvoparametrovoyi normalno ozhajvovoyi FVZ maye viglyad p i 8 F 8 b i s i displaystyle p i theta Phi left frac theta b i sigma i right nbsp de F integralna funkciya rozpodilu IFR standartnogo normalnogo rozpodilu Normalno ozhajvova model viplivaye z pripushennya normalnoyi rozpodilenosti pohibki vimiryuvannya j cherez ce teoretichno privabliva Tut b i displaystyle b i nbsp parametr skladnosti zavdannya Parametrom rozriznyuvalnosti ye s i displaystyle sigma i nbsp standartne vidhilennya pohibki vimiryuvannya dlya zavdannya i porivnyanne z 1 a i displaystyle 1 a i nbsp Normalno ozhajvovu model latentnoyi risi mozhlivo ocinyuvati shlyahom faktornogo analizu matrici tetrahornih korelyacij mizh zavdannyami 12 Ce oznachaye sho tehnichno mozhlivo ociniti prostu model TVZ za dopomogoyu statistichnogo programnogo zabezpechennya zagalnogo priznachennya Masshtabuvannyam parametra zdibnosti mozhlivo zrobiti tak shobi logistichna model 2PL bula duzhe blizkoyu do integralno normalnoyi ozhajvi 13 Zazvichaj FVZ logistichnoyi 2PL ta normalnoyi ozhajvovoyi modelej vidriznyayutsya jmovirnistyu ne bilsh nizh na 0 01 po vsomu diapazoni funkciyi Prote najbilsha riznicya sposterigayetsya na hvostah rozpodilu sho mayut bilshe vplivu na rezultati Model latentnoyi risi TVZ spochatku rozrobili z vikoristannyam normalnoyi ozhajvi ale ce vvazhali zanadto obchislyuvalno vimoglivim dlya komp yuteriv togo chasu 1960 ti roki Logistichnu model zaproponuvali yak prostishu alternativu j vidtodi yiyi shiroko vikoristovuvali Prote v podalshomu bulo pokazano sho za dopomogoyu standartnih polinomialnih nablizhen normalnoyi IFR 14 normalno ozhajvova model staye ne vimoglivishoyu obchislyuvalno za logistichni modeli 15 Model Rashared Model Rasha inshi movi chasto vvazhayut modellyu 1PL TVZ Prote prihilniki modelyuvannya za Rashem viddayut perevagu rozglyadu yiyi yak cilkom inshogo pidhodu do konceptualizaciyi vzayemozv yazku mizh danimi ta teoriyeyu 16 Yak i inshi pidhodi do statistichnogo modelyuvannya TVZ nagoloshuye na pervinnosti dopasovanosti modeli do sposterezhuvanih danih 17 todi yak model Rasha pidkreslyuye pershoryadnist vimog do fundamentalnogo vimiryuvannya de nalezhna dopasovanist modeli ye vazhlivoyu ale drugoryadnoyu vimogoyu yaku slid vikonati persh nizh test chi instrument doslidzhennya mozhna vvazhati zdatnim vimiryuvati risu 18 Operacijno ce oznachaye sho pidhodi TVZ mistyat dodatkovi parametri modeli dlya vidobrazhennya zakonomirnostej sposterezhuvanih u danih napriklad dozvolyayuchi zavdannyam variyuvatisya za yihnoyu korelyaciyeyu z latentnoyu risoyu todi yak u pidhodi Rasha tverdzhennya shodo nayavnosti latentnoyi risi mozhlivo vvazhati chinnim lishe za umovi sho a dani dopasovuyutsya do modeli Rasha i b zavdannya testu ta ispitniki vidpovidayut cij modeli Tomu v modelyah Rasha nedopasovani vidguki potrebuyut diagnostiki prichin ciyeyi nedopasovanosti j mozhut buti vilucheni z naboru danih yaksho mozhlivo poyasniti po suti chomu voni ne ohoplyuyut latentnu risu 19 Takim chinom pidhid Rasha mozhlivo vvazhati pidtverdzhuvalnim pidhodom na vidminu vid rozviduvalnih pidhodiv yaki namagayutsya modelyuvati sposterezhuvani dani Nayavnist abo vidsutnist parametra vgaduvannya chi psevdovipadkovosti ye osnovnoyu j inodi superechlivoyu vidminnistyu Pidhid TVZ mistit parametr livoyi asimptoti shobi vrahovuvati vgaduvannya u zavdannyah mnozhinnogo viboru todi yak model Rasha cogo ne robit oskilki vvazhayetsya sho vgaduvannya dodaye do danih vipadkovo rozpodilenij shum Oskilki shum rozpodilenij vipadkovo vvazhayetsya sho za umovi testuvannya dostatnoyi kilkosti zavdan poryadok ranzhuvannya osib za latentnoyu risoyu za siroyu ocinkoyu ne zminitsya a lishe zaznaye linijnogo masshtabuvannya Na protivagu comu triparametrova TVZ dosyagaye dopasovanosti danih i modeli shlyahom viboru modeli yaka vidpovidaye danim 20 cinoyu vtrati specifichnoyi ob yektivnosti Na praktici model Rasha maye prinajmni dvi osnovni perevagi porivnyano z pidhodom TVZ Pershoyu perevagoyu ye pershoryadnist specifichnih vimog Rasha 21 yaki za umovi yih vikonannya zabezpechuyut fundamentalne nezalezhne vid osobi vimiryuvannya koli osib i zavdannya mozhna vidobraziti na odnij invariantnij shkali 22 Drugoyu perevagoyu pidhodu Rasha ye te sho ocinyuvannya parametriv ye prostishim u modelyah Rasha zavdyaki nayavnosti dostatnoyi statistiki sho u comu zastosuvanni oznachaye vzayemnoodnoznachne vidobrazhennya sirih ocinok za kilkistyu pravilnih vidpovidej na ocinki 8 displaystyle theta nbsp u modeli Rasha 23 Analiz dopasovanosti modelired Cej rozdil ne mistit posilan na dzherela Vi mozhete dopomogti polipshiti cej rozdil dodavshi posilannya na nadijni avtoritetni dzherela Material bez dzherel mozhe buti piddano sumnivu ta vilucheno sichen 2025 Yak i z bud yakim vikoristannyam matematichnih modelej vazhlivo ociniti dopasovanist danih do modeli Yaksho nedopasovanist zavdan iz bud yakoyu modellyu poyasnyuyetsya nizkoyu yakistyu zavdan napriklad zaplutuvalnimi vidvolikannyami v testi mnozhinnogo viboru taki zavdannya mozhe buti vilucheno z ciyeyi formi testu j perepisano abo zamineno v majbutnih formah testu Prote yaksho velika kilkist nedopasovanih zavdan sposterigayetsya bez ochevidnoyi prichini ciyeyi nedopasovanosti neobhidno bude pereglyanuti konstruktivnu validnist testu a specifikaciyi testu mozhut potrebuvati perepisuvannya Takim chinom nedopasovanist nadaye bezcinni diagnostichni instrumenti dlya rozrobnikiv testiv dozvolyayuchi empirichno pereviryati na osnovi danih gipotezi na yakih gruntuyutsya specifikaciyi testu Dlya ocinyuvannya dopasovanosti isnuye kilka metodiv yak ot statistika hi kvadrat abo yiyi standartizovana versiya Dvo ta triparametrovi modeli TVZ koriguyut rozriznyuvalnist zavdan zabezpechuyuchi pokrashenu dopasovanist danih i modeli tomu statistiki dopasovanosti ne mayut tiyeyi pidtverdzhuvalnoyi diagnostichnoyi cinnosti yaka sposterigayetsya v odnoparametrovih modelyah de idealizovanu model zadayut zazdalegid Dani slid viluchati ne na pidstavi nedopasovanosti do modeli a lishe cherez te sho viyavleno konstruktivno dorechnu prichinu ciyeyi nedopasovanosti napriklad yaksho ne nosij anglijskoyi movi skladaye test iz prirodnichih nauk napisanij anglijskoyu Mozhna stverdzhuvati sho takij kandidat ne nalezhit do tiyeyi zh sukupnosti osib zalezhno vid vimirnosti testu i hocha vvazhayetsya sho odnoparametrovi modeli TVZ nezalezhni vid vibirki voni ne nezalezhni vid sukupnosti tozh taka nedopasovanist ye konstruktivno dorechnoyu j ne stavit pid sumniv dijsnist testu chi modeli Takij pidhid ye vazhlivim instrumentom u procesi validaciyi instrumentiv U dvo ta triparametrovih modelyah de psihometrichnu model koriguyut dlya dopasuvannya do danih majbutni provedennya testu neobhidno pereviryati na dopasovanist do tiyeyi zh modeli yaku vikoristovuvali pid chas pochatkovoyi validaciyi dlya pidtverdzhennya gipotezi sho ocinki z kozhnogo provedennya uzagalnyuyutsya na inshi provedennya Yaksho zh dlya kozhnogo provedennya zadayut vidminnu model zadlya dosyagnennya dopasovanosti danih i modeli to vimiryuyutsya vidminni latentni risi j stverdzhuvati sho rezultati testiv porivnyanni mizh provedennyami nemozhlivo Informaciyared Odnim z osnovnih vneskiv teoriyi vidguku zavdannya ye rozshirennya ponyattya nadijnosti inshi movi Tradicijno nadijnist stosuyetsya tochnosti vimiryuvannya tobto stupenya do yakogo vimiryuvannya vilne vid pohibki Tradicijno yiyi vimiryuyut za dopomogoyu yedinogo indeksu yakij viznachayut riznimi sposobami yak ot vidnoshennya dispersiyi istinnih ocinok do dispersiyi sposterezhuvanih ocinok Cej indeks korisnij dlya harakterizuvannya userednenoyi nadijnosti testu napriklad dlya porivnyannya dvoh testiv Prote TVZ viyasnyuye sho tochnist vimiryuvannya ne ye odnoridnoyu v usomu diapazoni testovih ocinok Ocinki na krayah diapazonu testu napriklad zazvichaj mayut bilshu pohibku nizh ocinki blizhche do seredini diapazonu Teoriya vidguku zavdannya prosuvaye ponyattya informaciyi zavdannya i testu yak zaminu nadijnosti Informaciya takozh ye funkciyeyu parametriv modeli Napriklad za teoriyeyu informaciyi za Fisherom informaciya zavdannya u vipadku 1PL dlya dihotomnih danih vidpovidi ye prosto dobutkom imovirnosti pravilnoyi vidpovidi na imovirnist nepravilnoyi vidpovidi abo I 8 p i 8 q i 8 displaystyle I theta p i theta q i theta nbsp Standartna pohibka ocinyuvannya angl standard error of estimation SE ye obernennyam informaciyi testu na zadanomu rivni risi sho virazhayetsya formuloyu SE 8 1 I 8 displaystyle text SE theta frac 1 sqrt I theta nbsp Takim chinom bilsha informaciya oznachaye menshu pohibku vimiryuvannya Dlya inshih modelej yak ot dvo ta triparametrovih parametr rozriznyuvalnosti vidigraye u cij funkciyi vazhlivu rol Funkciya informaciyi zavdannya dlya dvoparametrovoyi modeli virazhayetsya formuloyu I 8 a i 2 p i 8 q i 8 displaystyle I theta a i 2 p i theta q i theta nbsp Funkciya informaciyi zavdannya dlya triparametrovoyi modeli maye viglyad 24 I 8 a i 2 p i 8 c i 2 1 c i 2 q i 8 p i 8 displaystyle I theta a i 2 frac p i theta c i 2 1 c i 2 frac q i theta p i theta nbsp Zagalom funkciyi informaciyi zavdan zazvichaj mayut formu dzvona Visokorozriznyuvalni zavdannya mayut visoki vuzki funkciyi informaciyi voni roblyat velikij vnesok ale u vuzkomu diapazoni Mensh rozriznyuvalni zavdannya nadayut menshe informaciyi ale nad shirshim diapazonom Grafiki funkcij informaciyi zavdan mozhlivo vikoristovuvati dlya ocinyuvannya togo skilki informaciyi zavdannya privnosit j u yakomu diapazoni shkali ocinok Zavdyaki lokalnij nezalezhnosti funkciyi informaciyi zavdan aditivni inshi movi Vidtak funkciya informaciyi testu ye prosto sumoyu funkcij informaciyi zavdan na ispiti Vikoristovuyuchi cyu vlastivist razom iz velikim bankom zavdan funkciyam informaciyi testu mozhlivo nadavati potribnoyi formi dlya duzhe tochnogo kontrolyu pohibki vimiryuvannya Harakterizuvannya tochnosti testovih ocinok ye mabut centralnim pitannyam u psihometrichnij teoriyi ta golovnoyu vidminnistyu mizh TVZ i KTT Rezultati doslidzhen u mezhah TVZ viyavlyayut sho ponyattya nadijnosti z KTT ye sproshennyam Zamist nadijnosti TVZ proponuye funkciyu informaciyi testu yaka pokazuye stupin precizijnosti na riznih znachennyah teta 8 Ci rezultati dozvolyayut psihometram potencijno retelno formuvati riven nadijnosti dlya riznih diapazoniv zdibnosti vklyuchayuchi retelno pidibrani zavdannya Napriklad u situaciyi sertifikaciyi koli test mozhe buti lishe skladeno abo provaleno z yedinim prohidnim balom i de faktichnij prohidnij bal nevazhlivij mozhlivo rozrobiti duzhe efektivnij test obravshi lishe zavdannya sho mayut visoku informaciyu poblizu prohidnogo balu Ci zavdannya zazvichaj vidpovidayut zavdannyam chiya skladnist priblizno vidpovidaye prohidnomu balu Ocinyuvannyared Parametr osobi 8 displaystyle theta nbsp podaye velichinu latentnoyi risi angl latent trait osobi sho ye lyudskoyu zdatnistyu chi harakteristikoyu vimiryuvanoyu testom 25 Ce mozhe buti kognitivna zdibnist fizichna zdibnist navichka znannya stavlennya osobistisna risa tosho Ocinka parametra osobi ocinka angl score u testi za TVZ obchislyuyetsya ta interpretuyetsya zovsim inakshe nizh tradicijni ocinki yak ot kilkist abo vidsotok pravilnih vidpovidej Zagalna kilkist pravilnih vidpovidej osobi ne ye faktichnoyu ocinkoyu yaka natomist gruntuyetsya na FVZ sho vede do zvazhenoyi ocinki yaksho model mistit parametri rozriznyuvalnosti zavdan Faktichno yiyi otrimuyut peremnozhennyam funkcij vidguku zavdan dlya kozhnogo z zavdan dlya otrimannya funkciyi pravdopodibnosti angl likelihood function najvisha tochka yakoyi ye ocinkoyu maksimalnoyi pravdopodibnosti 8 displaystyle theta nbsp Cyu najvishu tochku zazvichaj ocinyuyut za dopomogoyu programnogo zabezpechennya TVZ vikoristovuyuchi metod Nyutona Rafsona 26 Hocha ocinyuvannya u TVZ znachno skladnishe dlya bilshosti testiv korelyaciya mizh ocinkoyu teta ta tradicijnoyu ocinkoyu duzhe visoka chasto vona stanovit 0 95 chi bilshe dzherelo Grafik ocinok TVZ proti tradicijnih ocinok maye formu ozhajvi sho svidchit pro te sho ocinki TVZ krashe rozriznyayut osib na mezhah diapazonu nizh u seredini Vazhlivoyu vidminnistyu mizh KTT i TVZ ye pidhid do vrahuvannya pohibki vimiryuvannya indeksovanoyi za dopomogoyu standartnoyi pohibki vimiryuvannya Usi testi opituvalniki ta perepisi ye netochnimi instrumentami mi nikoli ne mozhemo tochno znati istinnu ocinku osobi a mayemo lishe yiyi ocinku tobto sposterezhuvanu ocinku Isnuye pevna kilkist vipadkovoyi pohibki yaka mozhe yak pidvishuvati tak i znizhuvati sposterezhuvanu ocinku porivnyano z istinnoyu KTT vihodit z togo sho obsyag pohibki odnakovij dlya kozhnogo ispitnika todi yak TVZ dozvolyaye jomu variyuvatisya 27 Krim togo nichogo v TVZ ne zaperechuye lyudskij rozvitok chi vdoskonalennya ta ne pripuskaye sho riven risi ye nezminnim Osoba mozhe zasvoyiti navichki znannya abo navit tak zvani navichki skladannya testiv sho mozhut prizvoditi do vishoyi istinnoyi ocinki Naspravdi chastina doslidzhen u mezhah TVZ zoseredzhuyetsya na vimiryuvanni zmin rivnya risi 28 Porivnyannya klasichnoyi teoriyi testuvannya ta teoriyi vidguku zavdannyared Klasichna teoriya testuvannya KTT ta TVZ zagalom zajmayutsya odnimi j timi zhe zadachami ale ye riznimi teoretichnimi pidhodami ta peredbachayut rizni metodi Hoch obidvi ci paradigmi zazvichaj i uzgodzhuyutsya ta vzayemodopovnyuyut odna odnu mizh nimi isnuye nizka vidminnostej TVZ robit silnishi pripushennya nizh KTT i v bagatoh vipadkah nadaye vidpovidno silnishi visnovki nasampered ce stosuyetsya harakteristik pohibki Zvisno ci rezultati dijsni lishe todi koli pripushennya modelej TVZ spravdzhuyutsya Hoch rezultati KTT i dozvolili otrimati vazhlivi praktichni visnovki modelno oriyentovana priroda TVZ nadaye bagato perevag nad analogichnimi visnovkami KTT Proceduri ocinyuvannya u KTT mayut perevagu v prostoti obchislennya i poyasnennya todi yak ocinyuvannya za TVZ zazvichaj vimagaye vidnosno skladnih procedur TVZ zabezpechuye kilka vdoskonalen u shkalyuvanni zavdan i osib Konkretni detali zalezhat vid modeli TVZ ale bilshist modelej shkalyuyut skladnist zavdan i zdibnosti osib za odniyeyu j tiyeyu zh metrikoyu Tozh skladnist zavdannya ta zdibnosti osobi mozhlivo zmistovno porivnyuvati She odnim vdoskonalennyam zabezpechuvanim TVZ ye te sho parametri modelej TVZ zazvichaj ne zalezhat vid vibirki abo testu todi yak istinna ocinka v KTT viznachayetsya v konteksti konkretnogo testu Takim chinom TVZ zabezpechuye znachno bilshu gnuchkist u situaciyah vikoristannya riznih vibirok chi viglyadiv testu Ci visnovki TVZ ye zasadnichimi dlya komp yuterizovanogo adaptivnogo testuvannya Varto takozh zgadati dekilka specifichnih shozhostej mizh KTT i TVZ yaki dopomagayut zrozumiti vidpovidnist mizh ponyattyami Po pershe Lord 29 pokazav sho za pripushennya sho 8 displaystyle theta nbsp maye normalnij rozpodil rozriznyuvalnist u modeli 2PL ye priblizno monotonnoyu funkciyeyu tochkovo biserialnoyi korelyaciyi inshi movi Zokrema a i r i t 1 r i t 2 displaystyle a i cong frac rho it sqrt 1 rho it 2 nbsp de r i t displaystyle rho it nbsp tochkovo biserialna korelyaciya zavdannya i Takim chinom yaksho pripushennya spravdzhuyetsya to za vishoyi rozriznyuvalnosti zazvichaj sposterigatimetsya visha tochkovo biserialna korelyaciya She odniyeyu shozhistyu ye te sho hocha TVZ nadaye standartnu pohibku dlya kozhnoyi ocinki j funkciyu informaciyi takozh mozhlivo otrimati indeks dlya testu zagalom bezposeredno analogichnij alfi Kronbaha yakij nazivayut indeksom podilu angl separation index Dlya cogo potribno pochati z rozkladu ocinki TVZ na istinne roztashuvannya ta pohibku analogichno rozkladu sposterezhuvanoyi ocinki na istinnu ocinku ta pohibku v KTT Nehaj 8 8 ϵ displaystyle hat theta theta epsilon nbsp de 8 displaystyle theta nbsp istinne roztashuvannya a ϵ displaystyle epsilon nbsp pohibka pov yazana z ocinkoyu Todi SE 8 displaystyle mbox SE theta nbsp ye ocinkoyu standartnogo vidhilennya ϵ displaystyle epsilon nbsp dlya osobi iz zadanoyu zvazhenoyu ocinkoyu a indeks podilu otrimuyetsya nastupnim chinom R 8 var 8 var 8 var 8 var ϵ var 8 displaystyle R theta frac text var theta text var hat theta frac text var hat theta text var epsilon text var hat theta nbsp de serednokvadratichna standartna pohibka ocinki osobi daye ocinku dispersiyi pohibok ϵ n displaystyle epsilon n nbsp dlya riznih osib Standartni pohibki zazvichaj otrimuyut yak pobichnij produkt procesu ocinyuvannya Indeks podilu zazvichaj duzhe blizkij za znachennyam do alfi Kronbaha 30 TVZ inodi nazivayut silnoyu teoriyeyu istinnoyi ocinki abo suchasnoyu teoriyeyu psihometrichnogo testuvannya cherez yiyi suchasnishij harakter i chitkishe formulyuvannya gipotez yaki v KTT ye neyavnimi Vtilennyared Vtilennya riznih variacij teoriyi vidguku zavdannya dostupni v bagatoh statistichnih programah i movah programuvannya zokrema v movi programuvannya R 31 32 33 ta Python 34 Div takozhred Klasichna teoriya testuvannya Inventarizaciya ponyat inshi movi Diferencijovane funkcionuvannya zavdan inshi movi Teoriya uzagalnyuvanosti Analiz vidpovidnosti osobi Psihometriya Shkala suspilni nauki inshi movi Standartizovane testuvannya StataPrimitkired Kolgatin O G Kolgatina L S 2015 Interpretaciya testovih rezultativ na osnovi logistichnoyi modeli v tablichnomu procesori Teoriya ta metodika navchannya matematiki fiziki informatiki ukr Krivij Rig DVNZ KNU 13 2 338 339 doi 10 55056 tmn v13i2 795 Glossary of Important Assessment and Measurement Terms National Council on Measurement in Education angl Arhiv originalu za 22 lipnya 2017 van Alphen A Halfens R Hasman A Imbos T 1994 Likert or Rasch Nothing is more applicable than good theory Journal of Advanced Nursing angl 20 196 201 doi 10 1046 j 1365 2648 1994 20010196 x Embretson ta Reise 2000 ETS Research Overview angl Arhiv originalu za 2 sichnya 2007 Mudruk S serpen 2015 Vimogi do aprobaciyi ekzamenacijnih zavdan ta analitichnij suprovid aprobaciyi Metodichnij posibnik PDF ukr USAID proyekt Spravedlive pravosuddya Hambleton R K Swaminathan H Rogers H J 1991 Fundamentals of Item Response Theory angl Newbury Park CA Sage Press Bock R D Aitkin M 1981 Marginal maximum likelihood estimation of item parameters application of an EM algorithm Psychometrika angl 46 4 443 459 doi 10 1007 BF02293801 S2CID 122123206 Ostini Remo Nering Michael L 2005 Polytomous Item Response Theory Models Quantitative Applications in the Social Sciences angl T 144 SAGE ISBN 978 0 7619 3068 6 Nering Michael L Ostini Remo red 2010 Handbook of polytomous item response theory models angl Taylor amp Francis ISBN 978 0 8058 5992 8 Thissen D Orlando M 2001 Item response theory for items scored in two categories U Thissen D Wainer H red Test Scoring angl Mahwah NJ Lawrence Erlbaum Associates Inc s 73 140 doi 10 4324 9781410604729 Joreskog K G Sorbom D 1988 PRELIS 1 user s manual version 1 angl Chicago Scientific Software Inc Camilli Gregory 1994 Origin of the Scaling Constant d 1 7 in Item Response Theory Journal of Educational and Behavioral Statistics angl 19 3 293 295 doi 10 3102 10769986019003293 S2CID 122401679 Abramowitz M Stegun I A 1972 Handbook of Mathematical Functions PDF angl Washington DC U S Government Printing Office Arhiv PDF originalu za 21 veresnya 2021 Uebersax J S December 1999 Probit latent class analysis with dichotomous or ordered category measures conditional independence dependence models Applied Psychological Measurement angl 23 4 283 297 doi 10 1177 01466219922031400 S2CID 120497324 Andrich D 1989 Distinctions between assumptions and requirements in measurement in the Social sciences U Keats J A Taft R Heath R A Lovibond S red Mathematical and Theoretical Systems angl North Holland Amsterdam Elsevier Science Publishers s 7 16 Steinberg J 10 lyutogo 2000 Frederic Lord Who Devised Testing Yardstick Dies at 87 New York Times angl Andrich D January 2004 Controversy and the Rasch model a characteristic of incompatible paradigms Medical Care angl 42 1 I 7 doi 10 1097 01 mlr 0000103528 48582 7c PMID 14707751 S2CID 23087904 Smith R M 1990 Theory and practice of fit Rasch Measurement Transactions angl 3 4 78 Zwick R Thayer D T Wingersky M December 1995 Effect of Rasch calibration on ability and DIF estimation in computer adaptive tests Journal of Educational Measurement angl 32 4 341 363 doi 10 1111 j 1745 3984 1995 tb00471 x Rasch G 1980 1960 Copenhagen Danish Institute for Educational Research Probabilistic models for some intelligence and attainment tests angl vid expanded edition with foreword and afterword by B D Wright Chicago The University of Chicago Press Wright B D 1992 IRT in the 1990s Which Models Work Best Rasch Measurement Transactions angl 6 1 196 200 Fischer G H Molenaar I W 1995 Rasch Models Foundations Recent Developments and Applications angl New York Springer doi 10 1007 978 1 4612 4230 7 de Ayala R J 2009 The Theory and Practice of Item Response Theory angl New York NY The Guilford Press s 6 12 p 144 ISBN 978 1 59385 869 8 Lazarsfeld P F Henry N W 1968 Latent Structure Analysis angl Boston Houghton Mifflin Thompson N A 2009 Ability estimation with IRT PDF angl Kolen Michael J Zeng Lingjia Hanson Bradley A June 1996 Conditional Standard Errors of Measurement for Scale Scores Using IRT Journal of Educational Measurement angl 33 2 129 140 doi 10 1111 j 1745 3984 1996 tb00485 x Hall L A McDonald J L 24 28 April 2000 Measuring Change in Teachers Perceptions of the Impact that Staff Development Has on Teaching Annual Meeting of the American Educational Research Association angl New Orleans LA Lord 1980 Andrich D 1982 An index of person separation in latent trait theory the traditional KR 20 index and the Guttman scale response pattern Education Research and Perspectives angl 9 95 104 Chalmers R Philip 2012 mirt A Multidimensional Item Response Theory Package for the R Environment Journal of Statistical Software angl 48 6 doi 10 18637 jss v048 i06 Burkner Paul Christian 2021 Bayesian Item Response Modeling in R with brms and Stan Journal of Statistical Software angl 100 5 doi 10 18637 jss v100 i05 Mair Patrick Rosseel Yves Gruber Kathrin 15 grudnya 2023 CRAN Task View Psychometric Models and Methods cran r project org angl Procitovano 3 zhovtnya 2024 Lalor John Patrick Rodriguez Pedro January 2023 py irt A Scalable Item Response Theory Library for Python INFORMS Journal on Computing angl 35 1 5 13 doi 10 1287 ijoc 2022 1250 Literaturared Bulo napisano bagato knig yaki stosuyutsya teoriyi vidguku zavdannya abo mistyat modeli TVZ chi podibni do nih Ce chastkovij perelik zoseredzhenij na tekstah yaki proponuyut glibshe zanurennya v temu Lord F M 1980 Applications of item response theory to practical testing problems angl Mahwah NJ Lawrence Erlbaum Associates Inc doi 10 4324 9780203056615 Cya kniga pidsumovuye bagato robit Lorda u sferi TVZ vklyuchno z rozdilami pro vzayemozv yazok mizh TVZ i klasichnimi metodami osnovi TVZ ocinyuvannya ta kilka rozshirenih tem Rozdil pro ocinyuvannya narazi zastarilij oskilki perevazhno obgovoryuye metod spilnoyi maksimalnoyi pravdopodibnosti zamist metodu vidosoblenoyi maksimalnoyi pravdopodibnosti vtilenogo Darrellom Bokom i jogo kolegami Embretson Susan E Reise Steven P 2000 Item Response Theory for Psychologists angl Psychology Press ISBN 978 0 8058 2819 1 Cya kniga ye dostupnim vstupom do TVZ oriyentovanim yak zaznacheno v nazvi na psihologiv Baker Frank 2001 The Basics of Item Response Theory angl ERIC Clearinghouse on Assessment and Evaluation University of Maryland College Park MD Cya vstupna kniga napisana odnim iz pioneriv u cij galuzi Baker Frank B Kim Seock Ho 2004 Item Response Theory Parameter Estimation Techniques angl vid 2nd Marcel Dekker ISBN 978 0 8247 5825 7 U cij knizi opisano rizni modeli teoriyi vidguku zavdannya ta nadano dokladni poyasnennya algoritmiv yaki mozhna vikoristovuvati dlya ocinyuvannya parametriv zavdan i zdibnostej Chastini knigi dostupni onlajn yak obmezhenij poperednij pereglyad u Google Knigah van der Linden Wim J Hambleton Ronald K red 1996 Handbook of Modern Item Response Theory angl Springer ISBN 978 0 387 94661 0 Cya kniga proponuye vsebichnij oglyad riznih populyarnih modelej TVZ Vona dobre pidhodit dlya tih hto vzhe nabuv bazovogo rozuminnya TVZ de Boeck Paul Wilson Mark 2004 Explanatory Item Response Models A Generalized Linear and Nonlinear Approach angl Springer ISBN 978 0 387 40275 8 U comu tomi proponuyetsya integrovane vvedennya do modelej vidguku zavdan golovnim chinom oriyentovane na praktikiv doslidnikiv i studentiv Fox Jean Paul 2010 Bayesian Item Response Modeling Theory and Applications angl Springer ISBN 978 1 4419 0741 7 Cya kniga obgovoryuye bayesiv pidhid do modelyuvannya vidguku zavdan Vona bude korisnoyu dlya tih hto znajomij iz TVZ i maye interes do analizu danih vidguku zavdan iz bayesovoyi perspektivi Posilannyared HISTORY OF ITEM RESPONSE THEORY up to 1982 University of Illinois at Chicago inshi movi angl A Simple Guide to the Item Response Theory PDF angl Psychometric Software Downloads angl IRT Tutorial angl Arhiv originalu za 10 grudnya 2004 IRT Tutorial FAQ angl An introduction to IRT angl The Standards for Educational and Psychological Testing angl IRT Command Language ICL computer program angl Arhiv originalu za 13 chervnya 2006 IRT Programs from SSI Inc angl Arhiv originalu za 16 lipnya 2011 Latent Trait Analysis and IRT Models angl Rasch analysis angl Arhiv originalu za 25 serpnya 2009 Rasch Analysis Programs from Winsteps angl Item Response Theory angl Free IRT software angl IRT Packages in R angl IRT EIRT support in Lertap 5 PDF angl Arhiv originalu PDF za 4 bereznya 2016 Visual IRT analysis and reporting with Xcalibre angl Otrimano z https uk wikipedia org w index php title Teoriya vidguku zavdannya amp oldid 44505668 Funkciya vidguku zavdannya