Про критерій значущості див F тест В статистичнім аналізі бінарної класифікації F міра англ F score F measure це одна з

Про критерій значущості див. F-тест.

В статистичнім аналізі бінарної класифікації, F-міра (англ. F-score, F-measure) — це одна з мір точності тесту. Її обчислюють через влучність та повноту тесту, де влучність є числом правильно визначених позитивних результатів, поділеним на число всіх позитивних результатів, включно з визначеними неправильно, а повнота є числом правильно визначених позитивних результатів, поділеним на число всіх зразків, які повинно було бути визначено як позитивні.

Міра F₁ є середнім гармонійним цих влучності та повноти. Загальніша міра F_β застосовує додаткові ваги, оцінюючи або влучність, або повноту вище за іншу.

Найвищим можливим значенням F-міри є 1, що вказує на ідеальні влучність та повноту, а найнижчим можливим значенням є 0, якщо або влучність, або повнота є нульовими. Міра F₁ є також відомою як індекс Соренсена, та коефіцієнт подібності Дайса (англ. Dice similarity coefficient, DSC).^[]

Етимологія

Вважають, що назву F-міри вона отримала на честь іншої F-функції з книги ван Рійсберґена, коли її було представлено та четвертій ^[en] (англ. Fourth Message Understanding Conference, MUC-4, 1992).

Визначення

Традиційна F-міра, або збалансована F-оцінка (міра F₁) є середнім гармонійним влучності та повноти:

F₁ = 2повнота^-1 + влучність^-1 = 2 · влучність · повнотавлучність + повнота = ІПІП + 12(ХП + ХН).

F_β

Загальнішою F-мірою, F_β, що використовує додатний дійснозначний коефіцієнт β, де β обирають так, що повноту вважають у β разів важливішою за влучність, є

F_β = (1 + β²) · влучність · повнота(β² · влучність) + повнота

В термінах помилок першого і другого роду це стає:

F_β = (1 + β²) · істинно позитивні(1 + β²) · істинно позитивні + β² · хибно негативні + хибно позитивні

Двома широко вживаними значеннями β є 2, яке надає повноті більшої ваги, ніж влучності, та 0,5, яке надає повноті меншої ваги, ніж влучності.

F-міру було виведено таким чином, що F_β «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності». Вона ґрунтується на мірі ефективності ^[en]

E = 1 − (αв + 1 − αп)⁻¹

Вони є взаємопов'язаними як F_β = 1 − E, де α = 1/1 + β².

Діагностичне дослідження

Воно пов'язане з галуззю бінарної класифікації, де повноту часто називають «чутливістю».

		Справжній стан
	загальна сукупність	позитивний стан	негативний стан	поширеність = Σ позитивних станів/Σ загальної сукупності	точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності
Прогнозований стан	позитивний прогнозований стан	(істинно позитивний)	(хибно позитивний), помилка I роду	прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів	^[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів
	негативний прогнозований стан	(хибно негативний), помилка II роду	(істинно негативний)	(рівень хибного пропускання) (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів	прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів
		істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів	хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів	відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР	діагностичне відношення шансів (ДВШ) = ВП+/ВП−	міра F₁ = 2 · влучність · повнота/влучність + повнота
		(хибнонегативний рівень) (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів	специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів	відношення правдоподібності негативного результату (ВП-) = ХНР/ІНР

Застосування

F-міру часто використовують в галузі інформаційного пошуку для вимірювання продуктивності пошуку, класифікації документів, та ^[en]. Ранні праці зосереджувалися переважно на мірі F₁, але з поширенням великомасштабних пошукових рушіїв цілі продуктивності змінилися на акцентування більшої уваги або на влучності, або на повноті, тож F_β помітно у широкому вжитку.

F-міру також використовують у машиннім навчанні. Проте, F-міри не беруть до уваги істинно негативних, тож для оцінювання продуктивності бінарного класифікатора можуть віддавати перевагу ^[en] чи ^[en].

F-міра знайшла широкий вжиток в літературі з обробки природних мов, наприклад, при оцінюванні розпізнавання іменованих сутностей та ^[en].

Критика

^[en] та інші критикують широке використання міри F₁, оскільки вона надає однакової важливості влучності та повноті. На практиці, різні типи помилкової класифікації призводять до різних втрат. Іншими словами, відносна важливість влучності та повноти є одним із аспектів задачі.

Згідно Давіде Чікко та Джузеппе Журмана, міра F₁ є менш правдивою та інформативною для класифікації бінарного оцінювання, ніж ^[en] (ККМ, англ. Matthews correlation coefficient, MCC).

Девід Пауерс вказав, що F₁ ігнорує істинно негативні, й відтак є оманливою для незбалансованих класів, тоді як міри каппа та кореляції є симетричними, й оцінюють обидва напрямки передбачуваності — класифікатор, що передбачує істинний клас, та істинний клас, що передбачує передбачення класифікатора, пропонуючи окремі багатокласові міри ^[en] та ^[en] для цих двох напрямків, зазначаючи, що їхнє середнє геометричне є кореляцією.

Відмінність від індексу Фаулкса — Меттьюза

В той час як F-міра є середнім гармонійним повноти та влучності, ^[en] є їхнім середнім геометричним.

Розширення до багатокласової класифікації

F-міру також використовують для оцінювання задач із понад двома класами (^[en]). В цій постановці остаточну міру отримують мікроусереднюванням (з упередженням за частотою класів) або макроусереднюванням (беручи всі класи однаково важливими). Для макроусереднювання застосовувачі використовувати дві різні формули: F-міру (арифметичних) середніх влучності та повноти по всіх класах, та арифметичне середнє F-мір по всіх класах, серед яких крайня виявляє бажаніші властивості.

Див. також

Матриця невідповідностей
METEOR
^[en]
^[en]
Робоча характеристика приймача
^[en]
^[en], відомий також як вправність (англ. proficiency)
^[en]

Примітки

Гущин, І. В.; Сич, Д. О. (жовтень 2018). (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 4 жовтня 2020.
Alguliyev, R. M.; Aliguliyev, R. M.; Imamverdiyev, Y. N.; Sukhostat, L. V. (2018). An improved ensemble approach for dos attacks detection. Радіоелектроніка, інформатика, управління. 2: 73—82.
Sasaki, Y. (2007). (PDF). Архів оригіналу (PDF) за 23 вересня 2020. Процитовано 4 жовтня 2020. (англ.)
Van Rijsbergen, C. J. (1979). (вид. 2nd). Butterworth-Heinemann. Архів оригіналу за 6 квітня 2005. Процитовано 4 жовтня 2020. (англ.)
Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Дипломна робота Ph.D.). IIT. CiteSeerX 10.1.1.127.634. (англ.)
X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. doi:10.1145/1390334.1390393. S2CID 8482989. (англ.)
Див., наприклад, оцінку [1]. (англ.)
Powers, David M. W (2015). What the F-measure doesn't measure. arXiv:1503.06410 [cs.IR]. (англ.)
Derczynski, L. (2016). . Proceedings of the International Conference on Language Resources and Evaluation. Архів оригіналу за 8 березня 2021. Процитовано 4 жовтня 2020. (англ.)
Hand, David. . app.dimensions.ai (англ.). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Архів оригіналу за 9 жовтня 2020. Процитовано 8 грудня 2018. (англ.)
Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () (англ.)
Powers, David M W (2011). Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)
Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics (ahead-of-print). doi:10.1016/j.aci.2018.08.003. (англ.)
J. Opitz; S. Burst (2019). Macro F1 and Macro F1. arXiv:1911.03347 [stat.ML]. (англ.)

[ГущинСич2018-1] Гущин, І. В.; Сич, Д. О. (жовтень 2018). (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 4 жовтня 2020.

[2] Alguliyev, R. M.; Aliguliyev, R. M.; Imamverdiyev, Y. N.; Sukhostat, L. V. (2018). An improved ensemble approach for dos attacks detection. Радіоелектроніка, інформатика, управління. 2: 73—82.

[3] Sasaki, Y. (2007). (PDF). Архів оригіналу (PDF) за 23 вересня 2020. Процитовано 4 жовтня 2020. (англ.)

[4] Van Rijsbergen, C. J. (1979). (вид. 2nd). Butterworth-Heinemann. Архів оригіналу за 6 квітня 2005. Процитовано 4 жовтня 2020. (англ.)

[5] Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Дипломна робота Ph.D.). IIT. CiteSeerX 10.1.1.127.634. (англ.)

[6] X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. doi:10.1145/1390334.1390393. S2CID 8482989. (англ.)

[7] Див., наприклад, оцінку [1]. (англ.)

[8] Powers, David M. W (2015). What the F-measure doesn't measure. arXiv:1503.06410 [cs.IR]. (англ.)

[Derczynski2016-9] Derczynski, L. (2016). . Proceedings of the International Conference on Language Resources and Evaluation. Архів оригіналу за 8 березня 2021. Процитовано 4 жовтня 2020. (англ.)

[10] Hand, David. . app.dimensions.ai (англ.). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Архів оригіналу за 9 жовтня 2020. Процитовано 8 грудня 2018. (англ.)

[11] Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () (англ.)

[Powers2007-12] Powers, David M W (2011). Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)

[13] Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics (ahead-of-print). doi:10.1016/j.aci.2018.08.003. (англ.)

[14] J. Opitz; S. Burst (2019). Macro F1 and Macro F1. arXiv:1911.03347 [stat.ML]. (англ.)