METEOR (Metric for Evaluation of Translation with Explicit ORdering) — метрика для оцінювання якості машинного перекладу. Метрика базується на використанні n-gram та орієнтована на використання статистичної та точної оцінки вихідного тексту. На відміну від метрики BLUE, дана метрика використовує функції співставлення синонімів разом із точною відповідністю слів. Метрика була розроблена, щоб вирішити проблеми, які були знайдені в більш популярній метриці BLUE, а також відтворити хорошу кореляцію з оцінкою експертів на рівні словосполучень або речень.
В результаті запуску метрики на рівні словосполучень кореляція з людським рішенням становила 0.964 тоді як метрика BLUE становила 0.817 на тому ж наборі вхідних даних. На рівні речень максимальна кореляція з оцінкою експертів була 0.403.[1]
Алгоритм
Як і в метриці BLUE, основна одиниця для оцінки — речення, алгоритм спочатку проводить вирівнювання тексту між двома реченням, рядком еталонного перекладу та рядком вхідного тексту для оцінювання (див. рисунки а та б). Дана метрика використовує декілька етапів встановлення відповідності між словами машинного перекладу й еталонного перекладу для зіставлення двох рядків:
1. Точне встановлення відповідності — визначаються рядки, що є ідентичними в еталонному і машинному перекладі.
2. Встановлення відповідності основ — проводиться стемінг (виділення основи слова) і визначаються слова з однаковим коренем в еталонному і машинному перекладі.
3. Встановлення відповідності синонімів — визначаються слова, що є синонімами відповідно до WordNet.
Вирівнювання — є множиною відповідностей між n-gram-ами. На відповідності накладається наступне обмеження: кожен n-gram в реченні-кандидаті повинен відповідати одному або жодному n-gram-у в еталонному реченні. Якщо є два вирівнювання з тіє самою кількістю збігів, то вибирається те, яке має найменшу кількість перетинів для збігів. В такому випадку буде вибрано варіант (а). Етапи порівняння з еталонними перекладами виконуються послідовно і на кожному з них до множини відповідностей додаються тільки ті n-gram-и, які не мали відповідності на попередніх етапах. Я тільки буде пройдено останній етап, остаточний n-gram P обчислюється за наступною формулою:[2]
Приклад пар слів, які будуть співставлені разом | |||
Етап порівняння | Кандидат | Еталонний переклад | Співпвдіння |
---|---|---|---|
Точний збіг | good | good | Yes |
Стемінг | goods | good | Yes |
Синонім | well | good | Yes |
Де m — кількість n-gram в машинному перекладі, які також були знайдені в еталонному перекладі, а wt — кількість n-gram в машинному перекладі. N-gram R (загальний n-gram для еталонних перекладів) обчислюється за наступною формулою:
Де wr — кількість n-gram в еталонному перекладі. Для визначення гармонічності перекладу (harmonic mean) застосовується наступна формула.
Дана формула використовується тільки для порівняння поодиноких слів, які збіглися в еталонному та машинному перекладі. Для того, щоб враховувати ще й словосполучення які збігаються, використовується так званий штраф p. Для цього n-gram об'єднують в декілька можливих груп. Штраф обчислюється за наступною формулою:
Де c — кількість груп n-gram, а — кількість n-gram, які об'єднали у групи Тоді фінальний показник якості обчислюється за наступною формулою:
Приклади
Еталонний переклад: | the | cat | sat | on | the | mat |
Машинний переклад: | on | the | mat | sat | the | cat |
Score: 0.5000 = Fmean: 1.0000 * (1 - Penalty: 0.5000) Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) Penalty: 0.5000 = 0.5 * (Fragmentation: 1.0000 ^3) Fragmentation: 1.0000 = Chunks: 6.0000 / Matches: 6.0000
Еталонний переклад: | the | cat | sat | on | the | mat |
Машинний переклад: | the | cat | sat | on | the | mat |
Score: 0.9977 = Fmean: 1.0000 * (1 - Penalty: 0.0023) Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) Penalty: 0.0023 = 0.5 * (Fragmentation: 0.1667 ^3) Fragmentation: 0.1667 = Chunks: 1.0000 / Matches: 6.0000
Еталонний переклад: | the | cat | sat | on | the | mat | |
Машинний переклад: | the | cat | was | sat | on | the | mat |
Score: 0.9654 = Fmean: 0.9836 * (1 - Penalty: 0.0185) Fmean: 0.9836 = 10 * Precision: 0.8571 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 0.8571) Penalty: 0.0185 = 0.5 * (Fragmentation: 0.3333 ^3) Fragmentation: 0.3333 = Chunks: 2.0000 / Matches: 6.0000
Див. також
Примітки
- ↑ Banerjee, S. and Lavie, A. (2005)
Джерела та література
- Banerjee, S. and Lavie, A. (2005) «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments» in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, June 2005
- Lavie, A., Sagae, K. and Jayaraman, S. (2004) «The Significance of Recall in Automatic Metrics for MT Evaluation» in Proceedings of AMTA 2004, Washington DC. September 2004
Посилання
- The METEOR Automatic Machine Translation Evaluation System (including link for download)
Цю статтю треба для відповідності Вікіпедії. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
METEOR Metric for Evaluation of Translation with Explicit ORdering metrika dlya ocinyuvannya yakosti mashinnogo perekladu Metrika bazuyetsya na vikoristanni n gram ta oriyentovana na vikoristannya statistichnoyi ta tochnoyi ocinki vihidnogo tekstu Na vidminu vid metriki BLUE dana metrika vikoristovuye funkciyi spivstavlennya sinonimiv razom iz tochnoyu vidpovidnistyu sliv Metrika bula rozroblena shob virishiti problemi yaki buli znajdeni v bilsh populyarnij metrici BLUE a takozh vidtvoriti horoshu korelyaciyu z ocinkoyu ekspertiv na rivni slovospoluchen abo rechen Priklad virivnyuvannya a V rezultati zapusku metriki na rivni slovospoluchen korelyaciya z lyudskim rishennyam stanovila 0 964 todi yak metrika BLUE stanovila 0 817 na tomu zh nabori vhidnih danih Na rivni rechen maksimalna korelyaciya z ocinkoyu ekspertiv bula 0 403 1 Priklad virivnyuvannya b AlgoritmYak i v metrici BLUE osnovna odinicya dlya ocinki rechennya algoritm spochatku provodit virivnyuvannya tekstu mizh dvoma rechennyam ryadkom etalonnogo perekladu ta ryadkom vhidnogo tekstu dlya ocinyuvannya div risunki a ta b Dana metrika vikoristovuye dekilka etapiv vstanovlennya vidpovidnosti mizh slovami mashinnogo perekladu j etalonnogo perekladu dlya zistavlennya dvoh ryadkiv 1 Tochne vstanovlennya vidpovidnosti viznachayutsya ryadki sho ye identichnimi v etalonnomu i mashinnomu perekladi 2 Vstanovlennya vidpovidnosti osnov provoditsya steming vidilennya osnovi slova i viznachayutsya slova z odnakovim korenem v etalonnomu i mashinnomu perekladi 3 Vstanovlennya vidpovidnosti sinonimiv viznachayutsya slova sho ye sinonimami vidpovidno do WordNet Virivnyuvannya ye mnozhinoyu vidpovidnostej mizh n gram ami Na vidpovidnosti nakladayetsya nastupne obmezhennya kozhen n gram v rechenni kandidati povinen vidpovidati odnomu abo zhodnomu n gram u v etalonnomu rechenni Yaksho ye dva virivnyuvannya z tiye samoyu kilkistyu zbigiv to vibirayetsya te yake maye najmenshu kilkist peretiniv dlya zbigiv V takomu vipadku bude vibrano variant a Etapi porivnyannya z etalonnimi perekladami vikonuyutsya poslidovno i na kozhnomu z nih do mnozhini vidpovidnostej dodayutsya tilki ti n gram i yaki ne mali vidpovidnosti na poperednih etapah Ya tilki bude projdeno ostannij etap ostatochnij n gram P obchislyuyetsya za nastupnoyu formuloyu 2 Priklad par sliv yaki budut spivstavleni razom Etap porivnyannya Kandidat Etalonnij pereklad Spivpvdinnya Tochnij zbig good good Yes Steming goods good Yes Sinonim well good Yes P m w t displaystyle P frac m w t De m kilkist n gram v mashinnomu perekladi yaki takozh buli znajdeni v etalonnomu perekladi a wt kilkist n gram v mashinnomu perekladi N gram R zagalnij n gram dlya etalonnih perekladiv obchislyuyetsya za nastupnoyu formuloyu R m w r displaystyle R frac m w r De wr kilkist n gram v etalonnomu perekladi Dlya viznachennya garmonichnosti perekladu harmonic mean zastosovuyetsya nastupna formula F m e a n 10 P R R 9 P displaystyle F mean frac 10PR R 9P Dana formula vikoristovuyetsya tilki dlya porivnyannya poodinokih sliv yaki zbiglisya v etalonnomu ta mashinnomu perekladi Dlya togo shob vrahovuvati she j slovospoluchennya yaki zbigayutsya vikoristovuyetsya tak zvanij shtraf p Dlya cogo n gram ob yednuyut v dekilka mozhlivih grup Shtraf p displaystyle p obchislyuyetsya za nastupnoyu formuloyu p 0 5 c u m 3 displaystyle p 0 5 left frac c u m right 3 De c kilkist grup n gram a u m displaystyle u m kilkist n gram yaki ob yednali u grupi Todi finalnij pokaznik yakosti obchislyuyetsya za nastupnoyu formuloyu M F m e a n 1 p displaystyle M F mean 1 p PrikladiEtalonnij pereklad the cat sat on the mat Mashinnij pereklad on the mat sat the cat Score 0 5000 Fmean 1 0000 1 Penalty 0 5000 Fmean 1 0000 10 Precision 1 0000 Recall 1 0000 Recall 1 0000 9 Precision 1 0000 Penalty 0 5000 0 5 Fragmentation 1 0000 3 Fragmentation 1 0000 Chunks 6 0000 Matches 6 0000 Etalonnij pereklad the cat sat on the mat Mashinnij pereklad the cat sat on the mat Score 0 9977 Fmean 1 0000 1 Penalty 0 0023 Fmean 1 0000 10 Precision 1 0000 Recall 1 0000 Recall 1 0000 9 Precision 1 0000 Penalty 0 0023 0 5 Fragmentation 0 1667 3 Fragmentation 0 1667 Chunks 1 0000 Matches 6 0000 Etalonnij pereklad the cat sat on the mat Mashinnij pereklad the cat was sat on the mat Score 0 9654 Fmean 0 9836 1 Penalty 0 0185 Fmean 0 9836 10 Precision 0 8571 Recall 1 0000 Recall 1 0000 9 Precision 0 8571 Penalty 0 0185 0 5 Fragmentation 0 3333 3 Fragmentation 0 3333 Chunks 2 0000 Matches 6 0000Div takozhF miraPrimitki Banerjee S and Lavie A 2005 Dzherela ta literaturaBanerjee S and Lavie A 2005 METEOR An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics ACL 2005 Ann Arbor Michigan June 2005 Lavie A Sagae K and Jayaraman S 2004 The Significance of Recall in Automatic Metrics for MT Evaluation in Proceedings of AMTA 2004 Washington DC September 2004PosilannyaThe METEOR Automatic Machine Translation Evaluation System including link for download Cyu stattyu treba vikifikuvati dlya vidpovidnosti standartam yakosti Vikipediyi Bud laska dopomozhit dodavannyam dorechnih vnutrishnih posilan abo vdoskonalennyam rozmitki statti