Виявлення плагіату або визначення схожості вмісту — це процес знаходження місць плагіату чи порушення авторських прав у творі чи документі. Широке використання комп'ютерів і поява Інтернету сприяли поширенню плагіату.
Виявити плагіат можна різними способами. Вияв плагіату людиною є найбільш традиційною формою його виявлення. Це може бути тривалим і трудомістким завданням для читача, а також може призвести до неузгодженості в тому, як ідентифікується плагіат в організації. Програмне забезпечення для зіставлення тексту (TMS), яке також називають «програмним забезпеченням для виявлення плагіату» або «програмним забезпеченням для боротьби з плагіатом», стало широко доступним у формі як комерційно доступних продуктів, так і програмного забезпечення з відкритим кодом. TMS фактично не відображає плагіат, але натомість містить певні фрагменти тексту в одному документі, які відповідають тексту в іншому документі.
Виявлення плагіату за допомогою програмного забезпечення
Комп'ютерне виявлення плагіату (CaPD) — це інформаційно-пошукове (IR) завдання, що підтримується спеціалізованими інформаційно-пошуковими системами, які називаються системами виявлення плагіату (СПД) або системами виявлення схожості документів. Систематичний огляд літератури за 2019 рік представляє огляд найсучасніших методів виявлення плагіату.
У текстових документах
Систематичний огляд літератури за 2019 рік представляє огляд найсучасніших методів виявлення плагіату. Зовнішні системи виявлення порівнюють підозрілий документ з еталонною колекцією — набором документів, які вважаються справжніми На основі обраної моделі документа та заздалегідь визначених критеріїв схожості, завданням виявлення є пошук всіх документів, які містять текст, схожий за ступенем вище обраного порогу з текстом у підозрілому документі. Внутрішні ПДС аналізують виключно текст, що підлягає оцінці, не проводячи порівняння із зовнішніми документами. Такий підхід спрямований на розпізнавання змін в унікальному стилі письма автора як індикатора потенційного плагіату. Системи PDS не здатні надійно ідентифікувати плагіат без людського фактору. Схожість та особливості стилю написання обчислюються за допомогою заздалегідь визначених моделей документів і можуть давати помилкові спрацьовування.
Ефективність цих інструментів у вищих навчальних закладах
Було проведено дослідження з метою перевірки ефективності програмного забезпечення для виявлення схожості у вищих навчальних закладах. В одній частині дослідження одній групі студентів було доручено написати роботу. Цим студентам спочатку розповіли про плагіат і повідомили, що їхні роботи будуть перевірені системою виявлення схожості контенту. Другій групі студентів було доручено написати роботу без будь-якої інформації про плагіат. Дослідники очікували, що в першій групі рівень плагіату буде нижчим, але виявили приблизно однаковий рівень плагіату в обох групах.
Підходи
На рисунку нижче представлено класифікацію всіх підходів до виявлення, які наразі використовуються для комп'ютерного виявлення схожості контенту. Підходи характеризуються типом оцінки схожості, яку вони проводять: глобальною або локальною. Глобальні підходи до оцінки схожості використовують характеристики, взяті з більших частин тексту або документа в цілому, для обчислення схожості, тоді як локальні методи досліджують лише попередньо вибрані сегменти тексту як вхідні дані.
Зняття відбитків пальців
Наразі найбільш поширеним підходом до виявлення схожості змісту є дактилоскопічний метод. Цей метод формує репрезентативні дайджести документів шляхом виділення з них набору множинних підрядків (n-грам). Набори представляють собою відбитки пальців, а їх елементи називаються мініатюрами (minutiae). Підозрілий документ перевіряється на плагіат шляхом обчислення його «відбитка» та запиту мініатюр за попередньо розрахованим індексом «відбитків» для всіх документів репрезентативної колекції. Збіг реквізитів з реквізитами інших документів вказує на спільні сегменти тексту і свідчить про потенційний плагіат, якщо вони перевищують обраний поріг схожості. Обчислювальні ресурси та час є обмежуючими факторами для дактилоскопії, тому цей метод, як правило, порівнює лише підмножину мініатюр, щоб прискорити обчислення та забезпечити перевірку у дуже великих колекціях, таких як Інтернет.
Зіставлення рядків
Порівняння рядків є поширеним підходом, що використовується в комп'ютерних науках. У застосуванні до проблеми виявлення плагіату документи порівнюються на наявність дослівних текстових збігів. Для вирішення цього завдання було запропоновано численні методи, деякі з яких були адаптовані для зовнішнього виявлення плагіату. Перевірка підозрілого документа в таких умовах вимагає обчислення та зберігання ефективно порівнянних представлень для всіх документів у довідковій колекції для їх попарного порівняння. Як правило, для цього використовуються суфіксальні моделі документів, такі як суфіксальні дерева або суфіксальні вектори. Тим не менш, зіставлення підрядків залишається обчислювально дорогим, що робить його нежиттєздатним рішенням для перевірки великих колекцій документів.
Мішок слів
Аналіз пакетів слів являє собою застосування векторного пошуку, традиційної концепції ІР, до області виявлення схожості контенту. Документи представляються у вигляді одного або декількох векторів, наприклад, для різних частин документа, які використовуються для попарних обчислень подібності. Обчислення подібності може базуватися на традиційній косинусоїдальній мірі подібності або на більш складних мірах подібності.
Аналіз цитування
Виявлення плагіату на основі цитування (CbPD) ґрунтується на аналізі цитування і є єдиним підходом до виявлення плагіату, який не спирається на текстову схожість. CbPD досліджує інформацію про цитування та посилання в текстах для виявлення подібних закономірностей у послідовності цитування. Як такий, цей підхід підходить для наукових текстів або інших академічних документів, які містять цитати. Аналіз цитування для виявлення плагіату є відносно молодою концепцією. Вона не була прийнята комерційним програмним забезпеченням, але існує перший прототип системи виявлення плагіату на основі цитування. Подібний порядок і близькість цитувань у досліджуваних документах є основними критеріями, що використовуються для обчислення схожості шаблонів цитування. Шаблони цитування являють собою послідовності, що не містять виключних цитат, які є спільними для порівнюваних документів. Для кількісної оцінки ступеня схожості патернів також враховуються такі фактори, як абсолютна кількість або відносна частка спільних цитувань у патерні, а також імовірність того, що цитати зустрічаються в одному документі.
Стилометрія
Стилометрія — це статистичні методи кількісної оцінки унікального стилю письма автора, які переважно використовуються для встановлення авторства або виявлення внутрішнього плагіату. Виявлення плагіату шляхом атрибуції авторства передбачає перевірку відповідності стилю написання підозрілого документа, який нібито написаний певним автором, стилю написання корпусу документів, написаних тим самим автором. Внутрішнє виявлення плагіату, з іншого боку, виявляє плагіат на основі внутрішніх ознак у підозрілому документі без порівняння його з іншими документами. Це здійснюється шляхом побудови та порівняння стилістичних моделей для різних текстових сегментів підозрілого документа, і уривки, які стилістично відрізняються від інших, позначаються як потенційно плагіат/порушення. Незважаючи на простоту отримання, символьні n-грами виявилися одними з найкращих стилометричних ознак для виявлення плагіату за його суттю.
Нейронні мережі
Більш сучасні підходи до оцінки схожості контенту з використанням нейронних мереж досягли значно більшої точності, але потребують великих обчислювальних витрат. Традиційні нейромережеві підходи вбудовують обидві частини контенту в семантичні векторні вставки для обчислення їхньої схожості, яка часто є їхньою косинусоїдальною схожістю. Більш просунуті методи виконують наскрізне прогнозування схожості або класифікації з використанням архітектури трансформера. Особливо [en] виграє від високопараметризованих попередньо навчених моделей. Сучасні системи штучного інтелекту (ШІ) успішно використовуються в боротьбі з плагіатом, демонструючи високу ефективність у порівнянні з традиційними методами. Однією з ключових переваг застосування інструментів виявлення плагіату на основі штучного інтелекту є те що вони перевіряють тексти на плагіат за зображеннями та відстежують плагіат навіть у вихідному коді.
Продуктивність
Порівняльні оцінки систем виявлення схожості контенту свідчать про те, що їх ефективність залежить від типу наявного плагіату (див. рисунок). За винятком аналізу структури цитування, всі підходи до виявлення плагіату ґрунтуються на текстовій схожості. Тому симптоматично, що точність виявлення знижується тим більше, чим більше випадків плагіату завуальовано.
Дослівні копії, так званий плагіат копіювання та вставки (c&p), або грубе порушення авторських прав, або скромно замасковані випадки плагіату можуть бути виявлені з високою точністю за допомогою сучасних зовнішніх СППР, якщо джерело є доступним для програмного забезпечення. Особливо процедури зіставлення підрядків досягають хороших результатів для виявлення плагіату c&p, оскільки вони зазвичай використовують моделі документів без втрат, такі як суфіксальні дерева. Ефективність систем, що використовують дактилоскопічний аналіз або аналіз пакетів слів для виявлення копій, залежить від втрат інформації, яких зазнає модель документа, що використовується. Застосовуючи гнучкі стратегії розбиття на частини та відбору, вони краще виявляють помірні форми замаскованого плагіату порівняно з процедурами зіставлення підрядків.
Виявлення внутрішнього плагіату за допомогою стилометрії може певною мірою подолати межі текстової схожості, порівнюючи лінгвістичну схожість. Враховуючи, що стилістичні відмінності між плагіатними та оригінальними сегментами є значними і можуть бути достовірно ідентифіковані, стиліметрія може допомогти у виявленні замаскованого та [en] плагіату. Стилометричні порівняння, швидше за все, не дадуть результатів у випадках, коли сегменти сильно перефразовані до такої міри, що вони більше нагадують особистий стиль письма плагіатора, або якщо текст був складений кількома авторами. Результати Міжнародних конкурсів з виявлення плагіату, проведених у 2009, 2010 та 2011 роках, а також експерименти, проведені Штайном, свідчать про те, що стилометричний аналіз, схоже, надійно працює лише для документів обсягом у кілька тисяч або десятків тисяч слів, що обмежує застосовність методу до умов CaPD.
Зростає кількість досліджень, присвячених методам і системам, здатним виявляти перекладений плагіат. Наразі міжмовне виявлення плагіату (ММВП) не розглядається як зріла технологія, і відповідні системи не змогли досягти задовільних результатів виявлення на практиці.
Виявлення плагіату за допомогою аналізу структури цитування здатне виявляти сильніші перекази та переклади з вищими показниками успішності порівняно з іншими підходами до виявлення плагіату, оскільки він не залежить від текстових характеристик. Однак, оскільки аналіз за структурою цитування залежить від наявності достатньої кількості інформації про цитування, він обмежений академічними текстами. Він поступається текстовим підходам у виявленні коротших плагіатних уривків, які характерні для випадків плагіату типу «скопіювати і вставити» або «струснути і вставити», тобто змішати дещо змінені фрагменти з різних джерел.
Програмне забезпечення
Проектування програмних засобів виявлення схожості змісту для роботи з текстовими документами характеризується низкою факторів:
Фактор | Опис та альтернативи |
---|---|
Сфера пошуку | У загальнодоступному Інтернеті, використовуючи пошукові системи / Інституційні бази даних / Локальні, специфічні для системи бази даних. |
Час аналізу | Затримка між подачею документів і часом, коли результати стають доступними. |
Документообіг / Пакетна обробка | Кількість документів, які система може обробити за одиницю часу. |
Перевірка інтенсивності | Як часто і за якими типами фрагментів документа (абзаци, речення, послідовності слів фіксованої довжини) система запитує зовнішні ресурси, наприклад, пошукові системи. |
Тип алгоритму порівняння | Алгоритми, які визначають спосіб, яким система використовує для порівняння документів між собою. |
Точність і відкликання | Кількість документів, які були правильно позначені як плагіат, порівняно із загальною кількістю позначених документів, а також із загальною кількістю документів, які насправді були плагіатом. Висока точність означає, що було знайдено мало хибнопозитивних результатів, а високий відгук означає, що мало хибнонегативних результатів залишилися невиявленими. |
Більшість масштабних систем виявлення плагіату використовують великі внутрішні бази даних (на додаток до інших ресурсів), які зростають з кожним додатковим документом, поданим на аналіз. Однак ця особливість розглядається деякими як порушення авторських прав студентів.
У вихідному коді
Плагіат у комп'ютерному вихідному коді також є частим явищем і вимагає інших інструментів, ніж ті, що використовуються для порівняння текстів у документах. Значна кількість досліджень присвячена академічному плагіату у вихідному коді.
Відмінним аспектом плагіату вихідного коду є те, що в ньому не існує [en], які можна знайти в традиційному плагіаті. Оскільки більшість завдань з програмування очікують від студентів написання програм з дуже специфічними вимогами, дуже важко знайти існуючі програми, які вже відповідають їм. Оскільки інтегрувати зовнішній код часто важче, ніж написати його з нуля, більшість студентів, які займаються плагіатом, вирішують робити це у своїх однолітків.
На думку Роя і Корді, алгоритми виявлення схожості вихідного коду можуть бути класифіковані як такі, що базуються або на
- Рядки — пошук точних текстових збігів сегментів, наприклад, рядків з п'яти слів. Швидко, але можна заплутатися через перейменування ідентифікаторів.
- Токени — як і у випадку з рядками, але з використанням лексеми для перетворення програми в (токени). Це дозволяє відкинути пробіли, коментарі та імена ідентифікаторів, що робить систему більш стійкою до простих замін тексту. Більшість систем виявлення академічного плагіату працюють на цьому рівні, використовуючи різні алгоритми для вимірювання схожості між послідовностями токенів.
- Дерева розбору — побудова та порівняння дерев розбору. Це дозволяє виявити схожість більш високого рівня. Наприклад, порівняння дерев може нормалізувати умовні оператори і виявити еквівалентні конструкції як схожі між собою.
- [en] (PDG) — PDG відображає фактичний потік управління в програмі і дозволяє знаходити еквіваленти набагато більш високого рівня, з більшими витратами на складність і час обчислень.
- Метрики — метрики фіксують «оцінки» сегментів коду відповідно до певних критеріїв; наприклад, «кількість циклів та умовних операторів» або «кількість різних змінних, що використовуються». Метрики легко обчислюються і можуть бути швидко порівняні, але також можуть призвести до помилкових спрацьовувань: два фрагменти з однаковими оцінками за набором метрик можуть робити абсолютно різні речі.
- Гібридні підходи — наприклад, дерева розбору + суфіксні дерева можуть поєднувати можливості виявлення дерев розбору зі швидкістю, яку надають суфіксні дерева, тип структури даних, що відповідає рядкам.
Попередня класифікація була розроблена для рефакторингу коду, а не для виявлення академічного плагіату (важливою метою рефакторингу є уникнення дублюючого коду, який в літературі називають клонами коду). Вищезазначені підходи ефективні для різних рівнів схожості; низький рівень схожості стосується ідентичного тексту, тоді як високий рівень схожості може бути зумовлений схожими специфікаціями. В академічному середовищі, коли всі студенти повинні писати код за однаковими специфікаціями, функціонально еквівалентний код (з високим рівнем схожості) цілком очікуваний, і тільки низький рівень схожості розглядається як доказ шахрайства.
Складнощі з використанням програм для виявлення плагіату за допомогою текстопроцесора
Задокументовано різні ускладнення, пов'язані з використанням програмного забезпечення для виявлення плагіату, коли воно застосовується для виявлення плагіату. Одне з найбільш поширених занепокоєнь, задокументованих в документах, стосується питання прав інтелектуальної власності. Основний аргумент полягає в тому, що матеріали повинні бути додані до бази даних для того, щоб ТМС могла ефективно визначати збіг, але додавання матеріалів користувачів до такої бази даних може порушувати їхні права інтелектуальної власності. Це питання піднімалося в ряді судових справ.
Додатковим ускладненням при використанні ТМС є те, що програмне забезпечення знаходить лише точні збіги з іншим текстом. Воно не вловлює, наприклад, погано перефразовану роботу або практику плагіату шляхом використання достатньої кількості замін слів, щоб уникнути виявлення програмним забезпеченням, яка відома під назвою «роутинг».
Дивитися також
- Порівняння програмного забезпечення для боротьби з плагіатом
- Хешування з урахуванням місцевості
- Пошук найближчого сусіда
- Виявлення парафразу
- Kolmogorov complexity#Compression — використовується для оцінки подібності між послідовностями маркерів у кількох системах
- Виявлення копіювання відео
Список літератури
- Culwin, Fintan; Lancaster, Thomas (2001). . Архів оригіналу за 18 April 2021. Процитовано 11 листопада 2022.
- Bretag, T., & Mahmud, S. (2009). A model for determining student plagiarism: Electronic detection and academic judgement. Journal of University Teaching & Learning Practice, 6(1). Retrieved from http://ro.uow.edu.au/jutlp/vol6/iss1/6
- Macdonald, R., & Carroll, J. (2006). Plagiarism—a complex issue requiring a holistic institutional approach. Assessment & Evaluation in Higher Education, 31(2), 233—245. DOI:10.1080/02602930500262536
- Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (16 жовтня 2019). Academic Plagiarism Detection: A Systematic Literature Review. ACM Computing Surveys (англ.). 52 (6): 1—42. doi:10.1145/3345317.
- Youmans, Robert J. (November 2011). Does the adoption of plagiarism-detection software in higher education reduce plagiarism?. Studies in Higher Education. 36 (7): 749—761. doi:10.1080/03075079.2010.523457.
- Bensalem, Imene; Rosso, Paolo; Chikhi, Salim (2019). On the use of character n-grams as the only intrinsic evidence of plagiarism. Language Resources and Evaluation. 53 (3): 363—396. doi:10.1007/s10579-019-09444-w.
{{}}
:|hdl-access=
вимагає|hdl=
() - Lan, Wuwei; Xu, Wei (2018). Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering. Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, USA: Association for Computational Linguistics: 3890—3902.
- Wahle, Jan Philip; Ruas, Terry; Foltýnek, Tomáš; Meuschke, Norman; Gipp, Bela (2022), Smits, Malte (ред.), Identifying Machine-Paraphrased Plagiarism, Information for a Better World: Shaping the Global Future (англ.), Cham: Springer International Publishing, 13192: 393—413, arXiv:2103.11909, doi:10.1007/978-3-030-96957-8_34, ISBN , процитовано 6 жовтня 2022
- Заповніть пропущені параметри: назву і/або авторів. arXiv:[1].
- «Plagiarism Prevention and Detection — On-line Resources on Source Code Plagiarism» [Шаблон:Webarchive:помилка: Перевірте аргументи
|url=
value. Порожньо.]. , . - Roy, Chanchal Kumar;Cordy, James R. (26 September 2007).«A Survey on Software Clone Detection Research». School of Computing, .
- How AI Makes Progress in Addressing Plagiarism. plagiarismsearch.com (english) . 29 серпня 2023.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Viyavlennya plagiatu abo viznachennya shozhosti vmistu ce proces znahodzhennya misc plagiatu chi porushennya avtorskih prav u tvori chi dokumenti Shiroke vikoristannya komp yuteriv i poyava Internetu spriyali poshirennyu plagiatu Viyaviti plagiat mozhna riznimi sposobami Viyav plagiatu lyudinoyu ye najbilsh tradicijnoyu formoyu jogo viyavlennya Ce mozhe buti trivalim i trudomistkim zavdannyam dlya chitacha a takozh mozhe prizvesti do neuzgodzhenosti v tomu yak identifikuyetsya plagiat v organizaciyi Programne zabezpechennya dlya zistavlennya tekstu TMS yake takozh nazivayut programnim zabezpechennyam dlya viyavlennya plagiatu abo programnim zabezpechennyam dlya borotbi z plagiatom stalo shiroko dostupnim u formi yak komercijno dostupnih produktiv tak i programnogo zabezpechennya z vidkritim kodom TMS faktichno ne vidobrazhaye plagiat ale natomist mistit pevni fragmenti tekstu v odnomu dokumenti yaki vidpovidayut tekstu v inshomu dokumenti Viyavlennya plagiatu za dopomogoyu programnogo zabezpechennyaKomp yuterne viyavlennya plagiatu CaPD ce informacijno poshukove IR zavdannya sho pidtrimuyetsya specializovanimi informacijno poshukovimi sistemami yaki nazivayutsya sistemami viyavlennya plagiatu SPD abo sistemami viyavlennya shozhosti dokumentiv Sistematichnij oglyad literaturi za 2019 rik predstavlyaye oglyad najsuchasnishih metodiv viyavlennya plagiatu U tekstovih dokumentah Sistematichnij oglyad literaturi za 2019 rik predstavlyaye oglyad najsuchasnishih metodiv viyavlennya plagiatu Zovnishni sistemi viyavlennya porivnyuyut pidozrilij dokument z etalonnoyu kolekciyeyu naborom dokumentiv yaki vvazhayutsya spravzhnimi Na osnovi obranoyi modeli dokumenta ta zazdalegid viznachenih kriteriyiv shozhosti zavdannyam viyavlennya ye poshuk vsih dokumentiv yaki mistyat tekst shozhij za stupenem vishe obranogo porogu z tekstom u pidozrilomu dokumenti Vnutrishni PDS analizuyut viklyuchno tekst sho pidlyagaye ocinci ne provodyachi porivnyannya iz zovnishnimi dokumentami Takij pidhid spryamovanij na rozpiznavannya zmin v unikalnomu stili pisma avtora yak indikatora potencijnogo plagiatu Sistemi PDS ne zdatni nadijno identifikuvati plagiat bez lyudskogo faktoru Shozhist ta osoblivosti stilyu napisannya obchislyuyutsya za dopomogoyu zazdalegid viznachenih modelej dokumentiv i mozhut davati pomilkovi spracovuvannya Efektivnist cih instrumentiv u vishih navchalnih zakladah Bulo provedeno doslidzhennya z metoyu perevirki efektivnosti programnogo zabezpechennya dlya viyavlennya shozhosti u vishih navchalnih zakladah V odnij chastini doslidzhennya odnij grupi studentiv bulo dorucheno napisati robotu Cim studentam spochatku rozpovili pro plagiat i povidomili sho yihni roboti budut perevireni sistemoyu viyavlennya shozhosti kontentu Drugij grupi studentiv bulo dorucheno napisati robotu bez bud yakoyi informaciyi pro plagiat Doslidniki ochikuvali sho v pershij grupi riven plagiatu bude nizhchim ale viyavili priblizno odnakovij riven plagiatu v oboh grupah Pidhodi Na risunku nizhche predstavleno klasifikaciyu vsih pidhodiv do viyavlennya yaki narazi vikoristovuyutsya dlya komp yuternogo viyavlennya shozhosti kontentu Pidhodi harakterizuyutsya tipom ocinki shozhosti yaku voni provodyat globalnoyu abo lokalnoyu Globalni pidhodi do ocinki shozhosti vikoristovuyut harakteristiki vzyati z bilshih chastin tekstu abo dokumenta v cilomu dlya obchislennya shozhosti todi yak lokalni metodi doslidzhuyut lishe poperedno vibrani segmenti tekstu yak vhidni dani Klasifikaciya metodiv komp yuternogo viyavlennya plagiatuZnyattya vidbitkiv palciv Narazi najbilsh poshirenim pidhodom do viyavlennya shozhosti zmistu ye daktiloskopichnij metod Cej metod formuye reprezentativni dajdzhesti dokumentiv shlyahom vidilennya z nih naboru mnozhinnih pidryadkiv n gram Nabori predstavlyayut soboyu vidbitki palciv a yih elementi nazivayutsya miniatyurami minutiae Pidozrilij dokument pereviryayetsya na plagiat shlyahom obchislennya jogo vidbitka ta zapitu miniatyur za poperedno rozrahovanim indeksom vidbitkiv dlya vsih dokumentiv reprezentativnoyi kolekciyi Zbig rekvizitiv z rekvizitami inshih dokumentiv vkazuye na spilni segmenti tekstu i svidchit pro potencijnij plagiat yaksho voni perevishuyut obranij porig shozhosti Obchislyuvalni resursi ta chas ye obmezhuyuchimi faktorami dlya daktiloskopiyi tomu cej metod yak pravilo porivnyuye lishe pidmnozhinu miniatyur shob priskoriti obchislennya ta zabezpechiti perevirku u duzhe velikih kolekciyah takih yak Internet Zistavlennya ryadkiv Porivnyannya ryadkiv ye poshirenim pidhodom sho vikoristovuyetsya v komp yuternih naukah U zastosuvanni do problemi viyavlennya plagiatu dokumenti porivnyuyutsya na nayavnist doslivnih tekstovih zbigiv Dlya virishennya cogo zavdannya bulo zaproponovano chislenni metodi deyaki z yakih buli adaptovani dlya zovnishnogo viyavlennya plagiatu Perevirka pidozrilogo dokumenta v takih umovah vimagaye obchislennya ta zberigannya efektivno porivnyannih predstavlen dlya vsih dokumentiv u dovidkovij kolekciyi dlya yih poparnogo porivnyannya Yak pravilo dlya cogo vikoristovuyutsya sufiksalni modeli dokumentiv taki yak sufiksalni dereva abo sufiksalni vektori Tim ne mensh zistavlennya pidryadkiv zalishayetsya obchislyuvalno dorogim sho robit jogo nezhittyezdatnim rishennyam dlya perevirki velikih kolekcij dokumentiv Mishok sliv Analiz paketiv sliv yavlyaye soboyu zastosuvannya vektornogo poshuku tradicijnoyi koncepciyi IR do oblasti viyavlennya shozhosti kontentu Dokumenti predstavlyayutsya u viglyadi odnogo abo dekilkoh vektoriv napriklad dlya riznih chastin dokumenta yaki vikoristovuyutsya dlya poparnih obchislen podibnosti Obchislennya podibnosti mozhe bazuvatisya na tradicijnij kosinusoyidalnij miri podibnosti abo na bilsh skladnih mirah podibnosti Analiz cituvannya Viyavlennya plagiatu na osnovi cituvannya CbPD gruntuyetsya na analizi cituvannya i ye yedinim pidhodom do viyavlennya plagiatu yakij ne spirayetsya na tekstovu shozhist CbPD doslidzhuye informaciyu pro cituvannya ta posilannya v tekstah dlya viyavlennya podibnih zakonomirnostej u poslidovnosti cituvannya Yak takij cej pidhid pidhodit dlya naukovih tekstiv abo inshih akademichnih dokumentiv yaki mistyat citati Analiz cituvannya dlya viyavlennya plagiatu ye vidnosno molodoyu koncepciyeyu Vona ne bula prijnyata komercijnim programnim zabezpechennyam ale isnuye pershij prototip sistemi viyavlennya plagiatu na osnovi cituvannya Podibnij poryadok i blizkist cituvan u doslidzhuvanih dokumentah ye osnovnimi kriteriyami sho vikoristovuyutsya dlya obchislennya shozhosti shabloniv cituvannya Shabloni cituvannya yavlyayut soboyu poslidovnosti sho ne mistyat viklyuchnih citat yaki ye spilnimi dlya porivnyuvanih dokumentiv Dlya kilkisnoyi ocinki stupenya shozhosti paterniv takozh vrahovuyutsya taki faktori yak absolyutna kilkist abo vidnosna chastka spilnih cituvan u paterni a takozh imovirnist togo sho citati zustrichayutsya v odnomu dokumenti Stilometriya Stilometriya ce statistichni metodi kilkisnoyi ocinki unikalnogo stilyu pisma avtora yaki perevazhno vikoristovuyutsya dlya vstanovlennya avtorstva abo viyavlennya vnutrishnogo plagiatu Viyavlennya plagiatu shlyahom atribuciyi avtorstva peredbachaye perevirku vidpovidnosti stilyu napisannya pidozrilogo dokumenta yakij nibito napisanij pevnim avtorom stilyu napisannya korpusu dokumentiv napisanih tim samim avtorom Vnutrishnye viyavlennya plagiatu z inshogo boku viyavlyaye plagiat na osnovi vnutrishnih oznak u pidozrilomu dokumenti bez porivnyannya jogo z inshimi dokumentami Ce zdijsnyuyetsya shlyahom pobudovi ta porivnyannya stilistichnih modelej dlya riznih tekstovih segmentiv pidozrilogo dokumenta i urivki yaki stilistichno vidriznyayutsya vid inshih poznachayutsya yak potencijno plagiat porushennya Nezvazhayuchi na prostotu otrimannya simvolni n grami viyavilisya odnimi z najkrashih stilometrichnih oznak dlya viyavlennya plagiatu za jogo suttyu Nejronni merezhi Bilsh suchasni pidhodi do ocinki shozhosti kontentu z vikoristannyam nejronnih merezh dosyagli znachno bilshoyi tochnosti ale potrebuyut velikih obchislyuvalnih vitrat Tradicijni nejromerezhevi pidhodi vbudovuyut obidvi chastini kontentu v semantichni vektorni vstavki dlya obchislennya yihnoyi shozhosti yaka chasto ye yihnoyu kosinusoyidalnoyu shozhistyu Bilsh prosunuti metodi vikonuyut naskrizne prognozuvannya shozhosti abo klasifikaciyi z vikoristannyam arhitekturi transformera Osoblivo en vigraye vid visokoparametrizovanih poperedno navchenih modelej Suchasni sistemi shtuchnogo intelektu ShI uspishno vikoristovuyutsya v borotbi z plagiatom demonstruyuchi visoku efektivnist u porivnyanni z tradicijnimi metodami Odniyeyu z klyuchovih perevag zastosuvannya instrumentiv viyavlennya plagiatu na osnovi shtuchnogo intelektu ye te sho voni pereviryayut teksti na plagiat za zobrazhennyami ta vidstezhuyut plagiat navit u vihidnomu kodi Produktivnist Porivnyalni ocinki sistem viyavlennya shozhosti kontentu svidchat pro te sho yih efektivnist zalezhit vid tipu nayavnogo plagiatu div risunok Za vinyatkom analizu strukturi cituvannya vsi pidhodi do viyavlennya plagiatu gruntuyutsya na tekstovij shozhosti Tomu simptomatichno sho tochnist viyavlennya znizhuyetsya tim bilshe chim bilshe vipadkiv plagiatu zavualovano Efektivnist viyavlennya pidhodiv CaPD v zalezhnosti vid tipu nayavnogo plagiatu Doslivni kopiyi tak zvanij plagiat kopiyuvannya ta vstavki c amp p abo grube porushennya avtorskih prav abo skromno zamaskovani vipadki plagiatu mozhut buti viyavleni z visokoyu tochnistyu za dopomogoyu suchasnih zovnishnih SPPR yaksho dzherelo ye dostupnim dlya programnogo zabezpechennya Osoblivo proceduri zistavlennya pidryadkiv dosyagayut horoshih rezultativ dlya viyavlennya plagiatu c amp p oskilki voni zazvichaj vikoristovuyut modeli dokumentiv bez vtrat taki yak sufiksalni dereva Efektivnist sistem sho vikoristovuyut daktiloskopichnij analiz abo analiz paketiv sliv dlya viyavlennya kopij zalezhit vid vtrat informaciyi yakih zaznaye model dokumenta sho vikoristovuyetsya Zastosovuyuchi gnuchki strategiyi rozbittya na chastini ta vidboru voni krashe viyavlyayut pomirni formi zamaskovanogo plagiatu porivnyano z procedurami zistavlennya pidryadkiv Viyavlennya vnutrishnogo plagiatu za dopomogoyu stilometriyi mozhe pevnoyu miroyu podolati mezhi tekstovoyi shozhosti porivnyuyuchi lingvistichnu shozhist Vrahovuyuchi sho stilistichni vidminnosti mizh plagiatnimi ta originalnimi segmentami ye znachnimi i mozhut buti dostovirno identifikovani stilimetriya mozhe dopomogti u viyavlenni zamaskovanogo ta en plagiatu Stilometrichni porivnyannya shvidshe za vse ne dadut rezultativ u vipadkah koli segmenti silno perefrazovani do takoyi miri sho voni bilshe nagaduyut osobistij stil pisma plagiatora abo yaksho tekst buv skladenij kilkoma avtorami Rezultati Mizhnarodnih konkursiv z viyavlennya plagiatu provedenih u 2009 2010 ta 2011 rokah a takozh eksperimenti provedeni Shtajnom svidchat pro te sho stilometrichnij analiz shozhe nadijno pracyuye lishe dlya dokumentiv obsyagom u kilka tisyach abo desyatkiv tisyach sliv sho obmezhuye zastosovnist metodu do umov CaPD Zrostaye kilkist doslidzhen prisvyachenih metodam i sistemam zdatnim viyavlyati perekladenij plagiat Narazi mizhmovne viyavlennya plagiatu MMVP ne rozglyadayetsya yak zrila tehnologiya i vidpovidni sistemi ne zmogli dosyagti zadovilnih rezultativ viyavlennya na praktici Viyavlennya plagiatu za dopomogoyu analizu strukturi cituvannya zdatne viyavlyati silnishi perekazi ta perekladi z vishimi pokaznikami uspishnosti porivnyano z inshimi pidhodami do viyavlennya plagiatu oskilki vin ne zalezhit vid tekstovih harakteristik Odnak oskilki analiz za strukturoyu cituvannya zalezhit vid nayavnosti dostatnoyi kilkosti informaciyi pro cituvannya vin obmezhenij akademichnimi tekstami Vin postupayetsya tekstovim pidhodam u viyavlenni korotshih plagiatnih urivkiv yaki harakterni dlya vipadkiv plagiatu tipu skopiyuvati i vstaviti abo strusnuti i vstaviti tobto zmishati desho zmineni fragmenti z riznih dzherel Programne zabezpechennya Proektuvannya programnih zasobiv viyavlennya shozhosti zmistu dlya roboti z tekstovimi dokumentami harakterizuyetsya nizkoyu faktoriv Faktor Opis ta alternativiSfera poshuku U zagalnodostupnomu Interneti vikoristovuyuchi poshukovi sistemi Institucijni bazi danih Lokalni specifichni dlya sistemi bazi danih Chas analizu Zatrimka mizh podacheyu dokumentiv i chasom koli rezultati stayut dostupnimi Dokumentoobig Paketna obrobka Kilkist dokumentiv yaki sistema mozhe obrobiti za odinicyu chasu Perevirka intensivnosti Yak chasto i za yakimi tipami fragmentiv dokumenta abzaci rechennya poslidovnosti sliv fiksovanoyi dovzhini sistema zapituye zovnishni resursi napriklad poshukovi sistemi Tip algoritmu porivnyannya Algoritmi yaki viznachayut sposib yakim sistema vikoristovuye dlya porivnyannya dokumentiv mizh soboyu Tochnist i vidklikannya Kilkist dokumentiv yaki buli pravilno poznacheni yak plagiat porivnyano iz zagalnoyu kilkistyu poznachenih dokumentiv a takozh iz zagalnoyu kilkistyu dokumentiv yaki naspravdi buli plagiatom Visoka tochnist oznachaye sho bulo znajdeno malo hibnopozitivnih rezultativ a visokij vidguk oznachaye sho malo hibnonegativnih rezultativ zalishilisya neviyavlenimi Bilshist masshtabnih sistem viyavlennya plagiatu vikoristovuyut veliki vnutrishni bazi danih na dodatok do inshih resursiv yaki zrostayut z kozhnim dodatkovim dokumentom podanim na analiz Odnak cya osoblivist rozglyadayetsya deyakimi yak porushennya avtorskih prav studentiv U vihidnomu kodi Plagiat u komp yuternomu vihidnomu kodi takozh ye chastim yavishem i vimagaye inshih instrumentiv nizh ti sho vikoristovuyutsya dlya porivnyannya tekstiv u dokumentah Znachna kilkist doslidzhen prisvyachena akademichnomu plagiatu u vihidnomu kodi Vidminnim aspektom plagiatu vihidnogo kodu ye te sho v nomu ne isnuye en yaki mozhna znajti v tradicijnomu plagiati Oskilki bilshist zavdan z programuvannya ochikuyut vid studentiv napisannya program z duzhe specifichnimi vimogami duzhe vazhko znajti isnuyuchi programi yaki vzhe vidpovidayut yim Oskilki integruvati zovnishnij kod chasto vazhche nizh napisati jogo z nulya bilshist studentiv yaki zajmayutsya plagiatom virishuyut robiti ce u svoyih odnolitkiv Na dumku Roya i Kordi algoritmi viyavlennya shozhosti vihidnogo kodu mozhut buti klasifikovani yak taki sho bazuyutsya abo na Ryadki poshuk tochnih tekstovih zbigiv segmentiv napriklad ryadkiv z p yati sliv Shvidko ale mozhna zaplutatisya cherez perejmenuvannya identifikatoriv Tokeni yak i u vipadku z ryadkami ale z vikoristannyam leksemi dlya peretvorennya programi v tokeni Ce dozvolyaye vidkinuti probili komentari ta imena identifikatoriv sho robit sistemu bilsh stijkoyu do prostih zamin tekstu Bilshist sistem viyavlennya akademichnogo plagiatu pracyuyut na comu rivni vikoristovuyuchi rizni algoritmi dlya vimiryuvannya shozhosti mizh poslidovnostyami tokeniv Dereva rozboru pobudova ta porivnyannya derev rozboru Ce dozvolyaye viyaviti shozhist bilsh visokogo rivnya Napriklad porivnyannya derev mozhe normalizuvati umovni operatori i viyaviti ekvivalentni konstrukciyi yak shozhi mizh soboyu en PDG PDG vidobrazhaye faktichnij potik upravlinnya v programi i dozvolyaye znahoditi ekvivalenti nabagato bilsh visokogo rivnya z bilshimi vitratami na skladnist i chas obchislen Metriki metriki fiksuyut ocinki segmentiv kodu vidpovidno do pevnih kriteriyiv napriklad kilkist cikliv ta umovnih operatoriv abo kilkist riznih zminnih sho vikoristovuyutsya Metriki legko obchislyuyutsya i mozhut buti shvidko porivnyani ale takozh mozhut prizvesti do pomilkovih spracovuvan dva fragmenti z odnakovimi ocinkami za naborom metrik mozhut robiti absolyutno rizni rechi Gibridni pidhodi napriklad dereva rozboru sufiksni dereva mozhut poyednuvati mozhlivosti viyavlennya derev rozboru zi shvidkistyu yaku nadayut sufiksni dereva tip strukturi danih sho vidpovidaye ryadkam Poperednya klasifikaciya bula rozroblena dlya refaktoringu kodu a ne dlya viyavlennya akademichnogo plagiatu vazhlivoyu metoyu refaktoringu ye uniknennya dublyuyuchogo kodu yakij v literaturi nazivayut klonami kodu Vishezaznacheni pidhodi efektivni dlya riznih rivniv shozhosti nizkij riven shozhosti stosuyetsya identichnogo tekstu todi yak visokij riven shozhosti mozhe buti zumovlenij shozhimi specifikaciyami V akademichnomu seredovishi koli vsi studenti povinni pisati kod za odnakovimi specifikaciyami funkcionalno ekvivalentnij kod z visokim rivnem shozhosti cilkom ochikuvanij i tilki nizkij riven shozhosti rozglyadayetsya yak dokaz shahrajstva Skladnoshi z vikoristannyam program dlya viyavlennya plagiatu za dopomogoyu tekstoprocesoraZadokumentovano rizni uskladnennya pov yazani z vikoristannyam programnogo zabezpechennya dlya viyavlennya plagiatu koli vono zastosovuyetsya dlya viyavlennya plagiatu Odne z najbilsh poshirenih zanepokoyen zadokumentovanih v dokumentah stosuyetsya pitannya prav intelektualnoyi vlasnosti Osnovnij argument polyagaye v tomu sho materiali povinni buti dodani do bazi danih dlya togo shob TMS mogla efektivno viznachati zbig ale dodavannya materialiv koristuvachiv do takoyi bazi danih mozhe porushuvati yihni prava intelektualnoyi vlasnosti Ce pitannya pidnimalosya v ryadi sudovih sprav Dodatkovim uskladnennyam pri vikoristanni TMS ye te sho programne zabezpechennya znahodit lishe tochni zbigi z inshim tekstom Vono ne vlovlyuye napriklad pogano perefrazovanu robotu abo praktiku plagiatu shlyahom vikoristannya dostatnoyi kilkosti zamin sliv shob uniknuti viyavlennya programnim zabezpechennyam yaka vidoma pid nazvoyu routing Divitisya takozhKategoriya Detektori plagiatu Porivnyannya programnogo zabezpechennya dlya borotbi z plagiatom Heshuvannya z urahuvannyam miscevosti Poshuk najblizhchogo susida Viyavlennya parafrazu Kolmogorov complexity Compression vikoristovuyetsya dlya ocinki podibnosti mizh poslidovnostyami markeriv u kilkoh sistemah Viyavlennya kopiyuvannya videoSpisok literaturiCulwin Fintan Lancaster Thomas 2001 Arhiv originalu za 18 April 2021 Procitovano 11 listopada 2022 Bretag T amp Mahmud S 2009 A model for determining student plagiarism Electronic detection and academic judgement Journal of University Teaching amp Learning Practice 6 1 Retrieved from http ro uow edu au jutlp vol6 iss1 6 Macdonald R amp Carroll J 2006 Plagiarism a complex issue requiring a holistic institutional approach Assessment amp Evaluation in Higher Education 31 2 233 245 DOI 10 1080 02602930500262536 Foltynek Tomas Meuschke Norman Gipp Bela 16 zhovtnya 2019 Academic Plagiarism Detection A Systematic Literature Review ACM Computing Surveys angl 52 6 1 42 doi 10 1145 3345317 Youmans Robert J November 2011 Does the adoption of plagiarism detection software in higher education reduce plagiarism Studies in Higher Education 36 7 749 761 doi 10 1080 03075079 2010 523457 Bensalem Imene Rosso Paolo Chikhi Salim 2019 On the use of character n grams as the only intrinsic evidence of plagiarism Language Resources and Evaluation 53 3 363 396 doi 10 1007 s10579 019 09444 w a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a hdl access vimagaye hdl dovidka Lan Wuwei Xu Wei 2018 Neural Network Models for Paraphrase Identification Semantic Textual Similarity Natural Language Inference and Question Answering Proceedings of the 27th International Conference on Computational Linguistics Santa Fe New Mexico USA Association for Computational Linguistics 3890 3902 Wahle Jan Philip Ruas Terry Foltynek Tomas Meuschke Norman Gipp Bela 2022 Smits Malte red Identifying Machine Paraphrased Plagiarism Information for a Better World Shaping the Global Future angl Cham Springer International Publishing 13192 393 413 arXiv 2103 11909 doi 10 1007 978 3 030 96957 8 34 ISBN 978 3 030 96956 1 procitovano 6 zhovtnya 2022 Zapovnit propusheni parametri nazvu i abo avtoriv arXiv 1 Plagiarism Prevention and Detection On line Resources on Source Code Plagiarism Shablon Webarchive pomilka Perevirte argumenti url value Porozhno Roy Chanchal Kumar Cordy James R 26 September 2007 A Survey on Software Clone Detection Research School of Computing How AI Makes Progress in Addressing Plagiarism plagiarismsearch com english 29 serpnya 2023