У комп'ютерному зорі модель "торба слів" (англ. bag-of-words model, модель BoW), яку іноді називають моделлю "сумки візуальних слів", можна застосувати до класифікації або пошуку зображень, трактуючи характеристики зображення як слова. У класифікації документів торба слів — це розріджений вектор підрахунків появи слів; тобто розріджена гістограма над словником. У комп'ютерному зорі модель "торба слів" — це вектор підрахунків появи словника локальних характеристик зображення.
Представлення зображення на основі моделі BoW
Щоб представити зображення за допомогою моделі BoW, зображення можна розглядати як документ. Подібним чином необхідно визначити «слова» в зображеннях. Щоб досягти цього, він зазвичай включає наступні три кроки: виявлення функції, опис функції та створення кодової книги. Визначенням моделі BoW може бути «подання гістограми на основі незалежних ознак». Індексування та пошук зображень на основі вмісту (CBIR), здається, є першим застосовувачем цієї техніки представлення зображень.
Представлення ознак
Після виявлення ознак кожне зображення абстрагується кількома локальними плямами. Методи подання функцій стосуються того, як представити патчі як числові вектори. Ці вектори називаються дескрипторами ознак. Хороший дескриптор повинен мати здатність певною мірою обробляти інтенсивність, обертання, масштаб і афінні варіації. Одним із найвідоміших дескрипторів є Scale-invariant Feature Transform (SIFT). SIFT перетворює кожен патч у 128-вимірний вектор. Після цього кроку кожне зображення є набором векторів однакової розмірності (128 для SIFT), де порядок різних векторів не має значення.
Генерація кодової книги
Останнім кроком для моделі BoW є перетворення векторно представлених патчів на «кодові слова» (аналогічні словам у текстових документах), що також створює «кодову книгу» (аналогію словнику слів). Кодове слово можна розглядати як представник кількох подібних патчів. Одним із простих методів є кластеризація k-середніх по всіх векторах. Потім кодові слова визначаються як центри вивчених кластерів. Кількість кластерів є розміром кодової книги (аналогічно розміру словника слів).
Таким чином, кожна пляма в зображенні зіставляється з певним кодовим словом через процес кластеризації, і зображення може бути представлено гістограмою кодових слів.
Навчання та розпізнавання на основі моделі BoW
Дослідники комп'ютерного зору розробили кілька методів навчання, щоб використовувати модель BoW для завдань, пов'язаних із зображеннями, наприклад, . Ці методи можна умовно розділити на дві категорії: неконтрольовані та контрольовані моделі. Для проблеми категоризації кількох міток матрицю плутанини можна використовувати як показник оцінки.
Моделі без нагляду
Ось деякі позначки для цього розділу. Припустимо, розмір кодової книги дорівнює .
- : кожен патч є V-вимірним вектором, один компонент якого дорівнює одиниці, а всі інші компоненти дорівнюють нулю (для налаштування кластеризації k-середніх одиничний компонент, що дорівнює одиниці, вказує на кластер, який належить до). The -го кодового слова в кодовій книзі можна представити як і для .
- : кожне зображення представлено , усі патчі на зображенні
- : -те зображення в колекції зображень
- : категорія зображення
- : основна думка або тема патча
- : пропорція суміші
Оскільки модель BoW є аналогією моделі BoW в НЛП, генеративні моделі, розроблені в текстових областях, також можуть бути адаптовані в комп'ютерному зорі. Обговорюються проста наївна модель Баєса та ієрархічні моделі Баєса.
Наївний Баєс
Найпростішим є наївний класифікатор Баєса . Використовуючи мову графічних моделей, наївний класифікатор Баєса описується наведеним нижче рівнянням. Основна ідея (або припущення) цієї моделі полягає в тому, що кожна категорія має свій власний розподіл у книгах кодів і що розподіли кожної категорії помітно відрізняються. Візьмемо для прикладу категорію обличчя та категорію автомобіля. Категорія обличчя може підкреслювати кодові слова, які представляють «ніс», «око» та «рот», тоді як категорія автомобіля може підкреслювати кодові слова, які представляють «колесо» та «вікно». Отримавши набір навчальних прикладів, класифікатор вивчає різні розподіли для різних категорій. Рішення про категоризацію прийнято в
Томас Баєс | |
---|---|
англ. Thomas Bayes | |
Національність | Англієць |
Галузь | Теорія імовірностей |
Відомий завдяки: | Теорема Баєса,метод Наївного Баєса |
Оскільки наївний класифікатор Баєса простий, але ефективний, його зазвичай використовують як базовий метод для порівняння.
Ієрархічні баєсівські моделі
Основне припущення наївної моделі Баєса іноді не виконується. Наприклад, зображення природної сцени може містити кілька різних тем. Імовірніший прихований семантичний аналіз (pLSA) і прихований розподіл Діріхле (LDA) є двома популярними тематичними моделями з текстових доменів для вирішення схожої проблеми з кількома «темами». Візьмемо для прикладу LDA. Для моделювання зображень природної сцени за допомогою LDA проводиться аналогія з аналізом документів:
- категорія зображення зіставляється з категорією документа;
- пропорція суміші основної думки відображає пропорцію суміші тем;
- індекс основної думки зіставляється з індексом теми;
- кодове слово зіставляється зі словом.
Цей метод показує багатообіцяні результати в класифікації природних сцен за 13 категоріями природних сцен .
Контрольовані моделі
Оскільки зображення представлені на основі моделі BoW, можна спробувати будь-яку дискримінаційну модель, придатну для категоризації текстових документів, наприклад машину опорних векторів і AdaBoost . Трюк ядра також застосовний, коли використовується класифікатор на основі ядра, наприклад SVM. Ядро Pyramid match є нещодавно розробленим на основі моделі BoW. Підхід до локальних особливостей використання представлення моделі BoW, навченого класифікаторами машинного навчання з різними ядрами (наприклад, EMD-ядро та kernel) було ретельно протестовано в області розпізнавання текстур і об'єктів. Повідомлялося про дуже обнадійливі результати щодо ряду наборів даних. Цей підхід досяг дуже вражаючих результатів у .
Ядро відповідності піраміди
Ядро відповідності піраміди (англ. pyramid match kernel) — це швидкий алгоритм (лінійна складність замість класичної квадратичної складності) ядерна функція (задовольняє умову Мерсера), яка відображає функції BoW або набір функцій у високій розмірності на багатовимірні гістограми з різною роздільною здатністю . Перевагою цих гістограм із різною роздільною здатністю є їх здатність фіксувати супутні елементи. Ядро пірамідної відповідності будує гістограми з різною роздільною здатністю, об'єднуючи точки даних у дискретні області зростаючого розміру. Таким чином, точки, які не збігаються при високій роздільній здатності, мають шанс збігатися при низькій роздільній здатності. Ядро пірамідної відповідності виконує приблизну відповідність подібності без явного пошуку чи обчислення відстані. Замість цього він перетинає гістограми для наближення оптимального збігу. Відповідно, час обчислення є лише лінійним за кількістю ознак. Порівняно з іншими підходами до ядра, ядро пірамідального збігу є набагато швидшим, але забезпечує еквівалентну точність. Ядро пірамідної відповідності було застосовано до і із багатообіцяючими результатами.
Обмеження та останні розробки
Одним із сумнозвісних недоліків BoW є те, що він ігнорує просторові відносини між патчами, які дуже важливі для представлення зображення. Дослідники запропонували кілька методів включення просторової інформації. Для покращення рівня функцій функції корелограми можуть фіксувати просторову співпояву функцій. Для генеративних моделей також враховуються відносні позиції кодових слів. Модель ієрархічної форми та зовнішнього вигляду для людських дій вводить новий шар частин (модель сузір'я) між пропорцією суміші та функціями BoW, який фіксує просторові відносини між частинами в шарі. Для дискримінаційних моделей просторове пірамідне зіставлення виконує пірамідне зіставлення шляхом поділу зображення на дедалі точніші підобласті та обчислення гістограм локальних особливостей у кожній підобласті. Нещодавно доповнення локальних дескрипторів зображення (тобто SIFT(scale-invariant feature transform) їх просторовими координатами, нормалізованими шириною та висотою зображення, виявилося надійним і простим підходом до кодування просторових координат, який вводить просторову інформацію в модель BoW.
Модель BoW ще не була ретельно перевірена на незмінність точки огляду та незмінність масштабу, і продуктивність неясна. Крім того, модель BoW для сегментації та локалізації об'єктів недостатньо зрозуміла.
Систематичне порівняння конвеєрів класифікації виявило, що кодування статистики першого та другого порядку (Вектор локально агрегованих дескрипторів (Vector of Locally Aggregated Descriptors, VLAD) і Вектор Фішера ([en], FV)) значно підвищило точність класифікації порівняно з BoW, а також зменшило розмір книги кодів, таким чином зменшуючи обчислювальні зусилля для створення кодової книги. Крім того, нещодавнє детальне порівняння методів кодування та об'єднання для BoW показало, що статистика другого порядку в поєднанні з і відповідним об'єднанням, таким як нормалізація потужності, може ще більше перевершити вектори Фішера та навіть наблизитися до результатів простих моделей згорткової нейронної мережі. на деяких наборах даних розпізнавання об'єктів, таких як Oxford Flower Dataset 102 .
Див. також
- Доречно-векторна машина, ймовірнісна розріджена ядрова модель, ідентична у функційному вигляді до ОВМ
- Послідовна мінімальна оптимізація
- Методологія картографування
- Модель векторного простору
- Модель «торба слів»
- Конструювання ознак
- Об'єктно-орієнтоване програмування
- Згорткова нейронна мережа
- Простір масштабів
Примітки
- Csurka, Gabriella; Dance, Christopher; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual Categorization with Bags of Keypoints (PDF) (англійською) (вид. Workshop on Statistical Learning in Computer Vision). с. 1—22.
- Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN .
- L. Fei-Fei; R. Fergus; A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
- Qiu, G. (2002). Indexing chromatic and achromatic patterns for content-based colour image retrieval (PDF). Pattern Recognition. 35 (8): 1675—1686. Bibcode:2002PatRe..35.1675Q. doi:10.1016/S0031-3203(01)00162-5.
- Vidal-Naquet; Ullman (1999). Object recognition with informative features and linear classification. Proceedings Ninth IEEE International Conference on Computer Vision. с. 1150—1157. doi:10.1109/ICCV.2003.1238356. ISBN .
- T. Leung; (2001). Representing and recognizing the visual appearance of materials using three-dimensional textons (PDF). International Journal of Computer Vision. 43 (1): 29—44. doi:10.1023/A:1011126920638.
- Sivic, J.; Russell, B.C.; Efros, A.A.; Zisserman, A.; Freeman, W.T. (2005). Discovering objects and their location in images. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 370. doi:10.1109/ICCV.2005.77. ISBN .
{{}}
:|access-date=
вимагає|url=
();|archive-url=
вимагає|url=
() - D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ред.). (PDF). Journal of Machine Learning Research. 3 (4–5): 993—1022. doi:10.1162/jmlr.2003.3.4-5.993. Архів оригіналу (PDF) за 22 серпня 2008. Процитовано 10 грудня 2007.
- Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN .
- Serre, T.; Wolf, L.; Poggio, T. (2005). Object Recognition with Features Inspired by Visual Cortex. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 994. doi:10.1109/CVPR.2005.254. ISBN .
{{}}
:|access-date=
вимагає|url=
();|archive-url=
вимагає|url=
() - Jianguo Zhang; Marcin Marszałek; ; (2007). (PDF). International Journal of Computer Vision. 73 (2): 213—238. doi:10.1007/s11263-006-9794-4. Архів оригіналу (PDF) за 13 квітня 2018. Процитовано 1 грудня 2023.
- Grauman, K.; Darrell, T. (2005). The pyramid match kernel: discriminative classification with sets of image features. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 1458. doi:10.1109/ICCV.2005.239. ISBN .
- Jianchao Yang; Kai Yu; Yihong Gong; Huang, T. (2009). Linear spatial pyramid matching using sparse coding for image classification. 2009 IEEE Conference on Computer Vision and Pattern Recognition. с. 1794. doi:10.1109/CVPR.2009.5206757. ISBN .
{{}}
:|access-date=
вимагає|url=
();|archive-url=
вимагає|url=
() - Savarese, S.; Winn, J.; Criminisi, A. (2006). Discriminative Object Class Models of Appearance and Shape by Correlatons. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Т. 2. с. 2033. doi:10.1109/CVPR.2006.102. ISBN .
{{}}
:|access-date=
вимагає|url=
();|archive-url=
вимагає|url=
() - Sudderth, E.B.; Torralba, A.; Freeman, W.T.; Willsky, A.S. (2005). Learning hierarchical models of scenes, objects, and parts. Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. с. 1331. doi:10.1109/ICCV.2005.137. ISBN .
{{}}
:|access-date=
вимагає|url=
();|archive-url=
вимагає|url=
() - Niebles, Juan Carlos; Li Fei-Fei (2007). A Hierarchical Model of Shape and Appearance for Human Action Classification. 2007 IEEE Conference on Computer Vision and Pattern Recognition. с. 1. doi:10.1109/CVPR.2007.383132. ISBN .
- Lazebnik, S.; ; Ponce, J. (2006). Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Т. 2. с. 2169. doi:10.1109/CVPR.2006.68. ISBN .
{{}}
:|access-date=
вимагає|url=
();|archive-url=
вимагає|url=
() - Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (1 травня 2013). Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection. Computer Vision and Image Understanding. 117 (5): 479—492. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
- Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (24 лютого 2017). Higher-order occurrence pooling for bags-of-words: Visual concept detection (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313—326. doi:10.1109/TPAMI.2016.2545667. ISSN 0162-8828. PMID 27019477.
{{}}
:|hdl-access=
вимагає|hdl=
() - L. Fei-Fei; R. Fergus; A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
- Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (1 червня 2010). Aggregating local descriptors into a compact image representation. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (PDF). с. 3304—3311. doi:10.1109/CVPR.2010.5540039. ISBN .
- Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (24 лютого 2017). Plant species classification using flower images—A comparative study of local feature representations. PLOS ONE. 12 (2): e0170629. Bibcode:2017PLoSO..1270629S. doi:10.1371/journal.pone.0170629. ISSN 1932-6203. PMC 5325198. PMID 28234999.
- Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (24 лютого 2017). Higher-order occurrence pooling for bags-of-words: Visual concept detection (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313—326. doi:10.1109/TPAMI.2016.2545667. ISSN 0162-8828. PMID 27019477.
{{}}
:|hdl-access=
вимагає|hdl=
()
Джерела
- G. Csurka; C. Dance; L.X. Fan; J. Willamowski & C. Bray (2004). Visual categorization with bags of keypoints. Proc. of ECCV International Workshop on Statistical Learning in Computer Vision.
- J. Sivic & A. Zisserman (2003). Video Google: A Text Retrieval Approach to Object Matching in Videos (PDF). Proc. of ICCV.[недоступне посилання з 01.09.2023]
- Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Т. 2. с. 524—531. doi:10.1109/CVPR.2005.16. ISBN . S2CID 6387937.
- L. Fei-Fei; R. Fergus & A. Torralba. Recognizing and Learning Object Categories, CVPR 2007 short course.
- Qiu, G. (2002). Indexing chromatic and achromatic patterns for content-based colour image retrieval (PDF). Pattern Recognition. 35 (8): 1675—1686. Bibcode:2002PatRe..35.1675Q. doi:10.1016/S0031-3203(01)00162-5.
- T. Leung; (2001). Representing and recognizing the visual appearance of materials using three-dimensional textons (PDF). International Journal of Computer Vision. 43 (1): 29—44. doi:10.1023/A:1011126920638. S2CID 14915716.
- T. Hoffman (1999). (PDF). Proc. of the Fifteenth Conference on Uncertainty in Artificial Intelligence. Архів оригіналу (PDF) за 10 липня 2007. Процитовано 10 грудня 2007.
- D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ред.). (PDF). Journal of Machine Learning Research. 3 (4–5): 993—1022. doi:10.1162/jmlr.2003.3.4-5.993. Архів оригіналу (PDF) за 22 серпня 2008. Процитовано 10 грудня 2007.
- Jianguo Zhang; Marcin Marszałek; ; (2007). Local Features and Kernels for Classification of Texture and Object Categories: a Comprehensive Study (PDF). International Journal of Computer Vision. 73 (2): 213—238. doi:10.1007/s11263-006-9794-4. S2CID 1486613.
- Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (1 травня 2013). Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection. Computer Vision and Image Understanding. 117 (5): 479—492. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
- Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (1 червня 2010). Aggregating local descriptors into a compact image representation. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (PDF). с. 3304—3311. doi:10.1109/CVPR.2010.5540039. ISBN . S2CID 1912782.
Посилання
- Сумка візуальних слів у двох словах, короткий посібник від Бетеї Давіди.
- Демо для двох класифікаторів сумок слів від Л. Фей-Фея, Р. Фергуса та А. Торральби.
- : набір інструментів Matlab/C++, який реалізує пошук у перевернутому файлі для моделі Bag of Words. Він також містить реалізації для швидкого приблизного пошуку найближчого сусіда з використанням рандомізованого kd-дерева, хешування з урахуванням місцевості та .
- Бібліотека DBoW2: бібліотека, яка реалізує швидкий пакет слів у C++ із підтримкою OpenCV .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U komp yuternomu zori model torba sliv angl bag of words model model BoW yaku inodi nazivayut modellyu sumki vizualnih sliv mozhna zastosuvati do klasifikaciyi abo poshuku zobrazhen traktuyuchi harakteristiki zobrazhennya yak slova U klasifikaciyi dokumentiv torba sliv ce rozridzhenij vektor pidrahunkiv poyavi sliv tobto rozridzhena gistograma nad slovnikom U komp yuternomu zori model torba sliv ce vektor pidrahunkiv poyavi slovnika lokalnih harakteristik zobrazhennya Vizualizaciya modeli Torba sliv u komp yuternomu bachenniPredstavlennya zobrazhennya na osnovi modeli BoWShob predstaviti zobrazhennya za dopomogoyu modeli BoW zobrazhennya mozhna rozglyadati yak dokument Podibnim chinom neobhidno viznachiti slova v zobrazhennyah Shob dosyagti cogo vin zazvichaj vklyuchaye nastupni tri kroki viyavlennya funkciyi opis funkciyi ta stvorennya kodovoyi knigi Viznachennyam modeli BoW mozhe buti podannya gistogrami na osnovi nezalezhnih oznak Indeksuvannya ta poshuk zobrazhen na osnovi vmistu CBIR zdayetsya ye pershim zastosovuvachem ciyeyi tehniki predstavlennya zobrazhen Gistograma Predstavlennya oznak Pislya viyavlennya oznak kozhne zobrazhennya abstraguyetsya kilkoma lokalnimi plyamami Metodi podannya funkcij stosuyutsya togo yak predstaviti patchi yak chislovi vektori Ci vektori nazivayutsya deskriptorami oznak Horoshij deskriptor povinen mati zdatnist pevnoyu miroyu obroblyati intensivnist obertannya masshtab i afinni variaciyi Odnim iz najvidomishih deskriptoriv ye Scale invariant Feature Transform SIFT SIFT peretvoryuye kozhen patch u 128 vimirnij vektor Pislya cogo kroku kozhne zobrazhennya ye naborom vektoriv odnakovoyi rozmirnosti 128 dlya SIFT de poryadok riznih vektoriv ne maye znachennya Generaciya kodovoyi knigi Ostannim krokom dlya modeli BoW ye peretvorennya vektorno predstavlenih patchiv na kodovi slova analogichni slovam u tekstovih dokumentah sho takozh stvoryuye kodovu knigu analogiyu slovniku sliv Kodove slovo mozhna rozglyadati yak predstavnik kilkoh podibnih patchiv Odnim iz prostih metodiv ye klasterizaciya k serednih po vsih vektorah Potim kodovi slova viznachayutsya yak centri vivchenih klasteriv Kilkist klasteriv ye rozmirom kodovoyi knigi analogichno rozmiru slovnika sliv Takim chinom kozhna plyama v zobrazhenni zistavlyayetsya z pevnim kodovim slovom cherez proces klasterizaciyi i zobrazhennya mozhe buti predstavleno gistogramoyu kodovih sliv Navchannya ta rozpiznavannya na osnovi modeli BoWDoslidniki komp yuternogo zoru rozrobili kilka metodiv navchannya shob vikoristovuvati model BoW dlya zavdan pov yazanih iz zobrazhennyami napriklad Ci metodi mozhna umovno rozdiliti na dvi kategoriyi nekontrolovani ta kontrolovani modeli Dlya problemi kategorizaciyi kilkoh mitok matricyu plutanini mozhna vikoristovuvati yak pokaznik ocinki Modeli bez naglyadu Os deyaki poznachki dlya cogo rozdilu Pripustimo rozmir kodovoyi knigi dorivnyuye V displaystyle V w displaystyle w kozhen patch w displaystyle w ye V vimirnim vektorom odin komponent yakogo dorivnyuye odinici a vsi inshi komponenti dorivnyuyut nulyu dlya nalashtuvannya klasterizaciyi k serednih odinichnij komponent sho dorivnyuye odinici vkazuye na klaster yakij w displaystyle w nalezhit do The v displaystyle v go kodovogo slova v kodovij knizi mozhna predstaviti yak w v 1 displaystyle w v 1 i w u 0 displaystyle w u 0 dlya u v displaystyle u neq v w displaystyle mathbf w kozhne zobrazhennya predstavleno w w 1 w 2 w N displaystyle mathbf w w 1 w 2 cdots w N usi patchi na zobrazhenni d j displaystyle d j j displaystyle j te zobrazhennya v kolekciyi zobrazhen c displaystyle c kategoriya zobrazhennya z displaystyle z osnovna dumka abo tema patcha p displaystyle pi proporciya sumishi Oskilki model BoW ye analogiyeyu modeli BoW v NLP generativni modeli rozrobleni v tekstovih oblastyah takozh mozhut buti adaptovani v komp yuternomu zori Obgovoryuyutsya prosta nayivna model Bayesa ta iyerarhichni modeli Bayesa Nejronna merezha Nayivnogo BayesaNayivnij BayesNajprostishim ye nayivnij klasifikator Bayesa Vikoristovuyuchi movu grafichnih modelej nayivnij klasifikator Bayesa opisuyetsya navedenim nizhche rivnyannyam Osnovna ideya abo pripushennya ciyeyi modeli polyagaye v tomu sho kozhna kategoriya maye svij vlasnij rozpodil u knigah kodiv i sho rozpodili kozhnoyi kategoriyi pomitno vidriznyayutsya Vizmemo dlya prikladu kategoriyu oblichchya ta kategoriyu avtomobilya Kategoriya oblichchya mozhe pidkreslyuvati kodovi slova yaki predstavlyayut nis oko ta rot todi yak kategoriya avtomobilya mozhe pidkreslyuvati kodovi slova yaki predstavlyayut koleso ta vikno Otrimavshi nabir navchalnih prikladiv klasifikator vivchaye rizni rozpodili dlya riznih kategorij Rishennya pro kategorizaciyu prijnyato v c arg max c p c w arg max c p c p w c arg max c p c n 1 N p w n c displaystyle c arg max c p c mathbf w arg max c p c p mathbf w c arg max c p c prod n 1 N p w n c Tomas Bayesangl Thomas BayesNacionalnistAngliyecGaluzTeoriya imovirnostejVidomij zavdyaki Teorema Bayesa metod Nayivnogo Bayesa Oskilki nayivnij klasifikator Bayesa prostij ale efektivnij jogo zazvichaj vikoristovuyut yak bazovij metod dlya porivnyannya Iyerarhichni bayesivski modeliOsnovne pripushennya nayivnoyi modeli Bayesa inodi ne vikonuyetsya Napriklad zobrazhennya prirodnoyi sceni mozhe mistiti kilka riznih tem Imovirnishij prihovanij semantichnij analiz pLSA i prihovanij rozpodil Dirihle LDA ye dvoma populyarnimi tematichnimi modelyami z tekstovih domeniv dlya virishennya shozhoyi problemi z kilkoma temami Vizmemo dlya prikladu LDA Dlya modelyuvannya zobrazhen prirodnoyi sceni za dopomogoyu LDA provoditsya analogiya z analizom dokumentiv Iyerarhiya bayevskoyi modeli kategoriya zobrazhennya zistavlyayetsya z kategoriyeyu dokumenta proporciya sumishi osnovnoyi dumki vidobrazhaye proporciyu sumishi tem indeks osnovnoyi dumki zistavlyayetsya z indeksom temi kodove slovo zistavlyayetsya zi slovom Cej metod pokazuye bagatoobicyani rezultati v klasifikaciyi prirodnih scen za 13 kategoriyami prirodnih scen Kontrolovani modeliOskilki zobrazhennya predstavleni na osnovi modeli BoW mozhna sprobuvati bud yaku diskriminacijnu model pridatnu dlya kategorizaciyi tekstovih dokumentiv napriklad mashinu opornih vektoriv i AdaBoost Tryuk yadra takozh zastosovnij koli vikoristovuyetsya klasifikator na osnovi yadra napriklad SVM Yadro Pyramid match ye neshodavno rozroblenim na osnovi modeli BoW Pidhid do lokalnih osoblivostej vikoristannya predstavlennya modeli BoW navchenogo klasifikatorami mashinnogo navchannya z riznimi yadrami napriklad EMD yadro ta X 2 displaystyle X 2 kernel bulo retelno protestovano v oblasti rozpiznavannya tekstur i ob yektiv Povidomlyalosya pro duzhe obnadijlivi rezultati shodo ryadu naboriv danih Cej pidhid dosyag duzhe vrazhayuchih rezultativ u Yadro vidpovidnosti piramidi Zobrazhennya do Yadra vidpovidnosti piramidi Yadro vidpovidnosti piramidi angl pyramid match kernel ce shvidkij algoritm linijna skladnist zamist klasichnoyi kvadratichnoyi skladnosti yaderna funkciya zadovolnyaye umovu Mersera yaka vidobrazhaye funkciyi BoW abo nabir funkcij u visokij rozmirnosti na bagatovimirni gistogrami z riznoyu rozdilnoyu zdatnistyu Perevagoyu cih gistogram iz riznoyu rozdilnoyu zdatnistyu ye yih zdatnist fiksuvati suputni elementi Yadro piramidnoyi vidpovidnosti buduye gistogrami z riznoyu rozdilnoyu zdatnistyu ob yednuyuchi tochki danih u diskretni oblasti zrostayuchogo rozmiru Takim chinom tochki yaki ne zbigayutsya pri visokij rozdilnij zdatnosti mayut shans zbigatisya pri nizkij rozdilnij zdatnosti Yadro piramidnoyi vidpovidnosti vikonuye pribliznu vidpovidnist podibnosti bez yavnogo poshuku chi obchislennya vidstani Zamist cogo vin peretinaye gistogrami dlya nablizhennya optimalnogo zbigu Vidpovidno chas obchislennya ye lishe linijnim za kilkistyu oznak Porivnyano z inshimi pidhodami do yadra yadro piramidalnogo zbigu ye nabagato shvidshim ale zabezpechuye ekvivalentnu tochnist Yadro piramidnoyi vidpovidnosti bulo zastosovano do i iz bagatoobicyayuchimi rezultatami Obmezhennya ta ostanni rozrobkiOdnim iz sumnozvisnih nedolikiv BoW ye te sho vin ignoruye prostorovi vidnosini mizh patchami yaki duzhe vazhlivi dlya predstavlennya zobrazhennya Doslidniki zaproponuvali kilka metodiv vklyuchennya prostorovoyi informaciyi Dlya pokrashennya rivnya funkcij funkciyi korelogrami mozhut fiksuvati prostorovu spivpoyavu funkcij Dlya generativnih modelej takozh vrahovuyutsya vidnosni poziciyi kodovih sliv Model iyerarhichnoyi formi ta zovnishnogo viglyadu dlya lyudskih dij vvodit novij shar chastin model suzir ya mizh proporciyeyu sumishi ta funkciyami BoW yakij fiksuye prostorovi vidnosini mizh chastinami v shari Dlya diskriminacijnih modelej prostorove piramidne zistavlennya vikonuye piramidne zistavlennya shlyahom podilu zobrazhennya na dedali tochnishi pidoblasti ta obchislennya gistogram lokalnih osoblivostej u kozhnij pidoblasti Neshodavno dopovnennya lokalnih deskriptoriv zobrazhennya tobto SIFT scale invariant feature transform yih prostorovimi koordinatami normalizovanimi shirinoyu ta visotoyu zobrazhennya viyavilosya nadijnim i prostim pidhodom do koduvannya prostorovih koordinat yakij vvodit prostorovu informaciyu v model BoW Model BoW she ne bula retelno perevirena na nezminnist tochki oglyadu ta nezminnist masshtabu i produktivnist neyasna Krim togo model BoW dlya segmentaciyi ta lokalizaciyi ob yektiv nedostatno zrozumila Sistematichne porivnyannya konveyeriv klasifikaciyi viyavilo sho koduvannya statistiki pershogo ta drugogo poryadku Vektor lokalno agregovanih deskriptoriv Vector of Locally Aggregated Descriptors VLAD i Vektor Fishera en FV znachno pidvishilo tochnist klasifikaciyi porivnyano z BoW a takozh zmenshilo rozmir knigi kodiv takim chinom zmenshuyuchi obchislyuvalni zusillya dlya stvorennya kodovoyi knigi Krim togo neshodavnye detalne porivnyannya metodiv koduvannya ta ob yednannya dlya BoW pokazalo sho statistika drugogo poryadku v poyednanni z i vidpovidnim ob yednannyam takim yak normalizaciya potuzhnosti mozhe she bilshe perevershiti vektori Fishera ta navit nablizitisya do rezultativ prostih modelej zgortkovoyi nejronnoyi merezhi na deyakih naborah danih rozpiznavannya ob yektiv takih yak Oxford Flower Dataset 102 Div takozhDorechno vektorna mashina jmovirnisna rozridzhena yadrova model identichna u funkcijnomu viglyadi do OVM Poslidovna minimalna optimizaciya Metodologiya kartografuvannya Model vektornogo prostoru Model torba sliv Konstruyuvannya oznak Ob yektno oriyentovane programuvannya Zgortkova nejronna merezha Prostir masshtabivPrimitkiCsurka Gabriella Dance Christopher Fan Lixin Willamowski Jutta Bray Cedric 2004 Visual Categorization with Bags of Keypoints PDF anglijskoyu vid Workshop on Statistical Learning in Computer Vision s 1 22 Fei Fei Li Perona P 2005 A Bayesian Hierarchical Model for Learning Natural Scene Categories 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 05 T 2 s 524 531 doi 10 1109 CVPR 2005 16 ISBN 978 0 7695 2372 9 L Fei Fei R Fergus A Torralba Recognizing and Learning Object Categories CVPR 2007 short course Qiu G 2002 Indexing chromatic and achromatic patterns for content based colour image retrieval PDF Pattern Recognition 35 8 1675 1686 Bibcode 2002PatRe 35 1675Q doi 10 1016 S0031 3203 01 00162 5 Vidal Naquet Ullman 1999 Object recognition with informative features and linear classification Proceedings Ninth IEEE International Conference on Computer Vision s 1150 1157 doi 10 1109 ICCV 2003 1238356 ISBN 978 0 7695 1950 0 T Leung 2001 Representing and recognizing the visual appearance of materials using three dimensional textons PDF International Journal of Computer Vision 43 1 29 44 doi 10 1023 A 1011126920638 Sivic J Russell B C Efros A A Zisserman A Freeman W T 2005 Discovering objects and their location in images Tenth IEEE International Conference on Computer Vision ICCV 05 Volume 1 s 370 doi 10 1109 ICCV 2005 77 ISBN 978 0 7695 2334 7 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a access date vimagaye url dovidka archive url vimagaye url dovidka D Blei A Ng amp M Jordan 2003 Lafferty John red PDF Journal of Machine Learning Research 3 4 5 993 1022 doi 10 1162 jmlr 2003 3 4 5 993 Arhiv originalu PDF za 22 serpnya 2008 Procitovano 10 grudnya 2007 Fei Fei Li Perona P 2005 A Bayesian Hierarchical Model for Learning Natural Scene Categories 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 05 T 2 s 524 531 doi 10 1109 CVPR 2005 16 ISBN 978 0 7695 2372 9 Serre T Wolf L Poggio T 2005 Object Recognition with Features Inspired by Visual Cortex 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 05 T 2 s 994 doi 10 1109 CVPR 2005 254 ISBN 978 0 7695 2372 9 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a access date vimagaye url dovidka archive url vimagaye url dovidka Jianguo Zhang Marcin Marszalek 2007 PDF International Journal of Computer Vision 73 2 213 238 doi 10 1007 s11263 006 9794 4 Arhiv originalu PDF za 13 kvitnya 2018 Procitovano 1 grudnya 2023 Grauman K Darrell T 2005 The pyramid match kernel discriminative classification with sets of image features Tenth IEEE International Conference on Computer Vision ICCV 05 Volume 1 s 1458 doi 10 1109 ICCV 2005 239 ISBN 978 0 7695 2334 7 Jianchao Yang Kai Yu Yihong Gong Huang T 2009 Linear spatial pyramid matching using sparse coding for image classification 2009 IEEE Conference on Computer Vision and Pattern Recognition s 1794 doi 10 1109 CVPR 2009 5206757 ISBN 978 1 4244 3992 8 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a access date vimagaye url dovidka archive url vimagaye url dovidka Savarese S Winn J Criminisi A 2006 Discriminative Object Class Models of Appearance and Shape by Correlatons 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Volume 2 CVPR 06 T 2 s 2033 doi 10 1109 CVPR 2006 102 ISBN 978 0 7695 2597 6 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a access date vimagaye url dovidka archive url vimagaye url dovidka Sudderth E B Torralba A Freeman W T Willsky A S 2005 Learning hierarchical models of scenes objects and parts Tenth IEEE International Conference on Computer Vision ICCV 05 Volume 1 s 1331 doi 10 1109 ICCV 2005 137 ISBN 978 0 7695 2334 7 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a access date vimagaye url dovidka archive url vimagaye url dovidka Niebles Juan Carlos Li Fei Fei 2007 A Hierarchical Model of Shape and Appearance for Human Action Classification 2007 IEEE Conference on Computer Vision and Pattern Recognition s 1 doi 10 1109 CVPR 2007 383132 ISBN 978 1 4244 1179 5 Lazebnik S Ponce J 2006 Beyond Bags of Features Spatial Pyramid Matching for Recognizing Natural Scene Categories 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Volume 2 CVPR 06 T 2 s 2169 doi 10 1109 CVPR 2006 68 ISBN 978 0 7695 2597 6 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a access date vimagaye url dovidka archive url vimagaye url dovidka Koniusz Piotr Yan Fei Mikolajczyk Krystian 1 travnya 2013 Comparison of mid level feature coding approaches and pooling strategies in visual concept detection Computer Vision and Image Understanding 117 5 479 492 doi 10 1016 j cviu 2012 10 010 ISSN 1077 3142 Koniusz Piotr Yan Fei Gosselin Philippe Henri Mikolajczyk Krystian 24 lyutogo 2017 Higher order occurrence pooling for bags of words Visual concept detection PDF IEEE Transactions on Pattern Analysis and Machine Intelligence 39 2 313 326 doi 10 1109 TPAMI 2016 2545667 ISSN 0162 8828 PMID 27019477 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a hdl access vimagaye hdl dovidka L Fei Fei R Fergus A Torralba Recognizing and Learning Object Categories CVPR 2007 short course Jegou H Douze M Schmid C Perez P 1 chervnya 2010 Aggregating local descriptors into a compact image representation 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition PDF s 3304 3311 doi 10 1109 CVPR 2010 5540039 ISBN 978 1 4244 6984 0 Seeland Marco Rzanny Michael Alaqraa Nedal Waldchen Jana Mader Patrick 24 lyutogo 2017 Plant species classification using flower images A comparative study of local feature representations PLOS ONE 12 2 e0170629 Bibcode 2017PLoSO 1270629S doi 10 1371 journal pone 0170629 ISSN 1932 6203 PMC 5325198 PMID 28234999 Koniusz Piotr Yan Fei Gosselin Philippe Henri Mikolajczyk Krystian 24 lyutogo 2017 Higher order occurrence pooling for bags of words Visual concept detection PDF IEEE Transactions on Pattern Analysis and Machine Intelligence 39 2 313 326 doi 10 1109 TPAMI 2016 2545667 ISSN 0162 8828 PMID 27019477 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a hdl access vimagaye hdl dovidka DzherelaG Csurka C Dance L X Fan J Willamowski amp C Bray 2004 Visual categorization with bags of keypoints Proc of ECCV International Workshop on Statistical Learning in Computer Vision J Sivic amp A Zisserman 2003 Video Google A Text Retrieval Approach to Object Matching in Videos PDF Proc of ICCV nedostupne posilannya z 01 09 2023 Fei Fei Li Perona P 2005 A Bayesian Hierarchical Model for Learning Natural Scene Categories 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 05 T 2 s 524 531 doi 10 1109 CVPR 2005 16 ISBN 978 0 7695 2372 9 S2CID 6387937 L Fei Fei R Fergus amp A Torralba Recognizing and Learning Object Categories CVPR 2007 short course Qiu G 2002 Indexing chromatic and achromatic patterns for content based colour image retrieval PDF Pattern Recognition 35 8 1675 1686 Bibcode 2002PatRe 35 1675Q doi 10 1016 S0031 3203 01 00162 5 T Leung 2001 Representing and recognizing the visual appearance of materials using three dimensional textons PDF International Journal of Computer Vision 43 1 29 44 doi 10 1023 A 1011126920638 S2CID 14915716 T Hoffman 1999 PDF Proc of the Fifteenth Conference on Uncertainty in Artificial Intelligence Arhiv originalu PDF za 10 lipnya 2007 Procitovano 10 grudnya 2007 D Blei A Ng amp M Jordan 2003 Lafferty John red PDF Journal of Machine Learning Research 3 4 5 993 1022 doi 10 1162 jmlr 2003 3 4 5 993 Arhiv originalu PDF za 22 serpnya 2008 Procitovano 10 grudnya 2007 Jianguo Zhang Marcin Marszalek 2007 Local Features and Kernels for Classification of Texture and Object Categories a Comprehensive Study PDF International Journal of Computer Vision 73 2 213 238 doi 10 1007 s11263 006 9794 4 S2CID 1486613 Koniusz Piotr Yan Fei Mikolajczyk Krystian 1 travnya 2013 Comparison of mid level feature coding approaches and pooling strategies in visual concept detection Computer Vision and Image Understanding 117 5 479 492 doi 10 1016 j cviu 2012 10 010 ISSN 1077 3142 Jegou H Douze M Schmid C Perez P 1 chervnya 2010 Aggregating local descriptors into a compact image representation 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition PDF s 3304 3311 doi 10 1109 CVPR 2010 5540039 ISBN 978 1 4244 6984 0 S2CID 1912782 PosilannyaSumka vizualnih sliv u dvoh slovah korotkij posibnik vid Beteyi Davidi Demo dlya dvoh klasifikatoriv sumok sliv vid L Fej Feya R Fergusa ta A Torralbi nabir instrumentiv Matlab C yakij realizuye poshuk u perevernutomu fajli dlya modeli Bag of Words Vin takozh mistit realizaciyi dlya shvidkogo pribliznogo poshuku najblizhchogo susida z vikoristannyam randomizovanogo kd dereva heshuvannya z urahuvannyam miscevosti ta Biblioteka DBoW2 biblioteka yaka realizuye shvidkij paket sliv u C iz pidtrimkoyu OpenCV