Масштабоінваріа́нтне озна́кове перетво́рення (МІОП, англ. scale-invariant feature transform, SIFT) — це алгоритм комп'ютерного бачення для виявляння, описування та зіставляння локальних ознак (англ. feature) у зображеннях, винайдений [en] 1999 року. До його застосувань належать [en], [en] та навігація, [en], тривимірне моделювання, [en], відстежування у відео, ідентифікування особин у дикій природі та [en].
Спершу ключові точки SIFT об'єктів виділяють із набору опорних зображень, і зберігають у базі даних. Об'єкт на новому зображенні розпізнають індивідуальним порівнянням кожної ознаки з нового зображення з цією базою даних, і пошуком кандидатів у збіги на основі евклідової відстані їхніх векторів ознак. У цьому повному наборі збігів встановлюють підмножини ключових точок, які узгоджуються з об'єктом і його розташуванням, масштабом і спрямуванням на новому зображенні, щоби відфільтрувати добрі збіги. Визначення узгоджених кластерів виконують швидко за допомогою ефективного втілення геш-таблиці узагальненого перетворення Гафа. Кожен кластер із 3 або більше ознак, що узгоджуються з об'єктом та його [en], потім підлягає подальшій докладній перевірці моделі, й викиди відтак відкидають. Нарешті обчислюють імовірність того, що певний набір ознак вказує на присутність об'єкта, враховуючи точність допасування та число ймовірних помилкових збігів. Збіги об'єктів, які пройшли всі ці перевірки, можливо з високою довірою визначити як правильні.
Огляд
Цей розділ написано занадто професійним зі специфічною термінологією, що може бути незрозумілим для більшості читачів. (січень 2023) |
Для будь-якого об'єкта на зображенні можливо виділити особливі точки на об'єкті, щоби забезпечити «ознаковий опис» (англ. "feature description") об'єкта. Цей опис, виділений із тренувального зображення, можливо потім використовувати для встановлювання об'єкта при намаганні знайти його на перевірному зображенні, що містить багато інших об'єктів. Для надійного розпізнавання важливо, щоб ознаки, виділені з тренувального зображення, було можливо виявляти навіть за змін масштабу зображення, шуму та освітлення. Такі точки зазвичай лежать на висококонтрастних ділянках зображення, таких як контури об'єктів.
Ще одна важлива характеристика цих ознак полягає в тому, що їхнє відносне розташування у первинній сцені не повинно змінюватися від одного зображення до іншого. Наприклад, якщо як ознаки використовувати лише чотири кути дверей, вони працюватимуть незалежно від положення дверей; але якщо використовувати й точки всередині рами, то розпізнавання не вдавалося би залежно від того, чи двері відчинено, чи зачинено. Так само ознаки, розташовані в шарнірних або гнучких об'єктах, як правило, не працюватимуть, якщо між двома зображеннями оброблюваного набору станеться будь-яка зміна їхньої внутрішньої геометрії. Проте на практиці SIFT виявляє та використовує набагато більшу кількість ознак із зображень, що зменшує внесок помилок, спричинених цими локальними варіаціями, до усередненої похибки всіх помилок зіставлення ознак.
SIFT може стійко ідентифікувати об'єкти навіть серед захаращення та за часткового затулення, оскільки описувач ознак SIFT інваріантний щодо рівномірного масштабування, спрямування, змін освітлення та частково інваріантний щодо афінного спотворення. У цьому розділі коротко викладено первинний алгоритм SIFT і згадано декілька конкурентних методів, доступних для розпізнавання об'єктів за захаращення та часткового затулення.
Описувач SIFT ґрунтується на вимірюваннях зображення в термінах рецептивних полів, над якими встановлюють локальні масштабоінваріантні системи відліку шляхом локального обирання масштабу. Загальне теоретичне пояснення цього наведено у статті Scholarpedia про SIFT.
Задача | Методика | Переваги |
---|---|---|
розташування / масштаб / спрямування ключових точок | Різниця гауссіанів / масштабопросторова піраміда / призначування спрямування | точність, стабільність, інваріантність щодо масштабу та обертання |
геометричне спотворення | розмивання / передискретизація локальних проєкцій спрямування зображення | афінна інваріантність |
індексування та зіставляння | пошук найближчих сусідів / перший засік ліпший | Ефективність / швидкість |
Встановлювання кластерів | Голосування перетворення Гафа | надійні моделі [en] |
Перевірка моделі / виявляння викидів | [en] | краща стійкість до помилок із меншою кількістю збігів |
Примання гіпотези | Аналіз баєсової ймовірності | надійність |
Типи ознак
Цей розділ не містить . (січень 2023) |
Виявляння та опис локальних ознак зображення може допомагати в розпізнаванні об'єктів. Ознаки SIFT локальні, ґрунтуються на зовнішньому вигляді об'єкта в певних особливих точках, та інваріантні щодо масштабу та обертання зображення. Вони також стійкі до змін освітлення, шуму та незначних змін точки огляду. На додачу до цих властивостей, вони дуже вирізнювальні (англ. distinctive), відносно легкі для виділяння, та дозволяють правильно встановлювати об'єкти з низькою ймовірністю невідповідності. Їх відносно легко зіставляти з (великою) базою даних локальних ознак, але, проте, висока вимірність може бути проблемою, і зазвичай використовують імовірнісні алгоритми, такі як k-вимірні дерева з пошуком «перший засік ліпший». Опис об'єкта набором ознак SIFT також стійкий до часткового затулення; достатньо всього лише трьох ознак SIFT від об'єкта, щоб обчислити його розташування та позу. Розпізнавання можливо виконувати в часі, близькому до реального, принаймні для невеликих баз даних і на сучасному комп'ютерному обладнанні.[]
Основні етапи
Масштабоінваріантне виявляння ознак
Метод Лоу для породжування ознак зображення перетворює зображення на велику збірку векторів ознак, кожен з яких інваріантний до паралельного перенесення, масштабування та обертання зображення, частково інваріантний до змін освітлення, та стійкий до локальних геометричних спотворень. Ці ознаки мають схожі властивості з нейронами первинної зорової кори, які кодують основні форми, колір та рух для виявляння об'єктів у зорі приматів. Ключові місця визначають як максимуми та мінімуми результату функції різниці гауссіанів, застосованої у просторі масштабів до низки згладжених та передискретизованих зображень. Точки-кандидати з низьким контрастом та точки контурного відгуку вздовж контурів відкидають. Ключовим точкам із встановленим розташуванням призначують переважні спрямування. Ці кроки забезпечують, щоби ключові точки були стабільнішими для зіставляння та розпізнавання. Відтак, стійкі до локального афінного спотворення описувачі SIFT отримують розглядом пікселів навколо певного радіуса ключового місця, розмивання та передискретизації локальних площин спрямування зображення.
Зіставляння та індексування ознак
Індексування полягає у зберіганні ключових точок SIFT та ідентифікуванні відповідних ключових точок із нового зображення. Лоу використав видозміну алгоритму k-вимірного дерева під назвою метод пошуку «перший засік ліпший» (англ. best-bin-first search), який може з високою ймовірністю встановлювати найближчих сусідів, використовуючи лише обмежену кількість обчислень. Алгоритм «перший засік ліпший» використовує видозмінене впорядкування пошуку для алгоритму k-вимірного дерева, так що пошук засіків у просторі ознак здійснюють у порядку їх найближчої відстані від розташування запиту. Цей порядок пошуку для ефективного визначання порядку пошуку вимагає використання черги з пріоритетом на основі купи. Найкращий варіант збігу для кожної ключової точки знаходять встановлюванням її найближчого сусіда в базі даних ключових точок із тренувальних зображень. Найближчих сусідів визначають як ключові точки з мінімальною евклідовою відстанню від заданого вектора описувача. Імовірність правильності збігу можливо визначати, беручи відношення відстані від найближчого сусіда до відстані від другого найближчого.
Лоу відкидав усі збіги, в яких це відношення відстаней перевищує 0,8, що усуває 90 % хибних збігів, відкидаючи менше 5 % правильних. Для подальшого підвищення ефективності алгоритму «перший засік ліпший» пошук переривали після перевірки перших 200 кандидатів у найближчі сусіди. Для бази даних із 100 000 ключових точок це забезпечує прискорення відносно точного пошуку найближчого сусіда приблизно на 2 порядки, призводячи до менш ніж 5 % втрат кількості правильних збігів.
Встановлювання кластерів голосуванням перетворення Гафа
Для кластерування надійних гіпотез моделі для пошуку ключових точок, які узгоджуються з конкретним [en] моделі, використовують перетворення Гафа. Воно встановлює кластери ознак із узгодженою інтерпретацією, використовуючи кожну ознаку для голосування за всі положення об'єктів, які узгоджуються з цією ознакою. Коли виявлено, що за те саме положення об'єкта голосують кластери ознак, імовірність правильності цієї інтерпретації набагато вища, ніж за будь-якої окремої ознаки. У геш-таблиці створюють запис, який передбачує розташування, спрямування та масштаб моделі на основі відповідної гіпотези. У цій геш-таблиці виконують пошук для встановлення всіх кластерів із принаймні трьома записами в засіку, й упорядковують ці засіки за зменшенням розміру.
Кожна з ключових точок SIFT визначає двовимірне розташування, масштаб та спрямування, і кожна відповідна ключова точка в базі даних має запис своїх параметрів відносно тренувального зображення, на якому її було знайдено. Перетворення подібності, передбачене цими 4 параметрами, є лише наближенням повного простору положень із 6 ступенями вільності для тривимірного об'єкта, а також не враховує жодних нежорстких деформувань. Тому Лоу використовував широкі розміри засіків у 30 градусів для спрямування, коефіцієнт 2 для масштабу, та 0,25 максимального розміру проєкції тренувального зображення (з використанням передбаченого масштабу) для розташування. Зразкам ключових точок SIFT, породженим із більшого масштабу, надають удвічі більшої ваги, ніж тим що з меншого масштабу. Це означає, що більший масштаб фактично здатний фільтрувати найправдоподібніших сусідів для перевірки в меншому масштабі. Це також покращує продуктивність розпізнавання, надаючи більшої ваги масштабові з найменшим шумом. Щоби запобігти проблемі межових ефектів у призначуванні засіків, кожен збіг ключових точок голосує за 2 найближчі засіки в кожному вимірі, даючи загалом 16 записів для кожної гіпотези та додатково розширюючи діапазон положень.
Перевірка моделі лінійними найменшими квадратами
Потім кожен встановлений кластер підлягає процедурі перевірки, в якій знаходять розв'язок [en] для параметрів афінного перетворення, яке пов'язує модель із зображенням. Афінне перетворення точки моделі [x y]T на точку зображення [u v]T можливо записати як
де паралельне перенесення моделі — [tx ty]T, а афінне обертання, масштабування та розтягування подано параметрами m1, m2, m3 та m4. Щоби знайти розв'язок для цих параметрів перетворення, наведене вище рівняння можливо переписати так, щоби зібрати невідомі до вектора-стовпця.
Це рівняння показує один збіг, але можливо додати будь-яку кількість наступних збігів, причому кожен збіг вносить ще два рядки до першої та останньої матриці. Щоби знайти розв'язок, потрібно надати не менше 3 збігів. Ми можемо записати цю лінійну систему як
де A — відома матриця m на n (зазвичай із m > n), x — невідомий n-вимірний вектор параметрів, а b — відомий m-вимірний вектор вимірювання.
Отже, мінімізувальний вектор — розв'язок нормального рівняння
Розв'язок цієї системи лінійних рівнянь задають через матрицю , звану [en]A, як
що мінімізує суму квадратів відстаней від проєкцій розташувань моделей до відповідних місць розташування в зображенні.
Виявляння викидів
Тепер можливо усунути викиди, перевіривши відповідність між кожною ознакою зображення та моделлю, виходячи з розв'язку для її параметрів. Для заданого розв'язку [en] кожен збіг повинен узгоджуватися в межах половини діапазону похибки, використаного для параметрів у засіках перетворення Гафа. Коли викиди відкидають, лінійні найменші квадрати розв'язують повторно з рештою точок, і повторюють цей процес. Якщо після відкидання викидів лишається менше 3 точок, збіг відхиляють. Крім того, використовують фазу зіставляння згори вниз для додавання будь-яких подальших збігів, які узгоджуються з проєкцією положення моделі, але які могли не потрапити до засіку перетворення Гафа через наближення перетворення подібності чи інші похибки.
Остаточне рішення прийняти або відхилити гіпотезу моделі ґрунтується на детальній імовірнісній моделі. Цей метод спочатку обчислює очікувану кількість хибних збігів із положенням моделі, враховуючи розмір проєкції моделі, кількість ознак в області, та точність допасування. Після цього аналіз баєсової ймовірності дає ймовірність присутності об'єкта на основі фактичної кількості знайдених збігів ознак. Модель вважають прийнятною, якщо остаточна ймовірність правильної інтерпретації перевищує 0,98. Розпізнавання об'єктів Лоу на основі SIFT дає чудові результати, за винятком широких змін освітлення та нежорстких перетворень.
Алгоритм
Виявляння масштабопросторових екстремумів
Ми починаємо з виявляння особливих точок, які в системі SIFT називають ключовими точками (англ. keypoints). Зображення згортають з гауссовими фільтрами в різних масштабах, а потім беруть різницю послідовних гауссово розмитих зображень. Відтак за ключові точки беруть максимуми/мінімуми різниць гауссіанів (РГ), які мають місце у декількох масштабах. Конкретніше, зображення РГ задають як
- ,
- де — згортка первинного зображення з гауссовим розмиттям у масштабі , тобто
Відтак зображення РГ між масштабами та це просто різниця гауссово розмитих зображень масштабів та . Для виявляння масштабопросторових екстремумів в алгоритмі SIFT зображення спочатку згортають з гауссовими розмиттями в різних масштабах. Згорнуті зображення групують в октави (октава відповідає подвоєнню значення ), а значення обирають таким чином, щоб отримувати фіксовану кількість згорнутих зображень на октаву. Потім зображення різниць гауссіанів беруть із суміжних гауссово зображень пооктавно.
Після отримання зображень РГ ключові точки встановлюють як локальні мінімуми/максимуми зображень РГ у різних масштабах. Це роблять порівнюванням кожного пікселя зображень РГ з його вісьмома сусідами в тому самому масштабі, та дев'ятьма відповідними сусідніми пікселями в кожному із сусідніх масштабів. Якщо значення пікселя максимальне або мінімальне серед усіх порівнюваних пікселів, його обирають як потенційну ключову точку.
Цей етап виявляння ключових точок є різновидом одного з методів виявляння плям, розробленого Ліндебергом шляхом виявляння масштабопросторових екстремумів масштабонормованого лапласіана; тобто виявляння точок, що є локальними екстремумами щодо як простору, так і масштабу, в дискретному випадку порівнянням із цими найближчими 26 сусідами в дискретизованому масштабопросторовому об'ємі. Оператор різниці гауссіанів можливо розглядати як наближення лапласіана, при цьому неявне нормування в піраміді також становить дискретне наближення масштабонормованого лапласіана. Інше реальночасове втілення масштабопросторових екстремумів оператора Лапласа, запропоноване Ліндебергом та Бретцнером, ґрунтується на гібридному пірамідному поданні, яке використовували для людиномашинної взаємодії реальночасовим розпізнаванням жестів в Бретцнері зі співавт. (2002).
Встановлення розташувань ключових точок
Виявляння масштабопросторових екстремумів створює забагато потенційних ключових точок, деякі з яких нестабільні. Наступним кроком алгоритму є виконання детального допасування до даних неподалік для встановлення точних розташування, масштабу та відношення [en]. Ця інформація дозволяє відкидати точки з низьким контрастом (відтак чутливі до шуму) та невдало розташовані вздовж контуру.
Інтерполювання даних поблизу для точності розташування
По-перше, для кожної потенційної ключової точки використовують інтерполювання даних неподалік, щоби визначити її розташування точно. Початковий підхід полягав у тому, щоби просто знайти кожну ключову точку в місці та масштабі потенційної ключової точки. Новий підхід обчислює інтерпольоване розташування екстремуму, що значно покращує зіставляння та стабільність. Це інтерполювання виконують з використанням квадратичного розкладу Тейлора масштабопросторової функції різниці гауссіанів з потенційною ключовою точкою як центром. Цей розклад Тейлора задають як
де D та її похідні оцінюють у потенційній ключовий точці, а — зміщення відносно цієї точки. Розташування екстремуму, , визначають взяттям похідної цієї функції за та прирівнюванням її до нуля. Якщо зміщення перевищує у будь-якому вимірі, це вказує на те, що екстремум лежить ближче до іншої потенційної ключової точки. В такому випадку потенційну ключову точку змінюють, й виконують інтерполяцію натомість навколо тієї точки. Інакше це зміщення додають до його потенційної ключової точки, щоб отримати інтерпольовану оцінку розташування екстремуму. Подібне субпіксельне визначання розташування масштабопросторових екстремумів виконують у реальночасовому втіленні на основі гібридних пірамід, розробленому Ліндебергом зі співробітниками.
Відкидання низькоконтрастних ключових точок
Щоби відкинути ключові точки з низьким контрастом, обчислюють значення розкладу Тейлора другого порядку за зміщення . Якщо це значення менше за , потенційну ключову точку відкидають. В іншому випадку її зберігають, з остаточним масштабопросторовим розташуванням , де — первинне розташування ключової точки.
Усування контурних відгуків
Функція РГ матиме сильні відгуки вздовж контурів, навіть якщо потенційна ключова точка не стійка й до невеликої кількості шуму. Тому, щоби підвищити стабільність, нам потрібно усунути ключові точки, які мають погано визначені розташування, але мають високий контурний відгук.
Для погано визначених піків функції РГ [en] поперек контуру буде набагато більшою за головну кривину вздовж нього. Знаходження цих головних кривин означає знаходження розв'язку для власних значень матриці Гессе другого порядку, H:
Власні значення H пропорційні головним кривинам D. Виявляється, що для цілей SIFT достатньо відношення двох власних значень, скажімо, — більше, а — менше, а відношення — . Слід H, тобто , дає нам суму двох власних значень, а її визначник, тобто , дає добуток. Можливо показати, що відношення дорівнює , що залежить лише від відношення власних значень, але не від їхніх окремих значень. R мінімальне, коли власні значення дорівнюють одне одному. Отже, що вища [en] двох власних значень, еквівалентна вищій абсолютній різниці двох головних кривин D, то вище значення R. З цього випливає, що для деякого порогового відношення власних значень , якщо R для потенційної ключової точки перевищує , ця ключова точка має погано визначене розташування, і тому підлягає відкиданню. Новий підхід використовує .
Цей етап обробки для пригнічування відгуків на контурах є перенесенням відповідного підходу з оператора Гарріса для виявляння кутів. Відмінність полягає в обчисленні міри для порогування з матриці Гессе замість матриці другого моменту.
Призначування спрямування
На цьому кроці кожній ключовий точці призначують одне або декілька спрямувань на основі локальних напрямків градієнта зображення. Це ключовий крок для досягнення [en], оскільки описувач ключової точки можливо подати відносно цього спрямування, й таким чином досягти інваріантності щодо обертання зображення.
По-перше, гауссово згладжене зображення на масштабі ключової точки беруть таким чином, щоби всі обчислення виконувалися масштабоінваріантно. Для зразка зображення в масштабі величину градієнта, , та спрямування, , попередньо обчислюють з використанням піксельних різниць:
Для кожного пікселя в окільній області навколо ключової точки у гауссово розмитому зображенні L здійснюють обчислення величини та напрямку для градієнта. Створюють гістограму спрямувань із 36 засіками, кожен з яких охоплює 10 градусів. Кожен зразок в окільному вікні, який додають до засіку гістограми, зважують величиною його градієнта та гауссово зваженим круговим вікном із , у 1,5 рази більшим за масштаб ключової точки. Піки на цій гістограмі відповідають переважним спрямуванням. Після заповнення гістограми ключовій точці призначують спрямування, що відповідають найвищому пікові, й локальним пікам в межах 80 % від найвищих піків. У разі призначення кількох спрямувань для кожного додаткового спрямування створюють додаткову ключову точку з тим же розташуванням і масштабом, що й первинна ключова точка.
Описувач ключової точки
Попередні кроки знайшли розташування ключових точок у певних масштабах і призначили їм спрямування. Це забезпечило інваріантність щодо розташування, масштабу та обертання зображення. Тепер ми хочемо обчислити вектор описувача для кожної ключової точки таким чином, щоб описувач був дуже вирізнювальним і частково інваріантним щодо решти змін, таких як освітлення, тривимірна точка огляду тощо. Цей крок виконують на зображенні, найближчому за масштабом до масштабу ключової точки.
Спочатку створюють набір гістограм спрямування на околах 4×4 пікселя з 8 засіками кожен. Ці гістограми обчислюють на основі значень величини та спрямування зразків в області 16×16 навколо ключової точки таким чином, що кожна гістограма містить зразки з підобласті 4×4 первинної окільної області. Величини та спрямування градієнта зображення відбирають навколо розташування ключової точки, використовуючи масштаб ключової точки для обрання рівня гауссового розмиття зображення. Щоби досягти інваріантності щодо спрямування, координати описувача та спрямування градієнта повертають відносно спрямування ключової точки. Величини додатково зважують гауссовою функцією з рівною половині ширини вікна описувача. Потім описувач стає вектором усіх значень цих гістограм. Оскільки там 4 × 4 = 16 гістограм, кожна з яких має 8 засіків, цей вектор має 128 елементів. Потім його унормовують до одиничної довжини, щоби підвищити інваріантність щодо афінних змін в освітленні. Щоби зменшити вплив нелінійного освітлення, застосовують поріг 0,2, і вектор знову унормовують. Цей процес порогування, який також називають закріплюванням (англ. clamping), може покращувати результати зіставляння навіть за відсутності нелінійних ефектів освітлення Поріг 0,2 було обрано емпірично, й результати зіставляння можливо покращити шляхом заміни цього фіксованого порогу обчислюваним системно.
Хоч вимірність описувача, тобто 128, і видається високою, описувачі з нижчою вимірністю не працюють так добре в низці задач зіставляння, а обчислювальна витратність залишається низькою через наближений метод ПЗЛ (див. нижче), який використовують для пошуку найближчого сусіда. Довші описувачі дійсно працюють краще, але не набагато, й існує додаткова небезпека підвищеної чутливості до спотворення та затуляння. Також було показано, що точність зіставляння ознак складає понад 50 % для змін кута огляду до 50 градусів. Тому описувачі SIFT інваріантні щодо незначних афінних змін. Щоби перевірити вирізнювальність описувачів SIFT, точність зіставляння також вимірюють за різною кількістю ключових точок у перевірній базі даних, і було показано, що для дуже великих розмірів бази даних точність зіставляння зменшується лише дуже незначно, що вказує на те, що ознаки SIFT дуже вирізнювальні.
Порівняння ознак SIFT з іншими локальними ознаками
Було проведено широке дослідження оцінки ефективності різних локальних описувачів, включно з SIFT, з використанням низки виявлячів. Основні результати підсумовано нижче:
- Ознаки SIFT і SIFT-оподібні ознаки GLOH демонструють найвищу точність зіставляння (рівні повноти) для афінного перетворення в 50 градусів. Після цієї межі перетворення результати починають ставати ненадійними.
- Вирізнювальність описувачів вимірюють підсумовуванням власних значень описувачів, отриманих методом головних компонент з описувачів, унормованих за їхньою дисперсією. Це відповідає величині дисперсії, яку вловлюють різні описувачі, а отже, їхній вирізнювальності. Найвищі значення дають ознаки PCA-SIFT (метод головних компонент, англ. Principal Components Analysis, застосований до описувачів SIFT), GLOH та SIFT.
- Описувачі на основі SIFT перевершують інші сучасні локальні описувачі як на текстурованих, так і на структурованих сценах, з більшою різницею в продуктивності на текстурованих сценах.
- Для змін масштабу в діапазоні 2—2,5 та обертання зображення в діапазоні від 30 до 45 градусів SIFT та описувачі на основі SIFT, знов-таки, перевершують інші сучасні локальні описувачі як із текстурованим, так і зі структурованим вмістом сцени.
- Додавання розмиття впливає на всі локальні описувачі, особливо ті, що ґрунтуються на контурах, як-от значення форми, оскільки контури в разі сильного розмиття зникають. Але GLOH, PCA-SIFT та SIFT все одно показали кращі результати, ніж інші. Це також справедливо для оцінювання за зміни освітленості.
Здійснені оцінки переконливо свідчать про те, що описувачі на основі SIFT, які ґрунтуються на областях, є найбільш стійкими та вирізнювальними, і тому найкраще підходять для зіставляння ознак. Проте найновіші описувачі ознак, такі як SURF, у цьому дослідженні оцінено не було.
Пізніше було показано, що SURF має продуктивність, подібну до SIFT, але водночас набагато швидший. Інші дослідження дійшли висновку, що коли швидкість не критична, то SIFT перевершує SURF. Зокрема, без урахування ефектів дискретизації, чистий описувач зображення в SIFT значно кращий за чистий описувач зображення в SURF, тоді як масштабопросторові екстремуми визначника гессіана, що лежить в основі чистого виявляча особливих точок в SURF, становлять значно кращі особливі точки порівняно з масштабопросторовими екстремумами лапласіана, чисельним наближенням яких є виявляч особливих точок у SIFT.
Продуктивність зіставляння зображень за допомогою описувачів SIFT можливо покращити в сенсі досягнення вищих показників ефективності та нижчих показників 1 − влучність заміною масштабопросторових екстремумів оператора різниці гауссіанів у первинному SIFT масштабопросторовими екстремумами визначника гессіана, або, загальніше, розглядаючи загальніше сімейство узагальнених масштабопросторових особливих точок.
Нещодавно було запропоновано невелику видозміну цього описувача, що використовує нерегулярну ґратку гістограми, значно покращуючи його продуктивність. Замість використання ґратки 4×4 засіків гістограм, всі засіки розширюють до центру ознаки. Це покращує стійкість описувача до змін масштабу.
Показано, що описувач SIFT-Rank покращує продуктивність стандартного описувача SIFT для афінного зіставляння ознак. Описувач SIFT-Rank породжують зі стандартного описувача SIFT, встановлюючи кожен засік гістограми згідно його рангу у впорядкованому масиві засіків. Евклідова відстань між описувачами SIFT-Rank інваріантна щодо довільних монотонних змін значень засіків гістограми та пов'язана з коефіцієнтом рангової кореляції Спірмена.
Застосування
Розпізнавання об'єктів за допомогою ознак SIFT
Враховуючи здатність SIFT знаходити вирізнювальні ключові точки, інваріантні щодо розташування, масштабу та обертання, а також стійкі до афінних перетворень (змін [en], обертання, зсуву та положення) та змін освітлення, їх можливо використовувати для розпізнавання об'єктів. Ці кроки наведено нижче.
- Спершу отримують ознаки SIFT із вхідного зображення описаним вище алгоритмом.
- Ці ознаки зіставляють із базою даних ознак SIFT, отриманою з тренувальних зображень. Це зіставляння ознак виконують методом найближчого сусіда на основі евклідової відстані. Для підвищення стійкості збіги для тих ключових точок, в яких відношення відстані найближчого сусіда до відстані другого найближчого сусіда перевищує 0,8, відкидають. Це дозволяє відкидати багато хибних збігів, які виникають через захаращення тла. Нарешті, щоб уникнути витратного пошуку, необхідного для знаходження найближчого сусіда за евклідовою відстанню, використовують наближений алгоритм, що має назву «перший засік ліпший». Це швидкий метод для отримування найближчого сусіда з високою ймовірністю, який може давати 1000-кратне прискорення, знаходячи (потрібного) найближчого сусіда у 95 % випадків.
- Хоч описана вище перевірка співвідношенням відстаней і відкидає багато хибних збігів, які виникають через захаращення тла, все ще є збіги, які належать різним об'єктам. Тож щоби підвищити стійкість встановлювання об'єктів, ми хочемо кластерувати ознаки, які належать одному й тому ж об'єкту, й відкинути збіги, що лишилися в процесі цього кластерування. Це роблять за допомогою перетворення Гафа. Це дозволяє встановити кластери ознак, які голосують за одне й те ж положення об'єкта. Коли знайдено кластери ознак, які голосують за одне й те ж положення об'єкта, ймовірність правильності цієї інтерпретації набагато вища, ніж для будь-якої окремої ознаки. Кожна ключова точка голосує за набір положень об'єкта, які узгоджуються з її розташуванням, масштабом та спрямуванням. Засіки, які накопичили принаймні 3 голоси, встановлюють як потенційні збіги з об'єктом/положенням.
- Для кожного потенційного кластера методом найменших квадратів отримують розв'язок найкращої оцінки параметрів афінної проєкції, що пов'язують тренувальне зображення із вхідним. Якщо проєкція ключової точки за цими параметрами лежить у межах половини діапазону похибок, який використовували для параметрів у засіках перетворення Гафа, збіг ключової точки зберігають. Якщо після відкидання викидів у засіку лишається менше 3 точок, цей збіг об'єкта відхиляють. Допасовування методом найменших квадратів повторюють доти, поки відхилень більше не лишиться. Це працює краще для розпізнавання на площинній поверхні, ніж для розпізнавання тривимірних об'єктів, оскільки для них афінна модель вже не точна.
- У цьому журналі автори запропонували новий підхід до використання описувачів SIFT для цілей виявлення декількох об'єктів. Запропонований підхід виявляння декількох об'єктів перевірено на аерофото- та супутникових знімках.
Ознаки SIFT, по суті, можливо застосувати до будь-якого завдання, яке потребує встановлювання відповідних місць між зображеннями. Було виконано роботу над такими застосуваннями як розпізнавання окремих категорій об'єктів у двовимірних зображеннях, тривимірна відбудова, відстежування та сегментування руху, встановлювання розташування робота, зшивання панорамних зображень, та епіполярне калібрування. Нижче розглянуто докладніше деякі з них.
Встановлювання розташування робота, та картографування
У цьому застосуванні використовують тринокулярну стереосистему, щоби визначати тривимірні оцінки розташування ключових точок. Ключові точки використовують лише коли вони з'являються на всіх 3 зображеннях і з узгодженими розбіжностями, що призводить до дуже малої кількості викидів. Під час свого руху робот встановлює своє розташування, використовуючи збіги ознак із наявною тривимірною картою, відтак поступово додаючи ознаки до карти, одночасно уточнюючи їхні тривимірні розташування фільтром Калмана. Це забезпечує стійке та точне розв'язування задачі встановлювання положення робота в невідомому середовищі. Нові тривимірні розв'язувачі використовують спрямування ключових точок для визначання тринокулярної геометрії за трьома ключовими точками, та абсолютного положення лише за двома, часто нехтуване, але корисне вимірювання, доступне в SIFT. Ці вимірювання спрямування зменшують кількість необхідних відповідностей, експоненційно підвищуючи стійкість.
Зшивання панорам
Зіставляння ознак SIFT можливо використовувати у [en] для повністю автоматичної відбудови панорам з непанорамних зображень. Ознаки SIFT, виділені з вхідних зображень, зіставляють одну з одною, щоби знайти k найближчих сусідів кожній. Потім ці відповідності використовують для пошуку m потенційних зображень, які збігалися би з кожним зображенням. Відтак обчислюють проєктивні перетворення між парами зображень за допомогою RANSAC, а для затверджування використовують імовірнісну модель. Оскільки обмежень щодо вхідних зображень немає, застосовують графовий пошук, щоби знайти компоненти зв'язності зіставлених зображень таким чином, щоби кожна компонента зв'язності відповідала панорамі. Нарешті, для кожної компоненти зв'язності виконують пучкове коригування, щоб отримати розв'язок для спільних параметрів камери, й унаочнюють панораму . Завдяки підходу розпізнавання об'єктів на основі SIFT до зшивання панорам, отримана система нечутлива до впорядкування, спрямування, масштабу та освітлення зображень. Вхідні зображення можуть містити кілька панорам та шумові зображення (деякі з яких можуть навіть не бути частиною складеного зображення), а панорамні послідовності розпізнаються та відтворюються на виході.
Моделювання тривимірних сцен, розпізнавання та відстежування
Це застосування використовує ознаки SIFT для [en] та тривимірного моделювання в контексті доповненої реальності, в якій синтетичні об'єкти з точним положенням накладають на реальні зображення. Зіставляння SIFT виконують для низки двовимірних зображень сцени чи об'єкта, зроблених під різними кутами. Їх використовують із пучковим коригуванням, розпочатим з істотної матриці або трифокального тензора, щоби побудувати розріджену тривимірну модель розгляданої сцени, й одночасно встановити положення камер та параметри калібрування. Потім визначають розташування, спрямування та розмір віртуального об'єкта відносно системи координат встановленої моделі. Для [en] ознаки SIFT знову виділяють із поточного відеокадру та зіставляють з ознаками, вже обчисленими для моделі світу, що дає набір двовимірно-тривимірних відповідностей. Потім ці відповідності використовують для обчислення поточного положення камери для віртуальної проєкції та остаточного унаочнення. Для зменшення тремтіння у віртуальній проєкції використовують прийом регуляризації. Для підвищення стійкості цього процесу використовували й спрямування SIFT. Також, було визначено тривимірні розширення SIFT для [en] розпізнавання та пошуку об'єктів.
Тривимірні SIFT-оподібні описувачі для розпізнавання людських дій
Досліджено розширення описувача SIFT до 2+1-вимірних просторово-часових даних у контексті [en] у відеопослідовностях. Обчислення локальних залежних від положення гістограм у двовимірному алгоритмі SIFT розширено з двох до трьох вимірів для опису ознак SIFT у просторово-часовій області. Для застосування до розпізнавання людських дій у відеопослідовності вибірку з тренувальних відео здійснюють або в просторово-часових особливих точках, або у випадково визначених розташуваннях, часах і масштабах. Потім просторово-часові області навколо цих особливих точок описують за допомогою тривимірного описувача SIFT. Ці описувачі потім кластерують, щоб утворити просторово-часову модель торби слів. Тривимірні описувачі SIFT, отримані з перевірних відео, відтак зіставляють із цими словами для класифікування людських дій.
Автори повідомляють про набагато кращі результати за їхнього підходу тривимірних описувачів SIFT, ніж за інших підходів, таких як прості двовимірні описувачі SIFT, та величина градієнта.
Аналіз людського мозку у тривимірних магнітно-резонансних зображеннях
Методика [en] на основі ознак (англ. Feature-based Morphometry, FBM) використовує екстремуми в різницях гауссового простору масштабів для аналізу та класифікування тривимірних магнітно-резонансних зображень (МРТ) людського мозку. FBM моделює зображення ймовірнісно, як колаж незалежних ознак, залежно від геометрії зображення та групових міток, наприклад, здорових суб'єктів, та суб'єктів із хворобою Альцгеймера (англ. Alzheimer's disease, AD). Ознаки спочатку виділяють на окремих зображеннях із чотиривимірної різниці гауссового простору масштабів, а потім моделюють з точки зору їхнього зовнішнього вигляду, геометрії та групової статистики спільної появи в наборі зображень. FBM було перевірено на аналізі AD з використанням набору з ~200 об'ємних МРТ людського мозку, з автоматичною ідентифікацією встановлених показників AD у мозку та класифікуванням легкої AD на нових зображеннях із частотою 80 %.
Конкурентні методи
До конкурентних методів масштабоінваріантного розпізнавання об'єктів в умовах захаращення / часткового затуляння належать наступні.
RIFT — це обертовоінваріантне (англ. rotation-invariant) узагальнення SIFT. Описувач RIFT будують за допомогою циркулярно нормованих ділянок, розділених на концентричні кільця однакової ширини, й у кожному кільці обчислюють гістограму спрямувань градієнтна. Щоби забезпечити обертову інваріантність, спрямування в кожній точці вимірюють відносно відцентрового напрямку.
RootSIFT — це варіант SIFT, який змінює унормовування описувача. Оскільки описувачі SIFT це гістограмами (і, як такі, — розподіли ймовірностей), використання евклідової відстані для визначання їхньої подібності — не природний вибір. Порівнювання таких описувачів з використанням мір подібності, розрахованих на розподіли імовірностей, таких як коефіцієнт Бгаттачар'я (відомий також як ядро Геллінгера), виявляється вигіднішим. Для цього первинно -нормований описувач спершу -нормують, а потім обчислюють квадратний корінь з кожного елемента, з наступним -перенормовуванням. Після цих алгебричних маніпуляцій описувачі RootSIFT можливо нормально порівнювати за допомогою евклідової відстані, що рівнозначне використанню ядра Геллінгера на первинних описувачах SIFT. Цю схему унормовування під назвою «L1-sqrt» було раніше запроваджено для унормовування блоків ознак HOG, чий варіант описувача з прямокутним влаштуванням блоків (R-HOG) концептуально подібний описувачеві SIFT.
G-RIF: Узагальнена стійка інваріантна ознака (англ. Generalized Robust Invariant Feature) — це описувач загального контексту, який кодує інформацію про спрямування та густину контурів та відтінок в уніфікованій формі, поєднуючи сприйняттєву інформацію з просторовим кодуванням. Схема розпізнавання об'єктів для оцінювання моделей об'єктів використовує голосування на основі окільного контексту.
«SURF: прискорені стійкі ознаки» (англ. Speeded Up Robust Features) — це високопродуктивний масштабо- та обертовоінваріантний виявляч/описувач особливих точок, який, як стверджують, наближується до, або навіть перевершує запропоновані раніше схеми щодо повторюваності, вирізнювальності та стійкості. SURF покладається на інтегральні зображення для згортання зображень, щоби скоротити тривалість обчислень, спирається на сильні сторони провідних наявних виявлячів та описувачів (використовуючи швидку міру на основі матриці Гессе для виявляча та описувача на основі розподілу). Описує розподіл відгуків гаарових вейвлетів в околі особливої точки. Інтегральні зображення використовують задля швидкості, й використовують лише 64 виміри, що скорочує час для обчислювання ознак та зіставляння. Крок індексування ґрунтується на знаку лапласіана, що підвищує швидкість зіставляння та стійкість описувача.
PCA-SIFT та GLOH — ще дві видозміни SIFT. Описувач PCA-SIFT — це вектор градієнтів зображення в напрямках x та y, обчислений у межах опорної області. Область градієнта вибирають у 39×39 положеннях, тому цей вектор має розмір 3042. Цей розмір зменшують до 36 за допомогою МГК (англ. PCA). Гістограма розташувань та напрямків градієнта (англ. Gradient location-orientation histogram, GLOH) — це розширення описувача SIFT, призначене для підвищення його стійкості та вирізнювальності. Описувач SIFT обчислюють для логарифмічної полярної ґратки розташування із трьома засіками в радіальному напрямку (радіус встановлюють у 6, 11 та 15) та 8 у кутовому напрямку, що дає 17 засіків розташування. Центральний засік на кути не ділять. Спрямування градієнта квантують у 16 засіках, що дає гістограму з 272 засіками. Розмір цього описувача зменшують за допомогою МГК. Коваріаційну матрицю для МГК оцінюють на фрагментах зображень, зібраних із різних зображень. Для опису використовують 128 найбільших власних векторів.
Gauss-SIFT — це чистий описувач зображення, визначений виконанням усіх вимірювань зображення, що лежать в основі чистого описувача зображення в SIFT, відгуками гауссових похідних, на відміну від наближень похідних у піраміді зображень, як у звичайному SIFT. Таким чином можливо звести до мінімуму ефекти дискретування простору та масштабу, уможлививши потенційно точніші описувачі зображень. У Ліндебергу (2015) такі чисті описувачі зображень Gauss-SIFT було поєднано з набором узагальнених масштабопросторових особливих точок, що складався з лапласіана гауссіана, визначника гессіана, чотирьох нових беззнакових та знакових мір вираженості гессіанових ознак, а також особливих точок Гарріса — Лапласа та Сі й Томазі. У масштабній експериментальній оцінці на плакатовому набору даних, що містив по декілька виглядів 12 плакатів за перетворень масштабування до шестикратного й змін кута огляду до нахилу 45 градусів, було показано, що значне підвищення продуктивності зіставляння зображень (вищі оцінки ефективності й нижчі оцінки 1−влучність) можливо отримати заміною особливих точок лапласіана гауссіана особливими точками визначника гессіана. Оскільки особливі точки різниці гауссіанів становлять чисельне наближення особливих точок лапласіана гауссіана, це показує можливість суттєвого підвищення продуктивності зіставляння шляхом заміни особливих точок різниці гауссіанів у SIFT особливими точками визначника гессіана. Крім того, можливо отримати додаткове підвищення продуктивності, розглядаючи беззнакову міру вираженості гессіанових ознак . Кількісне порівняння описувача Gauss-SIFT із відповідним описувачем Gauss-SURF також показало, що Gauss-SIFT загалом працює значно краще за Gauss-SURF для великої кількості різних виявлячів масштабопросторових особливих точок. Тож це дослідження показує, що без урахування ефектів дискретування чистий описувач зображень у SIFT значно кращий за чистий описувач зображень у SURF, тоді як виявляч особливих точок в основі SURF, який можливо розглядати як чисельне наближення масштабопросторових екстремумів визначника гессіана, значно кращий за виявляч особливих точок в основі SIFT.
Ваґнер зі співавт. розробили два алгоритми розпізнавання об'єктів, спеціально спроєктовані з урахуванням обмежень сучасних мобільних телефонів. На відміну від класичного підходу SIFT, для виявляння ознак вони використовують виявляч кутів FAST. Цей алгоритм також виокремлює автономну підготовчу стадію, де створюють ознаки на різних рівнях масштабу, й інтерактивну стадію, де ознаки створюють лише на поточному фіксованому рівні масштабу зображення камери телефону. Крім того, ознаки створюють із фіксованого розміру фрагмента 15×15 пікселів, й утворюють описувач SIFT лише з 36 вимірами. Цей підхід було додатково розширено вбудовуванням до конвеєру розпізнавання . Це дозволяє ефективно розпізнавати на мобільних телефонах більшу кількість об'єктів. Цей підхід обмежено переважно обсягом доступної оперативної пам'яті.
KAZE та A-KAZE (англ. KAZE Features та англ. Accelerated-Kaze Features) — це новий метод виявляння та опису двовимірних ознак, який працює краще порівняно з SIFT та SURF. Він набуває великої популярності завдяки своєму відкритому коду. Первинно KAZE створили Пабло Ф. Алькантарілья, Адріан Бартолі та Ендрю Дж. Девісон.
Див. також
Примітки
- Lowe, David G. (1999). Object recognition from local scale-invariant features (PDF). Proceedings of the International Conference on Computer Vision. Т. 2. с. 1150—1157. doi:10.1109/ICCV.1999.790410. (англ.)
- Lowe, David G. (2004). Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision. 60 (2): 91—110. CiteSeerX 10.1.1.73.2924. doi:10.1023/B:VISI.0000029664.99615.94. S2CID 221242327. (англ.)
- U.S. Patent 6,711,293, "Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image", David Lowe's patent for the SIFT algorithm, March 23, 2004 (англ.)
- Koenderink, Jan and van Doorn, Ans: "Representation of local geometry in the visual system [ 2019-08-02 у Wayback Machine.]", Biological Cybernetics, vol 3, pp 383-396, 1987 (англ.)
- Koenderink, Jan and van Doorn, Ans: "Generic neighbourhood operators", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 14, pp 597-605, 1992 (англ.)
- Lindeberg, Tony (1 грудня 2013). A computational theory of visual receptive fields. Biological Cybernetics. 107 (6): 589—635. doi:10.1007/s00422-013-0569-z. PMC 3840297. PMID 24197240 — через Springer Link. (англ.)
- Lindeberg, Tony (2013). T. Generalized axiomatic scale-space theory. У Hawkes, Peter W. (ред.). Advances in Imaging and Electron Physics. Т. 178. Elsevier. с. 1—96. doi:10.1016/b978-0-12-407701-0.00001-7. ISBN — через ScienceDirect. (англ.)
- Lindeberg, Tony (19 липня 2013). Invariance of visual operations at the level of receptive fields. PLOS ONE. 8 (7): e66990. arXiv:1210.0754. Bibcode:2013PLoSO...866990L. doi:10.1371/journal.pone.0066990. PMC 3716821. PMID 23894283. (англ.)
- T. Lindeberg (2014) "Scale selection", Computer Vision: A Reference Guide, (K. Ikeuchi, Editor), Springer, pages 701-713. (англ.)
- Lindeberg, T., Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, (англ.)
- Lindeberg, Tony (1998). Feature detection with automatic scale selection. International Journal of Computer Vision. 30 (2): 79—116. doi:10.1023/A:1008045108935. S2CID 723210. (англ.)
- Lindeberg, Tony (2012). Scale invariant feature transform. Scholarpedia. 7 (5): 10491. Bibcode:2012SchpJ...710491L. doi:10.4249/scholarpedia.10491. (англ.)
- Serre, T., Kouh, M., Cadieu, C., Knoblich, U., Kreiman, G., Poggio, T., “A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex [ 2011-07-20 у Wayback Machine.]”, Computer Science and Artificial Intelligence Laboratory Technical Report, December 19, 2005 MIT-CSAIL-TR-2005-082. (англ.)
- Beis, J.; Lowe, David G. (1997). Shape indexing using approximate nearest-neighbour search in high-dimensional spaces (PDF). Conference on Computer Vision and Pattern Recognition, Puerto Rico: sn. с. 1000—1006. doi:10.1109/CVPR.1997.609451. (англ.)
- Lowe, D.G., Local feature view clustering for 3D object recognition. IEEE Conference on Computer Vision and Pattern Recognition, Kauai, Hawaii, 2001, pp. 682-688. (англ.)
- Lindeberg, Tony & Bretzner, Lars (2003). Real-time scale selection in hybrid multi-scale representations. Т. 2695. с. 148—163. doi:10.1007/3-540-44935-3_11. ISBN .
{{}}
: Проігноровано|journal=
() (англ.) - Lars Bretzner, Ivan Laptev, Tony Lindeberg "Hand gesture recognition using multi-scale colour features, hierarchical models and particle filtering", Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition, Washington, DC, USA, 21–21 May 2002, pages 423-428. , DOI:10.1109/AFGR.2002.1004190 (англ.)
- Kirchner, Matthew R. "Automatic thresholding of SIFT descriptors." In Image Processing (ICIP), 2016 IEEE International Conference on, pp. 291-295. IEEE, 2016. (англ.)
- Mikolajczyk, K.; Schmid, C. (2005). A performance evaluation of local descriptors (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (10): 1615—1630. CiteSeerX 10.1.1.230.255. doi:10.1109/TPAMI.2005.188. PMID 16237996. (англ.)
- TU-chemnitz.de (PDF). (англ.)
- Lindeberg, Tony (1 травня 2015). Image Matching Using Generalized Scale-Space Interest Points. Journal of Mathematical Imaging and Vision. 52 (1): 3—36. doi:10.1007/s10851-014-0541-0. S2CID 254657377 — через Springer Link. (англ.)
- Edouard Oyallon, Julien Rabin, "An Analysis and Implementation of the SURF Method, and its Comparison to SIFT", Image Processing On Line (англ.)
- Cui, Y.; Hasler, N.; Thormaehlen, T.; Seidel, H.-P. (July 2009). (PDF). Proceedings of the International Conference on Image Analysis and Recognition (ICIAR 2009). Halifax, Canada: Springer. Архів оригіналу (PDF) за 23 вересня 2010. Процитовано 22 січня 2023. (англ.)
- Matthew Toews; William M. Wells III (2009). SIFT-Rank: Ordinal Descriptors for Invariant Feature Correspondence (PDF). IEEE International Conference on Computer Vision and Pattern Recognition. с. 172—177. doi:10.1109/CVPR.2009.5206849. (англ.)
- Beril Sirmacek & Cem Unsalan (2009). Urban Area and Building Detection Using SIFT Keypoints and Graph Theory. IEEE Transactions on Geoscience and Remote Sensing. 47 (4): 1156—1167. Bibcode:2009ITGRS..47.1156S. doi:10.1109/TGRS.2008.2008440. S2CID 6629776. (англ.)
- Se, S.; Lowe, David G.; Little, J. (2001). Vision-based mobile robot localization and mapping using scale-invariant features. Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Т. 2. с. 2051. doi:10.1109/ROBOT.2001.932909. (англ.)
- Fabbri, Ricardo; Duff, Timothy; Fan, Hongyi; Regan, Margaret; de Pinho, David; Tsigaridas, Elias; Wampler, Charles; Hauenstein, Jonathan; Kimia, Benjamin; Leykin, Anton; Pajdla, Tomas (23 березня 2019). Trifocal Relative Pose from Lines at Points and its Efficient Solution. arXiv:1903.09755 [cs.CV]. (англ.)
- Fabbri, Ricardo; Giblin, Peter; Kimia, Benjamin (2012). Camera Pose Estimation Using First-Order Curve Differential Geometry (PDF). Lecture Notes in Computer Science (ECCV 2012). Lecture Notes in Computer Science. 7575: 231—244. doi:10.1007/978-3-642-33765-9_17. ISBN . S2CID 15402824. (англ.)
- Brown, M.; Lowe, David G. (2003). Recognising Panoramas (PDF). Proceedings of the ninth IEEE International Conference on Computer Vision. Т. 2. с. 1218—1225. doi:10.1109/ICCV.2003.1238630. (англ.)
- Iryna Gordon and David G. Lowe, "What and where: 3D object recognition with accurate pose," in Toward Category-Level Object Recognition, (Springer-Verlag, 2006), pp. 67-82 (англ.)
- Flitton, G.; Breckon, T. (2010). Object Recognition using 3D SIFT in Complex CT Volumes (PDF). Proceedings of the British Machine Vision Conference. с. 11.1—12. doi:10.5244/C.24.11. (англ.)
- Flitton, G.T., Breckon, T.P., Megherbi, N. (2013). A Comparison of 3D Interest Point Descriptors with Application to Airport Baggage Object Detection in Complex CT Imagery. Pattern Recognition. 46 (9): 2420—2436. Bibcode:2013PatRe..46.2420F. doi:10.1016/j.patcog.2013.02.008. hdl:1826/15213. (англ.)
- Laptev, Ivan & Lindeberg, Tony (2004). Local descriptors for spatio-temporal recognition. ECCV'04 Workshop on Spatial Coherence for Visual Motion Analysis, Springer Lecture Notes in Computer Science, Volume 3667. с. 91—103. doi:10.1007/11676959_8. (англ.)
- Ivan Laptev, Barbara Caputo, Christian Schuldt and Tony Lindeberg (2007). Local velocity-adapted motion events for spatio-temporal recognition. Computer Vision and Image Understanding. 108 (3): 207—229. CiteSeerX 10.1.1.168.5780. doi:10.1016/j.cviu.2006.11.023. (англ.)
- Scovanner, Paul; Ali, S; Shah, M (2007). A 3-dimensional sift descriptor and its application to action recognition. Proceedings of the 15th International Conference on Multimedia. с. 357—360. doi:10.1145/1291233.1291311. (англ.)
- Niebles, J. C. Wang, H. and Li, Fei-Fei (2006). . Proceedings of the British Machine Vision Conference (BMVC). Edinburgh. Архів оригіналу за 5 липня 2008. Процитовано 20 серпня 2008. (англ.)
- Matthew Toews; William M. Wells III; D. Louis Collins; Tal Arbel (2010). Feature-based Morphometry: Discovering Group-related Anatomical Patterns (PDF). NeuroImage. 49 (3): 2318—2327. doi:10.1016/j.neuroimage.2009.10.032. PMC 4321966. PMID 19853047. (англ.)
- [en], [en], and Ponce, J., "Semi-Local Affine Parts for Object Recognition", Proceedings of the British Machine Vision Conference, 2004. (англ.)
- Arandjelović, Relja; [en] (2012). Three things everyone should know to improve object retrieval. 2012 IEEE Conference on Computer Vision and Pattern Recognition. с. 2911—2918. doi:10.1109/CVPR.2012.6248018. (англ.)
- Sungho Kim, Kuk-Jin Yoon, In So Kweon, "Object Recognition Using a Generalized Robust Invariant Feature and Gestalt’s Law of Proximity and Similarity", Conference on Computer Vision and Pattern Recognition Workshop (CVPRW'06), 2006 (англ.)
- Bay, H., Tuytelaars, T., Van Gool, L., "SURF: Speeded Up Robust Features", Proceedings of the ninth European Conference on Computer Vision, May 2006. (англ.)
- Ke, Y., and Sukthankar, R., "PCA-SIFT: A More Distinctive Representation for Local Image Descriptors", Computer Vision and Pattern Recognition, 2004. (англ.)
- D. Wagner, G. Reitmayr, A. Mulloni, T. Drummond, and D. Schmalstieg, "Pose tracking from natural features on mobile phones [ 2009-06-12 у Wayback Machine.]" Proceedings of the International Symposium on Mixed and Augmented Reality, 2008. (англ.)
- N. Henze, T. Schinke, and S. Boll, "What is That? Object Recognition from Natural Features on a Mobile Phone" Proceedings of the Workshop on Mobile Interaction with the Real World, 2009. (англ.)
- kaze. www.robesafe.com. (англ.)
Посилання
Вживання у цьому розділі не відповідає щодо розділу «Посилання». (січень 2023) |
Пов'язані дослідження:
- The Invariant Relations of 3D to 2D Projection of Point Sets, Journal of Pattern Recognition Research(JPRR), Vol. 3, No 1, 2008. (англ.)
- Lowe, D. G., “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer Vision, 60, 2, pp. 91-110, 2004. (англ.)
- Mikolajczyk, K., and Schmid, C., "A performance evaluation of local descriptors", IEEE Transactions on Pattern Analysis and Machine Intelligence, 10, 27, pp 1615--1630, 2005. (англ.)
- . Архів оригіналу за 26 січня 2020. (англ.)
- [en], [en], and Ponce, J., Semi-Local Affine Parts for Object Recognition, BMVC, 2004. (англ.)
Посібники:
- Scale-Invariant Feature Transform (SIFT) у Scholarpedia (англ.)
- Простий покроковий посібник із SIFT (англ.)
- SIFT для виявляння кількох об'єктів (англ.)
- «Анатомія методу SIFT» в інтерактивній обробці зображень, детальне вивчення кожного кроку алгоритму з втіленням із відкритим кодом, та веб-показ для випробування різних параметрів (англ.)
Втілення:
- Втілення SIFT від Роба Гесса доступ 21 листопада 2012 року
- ASIFT (Affine SIFT): велике зіставляння точок огляду за допомогою SIFT, із первинним кодом та онлайн-показом
- VLFeat, відкрита бібліотека комп'ютерного зору мовою C (з інтерфейсом [en] для MATLAB), включно зі втіленням SIFT
- LIP-VIREO, інструментарій для виділяння ознак ключових точок (двійкові файли для Windows, Linux та SunOS), включно зі втіленням SIFT
- (Паралельний) SIFT у C#, алгоритм SIFT у C# з використанням Emgu CV, а також видозмінена паралельна версія алгоритму.
- DoH & LoG + affine, виявляч плям, перероблений з інструментарію SIFT
- ezSIFT: просте у використанні автономне втілення SIFT мовами C/C++. Автономне втілення SIFT із відкритим кодом, яке не потребує інших бібліотек.
- Втілення тривимірного SIFT: виявляння та зіставляння в об'ємних зображеннях.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Masshtaboinvaria ntne ozna kove peretvo rennya MIOP angl scale invariant feature transform SIFT ce algoritm komp yuternogo bachennya dlya viyavlyannya opisuvannya ta zistavlyannya lokalnih oznak angl feature u zobrazhennyah vinajdenij en 1999 roku Do jogo zastosuvan nalezhat en en ta navigaciya en trivimirne modelyuvannya en vidstezhuvannya u video identifikuvannya osobin u dikij prirodi ta en Spershu klyuchovi tochki SIFT ob yektiv vidilyayut iz naboru opornih zobrazhen i zberigayut u bazi danih Ob yekt na novomu zobrazhenni rozpiznayut individualnim porivnyannyam kozhnoyi oznaki z novogo zobrazhennya z ciyeyu bazoyu danih i poshukom kandidativ u zbigi na osnovi evklidovoyi vidstani yihnih vektoriv oznak U comu povnomu nabori zbigiv vstanovlyuyut pidmnozhini klyuchovih tochok yaki uzgodzhuyutsya z ob yektom i jogo roztashuvannyam masshtabom i spryamuvannyam na novomu zobrazhenni shobi vidfiltruvati dobri zbigi Viznachennya uzgodzhenih klasteriv vikonuyut shvidko za dopomogoyu efektivnogo vtilennya gesh tablici uzagalnenogo peretvorennya Gafa Kozhen klaster iz 3 abo bilshe oznak sho uzgodzhuyutsya z ob yektom ta jogo en potim pidlyagaye podalshij dokladnij perevirci modeli j vikidi vidtak vidkidayut Nareshti obchislyuyut imovirnist togo sho pevnij nabir oznak vkazuye na prisutnist ob yekta vrahovuyuchi tochnist dopasuvannya ta chislo jmovirnih pomilkovih zbigiv Zbigi ob yektiv yaki projshli vsi ci perevirki mozhlivo z visokoyu doviroyu viznachiti yak pravilni OglyadCej rozdil napisano zanadto profesijnim stilem zi specifichnoyu terminologiyeyu sho mozhe buti nezrozumilim dlya bilshosti chitachiv Vi mozhete dopomogti vdoskonaliti cej rozdil zrobivshi jogo zrozumilim dlya nespecialistiv bez vtrat zmistu Mozhlivo storinka obgovorennya mistit zauvazhennya shodo potribnih zmin sichen 2023 Dlya bud yakogo ob yekta na zobrazhenni mozhlivo vidiliti osoblivi tochki na ob yekti shobi zabezpechiti oznakovij opis angl feature description ob yekta Cej opis vidilenij iz trenuvalnogo zobrazhennya mozhlivo potim vikoristovuvati dlya vstanovlyuvannya ob yekta pri namaganni znajti jogo na perevirnomu zobrazhenni sho mistit bagato inshih ob yektiv Dlya nadijnogo rozpiznavannya vazhlivo shob oznaki vidileni z trenuvalnogo zobrazhennya bulo mozhlivo viyavlyati navit za zmin masshtabu zobrazhennya shumu ta osvitlennya Taki tochki zazvichaj lezhat na visokokontrastnih dilyankah zobrazhennya takih yak konturi ob yektiv She odna vazhliva harakteristika cih oznak polyagaye v tomu sho yihnye vidnosne roztashuvannya u pervinnij sceni ne povinno zminyuvatisya vid odnogo zobrazhennya do inshogo Napriklad yaksho yak oznaki vikoristovuvati lishe chotiri kuti dverej voni pracyuvatimut nezalezhno vid polozhennya dverej ale yaksho vikoristovuvati j tochki vseredini rami to rozpiznavannya ne vdavalosya bi zalezhno vid togo chi dveri vidchineno chi zachineno Tak samo oznaki roztashovani v sharnirnih abo gnuchkih ob yektah yak pravilo ne pracyuvatimut yaksho mizh dvoma zobrazhennyami obroblyuvanogo naboru stanetsya bud yaka zmina yihnoyi vnutrishnoyi geometriyi Prote na praktici SIFT viyavlyaye ta vikoristovuye nabagato bilshu kilkist oznak iz zobrazhen sho zmenshuye vnesok pomilok sprichinenih cimi lokalnimi variaciyami do userednenoyi pohibki vsih pomilok zistavlennya oznak SIFT mozhe stijko identifikuvati ob yekti navit sered zaharashennya ta za chastkovogo zatulennya oskilki opisuvach oznak SIFT invariantnij shodo rivnomirnogo masshtabuvannya spryamuvannya zmin osvitlennya ta chastkovo invariantnij shodo afinnogo spotvorennya U comu rozdili korotko vikladeno pervinnij algoritm SIFT i zgadano dekilka konkurentnih metodiv dostupnih dlya rozpiznavannya ob yektiv za zaharashennya ta chastkovogo zatulennya Opisuvach SIFT gruntuyetsya na vimiryuvannyah zobrazhennya v terminah receptivnih poliv nad yakimi vstanovlyuyut lokalni masshtaboinvariantni sistemi vidliku shlyahom lokalnogo obirannya masshtabu Zagalne teoretichne poyasnennya cogo navedeno u statti Scholarpedia pro SIFT Zadacha Metodika Perevagiroztashuvannya masshtab spryamuvannya klyuchovih tochok Riznicya gaussianiv masshtaboprostorova piramida priznachuvannya spryamuvannya tochnist stabilnist invariantnist shodo masshtabu ta obertannyageometrichne spotvorennya rozmivannya perediskretizaciya lokalnih proyekcij spryamuvannya zobrazhennya afinna invariantnistindeksuvannya ta zistavlyannya poshuk najblizhchih susidiv pershij zasik lipshij Efektivnist shvidkistVstanovlyuvannya klasteriv Golosuvannya peretvorennya Gafa nadijni modeli en Perevirka modeli viyavlyannya vikidiv en krasha stijkist do pomilok iz menshoyu kilkistyu zbigivPrimannya gipotezi Analiz bayesovoyi jmovirnosti nadijnistTipi oznak Cej rozdil ne mistit posilan na dzherela Vi mozhete dopomogti polipshiti cej rozdil dodavshi posilannya na nadijni avtoritetni dzherela Material bez dzherel mozhe buti piddano sumnivu ta vilucheno sichen 2023 Viyavlyannya ta opis lokalnih oznak zobrazhennya mozhe dopomagati v rozpiznavanni ob yektiv Oznaki SIFT lokalni gruntuyutsya na zovnishnomu viglyadi ob yekta v pevnih osoblivih tochkah ta invariantni shodo masshtabu ta obertannya zobrazhennya Voni takozh stijki do zmin osvitlennya shumu ta neznachnih zmin tochki oglyadu Na dodachu do cih vlastivostej voni duzhe viriznyuvalni angl distinctive vidnosno legki dlya vidilyannya ta dozvolyayut pravilno vstanovlyuvati ob yekti z nizkoyu jmovirnistyu nevidpovidnosti Yih vidnosno legko zistavlyati z velikoyu bazoyu danih lokalnih oznak ale prote visoka vimirnist mozhe buti problemoyu i zazvichaj vikoristovuyut imovirnisni algoritmi taki yak k vimirni dereva z poshukom pershij zasik lipshij Opis ob yekta naborom oznak SIFT takozh stijkij do chastkovogo zatulennya dostatno vsogo lishe troh oznak SIFT vid ob yekta shob obchisliti jogo roztashuvannya ta pozu Rozpiznavannya mozhlivo vikonuvati v chasi blizkomu do realnogo prinajmni dlya nevelikih baz danih i na suchasnomu komp yuternomu obladnanni dzherelo Osnovni etapiMasshtaboinvariantne viyavlyannya oznak Div takozh Invariantnist shodo masshtabu Metod Lou dlya porodzhuvannya oznak zobrazhennya peretvoryuye zobrazhennya na veliku zbirku vektoriv oznak kozhen z yakih invariantnij do paralelnogo perenesennya masshtabuvannya ta obertannya zobrazhennya chastkovo invariantnij do zmin osvitlennya ta stijkij do lokalnih geometrichnih spotvoren Ci oznaki mayut shozhi vlastivosti z nejronami pervinnoyi zorovoyi kori yaki koduyut osnovni formi kolir ta ruh dlya viyavlyannya ob yektiv u zori primativ Klyuchovi miscya viznachayut yak maksimumi ta minimumi rezultatu funkciyi riznici gaussianiv zastosovanoyi u prostori masshtabiv do nizki zgladzhenih ta perediskretizovanih zobrazhen Tochki kandidati z nizkim kontrastom ta tochki konturnogo vidguku vzdovzh konturiv vidkidayut Klyuchovim tochkam iz vstanovlenim roztashuvannyam priznachuyut perevazhni spryamuvannya Ci kroki zabezpechuyut shobi klyuchovi tochki buli stabilnishimi dlya zistavlyannya ta rozpiznavannya Vidtak stijki do lokalnogo afinnogo spotvorennya opisuvachi SIFT otrimuyut rozglyadom pikseliv navkolo pevnogo radiusa klyuchovogo miscya rozmivannya ta perediskretizaciyi lokalnih ploshin spryamuvannya zobrazhennya Zistavlyannya ta indeksuvannya oznak Indeksuvannya polyagaye u zberiganni klyuchovih tochok SIFT ta identifikuvanni vidpovidnih klyuchovih tochok iz novogo zobrazhennya Lou vikoristav vidozminu algoritmu k vimirnogo dereva pid nazvoyu metod poshuku pershij zasik lipshij angl best bin first search yakij mozhe z visokoyu jmovirnistyu vstanovlyuvati najblizhchih susidiv vikoristovuyuchi lishe obmezhenu kilkist obchislen Algoritm pershij zasik lipshij vikoristovuye vidozminene vporyadkuvannya poshuku dlya algoritmu k vimirnogo dereva tak sho poshuk zasikiv u prostori oznak zdijsnyuyut u poryadku yih najblizhchoyi vidstani vid roztashuvannya zapitu Cej poryadok poshuku dlya efektivnogo viznachannya poryadku poshuku vimagaye vikoristannya chergi z prioritetom na osnovi kupi Najkrashij variant zbigu dlya kozhnoyi klyuchovoyi tochki znahodyat vstanovlyuvannyam yiyi najblizhchogo susida v bazi danih klyuchovih tochok iz trenuvalnih zobrazhen Najblizhchih susidiv viznachayut yak klyuchovi tochki z minimalnoyu evklidovoyu vidstannyu vid zadanogo vektora opisuvacha Imovirnist pravilnosti zbigu mozhlivo viznachati beruchi vidnoshennya vidstani vid najblizhchogo susida do vidstani vid drugogo najblizhchogo Lou vidkidav usi zbigi v yakih ce vidnoshennya vidstanej perevishuye 0 8 sho usuvaye 90 hibnih zbigiv vidkidayuchi menshe 5 pravilnih Dlya podalshogo pidvishennya efektivnosti algoritmu pershij zasik lipshij poshuk pererivali pislya perevirki pershih 200 kandidativ u najblizhchi susidi Dlya bazi danih iz 100 000 klyuchovih tochok ce zabezpechuye priskorennya vidnosno tochnogo poshuku najblizhchogo susida priblizno na 2 poryadki prizvodyachi do mensh nizh 5 vtrat kilkosti pravilnih zbigiv Vstanovlyuvannya klasteriv golosuvannyam peretvorennya Gafa Dlya klasteruvannya nadijnih gipotez modeli dlya poshuku klyuchovih tochok yaki uzgodzhuyutsya z konkretnim en modeli vikoristovuyut peretvorennya Gafa Vono vstanovlyuye klasteri oznak iz uzgodzhenoyu interpretaciyeyu vikoristovuyuchi kozhnu oznaku dlya golosuvannya za vsi polozhennya ob yektiv yaki uzgodzhuyutsya z ciyeyu oznakoyu Koli viyavleno sho za te same polozhennya ob yekta golosuyut klasteri oznak imovirnist pravilnosti ciyeyi interpretaciyi nabagato visha nizh za bud yakoyi okremoyi oznaki U gesh tablici stvoryuyut zapis yakij peredbachuye roztashuvannya spryamuvannya ta masshtab modeli na osnovi vidpovidnoyi gipotezi U cij gesh tablici vikonuyut poshuk dlya vstanovlennya vsih klasteriv iz prinajmni troma zapisami v zasiku j uporyadkovuyut ci zasiki za zmenshennyam rozmiru Kozhna z klyuchovih tochok SIFT viznachaye dvovimirne roztashuvannya masshtab ta spryamuvannya i kozhna vidpovidna klyuchova tochka v bazi danih maye zapis svoyih parametriv vidnosno trenuvalnogo zobrazhennya na yakomu yiyi bulo znajdeno Peretvorennya podibnosti peredbachene cimi 4 parametrami ye lishe nablizhennyam povnogo prostoru polozhen iz 6 stupenyami vilnosti dlya trivimirnogo ob yekta a takozh ne vrahovuye zhodnih nezhorstkih deformuvan Tomu Lou vikoristovuvav shiroki rozmiri zasikiv u 30 gradusiv dlya spryamuvannya koeficiyent 2 dlya masshtabu ta 0 25 maksimalnogo rozmiru proyekciyi trenuvalnogo zobrazhennya z vikoristannyam peredbachenogo masshtabu dlya roztashuvannya Zrazkam klyuchovih tochok SIFT porodzhenim iz bilshogo masshtabu nadayut udvichi bilshoyi vagi nizh tim sho z menshogo masshtabu Ce oznachaye sho bilshij masshtab faktichno zdatnij filtruvati najpravdopodibnishih susidiv dlya perevirki v menshomu masshtabi Ce takozh pokrashuye produktivnist rozpiznavannya nadayuchi bilshoyi vagi masshtabovi z najmenshim shumom Shobi zapobigti problemi mezhovih efektiv u priznachuvanni zasikiv kozhen zbig klyuchovih tochok golosuye za 2 najblizhchi zasiki v kozhnomu vimiri dayuchi zagalom 16 zapisiv dlya kozhnoyi gipotezi ta dodatkovo rozshiryuyuchi diapazon polozhen Perevirka modeli linijnimi najmenshimi kvadratami Potim kozhen vstanovlenij klaster pidlyagaye proceduri perevirki v yakij znahodyat rozv yazok en dlya parametriv afinnogo peretvorennya yake pov yazuye model iz zobrazhennyam Afinne peretvorennya tochki modeli x y T na tochku zobrazhennya u v T mozhlivo zapisati yak uv m1m2m3m4 xy txty displaystyle begin bmatrix u v end bmatrix begin bmatrix m 1 amp m 2 m 3 amp m 4 end bmatrix begin bmatrix x y end bmatrix begin bmatrix t x t y end bmatrix de paralelne perenesennya modeli tx ty T a afinne obertannya masshtabuvannya ta roztyaguvannya podano parametrami m1 m2 m3 ta m4 Shobi znajti rozv yazok dlya cih parametriv peretvorennya navedene vishe rivnyannya mozhlivo perepisati tak shobi zibrati nevidomi do vektora stovpcya xy001000xy01 m1m2m3m4txty uv displaystyle begin bmatrix x amp y amp 0 amp 0 amp 1 amp 0 0 amp 0 amp x amp y amp 0 amp 1 end bmatrix begin bmatrix m1 m2 m3 m4 tx ty end bmatrix begin bmatrix u v end bmatrix Ce rivnyannya pokazuye odin zbig ale mozhlivo dodati bud yaku kilkist nastupnih zbigiv prichomu kozhen zbig vnosit she dva ryadki do pershoyi ta ostannoyi matrici Shobi znajti rozv yazok potribno nadati ne menshe 3 zbigiv Mi mozhemo zapisati cyu linijnu sistemu yak Ax b displaystyle A hat mathbf x approx mathbf b de A vidoma matricya m na n zazvichaj iz m gt n x nevidomij n vimirnij vektor parametriv a b vidomij m vimirnij vektor vimiryuvannya Otzhe minimizuvalnij vektor x displaystyle hat mathbf x rozv yazok normalnogo rivnyannya ATAx ATb displaystyle A T A hat mathbf x A T mathbf b Rozv yazok ciyeyi sistemi linijnih rivnyan zadayut cherez matricyu ATA 1AT displaystyle A T A 1 A T zvanu en A yak x ATA 1ATb displaystyle hat mathbf x A T A 1 A T mathbf b sho minimizuye sumu kvadrativ vidstanej vid proyekcij roztashuvan modelej do vidpovidnih misc roztashuvannya v zobrazhenni Viyavlyannya vikidiv Teper mozhlivo usunuti vikidi perevirivshi vidpovidnist mizh kozhnoyu oznakoyu zobrazhennya ta modellyu vihodyachi z rozv yazku dlya yiyi parametriv Dlya zadanogo rozv yazku en kozhen zbig povinen uzgodzhuvatisya v mezhah polovini diapazonu pohibki vikoristanogo dlya parametriv u zasikah peretvorennya Gafa Koli vikidi vidkidayut linijni najmenshi kvadrati rozv yazuyut povtorno z reshtoyu tochok i povtoryuyut cej proces Yaksho pislya vidkidannya vikidiv lishayetsya menshe 3 tochok zbig vidhilyayut Krim togo vikoristovuyut fazu zistavlyannya zgori vniz dlya dodavannya bud yakih podalshih zbigiv yaki uzgodzhuyutsya z proyekciyeyu polozhennya modeli ale yaki mogli ne potrapiti do zasiku peretvorennya Gafa cherez nablizhennya peretvorennya podibnosti chi inshi pohibki Ostatochne rishennya prijnyati abo vidhiliti gipotezu modeli gruntuyetsya na detalnij imovirnisnij modeli Cej metod spochatku obchislyuye ochikuvanu kilkist hibnih zbigiv iz polozhennyam modeli vrahovuyuchi rozmir proyekciyi modeli kilkist oznak v oblasti ta tochnist dopasuvannya Pislya cogo analiz bayesovoyi jmovirnosti daye jmovirnist prisutnosti ob yekta na osnovi faktichnoyi kilkosti znajdenih zbigiv oznak Model vvazhayut prijnyatnoyu yaksho ostatochna jmovirnist pravilnoyi interpretaciyi perevishuye 0 98 Rozpiznavannya ob yektiv Lou na osnovi SIFT daye chudovi rezultati za vinyatkom shirokih zmin osvitlennya ta nezhorstkih peretvoren AlgoritmViyavlyannya masshtaboprostorovih ekstremumiv Mi pochinayemo z viyavlyannya osoblivih tochok yaki v sistemi SIFT nazivayut klyuchovimi tochkami angl keypoints Zobrazhennya zgortayut z gaussovimi filtrami v riznih masshtabah a potim berut riznicyu poslidovnih gaussovo rozmitih zobrazhen Vidtak za klyuchovi tochki berut maksimumi minimumi riznic gaussianiv RG yaki mayut misce u dekilkoh masshtabah Konkretnishe zobrazhennya RG D x y s displaystyle D left x y sigma right zadayut yak D x y s L x y kis L x y kjs displaystyle D left x y sigma right L left x y k i sigma right L left x y k j sigma right de L x y ks displaystyle L left x y k sigma right zgortka pervinnogo zobrazhennya I x y displaystyle I left x y right z gaussovim rozmittyam G x y ks displaystyle G left x y k sigma right u masshtabi ks displaystyle k sigma tobtoL x y ks G x y ks I x y displaystyle L left x y k sigma right G left x y k sigma right I left x y right Vidtak zobrazhennya RG mizh masshtabami kis displaystyle k i sigma ta kjs displaystyle k j sigma ce prosto riznicya gaussovo rozmitih zobrazhen masshtabiv kis displaystyle k i sigma ta kjs displaystyle k j sigma Dlya viyavlyannya masshtaboprostorovih ekstremumiv v algoritmi SIFT zobrazhennya spochatku zgortayut z gaussovimi rozmittyami v riznih masshtabah Zgornuti zobrazhennya grupuyut v oktavi oktava vidpovidaye podvoyennyu znachennya s displaystyle sigma a znachennya ki displaystyle k i obirayut takim chinom shob otrimuvati fiksovanu kilkist zgornutih zobrazhen na oktavu Potim zobrazhennya riznic gaussianiv berut iz sumizhnih gaussovo zobrazhen pooktavno Pislya otrimannya zobrazhen RG klyuchovi tochki vstanovlyuyut yak lokalni minimumi maksimumi zobrazhen RG u riznih masshtabah Ce roblyat porivnyuvannyam kozhnogo pikselya zobrazhen RG z jogo vismoma susidami v tomu samomu masshtabi ta dev yatma vidpovidnimi susidnimi pikselyami v kozhnomu iz susidnih masshtabiv Yaksho znachennya pikselya maksimalne abo minimalne sered usih porivnyuvanih pikseliv jogo obirayut yak potencijnu klyuchovu tochku Cej etap viyavlyannya klyuchovih tochok ye riznovidom odnogo z metodiv viyavlyannya plyam rozroblenogo Lindebergom shlyahom viyavlyannya masshtaboprostorovih ekstremumiv masshtabonormovanogo laplasiana tobto viyavlyannya tochok sho ye lokalnimi ekstremumami shodo yak prostoru tak i masshtabu v diskretnomu vipadku porivnyannyam iz cimi najblizhchimi 26 susidami v diskretizovanomu masshtaboprostorovomu ob yemi Operator riznici gaussianiv mozhlivo rozglyadati yak nablizhennya laplasiana pri comu neyavne normuvannya v piramidi takozh stanovit diskretne nablizhennya masshtabonormovanogo laplasiana Inshe realnochasove vtilennya masshtaboprostorovih ekstremumiv operatora Laplasa zaproponovane Lindebergom ta Bretcnerom gruntuyetsya na gibridnomu piramidnomu podanni yake vikoristovuvali dlya lyudinomashinnoyi vzayemodiyi realnochasovim rozpiznavannyam zhestiv v Bretcneri zi spivavt 2002 Vstanovlennya roztashuvan klyuchovih tochok Pislya viyavlennya masshtaboprostorovih ekstremumiv yihni roztashuvannya pokazano na verhnomu zobrazhenni algoritm SIFT vidkidaye nizkokontrastni klyuchovi tochki reshtu tochok pokazano na serednomu zobrazhenni a potim vidfiltrovuye roztashovani na konturah Otrimanij nabir klyuchovih tochok pokazano na krajnomu zobrazhenni Viyavlyannya masshtaboprostorovih ekstremumiv stvoryuye zabagato potencijnih klyuchovih tochok deyaki z yakih nestabilni Nastupnim krokom algoritmu ye vikonannya detalnogo dopasuvannya do danih nepodalik dlya vstanovlennya tochnih roztashuvannya masshtabu ta vidnoshennya en Cya informaciya dozvolyaye vidkidati tochki z nizkim kontrastom vidtak chutlivi do shumu ta nevdalo roztashovani vzdovzh konturu Interpolyuvannya danih poblizu dlya tochnosti roztashuvannya Po pershe dlya kozhnoyi potencijnoyi klyuchovoyi tochki vikoristovuyut interpolyuvannya danih nepodalik shobi viznachiti yiyi roztashuvannya tochno Pochatkovij pidhid polyagav u tomu shobi prosto znajti kozhnu klyuchovu tochku v misci ta masshtabi potencijnoyi klyuchovoyi tochki Novij pidhid obchislyuye interpolovane roztashuvannya ekstremumu sho znachno pokrashuye zistavlyannya ta stabilnist Ce interpolyuvannya vikonuyut z vikoristannyam kvadratichnogo rozkladu Tejlora masshtaboprostorovoyi funkciyi riznici gaussianiv D x y s displaystyle D left x y sigma right z potencijnoyu klyuchovoyu tochkoyu yak centrom Cej rozklad Tejlora zadayut yak D x D D xTx 12xT 2D x2x displaystyle D textbf x D frac partial D partial textbf x T textbf x frac 1 2 textbf x T frac partial 2 D partial textbf x 2 textbf x de D ta yiyi pohidni ocinyuyut u potencijnij klyuchovij tochci a x x y s T displaystyle textbf x left x y sigma right T zmishennya vidnosno ciyeyi tochki Roztashuvannya ekstremumu x displaystyle hat textbf x viznachayut vzyattyam pohidnoyi ciyeyi funkciyi za x displaystyle textbf x ta pririvnyuvannyam yiyi do nulya Yaksho zmishennya x displaystyle hat textbf x perevishuye 0 5 displaystyle 0 5 u bud yakomu vimiri ce vkazuye na te sho ekstremum lezhit blizhche do inshoyi potencijnoyi klyuchovoyi tochki V takomu vipadku potencijnu klyuchovu tochku zminyuyut j vikonuyut interpolyaciyu natomist navkolo tiyeyi tochki Inakshe ce zmishennya dodayut do jogo potencijnoyi klyuchovoyi tochki shob otrimati interpolovanu ocinku roztashuvannya ekstremumu Podibne subpikselne viznachannya roztashuvannya masshtaboprostorovih ekstremumiv vikonuyut u realnochasovomu vtilenni na osnovi gibridnih piramid rozroblenomu Lindebergom zi spivrobitnikami Vidkidannya nizkokontrastnih klyuchovih tochok Shobi vidkinuti klyuchovi tochki z nizkim kontrastom obchislyuyut znachennya rozkladu Tejlora drugogo poryadku D x displaystyle D textbf x za zmishennya x displaystyle hat textbf x Yaksho ce znachennya menshe za 0 03 displaystyle 0 03 potencijnu klyuchovu tochku vidkidayut V inshomu vipadku yiyi zberigayut z ostatochnim masshtaboprostorovim roztashuvannyam y x displaystyle textbf y hat textbf x de y displaystyle textbf y pervinne roztashuvannya klyuchovoyi tochki Usuvannya konturnih vidgukiv Funkciya RG matime silni vidguki vzdovzh konturiv navit yaksho potencijna klyuchova tochka ne stijka j do nevelikoyi kilkosti shumu Tomu shobi pidvishiti stabilnist nam potribno usunuti klyuchovi tochki yaki mayut pogano viznacheni roztashuvannya ale mayut visokij konturnij vidguk Dlya pogano viznachenih pikiv funkciyi RG en poperek konturu bude nabagato bilshoyu za golovnu krivinu vzdovzh nogo Znahodzhennya cih golovnih krivin oznachaye znahodzhennya rozv yazku dlya vlasnih znachen matrici Gesse drugogo poryadku H H DxxDxyDxyDyy displaystyle textbf H begin bmatrix D xx amp D xy D xy amp D yy end bmatrix Vlasni znachennya H proporcijni golovnim krivinam D Viyavlyayetsya sho dlya cilej SIFT dostatno vidnoshennya dvoh vlasnih znachen skazhimo a displaystyle alpha bilshe a b displaystyle beta menshe a vidnoshennya r a b displaystyle r alpha beta Slid H tobto Dxx Dyy displaystyle D xx D yy daye nam sumu dvoh vlasnih znachen a yiyi viznachnik tobto DxxDyy Dxy2 displaystyle D xx D yy D xy 2 daye dobutok Mozhlivo pokazati sho vidnoshennya R Tr H 2 Det H displaystyle text R operatorname Tr textbf H 2 operatorname Det textbf H dorivnyuye r 1 2 r displaystyle r 1 2 r sho zalezhit lishe vid vidnoshennya vlasnih znachen ale ne vid yihnih okremih znachen R minimalne koli vlasni znachennya dorivnyuyut odne odnomu Otzhe sho visha en dvoh vlasnih znachen ekvivalentna vishij absolyutnij riznici dvoh golovnih krivin D to vishe znachennya R Z cogo viplivaye sho dlya deyakogo porogovogo vidnoshennya vlasnih znachen rth displaystyle r text th yaksho R dlya potencijnoyi klyuchovoyi tochki perevishuye rth 1 2 rth displaystyle r text th 1 2 r text th cya klyuchova tochka maye pogano viznachene roztashuvannya i tomu pidlyagaye vidkidannyu Novij pidhid vikoristovuye rth 10 displaystyle r text th 10 Cej etap obrobki dlya prignichuvannya vidgukiv na konturah ye perenesennyam vidpovidnogo pidhodu z operatora Garrisa dlya viyavlyannya kutiv Vidminnist polyagaye v obchislenni miri dlya poroguvannya z matrici Gesse zamist matrici drugogo momentu Priznachuvannya spryamuvannya Na comu kroci kozhnij klyuchovij tochci priznachuyut odne abo dekilka spryamuvan na osnovi lokalnih napryamkiv gradiyenta zobrazhennya Ce klyuchovij krok dlya dosyagnennya en oskilki opisuvach klyuchovoyi tochki mozhlivo podati vidnosno cogo spryamuvannya j takim chinom dosyagti invariantnosti shodo obertannya zobrazhennya Po pershe gaussovo zgladzhene zobrazhennya L x y s displaystyle L left x y sigma right na masshtabi klyuchovoyi tochki s displaystyle sigma berut takim chinom shobi vsi obchislennya vikonuvalisya masshtaboinvariantno Dlya zrazka zobrazhennya L x y displaystyle L left x y right v masshtabi s displaystyle sigma velichinu gradiyenta m x y displaystyle m left x y right ta spryamuvannya 8 x y displaystyle theta left x y right poperedno obchislyuyut z vikoristannyam pikselnih riznic m x y L x 1 y L x 1 y 2 L x y 1 L x y 1 2 displaystyle m left x y right sqrt left L left x 1 y right L left x 1 y right right 2 left L left x y 1 right L left x y 1 right right 2 8 x y atan2 L x y 1 L x y 1 L x 1 y L x 1 y displaystyle theta left x y right mathrm atan2 left L left x y 1 right L left x y 1 right L left x 1 y right L left x 1 y right right Dlya kozhnogo pikselya v okilnij oblasti navkolo klyuchovoyi tochki u gaussovo rozmitomu zobrazhenni L zdijsnyuyut obchislennya velichini ta napryamku dlya gradiyenta Stvoryuyut gistogramu spryamuvan iz 36 zasikami kozhen z yakih ohoplyuye 10 gradusiv Kozhen zrazok v okilnomu vikni yakij dodayut do zasiku gistogrami zvazhuyut velichinoyu jogo gradiyenta ta gaussovo zvazhenim krugovim viknom iz s displaystyle sigma u 1 5 razi bilshim za masshtab klyuchovoyi tochki Piki na cij gistogrami vidpovidayut perevazhnim spryamuvannyam Pislya zapovnennya gistogrami klyuchovij tochci priznachuyut spryamuvannya sho vidpovidayut najvishomu pikovi j lokalnim pikam v mezhah 80 vid najvishih pikiv U razi priznachennya kilkoh spryamuvan dlya kozhnogo dodatkovogo spryamuvannya stvoryuyut dodatkovu klyuchovu tochku z tim zhe roztashuvannyam i masshtabom sho j pervinna klyuchova tochka Opisuvach klyuchovoyi tochki Poperedni kroki znajshli roztashuvannya klyuchovih tochok u pevnih masshtabah i priznachili yim spryamuvannya Ce zabezpechilo invariantnist shodo roztashuvannya masshtabu ta obertannya zobrazhennya Teper mi hochemo obchisliti vektor opisuvacha dlya kozhnoyi klyuchovoyi tochki takim chinom shob opisuvach buv duzhe viriznyuvalnim i chastkovo invariantnim shodo reshti zmin takih yak osvitlennya trivimirna tochka oglyadu tosho Cej krok vikonuyut na zobrazhenni najblizhchomu za masshtabom do masshtabu klyuchovoyi tochki Spochatku stvoryuyut nabir gistogram spryamuvannya na okolah 4 4 pikselya z 8 zasikami kozhen Ci gistogrami obchislyuyut na osnovi znachen velichini ta spryamuvannya zrazkiv v oblasti 16 16 navkolo klyuchovoyi tochki takim chinom sho kozhna gistograma mistit zrazki z pidoblasti 4 4 pervinnoyi okilnoyi oblasti Velichini ta spryamuvannya gradiyenta zobrazhennya vidbirayut navkolo roztashuvannya klyuchovoyi tochki vikoristovuyuchi masshtab klyuchovoyi tochki dlya obrannya rivnya gaussovogo rozmittya zobrazhennya Shobi dosyagti invariantnosti shodo spryamuvannya koordinati opisuvacha ta spryamuvannya gradiyenta povertayut vidnosno spryamuvannya klyuchovoyi tochki Velichini dodatkovo zvazhuyut gaussovoyu funkciyeyu z s displaystyle sigma rivnoyu polovini shirini vikna opisuvacha Potim opisuvach staye vektorom usih znachen cih gistogram Oskilki tam 4 4 16 gistogram kozhna z yakih maye 8 zasikiv cej vektor maye 128 elementiv Potim jogo unormovuyut do odinichnoyi dovzhini shobi pidvishiti invariantnist shodo afinnih zmin v osvitlenni Shobi zmenshiti vpliv nelinijnogo osvitlennya zastosovuyut porig 0 2 i vektor znovu unormovuyut Cej proces poroguvannya yakij takozh nazivayut zakriplyuvannyam angl clamping mozhe pokrashuvati rezultati zistavlyannya navit za vidsutnosti nelinijnih efektiv osvitlennya Porig 0 2 bulo obrano empirichno j rezultati zistavlyannya mozhlivo pokrashiti shlyahom zamini cogo fiksovanogo porogu obchislyuvanim sistemno Hoch vimirnist opisuvacha tobto 128 i vidayetsya visokoyu opisuvachi z nizhchoyu vimirnistyu ne pracyuyut tak dobre v nizci zadach zistavlyannya a obchislyuvalna vitratnist zalishayetsya nizkoyu cherez nablizhenij metod PZL div nizhche yakij vikoristovuyut dlya poshuku najblizhchogo susida Dovshi opisuvachi dijsno pracyuyut krashe ale ne nabagato j isnuye dodatkova nebezpeka pidvishenoyi chutlivosti do spotvorennya ta zatulyannya Takozh bulo pokazano sho tochnist zistavlyannya oznak skladaye ponad 50 dlya zmin kuta oglyadu do 50 gradusiv Tomu opisuvachi SIFT invariantni shodo neznachnih afinnih zmin Shobi pereviriti viriznyuvalnist opisuvachiv SIFT tochnist zistavlyannya takozh vimiryuyut za riznoyu kilkistyu klyuchovih tochok u perevirnij bazi danih i bulo pokazano sho dlya duzhe velikih rozmiriv bazi danih tochnist zistavlyannya zmenshuyetsya lishe duzhe neznachno sho vkazuye na te sho oznaki SIFT duzhe viriznyuvalni Porivnyannya oznak SIFT z inshimi lokalnimi oznakamiBulo provedeno shiroke doslidzhennya ocinki efektivnosti riznih lokalnih opisuvachiv vklyuchno z SIFT z vikoristannyam nizki viyavlyachiv Osnovni rezultati pidsumovano nizhche Oznaki SIFT i SIFT opodibni oznaki GLOH demonstruyut najvishu tochnist zistavlyannya rivni povnoti dlya afinnogo peretvorennya v 50 gradusiv Pislya ciyeyi mezhi peretvorennya rezultati pochinayut stavati nenadijnimi Viriznyuvalnist opisuvachiv vimiryuyut pidsumovuvannyam vlasnih znachen opisuvachiv otrimanih metodom golovnih komponent z opisuvachiv unormovanih za yihnoyu dispersiyeyu Ce vidpovidaye velichini dispersiyi yaku vlovlyuyut rizni opisuvachi a otzhe yihnij viriznyuvalnosti Najvishi znachennya dayut oznaki PCA SIFT metod golovnih komponent angl Principal Components Analysis zastosovanij do opisuvachiv SIFT GLOH ta SIFT Opisuvachi na osnovi SIFT perevershuyut inshi suchasni lokalni opisuvachi yak na teksturovanih tak i na strukturovanih scenah z bilshoyu rizniceyu v produktivnosti na teksturovanih scenah Dlya zmin masshtabu v diapazoni 2 2 5 ta obertannya zobrazhennya v diapazoni vid 30 do 45 gradusiv SIFT ta opisuvachi na osnovi SIFT znov taki perevershuyut inshi suchasni lokalni opisuvachi yak iz teksturovanim tak i zi strukturovanim vmistom sceni Dodavannya rozmittya vplivaye na vsi lokalni opisuvachi osoblivo ti sho gruntuyutsya na konturah yak ot znachennya formi oskilki konturi v razi silnogo rozmittya znikayut Ale GLOH PCA SIFT ta SIFT vse odno pokazali krashi rezultati nizh inshi Ce takozh spravedlivo dlya ocinyuvannya za zmini osvitlenosti Zdijsneni ocinki perekonlivo svidchat pro te sho opisuvachi na osnovi SIFT yaki gruntuyutsya na oblastyah ye najbilsh stijkimi ta viriznyuvalnimi i tomu najkrashe pidhodyat dlya zistavlyannya oznak Prote najnovishi opisuvachi oznak taki yak SURF u comu doslidzhenni ocineno ne bulo Piznishe bulo pokazano sho SURF maye produktivnist podibnu do SIFT ale vodnochas nabagato shvidshij Inshi doslidzhennya dijshli visnovku sho koli shvidkist ne kritichna to SIFT perevershuye SURF Zokrema bez urahuvannya efektiv diskretizaciyi chistij opisuvach zobrazhennya v SIFT znachno krashij za chistij opisuvach zobrazhennya v SURF todi yak masshtaboprostorovi ekstremumi viznachnika gessiana sho lezhit v osnovi chistogo viyavlyacha osoblivih tochok v SURF stanovlyat znachno krashi osoblivi tochki porivnyano z masshtaboprostorovimi ekstremumami laplasiana chiselnim nablizhennyam yakih ye viyavlyach osoblivih tochok u SIFT Produktivnist zistavlyannya zobrazhen za dopomogoyu opisuvachiv SIFT mozhlivo pokrashiti v sensi dosyagnennya vishih pokaznikiv efektivnosti ta nizhchih pokaznikiv 1 vluchnist zaminoyu masshtaboprostorovih ekstremumiv operatora riznici gaussianiv u pervinnomu SIFT masshtaboprostorovimi ekstremumami viznachnika gessiana abo zagalnishe rozglyadayuchi zagalnishe simejstvo uzagalnenih masshtaboprostorovih osoblivih tochok Neshodavno bulo zaproponovano neveliku vidozminu cogo opisuvacha sho vikoristovuye neregulyarnu gratku gistogrami znachno pokrashuyuchi jogo produktivnist Zamist vikoristannya gratki 4 4 zasikiv gistogram vsi zasiki rozshiryuyut do centru oznaki Ce pokrashuye stijkist opisuvacha do zmin masshtabu Pokazano sho opisuvach SIFT Rank pokrashuye produktivnist standartnogo opisuvacha SIFT dlya afinnogo zistavlyannya oznak Opisuvach SIFT Rank porodzhuyut zi standartnogo opisuvacha SIFT vstanovlyuyuchi kozhen zasik gistogrami zgidno jogo rangu u vporyadkovanomu masivi zasikiv Evklidova vidstan mizh opisuvachami SIFT Rank invariantna shodo dovilnih monotonnih zmin znachen zasikiv gistogrami ta pov yazana z koeficiyentom rangovoyi korelyaciyi Spirmena ZastosuvannyaRozpiznavannya ob yektiv za dopomogoyu oznak SIFT Vrahovuyuchi zdatnist SIFT znahoditi viriznyuvalni klyuchovi tochki invariantni shodo roztashuvannya masshtabu ta obertannya a takozh stijki do afinnih peretvoren zmin en obertannya zsuvu ta polozhennya ta zmin osvitlennya yih mozhlivo vikoristovuvati dlya rozpiznavannya ob yektiv Ci kroki navedeno nizhche Spershu otrimuyut oznaki SIFT iz vhidnogo zobrazhennya opisanim vishe algoritmom Ci oznaki zistavlyayut iz bazoyu danih oznak SIFT otrimanoyu z trenuvalnih zobrazhen Ce zistavlyannya oznak vikonuyut metodom najblizhchogo susida na osnovi evklidovoyi vidstani Dlya pidvishennya stijkosti zbigi dlya tih klyuchovih tochok v yakih vidnoshennya vidstani najblizhchogo susida do vidstani drugogo najblizhchogo susida perevishuye 0 8 vidkidayut Ce dozvolyaye vidkidati bagato hibnih zbigiv yaki vinikayut cherez zaharashennya tla Nareshti shob uniknuti vitratnogo poshuku neobhidnogo dlya znahodzhennya najblizhchogo susida za evklidovoyu vidstannyu vikoristovuyut nablizhenij algoritm sho maye nazvu pershij zasik lipshij Ce shvidkij metod dlya otrimuvannya najblizhchogo susida z visokoyu jmovirnistyu yakij mozhe davati 1000 kratne priskorennya znahodyachi potribnogo najblizhchogo susida u 95 vipadkiv Hoch opisana vishe perevirka spivvidnoshennyam vidstanej i vidkidaye bagato hibnih zbigiv yaki vinikayut cherez zaharashennya tla vse she ye zbigi yaki nalezhat riznim ob yektam Tozh shobi pidvishiti stijkist vstanovlyuvannya ob yektiv mi hochemo klasteruvati oznaki yaki nalezhat odnomu j tomu zh ob yektu j vidkinuti zbigi sho lishilisya v procesi cogo klasteruvannya Ce roblyat za dopomogoyu peretvorennya Gafa Ce dozvolyaye vstanoviti klasteri oznak yaki golosuyut za odne j te zh polozhennya ob yekta Koli znajdeno klasteri oznak yaki golosuyut za odne j te zh polozhennya ob yekta jmovirnist pravilnosti ciyeyi interpretaciyi nabagato visha nizh dlya bud yakoyi okremoyi oznaki Kozhna klyuchova tochka golosuye za nabir polozhen ob yekta yaki uzgodzhuyutsya z yiyi roztashuvannyam masshtabom ta spryamuvannyam Zasiki yaki nakopichili prinajmni 3 golosi vstanovlyuyut yak potencijni zbigi z ob yektom polozhennyam Dlya kozhnogo potencijnogo klastera metodom najmenshih kvadrativ otrimuyut rozv yazok najkrashoyi ocinki parametriv afinnoyi proyekciyi sho pov yazuyut trenuvalne zobrazhennya iz vhidnim Yaksho proyekciya klyuchovoyi tochki za cimi parametrami lezhit u mezhah polovini diapazonu pohibok yakij vikoristovuvali dlya parametriv u zasikah peretvorennya Gafa zbig klyuchovoyi tochki zberigayut Yaksho pislya vidkidannya vikidiv u zasiku lishayetsya menshe 3 tochok cej zbig ob yekta vidhilyayut Dopasovuvannya metodom najmenshih kvadrativ povtoryuyut doti poki vidhilen bilshe ne lishitsya Ce pracyuye krashe dlya rozpiznavannya na ploshinnij poverhni nizh dlya rozpiznavannya trivimirnih ob yektiv oskilki dlya nih afinna model vzhe ne tochna U comu zhurnali avtori zaproponuvali novij pidhid do vikoristannya opisuvachiv SIFT dlya cilej viyavlennya dekilkoh ob yektiv Zaproponovanij pidhid viyavlyannya dekilkoh ob yektiv perevireno na aerofoto ta suputnikovih znimkah Oznaki SIFT po suti mozhlivo zastosuvati do bud yakogo zavdannya yake potrebuye vstanovlyuvannya vidpovidnih misc mizh zobrazhennyami Bulo vikonano robotu nad takimi zastosuvannyami yak rozpiznavannya okremih kategorij ob yektiv u dvovimirnih zobrazhennyah trivimirna vidbudova vidstezhuvannya ta segmentuvannya ruhu vstanovlyuvannya roztashuvannya robota zshivannya panoramnih zobrazhen ta epipolyarne kalibruvannya Nizhche rozglyanuto dokladnishe deyaki z nih Vstanovlyuvannya roztashuvannya robota ta kartografuvannya U comu zastosuvanni vikoristovuyut trinokulyarnu stereosistemu shobi viznachati trivimirni ocinki roztashuvannya klyuchovih tochok Klyuchovi tochki vikoristovuyut lishe koli voni z yavlyayutsya na vsih 3 zobrazhennyah i z uzgodzhenimi rozbizhnostyami sho prizvodit do duzhe maloyi kilkosti vikidiv Pid chas svogo ruhu robot vstanovlyuye svoye roztashuvannya vikoristovuyuchi zbigi oznak iz nayavnoyu trivimirnoyu kartoyu vidtak postupovo dodayuchi oznaki do karti odnochasno utochnyuyuchi yihni trivimirni roztashuvannya filtrom Kalmana Ce zabezpechuye stijke ta tochne rozv yazuvannya zadachi vstanovlyuvannya polozhennya robota v nevidomomu seredovishi Novi trivimirni rozv yazuvachi vikoristovuyut spryamuvannya klyuchovih tochok dlya viznachannya trinokulyarnoyi geometriyi za troma klyuchovimi tochkami ta absolyutnogo polozhennya lishe za dvoma chasto nehtuvane ale korisne vimiryuvannya dostupne v SIFT Ci vimiryuvannya spryamuvannya zmenshuyut kilkist neobhidnih vidpovidnostej eksponencijno pidvishuyuchi stijkist Zshivannya panoram Zistavlyannya oznak SIFT mozhlivo vikoristovuvati u en dlya povnistyu avtomatichnoyi vidbudovi panoram z nepanoramnih zobrazhen Oznaki SIFT vidileni z vhidnih zobrazhen zistavlyayut odnu z odnoyu shobi znajti k najblizhchih susidiv kozhnij Potim ci vidpovidnosti vikoristovuyut dlya poshuku m potencijnih zobrazhen yaki zbigalisya bi z kozhnim zobrazhennyam Vidtak obchislyuyut proyektivni peretvorennya mizh parami zobrazhen za dopomogoyu RANSAC a dlya zatverdzhuvannya vikoristovuyut imovirnisnu model Oskilki obmezhen shodo vhidnih zobrazhen nemaye zastosovuyut grafovij poshuk shobi znajti komponenti zv yaznosti zistavlenih zobrazhen takim chinom shobi kozhna komponenta zv yaznosti vidpovidala panorami Nareshti dlya kozhnoyi komponenti zv yaznosti vikonuyut puchkove koriguvannya shob otrimati rozv yazok dlya spilnih parametriv kameri j unaochnyuyut panoramu Zavdyaki pidhodu rozpiznavannya ob yektiv na osnovi SIFT do zshivannya panoram otrimana sistema nechutliva do vporyadkuvannya spryamuvannya masshtabu ta osvitlennya zobrazhen Vhidni zobrazhennya mozhut mistiti kilka panoram ta shumovi zobrazhennya deyaki z yakih mozhut navit ne buti chastinoyu skladenogo zobrazhennya a panoramni poslidovnosti rozpiznayutsya ta vidtvoryuyutsya na vihodi Modelyuvannya trivimirnih scen rozpiznavannya ta vidstezhuvannya Ce zastosuvannya vikoristovuye oznaki SIFT dlya en ta trivimirnogo modelyuvannya v konteksti dopovnenoyi realnosti v yakij sintetichni ob yekti z tochnim polozhennyam nakladayut na realni zobrazhennya Zistavlyannya SIFT vikonuyut dlya nizki dvovimirnih zobrazhen sceni chi ob yekta zroblenih pid riznimi kutami Yih vikoristovuyut iz puchkovim koriguvannyam rozpochatim z istotnoyi matrici abo trifokalnogo tenzora shobi pobuduvati rozridzhenu trivimirnu model rozglyadanoyi sceni j odnochasno vstanoviti polozhennya kamer ta parametri kalibruvannya Potim viznachayut roztashuvannya spryamuvannya ta rozmir virtualnogo ob yekta vidnosno sistemi koordinat vstanovlenoyi modeli Dlya en oznaki SIFT znovu vidilyayut iz potochnogo videokadru ta zistavlyayut z oznakami vzhe obchislenimi dlya modeli svitu sho daye nabir dvovimirno trivimirnih vidpovidnostej Potim ci vidpovidnosti vikoristovuyut dlya obchislennya potochnogo polozhennya kameri dlya virtualnoyi proyekciyi ta ostatochnogo unaochnennya Dlya zmenshennya tremtinnya u virtualnij proyekciyi vikoristovuyut prijom regulyarizaciyi Dlya pidvishennya stijkosti cogo procesu vikoristovuvali j spryamuvannya SIFT Takozh bulo viznacheno trivimirni rozshirennya SIFT dlya en rozpiznavannya ta poshuku ob yektiv Trivimirni SIFT opodibni opisuvachi dlya rozpiznavannya lyudskih dij Doslidzheno rozshirennya opisuvacha SIFT do 2 1 vimirnih prostorovo chasovih danih u konteksti en u videoposlidovnostyah Obchislennya lokalnih zalezhnih vid polozhennya gistogram u dvovimirnomu algoritmi SIFT rozshireno z dvoh do troh vimiriv dlya opisu oznak SIFT u prostorovo chasovij oblasti Dlya zastosuvannya do rozpiznavannya lyudskih dij u videoposlidovnosti vibirku z trenuvalnih video zdijsnyuyut abo v prostorovo chasovih osoblivih tochkah abo u vipadkovo viznachenih roztashuvannyah chasah i masshtabah Potim prostorovo chasovi oblasti navkolo cih osoblivih tochok opisuyut za dopomogoyu trivimirnogo opisuvacha SIFT Ci opisuvachi potim klasteruyut shob utvoriti prostorovo chasovu model torbi sliv Trivimirni opisuvachi SIFT otrimani z perevirnih video vidtak zistavlyayut iz cimi slovami dlya klasifikuvannya lyudskih dij Avtori povidomlyayut pro nabagato krashi rezultati za yihnogo pidhodu trivimirnih opisuvachiv SIFT nizh za inshih pidhodiv takih yak prosti dvovimirni opisuvachi SIFT ta velichina gradiyenta Analiz lyudskogo mozku u trivimirnih magnitno rezonansnih zobrazhennyah Metodika en na osnovi oznak angl Feature based Morphometry FBM vikoristovuye ekstremumi v riznicyah gaussovogo prostoru masshtabiv dlya analizu ta klasifikuvannya trivimirnih magnitno rezonansnih zobrazhen MRT lyudskogo mozku FBM modelyuye zobrazhennya jmovirnisno yak kolazh nezalezhnih oznak zalezhno vid geometriyi zobrazhennya ta grupovih mitok napriklad zdorovih sub yektiv ta sub yektiv iz hvoroboyu Alcgejmera angl Alzheimer s disease AD Oznaki spochatku vidilyayut na okremih zobrazhennyah iz chotirivimirnoyi riznici gaussovogo prostoru masshtabiv a potim modelyuyut z tochki zoru yihnogo zovnishnogo viglyadu geometriyi ta grupovoyi statistiki spilnoyi poyavi v nabori zobrazhen FBM bulo perevireno na analizi AD z vikoristannyam naboru z 200 ob yemnih MRT lyudskogo mozku z avtomatichnoyu identifikaciyeyu vstanovlenih pokaznikiv AD u mozku ta klasifikuvannyam legkoyi AD na novih zobrazhennyah iz chastotoyu 80 Konkurentni metodiDo konkurentnih metodiv masshtaboinvariantnogo rozpiznavannya ob yektiv v umovah zaharashennya chastkovogo zatulyannya nalezhat nastupni RIFT ce obertovoinvariantne angl rotation invariant uzagalnennya SIFT Opisuvach RIFT buduyut za dopomogoyu cirkulyarno normovanih dilyanok rozdilenih na koncentrichni kilcya odnakovoyi shirini j u kozhnomu kilci obchislyuyut gistogramu spryamuvan gradiyentna Shobi zabezpechiti obertovu invariantnist spryamuvannya v kozhnij tochci vimiryuyut vidnosno vidcentrovogo napryamku RootSIFT ce variant SIFT yakij zminyuye unormovuvannya opisuvacha Oskilki opisuvachi SIFT ce gistogramami i yak taki rozpodili jmovirnostej vikoristannya evklidovoyi vidstani dlya viznachannya yihnoyi podibnosti ne prirodnij vibir Porivnyuvannya takih opisuvachiv z vikoristannyam mir podibnosti rozrahovanih na rozpodili imovirnostej takih yak koeficiyent Bgattachar ya vidomij takozh yak yadro Gellingera viyavlyayetsya vigidnishim Dlya cogo pervinno ℓ2 displaystyle ell 2 normovanij opisuvach spershu ℓ1 displaystyle ell 1 normuyut a potim obchislyuyut kvadratnij korin z kozhnogo elementa z nastupnim ℓ2 displaystyle ell 2 perenormovuvannyam Pislya cih algebrichnih manipulyacij opisuvachi RootSIFT mozhlivo normalno porivnyuvati za dopomogoyu evklidovoyi vidstani sho rivnoznachne vikoristannyu yadra Gellingera na pervinnih opisuvachah SIFT Cyu shemu unormovuvannya pid nazvoyu L1 sqrt bulo ranishe zaprovadzheno dlya unormovuvannya blokiv oznak HOG chij variant opisuvacha z pryamokutnim vlashtuvannyam blokiv R HOG konceptualno podibnij opisuvachevi SIFT G RIF Uzagalnena stijka invariantna oznaka angl Generalized Robust Invariant Feature ce opisuvach zagalnogo kontekstu yakij koduye informaciyu pro spryamuvannya ta gustinu konturiv ta vidtinok v unifikovanij formi poyednuyuchi sprijnyattyevu informaciyu z prostorovim koduvannyam Shema rozpiznavannya ob yektiv dlya ocinyuvannya modelej ob yektiv vikoristovuye golosuvannya na osnovi okilnogo kontekstu SURF priskoreni stijki oznaki angl Speeded Up Robust Features ce visokoproduktivnij masshtabo ta obertovoinvariantnij viyavlyach opisuvach osoblivih tochok yakij yak stverdzhuyut nablizhuyetsya do abo navit perevershuye zaproponovani ranishe shemi shodo povtoryuvanosti viriznyuvalnosti ta stijkosti SURF pokladayetsya na integralni zobrazhennya dlya zgortannya zobrazhen shobi skorotiti trivalist obchislen spirayetsya na silni storoni providnih nayavnih viyavlyachiv ta opisuvachiv vikoristovuyuchi shvidku miru na osnovi matrici Gesse dlya viyavlyacha ta opisuvacha na osnovi rozpodilu Opisuye rozpodil vidgukiv gaarovih vejvletiv v okoli osoblivoyi tochki Integralni zobrazhennya vikoristovuyut zadlya shvidkosti j vikoristovuyut lishe 64 vimiri sho skorochuye chas dlya obchislyuvannya oznak ta zistavlyannya Krok indeksuvannya gruntuyetsya na znaku laplasiana sho pidvishuye shvidkist zistavlyannya ta stijkist opisuvacha PCA SIFT ta GLOH she dvi vidozmini SIFT Opisuvach PCA SIFT ce vektor gradiyentiv zobrazhennya v napryamkah x ta y obchislenij u mezhah opornoyi oblasti Oblast gradiyenta vibirayut u 39 39 polozhennyah tomu cej vektor maye rozmir 3042 Cej rozmir zmenshuyut do 36 za dopomogoyu MGK angl PCA Gistograma roztashuvan ta napryamkiv gradiyenta angl Gradient location orientation histogram GLOH ce rozshirennya opisuvacha SIFT priznachene dlya pidvishennya jogo stijkosti ta viriznyuvalnosti Opisuvach SIFT obchislyuyut dlya logarifmichnoyi polyarnoyi gratki roztashuvannya iz troma zasikami v radialnomu napryamku radius vstanovlyuyut u 6 11 ta 15 ta 8 u kutovomu napryamku sho daye 17 zasikiv roztashuvannya Centralnij zasik na kuti ne dilyat Spryamuvannya gradiyenta kvantuyut u 16 zasikah sho daye gistogramu z 272 zasikami Rozmir cogo opisuvacha zmenshuyut za dopomogoyu MGK Kovariacijnu matricyu dlya MGK ocinyuyut na fragmentah zobrazhen zibranih iz riznih zobrazhen Dlya opisu vikoristovuyut 128 najbilshih vlasnih vektoriv Gauss SIFT ce chistij opisuvach zobrazhennya viznachenij vikonannyam usih vimiryuvan zobrazhennya sho lezhat v osnovi chistogo opisuvacha zobrazhennya v SIFT vidgukami gaussovih pohidnih na vidminu vid nablizhen pohidnih u piramidi zobrazhen yak u zvichajnomu SIFT Takim chinom mozhlivo zvesti do minimumu efekti diskretuvannya prostoru ta masshtabu umozhlivivshi potencijno tochnishi opisuvachi zobrazhen U Lindebergu 2015 taki chisti opisuvachi zobrazhen Gauss SIFT bulo poyednano z naborom uzagalnenih masshtaboprostorovih osoblivih tochok sho skladavsya z laplasiana gaussiana viznachnika gessiana chotiroh novih bezznakovih ta znakovih mir virazhenosti gessianovih oznak a takozh osoblivih tochok Garrisa Laplasa ta Si j Tomazi U masshtabnij eksperimentalnij ocinci na plakatovomu naboru danih sho mistiv po dekilka viglyadiv 12 plakativ za peretvoren masshtabuvannya do shestikratnogo j zmin kuta oglyadu do nahilu 45 gradusiv bulo pokazano sho znachne pidvishennya produktivnosti zistavlyannya zobrazhen vishi ocinki efektivnosti j nizhchi ocinki 1 vluchnist mozhlivo otrimati zaminoyu osoblivih tochok laplasiana gaussiana osoblivimi tochkami viznachnika gessiana Oskilki osoblivi tochki riznici gaussianiv stanovlyat chiselne nablizhennya osoblivih tochok laplasiana gaussiana ce pokazuye mozhlivist suttyevogo pidvishennya produktivnosti zistavlyannya shlyahom zamini osoblivih tochok riznici gaussianiv u SIFT osoblivimi tochkami viznachnika gessiana Krim togo mozhlivo otrimati dodatkove pidvishennya produktivnosti rozglyadayuchi bezznakovu miru virazhenosti gessianovih oznak D1L det HL ktrace2 HLyakshodet HL ktrace2 HL gt 0abo 0 inakshe displaystyle D 1 L operatorname det HL k operatorname trace 2 HL mbox yaksho operatorname det HL k operatorname trace 2 HL gt 0 mbox abo 0 inakshe Kilkisne porivnyannya opisuvacha Gauss SIFT iz vidpovidnim opisuvachem Gauss SURF takozh pokazalo sho Gauss SIFT zagalom pracyuye znachno krashe za Gauss SURF dlya velikoyi kilkosti riznih viyavlyachiv masshtaboprostorovih osoblivih tochok Tozh ce doslidzhennya pokazuye sho bez urahuvannya efektiv diskretuvannya chistij opisuvach zobrazhen u SIFT znachno krashij za chistij opisuvach zobrazhen u SURF todi yak viyavlyach osoblivih tochok v osnovi SURF yakij mozhlivo rozglyadati yak chiselne nablizhennya masshtaboprostorovih ekstremumiv viznachnika gessiana znachno krashij za viyavlyach osoblivih tochok v osnovi SIFT Vagner zi spivavt rozrobili dva algoritmi rozpiznavannya ob yektiv specialno sproyektovani z urahuvannyam obmezhen suchasnih mobilnih telefoniv Na vidminu vid klasichnogo pidhodu SIFT dlya viyavlyannya oznak voni vikoristovuyut viyavlyach kutiv FAST Cej algoritm takozh viokremlyuye avtonomnu pidgotovchu stadiyu de stvoryuyut oznaki na riznih rivnyah masshtabu j interaktivnu stadiyu de oznaki stvoryuyut lishe na potochnomu fiksovanomu rivni masshtabu zobrazhennya kameri telefonu Krim togo oznaki stvoryuyut iz fiksovanogo rozmiru fragmenta 15 15 pikseliv j utvoryuyut opisuvach SIFT lishe z 36 vimirami Cej pidhid bulo dodatkovo rozshireno vbudovuvannyam do konveyeru rozpiznavannya Ce dozvolyaye efektivno rozpiznavati na mobilnih telefonah bilshu kilkist ob yektiv Cej pidhid obmezheno perevazhno obsyagom dostupnoyi operativnoyi pam yati KAZE ta A KAZE angl KAZE Features ta angl Accelerated Kaze Features ce novij metod viyavlyannya ta opisu dvovimirnih oznak yakij pracyuye krashe porivnyano z SIFT ta SURF Vin nabuvaye velikoyi populyarnosti zavdyaki svoyemu vidkritomu kodu Pervinno KAZE stvorili Pablo F Alkantarilya Adrian Bartoli ta Endryu Dzh Devison Div takozhZgortkova nejronna merezha en Prostir masshtabiv Vtilennya prostoru masshtabiv Odnochasne viznachannya misceznahodzhennya ta kartografuvannya Struktura z ruhuPrimitkiLowe David G 1999 Object recognition from local scale invariant features PDF Proceedings of the International Conference on Computer Vision T 2 s 1150 1157 doi 10 1109 ICCV 1999 790410 angl Lowe David G 2004 Distinctive Image Features from Scale Invariant Keypoints International Journal of Computer Vision 60 2 91 110 CiteSeerX 10 1 1 73 2924 doi 10 1023 B VISI 0000029664 99615 94 S2CID 221242327 angl U S Patent 6 711 293 Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image David Lowe s patent for the SIFT algorithm March 23 2004 angl Koenderink Jan and van Doorn Ans Representation of local geometry in the visual system 2019 08 02 u Wayback Machine Biological Cybernetics vol 3 pp 383 396 1987 angl Koenderink Jan and van Doorn Ans Generic neighbourhood operators IEEE Transactions on Pattern Analysis and Machine Intelligence vol 14 pp 597 605 1992 angl Lindeberg Tony 1 grudnya 2013 A computational theory of visual receptive fields Biological Cybernetics 107 6 589 635 doi 10 1007 s00422 013 0569 z PMC 3840297 PMID 24197240 cherez Springer Link angl Lindeberg Tony 2013 T Generalized axiomatic scale space theory U Hawkes Peter W red Advances in Imaging and Electron Physics T 178 Elsevier s 1 96 doi 10 1016 b978 0 12 407701 0 00001 7 ISBN 9780124077010 cherez ScienceDirect angl Lindeberg Tony 19 lipnya 2013 Invariance of visual operations at the level of receptive fields PLOS ONE 8 7 e66990 arXiv 1210 0754 Bibcode 2013PLoSO 866990L doi 10 1371 journal pone 0066990 PMC 3716821 PMID 23894283 angl T Lindeberg 2014 Scale selection Computer Vision A Reference Guide K Ikeuchi Editor Springer pages 701 713 angl Lindeberg T Scale Space Theory in Computer Vision Kluwer Academic Publishers 1994 ISBN 0 7923 9418 6 angl Lindeberg Tony 1998 Feature detection with automatic scale selection International Journal of Computer Vision 30 2 79 116 doi 10 1023 A 1008045108935 S2CID 723210 angl Lindeberg Tony 2012 Scale invariant feature transform Scholarpedia 7 5 10491 Bibcode 2012SchpJ 710491L doi 10 4249 scholarpedia 10491 angl Serre T Kouh M Cadieu C Knoblich U Kreiman G Poggio T A Theory of Object Recognition Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex 2011 07 20 u Wayback Machine Computer Science and Artificial Intelligence Laboratory Technical Report December 19 2005 MIT CSAIL TR 2005 082 angl Beis J Lowe David G 1997 Shape indexing using approximate nearest neighbour search in high dimensional spaces PDF Conference on Computer Vision and Pattern Recognition Puerto Rico sn s 1000 1006 doi 10 1109 CVPR 1997 609451 angl Lowe D G Local feature view clustering for 3D object recognition IEEE Conference on Computer Vision and Pattern Recognition Kauai Hawaii 2001 pp 682 688 angl Lindeberg Tony amp Bretzner Lars 2003 Real time scale selection in hybrid multi scale representations T 2695 s 148 163 doi 10 1007 3 540 44935 3 11 ISBN 978 3 540 40368 5 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Proignorovano journal dovidka angl Lars Bretzner Ivan Laptev Tony Lindeberg Hand gesture recognition using multi scale colour features hierarchical models and particle filtering Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition Washington DC USA 21 21 May 2002 pages 423 428 ISBN 0 7695 1602 5 DOI 10 1109 AFGR 2002 1004190 angl Kirchner Matthew R Automatic thresholding of SIFT descriptors In Image Processing ICIP 2016 IEEE International Conference on pp 291 295 IEEE 2016 angl Mikolajczyk K Schmid C 2005 A performance evaluation of local descriptors PDF IEEE Transactions on Pattern Analysis and Machine Intelligence 27 10 1615 1630 CiteSeerX 10 1 1 230 255 doi 10 1109 TPAMI 2005 188 PMID 16237996 angl TU chemnitz de PDF angl Lindeberg Tony 1 travnya 2015 Image Matching Using Generalized Scale Space Interest Points Journal of Mathematical Imaging and Vision 52 1 3 36 doi 10 1007 s10851 014 0541 0 S2CID 254657377 cherez Springer Link angl Edouard Oyallon Julien Rabin An Analysis and Implementation of the SURF Method and its Comparison to SIFT Image Processing On Line angl Cui Y Hasler N Thormaehlen T Seidel H P July 2009 PDF Proceedings of the International Conference on Image Analysis and Recognition ICIAR 2009 Halifax Canada Springer Arhiv originalu PDF za 23 veresnya 2010 Procitovano 22 sichnya 2023 angl Matthew Toews William M Wells III 2009 SIFT Rank Ordinal Descriptors for Invariant Feature Correspondence PDF IEEE International Conference on Computer Vision and Pattern Recognition s 172 177 doi 10 1109 CVPR 2009 5206849 angl Beril Sirmacek amp Cem Unsalan 2009 Urban Area and Building Detection Using SIFT Keypoints and Graph Theory IEEE Transactions on Geoscience and Remote Sensing 47 4 1156 1167 Bibcode 2009ITGRS 47 1156S doi 10 1109 TGRS 2008 2008440 S2CID 6629776 angl Se S Lowe David G Little J 2001 Vision based mobile robot localization and mapping using scale invariant features Proceedings of the IEEE International Conference on Robotics and Automation ICRA T 2 s 2051 doi 10 1109 ROBOT 2001 932909 angl Fabbri Ricardo Duff Timothy Fan Hongyi Regan Margaret de Pinho David Tsigaridas Elias Wampler Charles Hauenstein Jonathan Kimia Benjamin Leykin Anton Pajdla Tomas 23 bereznya 2019 Trifocal Relative Pose from Lines at Points and its Efficient Solution arXiv 1903 09755 cs CV angl Fabbri Ricardo Giblin Peter Kimia Benjamin 2012 Camera Pose Estimation Using First Order Curve Differential Geometry PDF Lecture Notes in Computer Science ECCV 2012 Lecture Notes in Computer Science 7575 231 244 doi 10 1007 978 3 642 33765 9 17 ISBN 978 3 642 33764 2 S2CID 15402824 angl Brown M Lowe David G 2003 Recognising Panoramas PDF Proceedings of the ninth IEEE International Conference on Computer Vision T 2 s 1218 1225 doi 10 1109 ICCV 2003 1238630 angl Iryna Gordon and David G Lowe What and where 3D object recognition with accurate pose in Toward Category Level Object Recognition Springer Verlag 2006 pp 67 82 angl Flitton G Breckon T 2010 Object Recognition using 3D SIFT in Complex CT Volumes PDF Proceedings of the British Machine Vision Conference s 11 1 12 doi 10 5244 C 24 11 angl Flitton G T Breckon T P Megherbi N 2013 A Comparison of 3D Interest Point Descriptors with Application to Airport Baggage Object Detection in Complex CT Imagery Pattern Recognition 46 9 2420 2436 Bibcode 2013PatRe 46 2420F doi 10 1016 j patcog 2013 02 008 hdl 1826 15213 angl Laptev Ivan amp Lindeberg Tony 2004 Local descriptors for spatio temporal recognition ECCV 04 Workshop on Spatial Coherence for Visual Motion Analysis Springer Lecture Notes in Computer Science Volume 3667 s 91 103 doi 10 1007 11676959 8 angl Ivan Laptev Barbara Caputo Christian Schuldt and Tony Lindeberg 2007 Local velocity adapted motion events for spatio temporal recognition Computer Vision and Image Understanding 108 3 207 229 CiteSeerX 10 1 1 168 5780 doi 10 1016 j cviu 2006 11 023 angl Scovanner Paul Ali S Shah M 2007 A 3 dimensional sift descriptor and its application to action recognition Proceedings of the 15th International Conference on Multimedia s 357 360 doi 10 1145 1291233 1291311 angl Niebles J C Wang H and Li Fei Fei 2006 Proceedings of the British Machine Vision Conference BMVC Edinburgh Arhiv originalu za 5 lipnya 2008 Procitovano 20 serpnya 2008 angl Matthew Toews William M Wells III D Louis Collins Tal Arbel 2010 Feature based Morphometry Discovering Group related Anatomical Patterns PDF NeuroImage 49 3 2318 2327 doi 10 1016 j neuroimage 2009 10 032 PMC 4321966 PMID 19853047 angl en en and Ponce J Semi Local Affine Parts for Object Recognition Proceedings of the British Machine Vision Conference 2004 angl Arandjelovic Relja en 2012 Three things everyone should know to improve object retrieval 2012 IEEE Conference on Computer Vision and Pattern Recognition s 2911 2918 doi 10 1109 CVPR 2012 6248018 angl Sungho Kim Kuk Jin Yoon In So Kweon Object Recognition Using a Generalized Robust Invariant Feature and Gestalt s Law of Proximity and Similarity Conference on Computer Vision and Pattern Recognition Workshop CVPRW 06 2006 angl Bay H Tuytelaars T Van Gool L SURF Speeded Up Robust Features Proceedings of the ninth European Conference on Computer Vision May 2006 angl Ke Y and Sukthankar R PCA SIFT A More Distinctive Representation for Local Image Descriptors Computer Vision and Pattern Recognition 2004 angl D Wagner G Reitmayr A Mulloni T Drummond and D Schmalstieg Pose tracking from natural features on mobile phones 2009 06 12 u Wayback Machine Proceedings of the International Symposium on Mixed and Augmented Reality 2008 angl N Henze T Schinke and S Boll What is That Object Recognition from Natural Features on a Mobile Phone Proceedings of the Workshop on Mobile Interaction with the Real World 2009 angl kaze www robesafe com angl PosilannyaVzhivannya zovnishnih posilan u comu rozdili ne vidpovidaye pravilam ta nastanovam Vikipediyi shodo rozdilu Posilannya Bud laska udoskonalte cyu stattyu shlyahom viluchennya nadmirnoyi kilkosti zovnishnih posilan abo shlyahom viluchennya zovnishnih posilan yaki ye nedorechnimi dlya rozdilu Posilannya ta konvertujte korisni posilannya u viglyadi dzherel vinosok u vidpovidnij chastini tekstu statti sichen 2023 Pov yazani doslidzhennya The Invariant Relations of 3D to 2D Projection of Point Sets Journal of Pattern Recognition Research JPRR Vol 3 No 1 2008 angl Lowe D G Distinctive Image Features from Scale Invariant Keypoints International Journal of Computer Vision 60 2 pp 91 110 2004 angl Mikolajczyk K and Schmid C A performance evaluation of local descriptors IEEE Transactions on Pattern Analysis and Machine Intelligence 10 27 pp 1615 1630 2005 angl Arhiv originalu za 26 sichnya 2020 angl en en and Ponce J Semi Local Affine Parts for Object Recognition BMVC 2004 angl Posibniki Scale Invariant Feature Transform SIFT u Scholarpedia angl Prostij pokrokovij posibnik iz SIFT angl SIFT dlya viyavlyannya kilkoh ob yektiv angl Anatomiya metodu SIFT v interaktivnij obrobci zobrazhen detalne vivchennya kozhnogo kroku algoritmu z vtilennyam iz vidkritim kodom ta veb pokaz dlya viprobuvannya riznih parametriv angl Vtilennya Vtilennya SIFT vid Roba Gessa dostup 21 listopada 2012 roku ASIFT Affine SIFT velike zistavlyannya tochok oglyadu za dopomogoyu SIFT iz pervinnim kodom ta onlajn pokazom VLFeat vidkrita biblioteka komp yuternogo zoru movoyu C z interfejsom en dlya MATLAB vklyuchno zi vtilennyam SIFT LIP VIREO instrumentarij dlya vidilyannya oznak klyuchovih tochok dvijkovi fajli dlya Windows Linux ta SunOS vklyuchno zi vtilennyam SIFT Paralelnij SIFT u C algoritm SIFT u C z vikoristannyam Emgu CV a takozh vidozminena paralelna versiya algoritmu DoH amp LoG affine viyavlyach plyam pereroblenij z instrumentariyu SIFT ezSIFT proste u vikoristanni avtonomne vtilennya SIFT movami C C Avtonomne vtilennya SIFT iz vidkritim kodom yake ne potrebuye inshih bibliotek Vtilennya trivimirnogo SIFT viyavlyannya ta zistavlyannya v ob yemnih zobrazhennyah