T-розподілене вкладення стохастичної близькості (англ. t-distributed Stochastic Neighbor Embedding, t-SNE) — це метод машинного навчання візуалізації даних, розроблений Лоренсом ван дер Маатеном і Джефрі Гінтоном. Це зручний [en] шляхом вкладення багатовимірних даних у дво- або тривимірний простір для подальшої візуалізації. Зокрема, він відображає кожну точку багатовимірного простору в дво- або тривимірну точку евклідового простору так, що подібні об'єкти розташовуються поруч, а несхожі об'єкти відповідають віддаленим точкам з високою ймовірністю.
Алгоритм t-SNE складається з двох основних етапів. Спочатку, t-SNE створює розподіл імовірностей по парах багатовимірних об'єктів таким чином, що подібні об'єкти мають високу ймовірність бути вибраними, у той час як несхожі точки мають надзвичайно малу ймовірність бути вибраними разом. Далі, t-SNE визначає подібний розподіл ймовірностей для точок у карті низьковимірного простору та мінімізує розбіжності за відстанню Кульбака–Лейблера між двома розподілами за місцем розташування точок на карті. Зверніть увагу, що хоч оригінальний алгоритм і використовує евклідову відстань між об'єктами, як основну метрику подібності об'єктів, проте, вона може бути змінена при необхідності.
t-SNE використовується для візуалізації в різноманітних застосунках, таких як дослідження по комп'ютерній безпеці, аналізу музики, [en], біоінформатики, та біомедичній обробці сигналів. Він часто використовується для візуалізації високорівневих представлень, отриманих за допомогою штучної нейронної мережі.
Хоча візуалізації отримані за допомогою t-SNE часто використовуються для відображення кластерів, отримане зображення може суттєво залежати від обраної параметризації і тому потрібне глибоке розуміння параметрів, які використовуються для t-SNE. Навіть для некластеризованих даних можуть з'явитись «кластери», що може привести до помилкових висновків. Тим самим, для правильного підбору параметрів і перевірки результатів може бути потрібне інтерактивне дослідження даних. Було продемонстровано, що t-SNE часто здатний відновлювати добре розділені кластери, та зі спеціальним вибором параметрів, він наближається до простої форми спектральної кластеризації.
Деталі
Для даного набору багатовимірних об'єктів t-SNE спочатку обчислює ймовірності пропорційні схожості і наступним чином:
Ван дер Маатен та Гінтон пояснюють такий вибір відстані наступним чином: «подібність точки даних до точки даних — це умовна ймовірність, , що вибрав би як свого сусіда, якби сусіди були обрані пропорційно їх гаусовій густині ймовірності з центром в .»
Більш того, коли , ймовірності дорівнюють нулю:
Пропускна здатність Гаусового ядра встановлюється за допомогою методу бісекції так, що перплексивність умовного розподілу дорівнює попередньо визначеній перплексивності. У результаті пропускна здатність адаптується до густини даних: менші значення використовуються у більш густих частинах даних.
Через те що Гаусове ядро використовує евклідову відстань , то, у випадку дуже високої розмірності даних, слід мати на увазі ефект прокляття розмірності, коли відстані втрачають здатність до розділення і стають дуже схожими (асимптотично, вони збігаються до константи). Для пом'якшення цього ефекту запропоновано регулювати відстані степеневим перетворенням, спираючись на [en] кожної точки.
t-SNE намагається дізнатись -вимірне відображення (де ), яке відображає подібність наскільки це можливо. З цією метою він вимірює схожість між двома точками відображення та за допомогою аналогічного підходу. Зокрема, визначається як:
Тут використовується T-розподіл Стьюдента з обважнілим кінцем (з одним ступенем свободи, який є по суті розподілом Коші) для вимірювання подібностей між точками у низьковимірному просторі для того, щоб різнорідні об'єкти були змодельовані далеко один від одного при відображенні. Зверніть увагу, що в даному випадку ми прирівнюємо
Координати точок при відображенні визначаються шляхом мінімізації (несиметричної) відмінності по мірі Кульбака–Лейблера розподілу від розподілу , тобто:
Мінімізація розбіжностей Кульбака–Лейблера по точкам здійснюється за допомогою градієнтного спуску. Результатом такої оптимізації є відображення, яке добре зберігає подібність між входовими даними високої розмірності.
Програмне забезпечення
- t-SNE від Лоренса ван дер Маатена https://lvdmaaten.github.io/tsne/ [ 28 грудня 2018 у Wayback Machine.]
- [en] містить t-SNE. Див. https://github.com/elki-project/elki/blob/master/elki/src/main/java/de/lmu/ifi/dbs/elki/algorithm/projection/TSNE.java[недоступне посилання з жовтня 2019]
Примітки
- van der Maaten, L.J.P.; Hinton, G.E. (Nov 2008). (PDF). Journal of Machine Learning Research. 9: 2579—2605. Архів оригіналу (PDF) за 9 серпня 2017. Процитовано 27 грудня 2018.
- Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines. Proceedings of the IEEE International Symposium on Network Computing and Applications: 4—11.
- Hamel, P.; Eck, D. (2010). Learning Features from Music Audio with Deep Belief Networks. Proceedings of the International Society for Music Information Retrieval Conference: 339—344.
- Jamieson, A.R.; Giger, M.L.; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t-SNE. Medical Physics. 37 (1): 339—351. doi:10.1118/1.3267037. PMC 2807447. PMID 20175497.
- Wallach, I.; Liliean, R. (2009). The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding. Bioinformatics. 25 (5): 615—620. doi:10.1093/bioinformatics/btp035. PMID 19153135.
- Birjandtalab, J.; Pouyan, M. B.; Nourani, M. (1 лютого 2016). Nonlinear dimension reduction for EEG-based epileptic seizure detection. с. 595—598. doi:10.1109/BHI.2016.7455968. ISBN .
{{}}
: Проігноровано|journal=
() - . Архів оригіналу за 25 вересня 2017. Процитовано 27 грудня 2018.
- K-means clustering on the output of t-SNE. Cross Validated. Процитовано 16 квітня 2018.
- Pezzotti, Nicola; Lelieveldt, Boudewijn P. F.; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (1 липня 2017). . IEEE Transactions on Visualization and Computer Graphics (амер.). 23 (7): 1739—1752. doi:10.1109/tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. Архів оригіналу за 30 листопада 2018. Процитовано 27 грудня 2018.
- Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (13 жовтня 2016). (English) . Distill. Архів оригіналу за 19 грудня 2017. Процитовано 4 грудня 2017.
- Linderman, George C.; Steinerberger, Stefan (8 червня 2017). Clustering with t-SNE, provably. arXiv:1706.02582 [cs.LG].
- Schubert, Erich; Gertz, Michael (4 жовтня 2017). Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection. SISAP 2017 – 10th International Conference on Similarity Search and Applications. с. 188—203. doi:10.1007/978-3-319-68474-1_13.
Посилання
- Візуалізація даних за допомогою t-SNE [ 24 липня 2018 у Wayback Machine.], Google Tech Talk про t-SNE
- Реалізація t-SNE різними мовами програмування [ 28 грудня 2018 у Wayback Machine.], список посилань підтримує Лоренс ван дер Маатен
- Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (13 жовтня 2016). . Distill (англ.). Т. 1, № 10. с. e2. doi:10.23915/distill.00002. ISSN 2476-0757. Архів оригіналу за 3 січня 2021. Процитовано 4 січня 2021.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
T rozpodilene vkladennya stohastichnoyi blizkosti angl t distributed Stochastic Neighbor Embedding t SNE ce metod mashinnogo navchannya vizualizaciyi danih rozroblenij Lorensom van der Maatenom i Dzhefri Gintonom Ce zruchnij en shlyahom vkladennya bagatovimirnih danih u dvo abo trivimirnij prostir dlya podalshoyi vizualizaciyi Zokrema vin vidobrazhaye kozhnu tochku bagatovimirnogo prostoru v dvo abo trivimirnu tochku evklidovogo prostoru tak sho podibni ob yekti roztashovuyutsya poruch a neshozhi ob yekti vidpovidayut viddalenim tochkam z visokoyu jmovirnistyu Algoritm t SNE skladayetsya z dvoh osnovnih etapiv Spochatku t SNE stvoryuye rozpodil imovirnostej po parah bagatovimirnih ob yektiv takim chinom sho podibni ob yekti mayut visoku jmovirnist buti vibranimi u toj chas yak neshozhi tochki mayut nadzvichajno malu jmovirnist buti vibranimi razom Dali t SNE viznachaye podibnij rozpodil jmovirnostej dlya tochok u karti nizkovimirnogo prostoru ta minimizuye rozbizhnosti za vidstannyu Kulbaka Lejblera mizh dvoma rozpodilami za miscem roztashuvannya tochok na karti Zvernit uvagu sho hoch originalnij algoritm i vikoristovuye evklidovu vidstan mizh ob yektami yak osnovnu metriku podibnosti ob yektiv prote vona mozhe buti zminena pri neobhidnosti t SNE vikoristovuyetsya dlya vizualizaciyi v riznomanitnih zastosunkah takih yak doslidzhennya po komp yuternij bezpeci analizu muziki en bioinformatiki ta biomedichnij obrobci signaliv Vin chasto vikoristovuyetsya dlya vizualizaciyi visokorivnevih predstavlen otrimanih za dopomogoyu shtuchnoyi nejronnoyi merezhi Hocha vizualizaciyi otrimani za dopomogoyu t SNE chasto vikoristovuyutsya dlya vidobrazhennya klasteriv otrimane zobrazhennya mozhe suttyevo zalezhati vid obranoyi parametrizaciyi i tomu potribne gliboke rozuminnya parametriv yaki vikoristovuyutsya dlya t SNE Navit dlya neklasterizovanih danih mozhut z yavitis klasteri sho mozhe privesti do pomilkovih visnovkiv Tim samim dlya pravilnogo pidboru parametriv i perevirki rezultativ mozhe buti potribne interaktivne doslidzhennya danih Bulo prodemonstrovano sho t SNE chasto zdatnij vidnovlyuvati dobre rozdileni klasteri ta zi specialnim viborom parametriv vin nablizhayetsya do prostoyi formi spektralnoyi klasterizaciyi DetaliDlya danogo naboru N displaystyle N bagatovimirnih ob yektiv x 1 x N displaystyle mathbf x 1 dots mathbf x N t SNE spochatku obchislyuye jmovirnosti p i j displaystyle p ij proporcijni shozhosti x i displaystyle mathbf x i i x j displaystyle mathbf x j nastupnim chinom p j i exp x i x j 2 2 s i 2 k i exp x i x k 2 2 s i 2 displaystyle p j mid i frac exp lVert mathbf x i mathbf x j rVert 2 2 sigma i 2 sum k neq i exp lVert mathbf x i mathbf x k rVert 2 2 sigma i 2 Van der Maaten ta Ginton poyasnyuyut takij vibir vidstani nastupnim chinom podibnist tochki danih x j displaystyle x j do tochki danih x i displaystyle x i ce umovna jmovirnist p j i displaystyle p j i sho x i displaystyle x i vibrav bi x j displaystyle x j yak svogo susida yakbi susidi buli obrani proporcijno yih gausovij gustini jmovirnosti z centrom v x i displaystyle x i p i j p j i p i j 2 N displaystyle p ij frac p j mid i p i mid j 2N Bilsh togo koli i j displaystyle i j jmovirnosti dorivnyuyut nulyu p i j 0 displaystyle p ij 0 Propuskna zdatnist Gausovogo yadra s i displaystyle sigma i vstanovlyuyetsya za dopomogoyu metodu bisekciyi tak sho perpleksivnist umovnogo rozpodilu dorivnyuye poperedno viznachenij perpleksivnosti U rezultati propuskna zdatnist adaptuyetsya do gustini danih menshi znachennya s i displaystyle sigma i vikoristovuyutsya u bilsh gustih chastinah danih Cherez te sho Gausove yadro vikoristovuye evklidovu vidstan x i x j displaystyle lVert x i x j rVert to u vipadku duzhe visokoyi rozmirnosti danih slid mati na uvazi efekt proklyattya rozmirnosti koli vidstani vtrachayut zdatnist do rozdilennya i p i j displaystyle p ij stayut duzhe shozhimi asimptotichno voni zbigayutsya do konstanti Dlya pom yakshennya cogo efektu zaproponovano regulyuvati vidstani stepenevim peretvorennyam spirayuchis na en kozhnoyi tochki t SNE namagayetsya diznatis d displaystyle d vimirne vidobrazhennya y 1 y N displaystyle mathbf y 1 dots mathbf y N de y i R d displaystyle mathbf y i in mathbb R d yake vidobrazhaye podibnist p i j displaystyle p ij naskilki ce mozhlivo Z ciyeyu metoyu vin vimiryuye shozhist q i j displaystyle q ij mizh dvoma tochkami vidobrazhennya y i displaystyle mathbf y i ta y j displaystyle mathbf y j za dopomogoyu analogichnogo pidhodu Zokrema q i j displaystyle q ij viznachayetsya yak q i j 1 y i y j 2 1 k l 1 y k y l 2 1 displaystyle q ij frac 1 lVert mathbf y i mathbf y j rVert 2 1 sum k neq l 1 lVert mathbf y k mathbf y l rVert 2 1 Tut vikoristovuyetsya T rozpodil Styudenta z obvazhnilim kincem z odnim stupenem svobodi yakij ye po suti rozpodilom Koshi dlya vimiryuvannya podibnostej mizh tochkami u nizkovimirnomu prostori dlya togo shob riznoridni ob yekti buli zmodelovani daleko odin vid odnogo pri vidobrazhenni Zvernit uvagu sho v danomu vipadku mi pririvnyuyemo q i i 0 displaystyle q ii 0 Koordinati tochok y i displaystyle mathbf y i pri vidobrazhenni viznachayutsya shlyahom minimizaciyi nesimetrichnoyi vidminnosti po miri Kulbaka Lejblera rozpodilu Q displaystyle Q vid rozpodilu P displaystyle P tobto K L P Q i j p i j log p i j q i j displaystyle KL P Q sum i neq j p ij log frac p ij q ij Minimizaciya rozbizhnostej Kulbaka Lejblera po tochkam y i displaystyle mathbf y i zdijsnyuyetsya za dopomogoyu gradiyentnogo spusku Rezultatom takoyi optimizaciyi ye vidobrazhennya yake dobre zberigaye podibnist mizh vhodovimi danimi visokoyi rozmirnosti Programne zabezpechennyat SNE vid Lorensa van der Maatena https lvdmaaten github io tsne 28 grudnya 2018 u Wayback Machine en mistit t SNE Div https github com elki project elki blob master elki src main java de lmu ifi dbs elki algorithm projection TSNE java nedostupne posilannya z zhovtnya 2019 Primitkivan der Maaten L J P Hinton G E Nov 2008 PDF Journal of Machine Learning Research 9 2579 2605 Arhiv originalu PDF za 9 serpnya 2017 Procitovano 27 grudnya 2018 Gashi I Stankovic V Leita C Thonnard O 2009 An Experimental Study of Diversity with Off the shelf AntiVirus Engines Proceedings of the IEEE International Symposium on Network Computing and Applications 4 11 Hamel P Eck D 2010 Learning Features from Music Audio with Deep Belief Networks Proceedings of the International Society for Music Information Retrieval Conference 339 344 Jamieson A R Giger M L Drukker K Lui H Yuan Y Bhooshan N 2010 Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t SNE Medical Physics 37 1 339 351 doi 10 1118 1 3267037 PMC 2807447 PMID 20175497 Wallach I Liliean R 2009 The Protein Small Molecule Database A Non Redundant Structural Resource for the Analysis of Protein Ligand Binding Bioinformatics 25 5 615 620 doi 10 1093 bioinformatics btp035 PMID 19153135 Birjandtalab J Pouyan M B Nourani M 1 lyutogo 2016 Nonlinear dimension reduction for EEG based epileptic seizure detection s 595 598 doi 10 1109 BHI 2016 7455968 ISBN 978 1 5090 2455 1 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Proignorovano journal dovidka Arhiv originalu za 25 veresnya 2017 Procitovano 27 grudnya 2018 K means clustering on the output of t SNE Cross Validated Procitovano 16 kvitnya 2018 Pezzotti Nicola Lelieveldt Boudewijn P F Maaten Laurens van der Hollt Thomas Eisemann Elmar Vilanova Anna 1 lipnya 2017 IEEE Transactions on Visualization and Computer Graphics amer 23 7 1739 1752 doi 10 1109 tvcg 2016 2570755 ISSN 1077 2626 PMID 28113434 Arhiv originalu za 30 listopada 2018 Procitovano 27 grudnya 2018 Wattenberg Martin Viegas Fernanda Johnson Ian 13 zhovtnya 2016 English Distill Arhiv originalu za 19 grudnya 2017 Procitovano 4 grudnya 2017 Linderman George C Steinerberger Stefan 8 chervnya 2017 Clustering with t SNE provably arXiv 1706 02582 cs LG Schubert Erich Gertz Michael 4 zhovtnya 2017 Intrinsic t Stochastic Neighbor Embedding for Visualization and Outlier Detection SISAP 2017 10th International Conference on Similarity Search and Applications s 188 203 doi 10 1007 978 3 319 68474 1 13 PosilannyaVizualizaciya danih za dopomogoyu t SNE 24 lipnya 2018 u Wayback Machine Google Tech Talk pro t SNE Realizaciya t SNE riznimi movami programuvannya 28 grudnya 2018 u Wayback Machine spisok posilan pidtrimuye Lorens van der Maaten Wattenberg Martin Viegas Fernanda Johnson Ian 13 zhovtnya 2016 Distill angl T 1 10 s e2 doi 10 23915 distill 00002 ISSN 2476 0757 Arhiv originalu za 3 sichnya 2021 Procitovano 4 sichnya 2021