Набори даних використовуються для дослідження машинного навчання, посилання на них використовуються в наукових академічних статтях. Набори даних є невід’ємною частиною галузі машинного навчання. Значні досягнення в цій галузі можуть бути результатом прогресу в алгоритмах навчання (наприклад, deep learning), комп'ютерного обладнання та, що не так очевидно, доступності високоякісних наборів навчальних даних. Високоякісні марковані навчальні набори даних для алгоритмів машинного керованого навчання і напівкероване навчання зазвичай важко та дорого створити через велику кількість часу, необхідного для позначення даних. Хоча їх не потрібно позначати, високоякісні набори даних для напівкерованого навчання також може бути складним і дорогим у створенні. Набори даних орієнтовані, здебільшого, на вирішення задач класифікації та розпізнавання і містять оцифровані зображення, відео, тексти, сигнали, звуки тощо.
Данні зображення
Ці набори даних складаються переважно із зображень або відео використовуються для таких завдань, як виявляння об'єктів, розпізнавання обличчя та [en].
Розпізнавання осіб
У комп'ютерному баченні зображення облич широко використовуються для розробки систем які розпізнають обличчя, займаються обнаруженням обляч та багатьох інших проектів.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело | |
---|---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 відео з 200 особами, ~1 250 000 анотованих вручну зображень: анотовані з точки зору афекту розмірів (валентність-збудження); обстановка в дикій природі; база кольорів; різні дозволи (середнє = 640x360) | виявлені обличчя, орієнтири обличчя та анотації валентно-збудження | Приблизно 1 250 000 зображень з анотаціями вручну | відео (візуальні + аудіомодальності) | розпізнавання афекту (оцінка валентності-збудження) | 2017 | CVPR IJCV | D.Kollias et al. | |
Aff-Wild2 | 558 відео з 458 особами, ~2 800 000 зображень, анотованих вручну: анотовані за і) категоричним афектом (7 основних виразів: нейтральний, щастя, смуток, здивування, страх, огида, гнів); ii) вимірний афект (валентність-збудження); iii) одиниці дії (AUs 1,2,4,6,12,15,20,25); обстановка в дикій природі; база кольорів; різні дозволи (середнє = 1030x630) | виявлені обличчя, виявлені та вирівняні обличчя та анотації | Приблизно 2 800 000 зображень з анотаціями вручну | відео (візуальні + аудіомодальності) | розпізнавання афекту (оцінка валентності-збудження, базова класифікація виразів, виявлення одиниць дії) | 2019 | BMVC FG | D.Kollias et al. | |
[en] | 11338 зображень 1199 осіб у різних позиціях і в різний час. | Немає. | 11,338 | Зображення | Класифікація, розпізнавання обличчя | 2003 | United States Department of Defense | ||
Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) | 7356 відео та аудіозаписів 24 професійних акторів. По 8 емоцій у двох інтенсивності. | Файли, позначені виразом. Оцінки перевірки сприйняття надані 319 оцінювачами. | 7,356 | Відео, звукові файли | Класифікація, розпізнавання обличчя, розпізнавання голосу | 2018 | S.R. Livingstone and F.A. Russo | ||
SCFace | Кольорові зображення облич під різними кутами. | Розташування виділених рис обличчя. Наведені координати об'єктів. | 4,160 | Зображення, текст | Класифікація, розпізнавання обличчя | 2011 | M. Grgic et al. | ||
Yale Face Database | Обличчя 15 осіб у 11 різних виразах. | Мітки виразів. | 165 | Зображення | Розпізнавання обличчя | 1997 | J. Yang et al. | ||
Cohn-Kanade AU-Coded Expression Database | Велика база даних зображень з мітками для виразів. | Відстеження певних рис обличчя. | 500+ послідовностей | Зображення, текст | Аналіз виразу обличчя | 2000 | T. Kanade et al. | ||
JAFFE Facial Expression Database | 213 зображень із 7 виразами обличчя (6 основних виразів обличчя + 1 нейтральний), створених 10 японськими моделями. | Зображення обрізаються до області обличчя. Включає дані семантичних оцінок на етикетках емоцій. | 213 | Зображення, текст | Розпізнавання виразу обличчя | 1998 | Lyons, Kamachi, Gyoba | ||
FaceScrub | Зображення публічних діячів, видалені з пошуку зображень. | Назва та м/ж анотація. | 107,818 | Зображення, текст | Розпізнавання обличчя | 2014 | H. Ng et al. | ||
BioID Face Database | Зображення облич із позначеними положеннями очей. | Встановіть положення очей вручну. | 1521 | Зображення, текст | Розпізнавання обличчя | 2001 | BioID | ||
Skin Segmentation Dataset | Довільно відібрані значення кольорів із зображень облич. | B, G, R, значення витягнуті. | 245,057 | Текст | Сегментація, класифікація | 2012 | R. Bhatt. | ||
Bosphorus | База даних 3D зображень обличчя. | 34 одиниці дії та 6 виразів, позначених; Позначено 24 орієнтири на обличчі. | 4652 | Зображення, текст | Розпізнавання облич, класифікація | 2008 | A Savran et al. | ||
UOY 3D-Face | нейтральне обличчя, 5 виразів: гнів, щастя, смуток, очі закриті, брови підняті. | маркування. | 5250 | Зображення, текст | Розпізнавання облич, класифікація | 2004 | [en] | ||
CASIA | Вирази: гнів, посмішка, сміх, здивування, закриті очі. | Немає. | 4624 | Зображення, текст | Розпізнавання облич, класифікація | 2007 | [en] | ||
CASIA | Вирази: Злість, Відраза, Страх, Щастя, Смуток, Подив. | Немає. | 480 | Відео з анотованим видимим спектром і ближнім інфрачервоним випромінюванням знімає зі швидкістю 25 кадрів в секунду | Розпізнавання облич, класифікація | 2011 | Zhao, G. et al. | ||
BU-3DFE | нейтральне обличчя і 6 виразів: гнів, щастя, смуток, здивування, огида, страх (4 рівні). Вилучено 3D-зображення. | Немає. | 2500 | Зображення, текст | Розпізнавання виразу обличчя, класифікація | 2006 | Binghamton University | ||
[en] Dataset | До 22 зразків для кожного предмета. Вирази: гнів, щастя, смуток, здивування, огида, роздутий. 3D дані. | Немає. | 4007 | Зображення, текст | Розпізнавання облич, класифікація | 2004 | National Institute of Standards and Technology | ||
Gavabdb | До 61 зразка для кожного предмета. Вирази обличчя нейтральні, посмішка, фронтальний акцентований сміх, фронтальний довільний жест. 3D зображення. | Немає. | 549 | Зображення, текст | Розпізнавання облич, класифікація | 2008 | [en] | ||
3D-RMA | До 100 предметів, вирази переважно нейтральні. Також кілька поз. | Немає. | 9971 | Зображення, текст | Розпізнавання облич, класифікація | 2004 | Royal Military Academy (Belgium) | ||
SoF | 112 осіб (66 чоловіків і 46 жінок) носять окуляри за різних умов освітлення. | Набір синтетичних фільтрів (розмиття, оклюзії, шуми та постеризація) різного рівня складності. | 42 592 (2 662 оригінальне зображення × 16 синтетичних зображень) | Зображення, файл Mat | Класифікація за статтю, розпізнавання облич, розпізнавання обличчя, оцінка віку та виявлення окулярів | 2017 | Afifi, M. et al. | ||
IMDB-WIKI | IMDB і Вікіпедія зображення обличчя з мітками статі та віку. | Немає | 523,051 | Зображення | Гендерна класифікація, розпізнавання обличчя, розпізнавання обличчя, оцінка віку | 2015 | R. Rothe, R. Timofte, L. V. Gool |
Розпізнавання дій
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
TV Human Interaction Dataset | Відео з 20 різних телевізійних шоу для прогнозування соціальних дій: рукостискання, п'ять, обійми, поцілунок. | Немає. | 6,766 відеокліпів | відеокліп | Прогноз дії | 2013 | Patron-Perez, A. et al. | |
Berkeley Multimodal Human Action Database (MHAD) | Записи однієї особи, яка виконує 12 дій | Попередня обробка MoCap | 660 зразків дій | 8 Phase Space Motion Capture, 2 стереокамери, 4 чотирикамери, 6 акселерометрів, 4 мікрофони | Класифікація дій | 2013 | Ofli, F. et al. | |
THUMOS Dataset | Великий набір відео даних для класифікації дій | Дії класифіковані та позначені. | 45 млн кадрів відео | Відео, зображення, текст | Класифікація, виявлення дії | 2013 | Y. Jiang et al. | |
MEXAction2 | Набір відеоданих для локалізації дії та виявлення | Дії класифіковані та позначені. | 1000 | Відео | Виявлення дії | 2014 | Stoian et al. |
Виявлення та розпізнавання об'єктів
Назва | Опис | Обробка | Розмыр | Формат | Задачи | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Visual Genome | Зображення та їх опис | 108,000 | Зображення, текст | Підписи до зображень | 2016 | R. Krishna et al. | ||
Berkeley 3-D Object Dataset | 849 зображень, зроблених у 75 різних сценах. Позначено близько 50 різних класів об'єктів. | Обмежувальні рамки та маркування об'єктів. | 849 | Марковані зображення, текст | Розпізнавання об'єктів | 2014 | A. Janoch et al. | |
Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500) | 500 природних зображень, чітко розділених на розрізнені потяги, підмножини перевірки та тестування + код порівняльного аналізу. На основі BSDS300. | Кожне зображення сегментовано в середньому за п'ятьма різними предметами. | 500 | Сегментовані зображення | Виявлення контурів та ієрархічна сегментація зображення | 2011 | University of California, Berkeley | |
Microsoft Common Objects in Context (COCO) | складні побутові сцени звичайних предметів у їх природному контексті. | Виділення, маркування та класифікація об'єктів на 91 тип об'єкта. | 2,500,000 | Марковані зображення, текст | Розпізнавання об'єктів | 2015 | T. Lin et al. | |
SUN Database | Дуже велика база даних розпізнавання сцен і об'єктів. | Місця та предмети позначаються. Об'єкти сегментовані. | 131,067 | Зображення, текст | Розпізнавання об'єктів, розпізнавання сцени | 2014 | J. Xiao et al. | |
[en] | Labeled object image database, used in the [en] | Позначені об'єкти, обмежувальні рамки, описові слова, функції SIFT | 14,197,122 | Зображення, текст | Розпізнавання об'єктів, розпізнавання сцени | 2009 (2014) | J. Deng et al. | |
Open Images | Великий набір зображень із ліцензією CC BY 2.0 з мітками на рівні зображення та обмежуючими рамками, що охоплюють тисячі класів. | Мітки на рівні зображення, обмежувальні рамки | 9,178,275 | Зображення, текст | Класифікація, розпізнавання об'єктів | 2017 | ||
TV News Channel Commercial Detection Dataset | Телевізійна реклама та випуск новин. | Функції аудіо та відео, отримані з фотографій. | 129,685 | Текст | Кластеризація, класифікація | 2015 | P. Guha et al. | |
Statlog (Image Segmentation) Dataset | Примірники були відібрані випадковим чином з бази даних із 7 зовнішніх зображень і сегментовані вручну, щоб створити класифікацію для кожного пікселя. | Розраховано багато функцій. | 2310 | Текст | Класифікація | 1990 | [en] | |
[en] | Зображення предметів. | Позначено детальні контури об'єкта. | 9146 | Зображення | Класифікація, розпізнавання об'єктів. | 2003 | F. Li et al. | |
Caltech-256 | Великий набір зображень для класифікації об'єктів. | Зображення розбиті на категорії та відсортовані вручну. | 30,607 | Зображення, текст | Класифікація, виявлення об'єктів | 2007 | G. Griffin et al. | |
SIFT10M Dataset | Функції SIFT набору даних Caltech-256. | Розширене вилучення функцій SIFT.. | 11,164,866 | Текст | Класифікація, виявлення об'єктів | 2016 | X. Fu et al. | |
LabelMe | Коментовані зображення сцен. | Окреслені об'єкти. | 187,240 | Зображення, текст | Класифікація, виявлення об'єктів | 2005 | MIT Computer Science and Artificial Intelligence Laboratory | |
Cityscapes Dataset | Стерео-відеосекції, записані у вуличних сценах, з анотаціями на рівні пікселів. Метадані також включені. | Сегментація та маркування на рівні пікселів | 25,000 | Зображення, текст | Класифікація, виявлення об'єктів | 2016 | Daimler AG et al. | |
PASCAL VOC Dataset | Велика кількість зображень для завдань класифікації. | Маркування, обмежувальна рамка в комплекті | 500,000 | Зображення, текст | Класифікація, виявлення об'єктів | 2010 | M. Everingham et al. | |
[en] Dataset | Багато маленьких зображень з низькою роздільною здатністю 10 класів об'єктів. | Класи позначені, створені розділи навчальних наборів. | 60,000 | Зображення | Класифікація | 2009 | A. Krizhevsky et al. | |
CIFAR-100 Dataset | Як і CIFAR-10, вище, але надано 100 класів об'єктів. | Класи позначені, створені розділи навчальних наборів. | 60,000 | Зображення | Класифікація | 2009 | A. Krizhevsky et al. | |
CINIC-10 Dataset | Єдиний внесок CIFAR-10 і Imagenet з 10 класами і 3 розділами. Більше за CIFAR-10. | Класи позначені, навчання, перевірка, створені розділи тестових наборів. | 270,000 | Зображення | Класифікація | 2018 | Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey | |
Fashion-MNIST | База даних модних товарів, схожа на MNIST | Класи позначені, створені розділи навчальних наборів. | 60,000 | Зображення | Класифікація | 2017 | Zalando SE | |
notMNIST | Деякі загальнодоступні шрифти та витягнуті з них гліфи, щоб зробити набір даних подібним до MNIST. Існує 10 класів, з літерами A-J, взятими з різних шрифтів. Deyaki zahalʹnodostupni | Класи позначені, створені розділи навчальних наборів. | 500,000 | Зображення | Класифікація | 2011 | Yaroslav Bulatov | |
German Traffic Sign Detection Benchmark Dataset | Зображення з транспортних засобів дорожніх знаків на німецьких дорогах. Ці знаки відповідають стандартам ООН і тому такі ж, як і в інших країнах. | Знаки з маркуванням вручну | 900 | Зображення | Класифікація | 2013 | S Houben et al. | |
KITTI Vision Benchmark Dataset | Автономні транспортні засоби, що рухалися містом середнього розміру, фіксували зображення різних районів за допомогою камер і лазерних сканерів. | Багато тестів, отриманих з даних. | >100 GB of data | Зображення, текст | Класифікація, виявлення об'єктів | 2012 | A Geiger et al. | |
Linnaeus 5 dataset | Зображення 5 класів предметів. | Класи позначені, створені розділи навчальних наборів. | 8000 | Зображення | Класифікація | 2017 | Chaladze & Kalatozishvili | |
FieldSAFE | Мультимодальний набір даних для виявлення перешкод у сільському господарстві, включаючи стереокамеру, тепловізійну камеру, веб-камеру, 360-градусну камеру, лідар, радар і точну локалізацію. | Класи, позначені географічно. | >400 GB of data | Зображення та тривимірні хмари точок | Класифікація, виявлення об'єктів, локалізація об'єктів | 2017 | M. Kragh et al. | |
11K Hands | 11 076 зображень рук (1600 x 1200 пікселів) 190 суб'єктів різного віку від 18 до 75 років для розпізнавання статі та біометричної ідентифікації. | Немає | 11,076 hand images | Зображення та файли етикеток (.mat, .txt і .csv). | Розпізнавання статі та біометрична ідентифікація | 2017 | M Afifi | |
CORe50 | Спеціально розроблена для безперервного/довічного навчання та розпізнавання об'єктів, це колекція з понад 500 відео (30 кадрів в секунду) із 50 домашніми об'єктами, які належать до 10 різних категорій. | Позначені класи, розділи навчальних наборів створені на основі 3-х шляхового тесту для кількох запусків. | 164,866 RBG-D images | зображення (.png або .pkl) та файли етикеток (.pkl, .txt, .tsv). | Класифікація, розпізнавання об'єктів | 2017 | V. Lomonaco and D. Maltoni | |
OpenLORIS-Object | Набір даних Lifelong/Continual Robotic Vision (OpenLORIS-Object), зібраний реальними роботами, встановленими з кількома датчиками високої роздільної здатності, включає колекцію з 121 екземпляра об'єктів (1-а версія набору даних, 40 категорій предметів повсякденної потреби в 20 сценах). У наборі даних ретельно враховано 4 фактори середовища для різних сцен, включаючи освітлення, оклюзію, розмір у пікселях об'єкта та безлад, і чітко визначає рівні складності кожного фактора. | Позначені класи, розділи набору для навчання/перевірки/тестування, створених за допомогою сценаріїв тесту. | 1 106 424 зображення RBG-D | зображення (.png і .pkl) та файли етикеток (.pkl). | Класифікація, розпізнавання об'єктів протягом усього життя, робототехнічне бачення | 2019 | Q. She et al. | |
THz and thermal video data set | Цей мультиспектральний набір даних включає терагерцові, теплові, візуальні, ближні інфрачервоні та тривимірні відео об'єктів, прихованих під одягом людей. | Надаються таблиці 3D пошуку, які дозволяють проектувати зображення на тривимірні хмари точок. | More than 20 videos. The duration of each video is about 85 seconds (about 345 frames). | AP2J | Експерименти з виявленням прихованих об'єктів | 2019 | Alexei A. Morozov and Olga S. Sushkova |
Почерк і розпізнавання символів
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Artificial Characters Dataset | Штучно згенеровані дані, що описують структуру 10 великих англійських літер. | Координати намальованих ліній задані як цілі числа. Різні інші особливості. | 6000 | Текст | Розпізнавання рукописного тексту, класифікація | 1992 | H. Guvenir et al. | |
Letter Dataset | Верхні друковані літери. | З усіх зображень витягується 17 функцій. | 20,000 | Текст | OCR, класифікація | 1991 | D. Slate et al. | |
CASIA-HWDB | База даних рукописних китайських символів офлайн. 3755 класів у наборі символів [en]. | Зображення в сірому кольорі з фоновими пікселями, позначені як 255. | 1,172,907 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2009 | CASIA | |
CASIA-OLHWDB | База даних рукописних китайських ієрогліфів онлайн, зібрана за допомогою ручки Anoto на папері. 3755 класів у наборі символів [en]. | Надає послідовності координат штрихів. | 1,174,364 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2009 | CASIA | |
Character Trajectories Dataset | Марковані зразки траєкторій кінчика пера для людей, які пишуть прості символи. | 3-dimensional pen tip velocity trajectory matrix for each sample | 2858 | Текст | Розпізнавання рукописного тексту, класифікація | 2008 | B. Williams | |
Chars74K Dataset | Розпізнавання символів у природних зображеннях символів, які використовуються як англійською, так і каннадською | Тривимірна матриця траєкторій швидкості кінчика пера для кожного зразка | 74,107 | Розпізнавання символів, розпізнавання рукописного тексту, OCR, класифікація | 2009 | T. de Campos | ||
EMNIST dataset | Рукописні символи від 3600 авторів | Похідне від спеціальної бази даних NIST 19. Перетворено на зображення розміром 28x28 пікселів, що відповідають набору даних MNIST. | 800,000 | Зображення | розпізнавання символів, класифікація, розпізнавання почерку | 2016 | EMNIST dataset Documentation | Gregory Cohen, et al |
UJI Pen Characters Dataset | Ізольовані рукописні символи | Дано координати положення пера як символи. | 11,640 | Текст | Розпізнавання рукописного тексту, класифікація | 2009 | F. Prat et al. | |
Gisette Dataset | Зразки почерку з 4 і 9 символів, які часто плутають. | Функції, витягнуті з зображень, розділені на train/test, розмір зображень рукописного введення нормалізовано. | 13,500 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2003 | Yann LeCun et al. | |
Omniglot dataset | 1623 різних рукописних символи з 50 різних алфавітів. | Марковані вручну. | 38,300 | Зображення, текст | Класифікація, одноразове навчання | 2015 | American Association for the Advancement of Science | |
MNIST database | База даних рукописних цифр. | Марковані вручну. | 60,000 | Зображення, текст | Класифікація | 1998 | National Institute of Standards and Technology | |
Optical Recognition of Handwritten Digits Dataset | Нормовані растрові зображення рукописних даних. | Розмір нормалізовано та зіставлено на растрові зображення. | 5620 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 1998 | E. Alpaydin et al. | |
Pen-Based Recognition of Handwritten Digits Dataset | Рукописні цифри на електронній ручці-планшеті. | Витягуються вектори ознак для рівномірного розміщення. | 10,992 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 1998 | E. Alpaydin et al. | |
Semeion Handwritten Digit Dataset | Рукописні цифри від 80 осіб. | Усі рукописні цифри нормалізовано за розміром і відображено в одній сітці. | 1593 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2008 | T. Srl | |
HASYv2 | Рукописні математичні символи | Усі символи відцентровані та мають розмір 32px x 32px. | 168233 | Зображення, текст | Класифікація | 2017 | Martin Thoma | |
Noisy Handwritten Bangla Dataset | Включає набір даних рукописних цифр (10 класів) і базовий набір даних символів (50 класів), кожен набір даних має три типи шуму: білий гаусів, розмиття в русі та знижену контрастність. | Усі зображення відцентровані та мають розмір 32x32. | Numeral Dataset: 23330, Character Dataset: 76000 | Зображення, текст | Розпізнавання рукописного тексту, класифікація | 2017 | M. Karki et al. |
Аерофотознімки
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
iSAID: Instance Segmentation in Aerial Images Dataset | Точна анотація на рівні екземпляра, виконана професійними анотаторами, перевірена та підтверджена експертними анотаторами, які відповідають чітко визначеним інструкціям. | 655,451 (15 classes) | Зображення, jpg, json | Повітряна класифікація, виявлення об'єктів, сегментація екземплярів | 2019 | Syed Waqas Zamir, Aditya Arora, Akshita Gupta, Salman Khan, Guolei Sun, Fahad Shahbaz Khan, Fan Zhu, Ling Shao, Gui-Song Xia, Xiang Bai | ||
Aerial Image Segmentation Dataset | 80 аерофотознімків високої роздільної здатності з просторовою роздільною здатністю від 0,3 до 1,0. | Зображення сегментовані вручну. | 80 | Зображення | Повітряна класифікація, виявлення об'єктів | 2013 | J. Yuan et al. | |
KIT AIS Data Set | Кілька позначених наборів навчальних та оцінювальних даних аерофотознімків натовпу. | Зображення, позначені вручну, щоб показувати шляхи людей через натовп | ~ 150 | Зображення з доріжками | Відстеження людей, повітряне спостереження | 2012 | M. Butenuth et al. | |
Wilt Dataset | Дані дистанційного зондування хворих дерев та іншого ґрунтового покриву. | Вилучено різні функції. | 4899 | Зображення | Класифікація, виявлення повітряних об'єктів | 2014 | B. Johnson | |
MASATI dataset | Морські сцени оптичних аерофотознімків із видимого спектру. Він містить кольорові зображення в динамічних морських середовищах, кожне зображення може містити одну або кілька цілей за різних погодних умов і умов освітлення. | Обмежувальні рамки та маркування об'єктів. | 7389 | Зображення | Класифікація, виявлення повітряних об'єктів | 2018 | A.-J. Gallego et al. | |
Forest Type Mapping Dataset | Супутникові зображення лісів Японії. | Вилучено діапазони довжин хвилі зображення. | 326 | Текст | Класифікація | 2015 | B. Johnson | |
[en] | Коментовані зображення накладних. Зображення з кількома об'єктами. | Понад 30 анотацій і понад 60 статистичних даних, які описують ціль у контексті зображення. | 1000 | Зображення, текст | Класифікація | 2009 | F. Tanner et al. | |
SpaceNet | SpaceNet — це сукупність комерційних супутникових зображень і позначених навчальних даних. | Файли GeoTiff і GeoJSON, що містять сліди будівлі. | >17533 | Зображення | Класифікація, ідентифікація об'єкта | 2017 | [en] | |
UC Merced Land Use Dataset | Ці зображення були вручну витягнуті з великих зображень із колекції зображень міських районів Національної карти USGS для різних міських районів США. | Це 21-класний набір зображень землекористування, призначений для дослідницьких цілей. Для кожного класу є 100 зображень. | 2,100 | Зображення фішки розміром 256x256, 30 см (1 фут) GSD | Класифікація земельного покриву | 2010 | Yi Yang and Shawn Newsam | |
SAT-4 Airborne Dataset | Зображення було витягнуто з набору даних Національної програми зображення сільського господарства (NAIP). | SAT-4 має чотири широкі класи ґрунтового покриву, включає безплідні землі, дерева, пасовища та клас, який складається з усіх класів ґрунтового покриву, крім трьох вищезазначених. | 500,000 | Зображення | Класифікація | 2015 | S. Basu et al. | |
SAT-6 Airborne Dataset | Зображення було витягнуто з набору даних Національної програми зображення сільського господарства (NAIP). | SAT-6 має шість широких класів ґрунтового покриву, включає безплідні землі, дерева, пасовища, дороги, будівлі та водойми. | 405,000 | Зображення | Класифікація | 2015 | S. Basu et al. |
Інші зображення
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
NRC-GAMMA | Новий еталонний набір зображень газового лічильника | Жодного | 28,883 | Зображення, етикетка | Класифікація | 2021 | A. Ebadi, P. Paul, S. Auer, & S. Tremblay | |
The SUPATLANTIQUE dataset | Зображення відсканованих офіційних документів та документів Вікіпедії | Жодного | 4908 | TIFF/pdf | Ідентифікація вихідного пристрою, виявлення підробок, класифікація,… | 2020 | C. Ben Rabah et al. | |
Density functional theory quantum simulations of graphene | Позначені зображення вихідних даних для моделювання графену | Необроблені дані (у форматі HDF5) і вихідні мітки з квантового моделювання теорії функціональної щільності | 60744 тестових і 501473 навчальних файлів | Марковані зображення | Регресія | 2019 | K. Mills & I. Tamblyn | |
Quantum simulations of an electron in a two dimensional potential well | Позначені зображення вихідних даних для моделювання 2d квантової механіки | Необроблені дані (у форматі HDF5) та вихідні мітки з квантового моделювання | 1,3 мільйона зображень | Марковані зображення | Регресія | 2017 | K. Mills, M.A. Spanner, & I. Tamblyn | |
MPII Cooking Activities Dataset | Відео та зображення різних кулінарних заходів. | Шляхи та напрямки діяльності, мітки, дрібнозернисте позначення руху, клас активності, вилучення та маркування нерухомих зображень. | 881,755 frames | Марковані відео, зображення, текст | Класифікація | 2012 | M. Rohrbach et al. | |
FAMOS Dataset | 5000 унікальних мікроструктур, всі зразки були отримані 3 рази за допомогою двох різних камер. | Оригінальні файли PNG, відсортовані за камерою, а потім за придбанням. Файли даних MATLAB з однією матрицею 16384 разів 5000 на камеру на одержання. | 30,000 | Файли зображень і .mat | Аутентифікація | 2012 | S. Voloshynovskiy, et al. | |
PharmaPack Dataset | 1000 унікальних класів з 54 зображеннями в класі. | Маркування класів, багато локальних дескрипторів, таких як SIFT і aKaZE, і локальні агреатори функцій, як-от Fisher Vector (FV). | 54,000 | Файли зображень і .mat | Дрібнозерниста класифікація | 2017 | O. Taran and S. Rezaeifar, et al. | |
Stanford Dogs Dataset | Зображення 120 порід собак з усього світу. | Надаються розділи для навчання/тесту та анотації ImageNet. | 20,580 | Зображення, текст | Дрібнозерниста класифікація | 2011 | A. Khosla et al. | |
StanfordExtra Dataset | 2D ключові точки та сегментації для набору даних Stanford Dogs. | Надано 2D ключові точки та сегментації. | 12,035 | Марковані зображення | 3D реконструкція/оцінка пози | 2020 | B. Biggs et al. | |
The Oxford-IIIT Pet Dataset | 37 категорій домашніх тварин із приблизно 200 зображеннями кожної. | Мітка породи, щільна рамка, сегментація переднього плану та фону. | ~ 7,400 | Зображення, текст | Класифікація, виявлення об'єктів | 2012 | O. Parkhi et al. | |
Corel Image Features Data Set | База даних зображень з витягнутими функціями. | Багато функцій, включаючи гістограму кольорів, текстуру спільного появи та колірні моменти, | 68,040 | Текст | Класифікація, виявлення об'єктів | 1999 | M. Ortega-Bindenberger et al. | |
Online Video Characteristics and Transcoding Time Dataset. | Час перекодування для різних відео та властивостей відео. | Надано функції відео. | 168,286 | Текст | Регресія | 2015 | T. Deneke et al. | |
Microsoft Sequential Image Narrative Dataset (SIND) | Набір даних для послідовного перегляду мови | Описові підписи та розповідь наведено для кожної фотографії, а фотографії розташовані в послідовності | 81,743 | Зображення, текст | Візуальне оповідання | 2016 | Microsoft Research | |
Caltech-UCSD Birds-200-2011 Dataset | Великий набір зображень птахів. | Розташування частин для птахів, рамки, 312 бінарних атрибутів | 11,788 | Зображення, текст | Класифікація | 2011 | C. Wah et al. | |
YouTube-8M | Великий і різноманітний набір відеоданих із мітками | Ідентифікатори відео YouTube і пов'язані мітки з різноманітного словника з 4800 візуальних об'єктів | 8 million | Відео, текст | Класифікація відео | 2016 | S. Abu-El-Haija et al. | |
YFCC100M | Великий і різноманітний набір даних зображень і відео з мітками | Розташування частин для птахів, обмежувальні рамки, 312 бінарних атрибутів, надані Flickr Videos and Images та пов'язані описи, назви, теги та інші метадані (наприклад, EXIF та геотеги) | 100 million | Відео, зображення, текст | Класифікація відео та зображень | 2016 | B. Thomee et al. | |
Discrete LIRIS-ACCEDE | Короткі відео з анотаціями для валентності та збудження. | Етикетки валентності та збудження. | 9800 | Відео | Відео виявлення емоцій | 2015 | Y. Baveye et al. | |
Continuous LIRIS-ACCEDE | Довгі відео з анотаціями для валентності та збудження, а також зібрані гальванічні реакції шкіри. | Етикетки валентності та збудження. | 30 | Відео | Відео виявлення емоцій | 2015 | Y. Baveye et al. | |
MediaEval LIRIS-ACCEDE | Розширення Discrete LIRIS-ACCEDE, включаючи анотації для рівнів насильства у фільмах. | Мітки насильства, валентності та збудження. | 10900 | Відео | Відео виявлення емоцій | 2015 | Y. Baveye et al. | |
Leeds Sports Pose | Артикуловані анотації людської пози на 2000 природних спортивних зображеннях із Flickr. | Грубий урожай навколо однієї особи, яка цікавить, з 14 спільними етикетками | 2000 | Зображення плюс мітки файлів .mat | Оцінка пози людини | 2010 | S. Johnson and M. Everingham | |
Leeds Sports Pose Extended Training | Чітко сформульовані анотації людської пози на 10 000 природних спортивних зображень із Flickr. | 14 спільних етикеток через краудсорсинг | 10000 | Зображення плюс мітки файлів .mat | Оцінка пози людини | 2011 | S. Johnson and M. Everingham | |
MCQ Dataset | 6 різних реальних іспитів із множинним вибором (735 бланків відповідей і 33 540 блоків відповідей) для оцінки методів і систем комп'ютерного зору, розроблених для систем оцінювання тестів із множинним вибором. | Жодного | 735 бланків відповідей та 33 540 скриньок для відповідей | Мітки файлів зображень і .mat | Розробка систем оцінювання тестів із множинним вибором | 2017 | Afifi, M. et al. | |
Surveillance Videos | Справжні відеоспостереження охоплюють великий час спостереження (7 днів по 24 години кожне). | Жодного | 19 surveillance videos (7 days with 24 hours each). | Відео | Стиснення даних | 2016 | Taj-Eddin, I. A. T. F. et al. | |
LILA BC | Маркована інформаційна бібліотека Олександрії: біологія та охорона. Позначені зображення, які підтримують дослідження машинного навчання в галузі екології та екології. | Жодного | ~10M images | Зображення | Класифікація | 2019 | LILA working group | |
Can We See Photosynthesis? | 32 відео для восьми живих і восьми мертвих листків, записаних в умовах освітлення постійного та змінного струму. | Жодного | 32 відео | Відео | Виявлення живості рослин | 2017 | Taj-Eddin, I. A. T. F. et al. | |
Mathematical Mathematics Memes | Колекція з 10 000 мемів з математики. | Жодного | ~10,000 | Зображення | Візуальне оповідання, виявлення об'єктів. | 2021 | Mathematical Mathematics Memes |
Текстові дані
Ці набори даних складаються переважно з тексту для таких завдань, як обробка мови, аналіз настроїв, переклад і кластерний аналіз.
Відгуки
Назва | Опис | Оброботка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Amazon reviews | Огляди американських продуктів від Amazon.com. | Жодного | 233.1 million | Текст | Класифікація, аналіз настроїв | 2015 (2018) | McAuley et al. | |
OpinRank Review Dataset | Огляди автомобілів і готелів від Edmunds.com і TripAdvisor відповідно. | Жодного | 42,230 / ~259,000 respectively | Текст | Аналіз настроїв, кластеризація | 2011 | K. Ganesan et al. | |
MovieLens | 22 000 000 оцінок і 580 000 тегів застосовано до 33 000 фільмів 240 000 користувачів. | Жодного | ~ 22M | Текст | Регресія, кластеризація, класифікація | 2016 | [en] | |
Yahoo! Music User Ratings of Musical Artists | Понад 10 мільйонів рейтингів виконавців від користувачів Yahoo. | Жодного не описано. | ~ 10M | Текст | Класифікація, регресія | 2004 | Yahoo! | |
Car Evaluation Data Set | Властивості автомобіля та їх загальна прийнятність. | Наведено шість категоріальних ознак. | 1728 | Текст | Класифікація | 1997 | M. Bohanec | |
YouTube Comedy Slam Preference Dataset | Дані про голосування користувачів для пар відео, які відображаються на YouTube. Користувачі голосували за смішніші відео. | Надано метадані відео. | 1,138,562 | Текст | Класифікація | 2012 | ||
Skytrax User Reviews Dataset | Відгуки користувачів про авіакомпанії, аеропорти, місця та салони від Skytrax. | Оцінки є дрібними і включають багато аспектів досвіду в аеропорту. | 41396 | Текст | Класифікація, регресія | 2015 | Q. Nguyen | |
Teaching Assistant Evaluation Dataset | Огляди помічника вчителя. | Наведено особливості кожного екземпляра, такі як клас, розмір класу та викладач. | 151 | Текст | Класифікація | 1997 | W. Loh et al. | |
Vietnamese Students’ Feedback Corpus (UIT-VSFC) | Відгуки студентів. | Коментарі | 16,000 | Текст | Класифікація | 1997 | Nguyen et al. | |
Vietnamese Social Media Emotion Corpus (UIT-VSMEC) | Коментарі користувачів у Facebook. | Коментарі | 6,927 | Текст | Класифікація | 1997 | Nguyen et al. | |
Vietnamese Open-domain Complaint Detection dataset (ViOCD) | Коментарі користувачів у Facebook. | Коментарі | 5,485 | Текст | Класифікація | 2021 | Nguyen et al. |
Новини
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
NYSK Dataset | Англійські новини про справу щодо звинувачень у сексуальному насильстві проти колишнього директора МВФ Домініка Стросс-Кана. | Відфільтровано та представлено у форматі XML. | 10,421 | XML, текст | Аналіз настроїв, виділення теми | 2013 | Dermouche, M. et al. | |
The Reuters Corpus Volume 1 | Великий корпус новин Reuters англійською мовою. | Дрібнозерниста категоризація та коди тем. | 810,000 | Текст | Класифікація, кластеризація, узагальнення | 2002 | Reuters | |
The Reuters Corpus Volume 2 | Великий корпус новин Reuters кількома мовами. | Дрібнозерниста категоризація та коди тем. | 487,000 | Текст | Класифікація, кластеризація, узагальнення | 2005 | Reuters | |
Thomson Reuters Text Research Collection | Великий корпус новин. | Деталі не описані. | 1,800,370 | Текст | Класифікація, кластеризація, узагальнення | 2009 | T. Rose et al. | |
Saudi Newspapers Corpus | 31 030 арабських газетних статей. | Вилучено метадані. | 31,030 | JSON | Підведення підсумків, кластеризація | 2015 | M. Alhagri | |
RE3D (Relationship and Entity Extraction Evaluation Dataset) | Entity and Relation позначені дані з різних новин та державних джерел. За підтримки Dstl | Відфільтровано, категоризація за допомогою типів Baleen | невідомо | JSON | Класифікація, сутність і розпізнавання відносин | 2017 | Dstl | |
[en] Spam Clickbait Catalogue | Приманки кліків, спам, заголовки з краудсорсингу з 2010 по 2015 рік | Опублікувати дату та заголовки | 3,089,781 | CSV | Кластеризація, події, настрої | 2016 | R. Kulkarni | |
ABC Australia News Corpus | Весь корпус новин ABC Australia з 2003 по 2019 рік | Опублікувати дату та заголовки | 1,186,018 | CSV | Кластеризація, події, настрої | 2020 | R. Kulkarni | |
Worldwide News – Aggregate of 20K [en] | Тижневий знімок усіх онлайн-заголовків понад 20 мовами | Час публікації, URL-адреса та заголовки | 1,398,431 | CSV | Кластеризація, події, визначення мови | 2018 | R. Kulkarni | |
Reuters News Wire Headline | 11 років подій із мітками часу, опублікованих у новинах | Час публікації, текст заголовка | 16,121,310 | CSV | НЛП, Комп'ютерна лінгвістика, Події | 2018 | R. Kulkarni | |
Ireland News Corpus | Новини 24 років Ірландії з 1996 по 2019 рік | Час публікації, категорія заголовка та текст | 1,484,340 | CSV | НЛП, Комп'ютерна лінгвістика, Події | 2020 | R. Kulkarni | |
News Headlines Dataset for Sarcasm Detection | Високоякісний набір даних із саркастичними та несаркастичними заголовками новин. | Чистий, нормований текст | 26,709 | JSON | НЛП, Комп'ютерна лінгвістика | 2018 | Rishabh Misra |
Повідомлення
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Enron Email Dataset | Електронні листи від співробітників Enron розбиті в папки. | Вкладення видалено, недійсні адреси електронної пошти перетворені на user@enron.com або no_address@enron.com | ~ 500,000 | Текст | Аналіз мережі, аналіз настроїв | 2004 (2015) | Klimt, B. and Y. Yang | |
Ling-Spam Dataset | Корпус, що містить як легітимні листи, так і спам. | Чотири версії корпусу щодо того, чи був увімкнений лемматизатор чи стоп-лист. | 2,412 Ham 481 Spam | Текст | Класифікація | 2000 | Androutsopoulos, J. et al. | |
SMS Spam Collection Dataset | Зібрані SMS-повідомлення зі спамом. | Немає | 5,574 | Текст | Класифікація | 2011 | T. Almeida et al. | |
Messages from 20 different newsgroups. | Повідомлення з 20 різних груп новин. | Немає | 20,000 | Текст | Обробка природної мови | 1999 | T. Mitchell et al. | |
Spambase Dataset | Спам електронних листів. | Вилучено багато текстових функцій. | 4,601 | Текст | Виявлення спаму, класифікація | 1999 | M. Hopkins et al. |
Твіттер і твіти
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
MovieTweetings | Набір даних рейтингу фільмів на основі загальнодоступних і добре структурованих твітів | ~710,000 | Текст | Класифікація, регресія | 2018 | S. Dooms | ||
Twitter100k | Пари зображень і твітів | 100,000 | Текст і зображення | Міжмедійний пошук | 2017 | Y. Hu, et al. | ||
Sentiment140 | Дані твітів за 2009 рік, включаючи оригінальний текст, мітку часу, користувача та настрої. | Класифіковано за допомогою дистанційного спостереження від наявності смайлика в твіті. | 1,578,627 | Твіти, коми, розділені значення | аналіз настроїв | 2009 | A. Go et al. | |
ASU Twitter Dataset | Дані мережі Twitter, а не фактичні твіти. Показує зв’язки між великою кількістю користувачів. | Немає | 11 316 811 користувачів, 85 331 846 підключень | Текст | Кластеризація, аналіз графів | 2009 | R. Zafarani et al. | |
SNAP Social Circles: Twitter Database | Великі дані мережі Twitter. | Характеристики вузлів, кола та мережі его. | 1,768,149 | Текст | Кластеризація, аналіз графів | 2012 | J. McAuley et al. | |
Twitter Dataset for Arabic Sentiment Analysis | Арабські твіти. | Зразки, позначені вручну як позитивні чи негативні. | 2000 | Текст | Класифікація | 2014 | N. Abdulla | |
Buzz in Social Media Dataset | Дані з Twitter і Tom's Hardware. Цей набір даних зосереджено на конкретних актуальних темах, які обговорюються на цих сайтах. | Дані відображаються у вікні, щоб користувач міг спробувати передбачити події, які призвели до шуму в соціальних мережах. | 140,000 | Текст | Регресія, класифікація | 2013 | F. Kawala et al. | |
Paraphrase and Semantic Similarity in Twitter (PIT) | Цей набір даних зосереджується на тому, чи мають твіти (майже) однакове значення/інформацію чи ні. Маркування вручну. | токенізацію, тегування частин мови та іменованих об’єктів | 18,762 | Текст | Регресія, класифікація | 2015 | Xu et al. | |
Geoparse Twitter benchmark dataset | Цей набір даних містить твіти під час різних новинних подій у різних країнах. Згадки про місцеположення, позначені вручну. | до метаданих JSON додано анотації про місцезнаходження | 6,386 | Tweets, JSON | Класифікація, вилучення інформації | 2014 | S.E. Middleton et al. | |
Dutch Social media collection | Цей набір даних містить твіти про COVID-19, зроблені нідерландськими носіями або користувачами з Нідерландів. Дані були позначені машиною | класифіковано за настрої, текст твітів і опис користувача, перекладений англійською. Вилучаються згадки про галузь | 271,342 | JSONL | Настрої, класифікація з кількома мітками, машинний переклад | 2020 | Aaaksh Gupta, CoronaWhy |
Діалоги
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
NPS Chat Corpus | Публікації з вікових онлайн-чатів. | Конфіденційність рук замаскована, позначена як частина мови та діалог-акт. | ~ 500,000 | XML | НЛП, програмування, лінгвістика | 2007 | Forsyth, E., Lin, J., & Martell, C. | |
Twitter Triple Corpus | A-B-A трійки витягнуто з Twitter. | 4,232 | Текст | NLP | 2016 | Sordini, A. et al. | ||
UseNet Corpus | Повідомлення на форумі UseNet. | Анонімні електронні листи та URL-адреси. Пропущені документи довжиною <500 слів або >500 000 слів, або які були <90% англійською. | 7 billion | Текст | 2011 | Shaoul, C., & Westbury C. | ||
NUS SMS Corpus | SMS-повідомлення, зібрані між двома користувачами, з аналізом часу. | ~ 10,000 | XML | NLP | 2011 | KAN, M | ||
Reddit All Comments Corpus | Усі коментарі на Reddit (станом на 2015 рік). | ~ 1.7 billion | JSON | НЛП, дослідження | 2015 | Stuck_In_the_Matrix | ||
Ubuntu Dialogue Corpus | Діалоги, витягнуті з потоку чату Ubuntu на IRC. | 930 thousand dialogues, 7.1 million utterances | CSV | Dialogue Systems Research | 2015 | Lowe, R. et al. | ||
Dialog State Tracking Challenge | Проблеми відстеження стану діалогу 2 і 3 (DSTC2&3) були дослідницьким завданням, зосередженим на покращенні сучасного рівня відстеження стану мовних діалогових систем. | Транскрипція розмовних діалогів з маркуванням | DSTC2 contains ~3.2k calls – DSTC3 contains ~2.3k calls | Json | Відстеження стану діалогу | 2014 | Henderson, Matthew and Thomson, Blaise and Williams, Jason D |
Інший текст
Назва | Опис | Обробка | Розмір | Формат | Формат | Створений | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Web of Science Dataset | Ієрархічні набори даних для класифікації тексту | Немає | 46,985 | Текст | класифікація, Категоризація | 2017 | K. Kowsari et al. | |
Legal Case Reports | Розгляд справ Федерального суду Австралії з 2006 по 2009 роки. | Немає | 4,000 | Текст | Підведення підсумків, аналіз цитування | 2012 | F. Galgani et al. | |
Blogger Authorship Corpus | Записи в блозі 19 320 людей із blogger.com. | Блогер сам надає стать, вік, галузь та астрологічний знак. | 681,288 | Текст | Аналіз настроїв, узагальнення, класифікація | 2006 | J. Schler et al. | |
Social Structure of Facebook Networks | Великий набір даних соціальної структури Facebook. | Немає | Охоплено 100 коледжів | Текст | Аналіз мережі, кластеризація | 2012 | A. Traud et al. | |
Dataset for the Machine Comprehension of Text | Розповіді та відповідні запитання для перевірки розуміння тексту. | Немає | 660 | Текст | Обробка природної мови, машинне розуміння | 2013 | M. Richardson et al. | |
The Penn Treebank Project | Природний текст, анотований для мовної структури. | Текст розбирається на семантичні дерева. | ~ 1 млн слів | Текст | Обробка природної мови, узагальнення | 1995 | M. Marcus et al. | |
DEXTER Dataset | Поставлене завдання – визначити за наведеними ознаками, які статті стосуються корпоративних придбань. | Вилучені ознаки включають основи слів. Включені функції відволікача. | 2600 | Текст | Класифікація | 2008 | Reuters | |
Google Books N-grams | N-грами з дуже великого корпусу книг | Немає | 2,2 ТБ тексту | Текст | Класифікація, кластеризація, регресія | 2011 | ||
Personae Corpus | Зібрано для експериментів із визначення авторства та передбачення особистості. Складається з 145 есе голландською мовою. | Крім звичайних текстів наводяться синтаксично анотовані тексти. | 145 | Текст | Класифікація, регресія | 2008 | K. Luyckx et al. | |
CNAE-9 Dataset | Завдання на категоризацію для вільних текстових описів бразильських компаній. | Вилучено частоту слів. | 1080 | Текст | Класифікація | 2012 | P. Ciarelli et al. | |
Sentiment Labeled Sentences Dataset | 3000 речень, позначених настроєм | Настрої кожного речення вручну позначені як позитивні чи негативні. | 3000 | Текст | Класифікація, аналіз настроїв | 2015 | D. Kotzias | |
BlogFeedback Dataset | Набір даних для прогнозування кількості коментарів, які отримає публікація на основі функцій цієї публікації. | Вилучено багато функцій кожного повідомлення. | 60,021 | Текст | Регресія | 2014 | K. Buza | |
Stanford Natural Language Inference (SNLI) Corpus | Підписи до зображень поєднуються з нещодавно створеними реченнями, щоб утворити суть, протиріччя або нейтральні пари. | Мітки класів Entailment, синтаксичний аналіз за допомогою аналізатора Stanford PCFG | 570,000 | Текст | Висновок природної мови/розпізнавання тексту | 2015 | S. Bowman et al. | |
DSL Corpus Collection (DSLCC) | Багатомовна збірка коротких уривків публіцистичних текстів схожими мовами та діалектами. | Немає | 294,000 фраз | Текст | Розрізнення схожих мов | 2017 | Tan, Liling et al. | |
Urban Dictionary Dataset | Корпус слів, голосів і визначень | Імена користувачів анонімні | 2,580,925 | CSV | НЛП, машинне розуміння | 2016 May | Anonymous | |
T-REx | Реферати Вікіпедії узгоджені з сутностями Вікіданих | Вирівнювання трійок Вікіданих з тезами Вікіпедії | 11M вирівняні трійки | JSON and NIF [3] | НЛП, вилучення відносин | 2018 | H. Elsahar et al. | |
General Language Understanding Evaluation (GLUE) | Тест із дев’яти завдань | Різні | ~1М речень і пар речень | NLU | 2018 | Wang et al. | ||
Contract Understanding Atticus Dataset (CUAD) (formerly known as Atticus Open Contract Dataset (AOK)) | Набір даних юридичних договорів з багатими експертними анотаціями | ~13 000 етикеток | CSV and PDF | Обробка природної мови, QnA | 2021 | The Atticus Project | ||
Vietnamese Image Captioning Dataset (UIT-ViIC) | В'єтнамський набір даних підписів зображень | 19 250 підписів для 3 850 зображень | CSV and PDF | Обробка природної мови, комп’ютерний зір | 2020 | Lam et al. | ||
Vietnamese Names annotated with Genders (UIT-ViNames) | В’єтнамські назви з анотаціями статей | 26 850 в’єтнамських повних імен із анотацією статі | CSV | Обробка природної мови | 2020 | To et al. | ||
Vietnamese Constructive and Toxic Speech Detection Dataset (UIT-ViCTSD) | В'єтнамський набір даних для виявлення конструктивної та токсичної мови | 10 000 в'єтнамських користувачів прокоментували інтернет-газети в 10 доменах | CSV | Обробка природної мовиОбробка природної мови | 2021 | Nguyen et al. | ||
The Pile | Збірка кількох великих наборів даних із різноманітних і неструктурованих текстів | Різні (видалення HTML і Javascript з веб-сайтів, видалення повторюваних речень) | 825 ГіБ англійським текстом | JSON Lines | Обробка природної мови, передбачення тексту | 2021 | Gao et |
Звукові дані
Ці набори даних складаються зі звуків і звукових функцій, які використовуються для таких завдань, як розпізнавання мовлення та синтез мовлення.
Мовлення
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Zero Resource Speech Challenge 2015 | Спонтанне мовлення (англійська мова), Читана мова (Xitsonga). | Немає, необроблені файли WAV. | англійська: 5 год, 12 динаміків; Xitsonga: 2:30, 24 динаміки | WAV (audio only) | Неконтрольоване виявлення мовних властивостей/підрядних одиниць/одиниць слів | 2015 | Versteegh et al. | |
Parkinson Speech Dataset | Багато записів людей із хворобою Паркінсона та без неї. | Вилучено голосові характеристики, оцінка захворювання лікарем за уніфікованою шкалою оцінки [en]. | 1,040 | Текст | Класифікація, регресія | 2013 | B. E. Sakar et al. | |
Spoken Arabic Digits | Розмовні арабські цифри з 44 чоловіків і 44 жінок. | Часові ряди коефіцієнтів мел-частотного кепстру. | 8,800 | Текст | Класифікація | 2010 | M. Bedda et al. | |
ISOLET Dataset | Назви розмовних букв. | Особливості, витягнуті зі звуків. | 7797 | Текст | Класифікація | 1994 | R. Cole et al. | |
Japanese Vowels Dataset | Дев'ять чоловіків, які говорять, вимовляли дві японські голосні підряд. | Застосував до нього 12-градусний аналіз лінійного прогнозування, щоб отримати дискретно-часовий ряд з 12 коефіцієнтами кепстру. | 640 | Текст | Класифікація | 1999 | M. Kudo et al. | |
Parkinson's Telemonitoring Dataset | Багато записів людей із хворобою Паркінсона та без неї. | Вилучено звукові характеристики. | 5875 | Текст | Класифікація | 2009 | A. Tsanas et al. | |
[en] | Записи 630 носіїв восьми основних діалектів американської англійської, кожен з яких читає десять фонетично насичених речень. | Мовлення лексично і фонематично транскрибується. | 6300 | Текст | Розпізнавання мовлення, класифікація. | 1986 | J. Garofolo et al. | |
[en] | Корпус мовлення сучасної стандартної арабської мови (MSA) для одного мовця з фонетичними та орфографічними транскриптами, вирівняними на рівні фонем. | Мовлення орфографічно і фонетично транскрибується з наголосами. | ~1900 | Текст, WAV | Синтез мовлення, розпізнавання мовлення, вирівнювання корпусу, логопедія, освіта. | 2016 | N. Halabi | |
[en] | Загальнодоступна база даних краудсорсингу в широкому діапазоні діалектів. | Перевірка іншими користувачами. | English: 1,118 hours | MP3 з відповідними текстовими файлами | Розпізнавання мови | June 2017 (December 2019) | Mozilla | |
LJSpeech | Корпус англійських записів аудіокниг, які є загальнодоступними, розбитими на короткі кліпи за розділовими знаками. | Перевірка якості, нормалізована транскрипція поряд з оригіналом. | 13,100 | CSV, WAV | Синтез мовлення | 2017 | Keith Ito, Linda Johnson |
Музика
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Geographic Origin of Music Data Set | Звукові особливості музичних зразків з різних місць. | Функції аудіо, отримані за допомогою програмного забезпечення MARSYAS. | 1,059 | Текст | Географічна класифікація, кластеризація | 2014 | F. Zhou et al. | |
Million Song Dataset | Звукові функції з мільйона різних пісень. | Функції аудіо вилучено. | 1M | Текст | Класифікація, кластеризація | 2011 | T. Bertin-Mahieux et al. | |
MUSDB18 | Багатодоріжкові записи популярної музики | Сирий звук | 150 | MP4, WAV | Поділ джерел | 2017 | Z. Rafii et al. | |
[en] | Аудіо під Creative Commons із 100 тисяч пісень (343 дні, 1TiB) з ієрархією із 161 жанру, метаданими, даними користувача, текстом у довільній формі. | Функції необробленого звуку та аудіо. | 106,574 | Текст , MP3 | Класифікація, рекомендація | 2017 | M. Defferrard et al. | |
Bach Choral Harmony Dataset | Хоральні акорди Баха. | Функції аудіо вилучено. | 5665 | Текст | Класифікація | 2014 | D. Radicioni et al. |
Інші звуки. Класифікація
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
UrbanSound | Марковані звукозаписи звуків, таких як кондиціонери, автомобільні гудки та діти, які грають. | Відсортовано по папках за класом подій, а також метаданими у файлі JSON та анотаціями у файлі CSV. | 1,059 | Звук (WAV) | Класифікація | 2014 | J. Salamon et al. | |
AudioSet | 10-секундні звукові фрагменти з відео YouTube та онтологія з понад 500 міток. | 128-d PCA'd VGG-ish показує кожні 1 секунду. | 2,084,320 | Текстові (CSV) і файли TensorFlow Record | Класифікація | 2017 | J. Gemmeke et al., Google | |
Bird Audio Detection challenge | Аудіо зі станцій моніторингу навколишнього середовища, а також записи з краудсорсингу | 17,000+ | Класифікація | 2016 (2018) | Queen Mary University and [en] | |||
WSJ0 Hipster Ambient Mixtures | Аудіо з WSJ0 змішано з шумом, записаним у районі затоки Сан-Франциско | Кліпи з шумом, відповідні кліпам WSJ0 | 28,000 | Звук(WAV) | Розділення джерел звуку | 2019 | Wichern, G., et al., Whisper and MERL | |
Clotho | 4981 звуковий зразок тривалістю від 15 до 30 секунд, кожен з яких має п’ять різних підписів довжиною від 8 до 20 слів. | 24,905 | Звук (WAV) та текст(CSV) | Автоматичні субтитри | 2020 | K. Drossos, S. Lipping, and T. Virtanen |
Дані сигналу
Набори даних, що містять інформацію про електричний сигнал, що вимагає певної обробки сигналу для подальшого аналізу.
Електричні
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створений | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Witty Worm Dataset | Набір даних із детальною інформацією про поширення хробака Witty та заражених комп’ютерів. | Розділіть на загальнодоступний набір і обмежений набір, що містить більш конфіденційну інформацію, як-от заголовки IP і UDP. | 55,909 IP addresses | Текст | Класифікація | 2004 | Center for Applied Internet Data Analysis | |
Cuff-Less Blood Pressure Estimation Dataset | Очищені життєво важливі сигнали від пацієнтів, які можна використовувати для оцінки артеріального тиску. | Життєві показники 125 Гц очищено. | 12,000 | Текст | Класифікація, регресія | 2015 | M. Kachuee et al. | |
Gas Sensor Array Drift Dataset | Вимірювання з 16 хімічних датчиків, використаних у моделюванні для компенсації дрейфу. | Велика кількість наданих функцій. | 13,910 | Текст | Класифікація | 2012 | A. Vergara | |
Servo Dataset | Дані, що охоплюють нелінійні співвідношення, що спостерігаються в схемі сервопідсилювача. | Наведено рівні різних компонентів як функції інших компонентів. | 167 | Текст | Регресія | 1993 | K. Ullrich | |
UJIIndoorLoc-Mag Dataset | База даних локалізації всередині приміщень для тестування внутрішніх систем позиціонування. Дані базуються на магнітному полі. | Дано розділи на тренування та тести. | 40,000 | Текст | Класифікація, регресія, кластеризація | 2015 | D. Rambla et al. | |
Sensorless Drive Diagnosis Dataset | Електричні сигнали від двигунів з несправними компонентами. | Вилучено статистичні ознаки. | 58,508 | Текст | Класифікація | 2015 | M. Bator |
Відстеження рух
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створенний | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Wearable Computing: Classification of Body Postures and Movements (PUC-Rio) | Люди, які виконують п’ять стандартних дій під час носіння трекерів руху. | Немає | 165,632 | Текст | Класифікація | 2013 | [en] | |
Gesture Phase Segmentation Dataset | Функції, отримані з відео людей, які роблять різні жести. | Вилучені функції спрямовані на вивчення фазової сегментації жестів. | 9900 | Текст | Класифікація, кластеризація | 2014 | R. Madeo et a | |
Vicon Physical Action Data Set Dataset | 10 звичайних і 10 агресивних фізичних дій, які вимірюють активність людини, яку відстежує 3D-трекер. | Багато параметрів записує 3D трекер. | 3000 | Текст | Класифікація | 2011 | T. Theodoridis | |
Daily and Sports Activities Dataset | Дані датчиків двигуна для 19 щоденних і спортивних занять. | Надано багато датчиків, без попередньої обробки сигналів. | 9120 | Текст | Класифікація | 2013 | B. Barshan et al. | |
Human Activity Recognition Using Smartphones Dataset | Дані гіроскопа та акселерометра від людей, які носять смартфони та виконують звичайні дії. | Виконані дії позначаються, всі сигнали попередньо обробляються на наявність шуму. | 10,299 | Текст | Класифікація | 2012 | J. Reyes-Ortiz et al. | |
Australian Sign Language Signs | Австралійські знаки жестовою мовою, зняті рукавичками для відстеження руху. | Немає | 2565 | Текст | Класифікація | 2002 | M. Kadous | |
Weight Lifting Exercises monitored with Inertial Measurement Units | П’ять варіантів вправи на скручування біцепса, що контролюються за допомогою IMU. | Деякі статистичні дані, розраховані на основі необроблених даних. | 39,242 | Текст | Класифікація | 2013 | W. Ugulino et al. | |
sEMG for Basic Hand movements Dataset | Дві бази даних поверхневих електроміографічних сигналів 6 рухів рук. | Немає | 3000 | Текст | Класифікація | 2014 | C. Sapsanis et al. | |
REALDISP Activity Recognition Dataset | Оцініть методи, що стосуються впливу зміщення датчика при розпізнаванні активності, що можна носити. | Немає | 1419 | Текст | Класифікація | 2014 | O. Banos et al. | |
Heterogeneity Activity Recognition Dataset | Дані з кількох різних розумних пристроїв для людей, які виконують різні види діяльності. | Немає | 43,930,257 | Текст | Класифікація, кластеризація | 2015 | A. Stisen et al. | |
Indoor User Movement Prediction from RSS Data | Тимчасові дані бездротової мережі, які можна використовувати для відстеження переміщення людей в офісі. | Немає | 13,197 | Текст | Класифікація | 2016 | D. Bacciu | |
PAMAP2 Physical Activity Monitoring Dataset | 18 різних видів фізичних навантажень, які виконували 9 випробовуваних у 3 ІДУ. | Немає | 3,850,505 | Текст | Класифікація | 2012 | A. Reiss | |
OPPORTUNITY Activity Recognition Dataset | Розпізнавання людської активності від датчиків, які можна носити, об’єкта та навколишнього середовища – це набір даних, розроблений для порівняння алгоритмів розпізнавання людської діяльності. | Немає | 2551 | Текст | Класифікація | 2012 | D. Roggen et al. | |
Real World Activity Recognition Dataset | Розпізнавання людської діяльності за допомогою носових пристроїв. Розрізняє сім положень на корпусі пристрою та містить шість різних типів датчиків. | Немає | 3 150 000 (за датчик) | Текст | Класифікація | 2016 | T. Sztyler et al. | |
Toronto Rehab Stroke Pose Dataset | Тривимірні оцінки пози людини (Kinect) пацієнтів із інсультом та здорових учасників, які виконують набір завдань за допомогою робота для реабілітації після інсульту. | Немає | 10 здорових людей і 9 людей, які пережили інсульт (3500–6000 кадрів на людину) | CSV | Класифікація | 2017 | E. Dolatabadi et al. | |
Corpus of Social Touch (CoST) | 7805 жестів фіксують 14 різних жестів соціального дотику, виконаних 31 досліджуваним. Жести виконувались у трьох варіантах: ніжні, нормальні та грубі, на сітці датчика тиску, обмотаної навколо руки манекена. | Здійснювані сенсорні жести сегментовані та позначені. | 7805 зйомок жестів | CSV | Класифікація | 2016 | M. Jung et al. |
Інші сигнали
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Wine Dataset | Хімічний аналіз вин, вирощених в одному регіоні Італії, але отриманих з трьох різних сортів. | Наведено 13 властивостей кожного вина | 178 | Текст | Класифікація, регресія | 1991 | M. Forina et al. | |
Combined Cycle Power Plant Data Set | Дані від різних датчиків на електростанції, яка працює протягом 6 років. | Жодного | 9568 | Текст | Регресія | 2014 | P. Tufekci et al. |
Фізичні дані
Набори даних з фізичних систем.
Фізика високих енергій
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
HIGGS Dataset | Моделювання Монте-Карло зіткнень прискорювачів частинок. | Наведено 28 ознак кожного зіткнення. | 11M | Текст | Класифікація | 2014 | D. Whiteson | |
HEPMASS Dataset | Моделювання Монте-Карло зіткнень прискорювачів частинок. Мета – відокремити сигнал від шуму. | Наведено 28 ознак кожного зіткнення. | 10,500,000 | Текст | Класифікація | 2016 | D. Whiteson |
Системи
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Yacht Hydrodynamics Dataset | Продуктивність яхти на основі розмірів. | Для кожної яхти надано шість функцій. | 308 | Текст | Регресія | 2013 | R. Lopez | |
Robot Execution Failures Dataset | 5 наборів даних, які зосереджені на збій роботи роботів у виконанні звичайних завдань. | Цілочисельні функції, такі як крутний момент та інші вимірювання датчиків. | 463 | Текст | Класифікація | 1999 | L. Seabra et al. | |
Pittsburgh Bridges Dataset | Опис конструкції дається з точки зору кількох властивостей різних мостів. | Наведено різні особливості мосту. | 108 | Текст | Класифікація | 1990 | Y. Reich et al. | |
Automobile Dataset | Дані про автомобілі, їх страховий ризик та нормовані збитки. | Характеристики автомобіля вилучені. | 205 | Текст | Регресія | 1987 | J. Schimmer et al. | |
Auto MPG Dataset | Дані MPG для автомобілів. | Наведено вісім особливостей кожного автомобіля. | 398 | Текст | Регресія | 1993 | Carnegie Mellon University | |
Energy Efficiency Dataset | Вимоги до опалення та охолодження наведені як функція параметрів будівлі. | Параметри будівлі наведено. | 768 | Текст | Класифікація, регресія | 2012 | A. Xifara et al. | |
Airfoil Self-Noise Dataset | Серія аеродинамічних та акустичних випробувань дво- та тривимірних секцій лопаті аеродинамічного профілю. | Наведено дані про частоту, кут атаки тощо. | 1503 | Текст | Регресія | 2014 | R. Lopez | |
Challenger USA Space Shuttle O-Ring Dataset | Спробуйте передбачити проблеми з ущільнювальними кільцями, враховуючи попередні дані Challenger. | Наведено кілька особливостей кожного польоту, наприклад, температура запуску. | 23 | Текст | Регресія | 1993 | D. Draper et al. | |
Statlog (Shuttle) Dataset | Набори даних космічного човника NASA. | Надано дев’ять ознак. | 58,000 | Текст | Класифікація | 2002 | NASA |
Астрономія
Назва | Опис | Обробка | Розмір | Формат | Задача | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Volcanoes on Venus – JARtool experiment Dataset | Зображення Венери, отримані космічним кораблем Магеллан. | Зображення позначаються людьми. | not given | Зображення | Класифікація | 1991 | M. Burl | |
MAGIC Gamma Telescope Dataset | Монте-Карло генерував події високої енергії гамма-частинок. | Численні функції, отримані з моделювання. | 19,020 | Текст | Класифікаціяion | 2007 | R. Bock | |
Solar Flare Dataset | Вимірювання кількості певних типів сонячних спалахів, що відбуваються протягом 24 годин. | Надано багато специфічних особливостей сонячних спалахів. | 1389 | Текст | Розділення джерела звуку | 1989 | G. Bradshaw | |
CAMELS Multifield Dataset | 2D-карти та 3D-сітки з тисяч N-тіл і найсучасніших гідродинамічних симуляцій, що охоплюють широкий діапазон значень космологічних і астрофізичних параметрів | Кожна карта та сітка мають 6 космологічних та астрофізичних параметрів, пов’язаних з нею | 405,000 2D maps and 405,000 3D grids | 2D maps and 3D grids | Регресія | 2021 | Francisco Villaescusa-Navarro et al. |
Наука про Землю
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Volcanoes of the World | Дані про виверження вулканів для всіх відомих вулканічних подій на Землі. | Наведено такі деталі, як регіон, субрегіон, тектонічні умови, домінуючий тип гірських порід. | 1535 | Текст | Регресія, класифікація | 2013 | E. Venzke et al. | |
Seismic-bumps Dataset | Сейсмічна діяльність на вугільній шахті. | Сейсмічна активність була класифікована як небезпечна чи ні. | 2584 | Текст | Класифікація | 2013 | M. Sikora et al. | |
CAMELS-US | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 671 | CSV, Text, Shapefile | Регресія | 2017 | N. Addor et al. / A. Newman et al. | |
CAMELS-Chile | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 516 | CSV, Text, Shapefile | Регресія | 2018 | C. Alvarez-Garreton et al. | |
CAMELS-Brazil | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 897 | CSV, Text, Shapefile | Регресія | 2020 | V. Chagas et al. | |
CAMELS-GB | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 671 | CSV, Text, Shapefile | Регресія | 2020 | G. Coxon et al. | |
CAMELS-Australia | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 222 | CSV, Text, Shapefile | Регресія | 2021 | K. Fowler et al. | |
LamaH-CE | Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами | див. Посилання | 859 | CSV, Text, Shapefile | Регресія | 2021 | C. Klingler et al. |
Інші фізичні
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створений | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Concrete Compressive Strength Dataset | Набір даних про властивості бетону та міцність на стиск. | Для кожного зразка надано дев’ять ознак. | 1030 | Текст | Регресія | 2007 | I. Yeh | |
Concrete Slump Test Dataset | Осадка бетону наведена з точки зору властивостей. | Наведені характеристики бетону, такі як летюча зола, вода тощо. | 103 | Текст | Регресія | 2009 | I. Yeh | |
Musk Dataset | Спрогнозуйте, чи буде молекула, враховуючи особливості, мускусом чи немускусом. | Для кожної молекули наведено 168 ознак. | 6598 | Текст | Класифікація | 1994 | Arris Pharmaceutical Corp. | |
Steel Plates Faults Dataset | Сталеві пластини 7 різних типів. | Для кожного зразка наведено 27 ознак. | 1941 | Текст | Класифікація | 2010 | Semeion Research Center |
Біологічні дані
Набори даних з біологічних систем.
Соціальні
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Synthetic Fundus Dataset | Фотореалістичні зображення сітківки та сегментації судин. Публічний домен. | 2500 зображень з роздільністю 1500*1152 пікселів, корисних для сегментації та класифікації вен і артерій на одному фоні. | 2500 | Зображення | Класифікація, сегментація | 2020 | C. Valenti et al. | |
EEG Database | Дослідження для вивчення корелятів ЕЕГ генетичної схильності до алкоголізму. | Вимірювання за допомогою 64 електродів, розміщених на шкірі голови, відбираються при частоті 256 Гц (епоха 3,9 мс) протягом 1 секунди. | 122 | Текст | Класифікація | 1999 | H. Begleiter | |
P300 Interface Dataset | Дані від дев’яти суб’єктів, зібрані за допомогою інтерфейсу «мозок-комп’ютер» на основі P300 для суб’єктів з обмеженими можливостями. | Розділіть на чотири заняття для кожного предмета. Дано код MATLAB. | 1,224 | Текст | Класифікація | 2008 | U. Hoffman et al. | |
Heart Disease Data Set | Приписують пацієнтів із серцевими захворюваннями та без них. | 75 атрибутів, наданих для кожного пацієнта з деякими відсутніми значеннями. | 303 | Текст | Класифікація | 1988 | A. Janosi et al. | |
Breast Cancer Wisconsin (Diagnostic) Dataset | Набір даних про особливості утворення грудей. Діагноз ставить лікар. | Наведено 10 ознак для кожного зразка. | 569 | Текст | Класифікація | 1995 | W. Wolberg et al. | |
National Survey on Drug Use and Health | Широкомасштабне дослідження здоров'я та вживання наркотиків у Сполучених Штатах. | Немає | 55,268 | Текст | Класифікація, регресія | 2012 | United States Department of Health and Human Services | |
Lung Cancer Dataset | Набір даних про рак легенів без визначення атрибутів | Для кожного випадку наведено 56 ознак | 32 | Текст | Класифікація | 1992 | Z. Hong et al. | |
Arrhythmia Dataset | Дані для групи пацієнтів, з яких у деяких спостерігається серцева аритмія. | 276 функцій для кожного екземпляра. | 452 | Текст | Класифікація | 1998 | H. Altay et al. | |
Diabetes 130-US hospitals for years 1999–2008 Dataset | Дані про реадмісію за 9 років у 130 американських лікарнях для пацієнтів з цукровим діабетом. | Наведено багато особливостей кожної реадмісії. | 100,000 | Текст | Класифікація, кластеризація | 2014 | J. Clore et al. | |
Diabetic Retinopathy Debrecen Dataset | Характеристики, отримані із зображень очей з діабетичною ретинопатією та без неї. | Вилучено ознаки та діагностовано умови. | 1151 | Текст | Класифікація | 2014 | B. Antal et al. | |
Diabetic Retinopathy Messidor Dataset | Методи оцінки методів сегментації та індексації в області офтальмології сітківки (MESSIDOR) | Характеризує ступінь ретинопатії та ризик розвитку макулярного набряку | 1200 | Зображення, текст | Класифікація, сегментація | 2008 | Messidor Project | |
Liver Disorders Dataset | Дані для людей із захворюваннями печінки. | Для кожного пацієнта наведено сім біологічних ознак. | 345 | Текст | Класифікація | 1990 | Bupa Medical Research Ltd. | |
Thyroid Disease Dataset | 10 баз даних пацієнтів із захворюваннями щитоподібної залози. | Немає | 7200 | Текст | Класифікація | 1987 | R. Quinlan | |
Mesothelioma Dataset | Дані пацієнтів з мезотеліомою. | Наведено велику кількість особливостей, включаючи вплив азбесту. | 324 | TextТекст | Класифікація2016 | 2016 | A. Tanrikulu et al. | |
Parkinson's Vision-Based Pose Estimation Dataset | 2D оцінки пози людини пацієнтів з хворобою Паркінсона, які виконують різноманітні завдання. | Тремтіння камери вилучено з траєкторій. | 134 | Текст | Класифікація, регресія | 2017 | M. Li et al. | |
KEGG Metabolic Reaction Network (Undirected) Dataset | Мережа метаболічних шляхів. Дано мережу реакцій і мережу відношень. | Наведено детальні характеристики для кожного вузла мережі та шляху. | 65,554 | Текст | Класифікація, кластеризація, регресія | 2011 | M. Naeem et al. | |
Modified Human Sperm Morphology Analysis Dataset (MHSMA) | Зображення сперми людини 235 пацієнтів з чоловічим фактором безпліддя, позначені для нормальної або аномальної сперматозоїди акросоми, головки, вакуолі та хвоста. | Обрізаний навколо однієї головки сперматозоїда. Нормалізоване збільшення. Створено розділи для навчання, перевірки та тестування. | 1,540 | .npy files | Класифікація | 2019 | S. Javadi and S.A. Mirroshandel |
Тварини
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Abalone Dataset | Фізичні вимірювання вушка. Також вказано погодні умови та місце розташування | Немає | 4177 | Текст | Регресія | 1995 | Marine Research Laboratories – Taroona | |
Zoo Dataset | Штучний набір даних, що охоплює 7 класів тварин. | Тварини поділяються на 7 категорій, для кожної наведені особливості. | 101 | Текст | Класифікація | 1990 | R. Forsyth | |
Demospongiae Dataset | Дані про морських губках. | 503 губки класу Demosponge описуються різними ознаками. | 503 | Текст | Класифікація | 2010 | E. Armengol et al. | |
Farm animals data | Інвентаризація даних PLF (корови, свині; розташування, прискорення тощо). | Марковані набори даних. | Список постійно оновлюється | Текст | Класифікація | 2020 | V. Bloch | |
Splice-junction Gene Sequences Dataset | Послідовності генів з’єднання приматів (ДНК) з асоційованою недосконалою теорією домену. | Немає | 3190 | Текст | Класифікація | 1992 | G. Towell et al. | |
Mice Protein Expression Dataset | Рівні експресії 77 білків виміряли в корі головного мозку мишей. | Немає | 1080 | Текст | Класифікація, кластеризація | 2015 | C. Higuera et al. |
Гибкий
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
UCI Mushroom Dataset | Ознаки та класифікація грибів | Наведено багато властивостей кожного гриба. | 8124 | Текст | Класифікація | 1987 | J. Schlimmer | |
Secondary Mushroom Dataset | Ознаки та класифікація грибів | Змодельовані дані з більших і реалістичніших первинних записів грибів. Повністю відтворюваний. | 61069 | Текст | Класифікація | 2020 | D. Wagner et al. |
Рослини
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Forest Fires Dataset | Лісові пожежі та їх властивості. | Вилучено 13 ознак кожної пожежі. | 517 | Текст | Регресія | 2008 | P. Cortez et al. | |
Іриси Фішера | Три типи ірисів описуються 4 різними ознаками. | Немає | 150 | Текст | Класифікація | 1936 | R. Fisher | |
Plant Species Leaves Dataset | Шістнадцять зразків листя кожного із ста видів рослин. | Дано дескриптор форми, дрібномасштабне поле та гістограми текстури. | 1600 | Текст | Класифікація | 2012 | J. Cope et al. | |
Soybean Dataset | База даних хворих рослин сої. | Наведено 35 ознак для кожної рослини. Рослини поділяються на 19 категорій. | 307 | Текст | Класифікація | 1988 | R. Michalski et al. | |
Seeds Dataset | Вимірювання геометричних властивостей ядер трьох різних сортів пшениці. | Немає | 210 | Текст | Класифікація, кластеризація | 2012 | Charytanowicz et al. | |
Covertype Dataset | мДані для прогнозування типу лісистості суворо на основі картографічних змінних. | Наведено багато географічних об’єктів. | 581,012 | Текст | Класифікація | 1998 | J. Blackard et al. | |
Abscisic Acid Signaling Network Dataset | Дані для мережі сигналізації заводу. Мета – визначити набір правил, які керують мережею. | Немає | 300 | Текст | Причинно-відкриття | 2008 | J. Jenkens et al. | |
Folio Dataset | 20 фотографій листя для кожного з 32 видів. | Немає | 637 | Зображення, текст | Класифікація, виявлення | 2015 | T. Munisami et al. | |
Oxford Flower Dataset | Набір даних квітів 17 категорії. | Розділи поїздів/тестів, позначені зображення, | 1360 | Зображення, текст | Класифікація | 2006 | M-E Nilsback et al. | |
Plant Seedlings Dataset | Набір даних 12 категорії саджанців рослин. | Марковані зображення, сегментовані зображення,Марковані зображення, сегментовані зображення, | 5544 | Зображення | Класифікація, виявлення | 2017 | Giselsson et al. | |
Fruits 360 dataset | База даних із зображеннями 120 фруктів і овочів. | 100x100 пікселів, білий фон. | 82213 | Зображення(jpg) | Класифікація | 2017–2019 | Mihai Oltean, Horea Muresan |
Мікроб
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Ecoli Dataset | Місця локалізації білків. | Наведено різні особливості місць локалізації білків. | 336 | Текст | Класифікація | 1996 | K. Nakai et al. | |
MicroMass Dataset | Ідентифікація мікроорганізмів за даними мас-спектрометрії. | Різні функції мас-спектрометра. | 931 | Текст | Класифікація | 2013 | P. Mahe et al. | |
Yeast Dataset | Прогнозування клітинної локалізації білків. | Вісім функцій наведено для кожного випадку. | 1484 | Текст | Класифікація | 1996 | K. Nakai et al. |
Відкриття наркотиків
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Tox21 Dataset | Прогнозування результатів біологічних аналізів. | Наведено хімічні дескриптори молекул | 12707 | Текст | Класифікація | 2016 | A. Mayr et al. |
Дані про аномалії
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Numenta Anomaly Benchmark (NAB) | Дані впорядковані, з мітками часу, однозначні метрики. Усі файли даних містять аномалії, якщо не зазначено інше. | Немає | 50+ files | Значення, розділені комами | Виявлення аномалій | 2016 (постійно оновлюється) | Numenta | |
Skoltech Anomaly Benchmark (SKAB) | Кожен файл представляє один експеримент і містить одну аномалію. Набір даних являє собою багатоваріантний часовий ряд, зібраний із датчиків, встановлених на тестовому стенді. | Є дві розмітки для проблем виявлення викидів (точкові аномалії) та виявлення точок змін (колективні аномалії). | 30+ files (v0.9) | Значення, розділені комами | Виявлення аномалій | 2020 (постійно оновлюється) | Iurii D. Katser and Vyacheslav O. Kozitsin | |
On the Evaluation of Unsupervised Outlier Detection: Measures, Datasets, and an Empirical Study | Більшість файлів даних адаптовано з даних репозитарію машинного навчання UCI, деякі зібрані з літератури. | обробляються відсутні значення, лише числові атрибути, різні відсотки аномалій, мітки | 1000+ files | ARFF | Виявлення аномалій | 2016 (можливо, оновлено новими наборами даних та/або результатами) | Campos et al. |
Відповіді на питання
Цей розділ містить набори даних, які мають справу зі структурованими даними.
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
DBpedia Neural Question Answering (DBNQA) Dataset | Велика колекція Question to SPARQL, спеціально розроблена для відповіді на нейронні запитання відкритого домену через базу знань DBpedia. | Цей набір даних містить велику колекцію відкритих шаблонів Neural SPARQL та екземплярів для навчання машин Neural SPARQL; він був попередньо оброблений напівавтоматичними інструментами анотації, а також трьома експертами SPARQL. | 894,499 | Пари питання-запит | Відповідь на запитання | 2018 | Hartmann, Soru, and Marx et al. | |
Vietnamese Question Answering Dataset (UIT-ViQuAD) | Велика колекція в'єтнамських питань для оцінки моделей MRC. | Цей набір даних містить понад 23 000 створених людьми пар питань і відповідей на основі 5 109 уривків із 174 в’єтнамських статей з Вікіпедії. | 23,074 | Пари питання-запит | Відповідь на запитання | 2020 | Nguyen et al. | |
Vietnamese Multiple-Choice Machine Reading Comprehension Corpus(ViMMRC) | Колекція в’єтнамських питань з кількома відповідями для оцінки моделей MRC. | Цей корпус включає 2783 в’єтнамські запитання з кількома відповідями. | 2,783 | Пари питання-запит | Відповідь на запитання/Машинне розуміння прочитаного | 2020 | Nguyen et al. |
Багатоваріантні дані
Набори даних, що складаються з рядків спостережень і стовпців атрибутів, що характеризують ці спостереження. Зазвичай використовується для регресійного аналізу або класифікації, але можуть використовуватися й інші типи алгоритмів. Цей розділ містить набори даних, які не вписуються в вищезазначені категорії.
Фінанси
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Dow Jones Index | Щотижневі дані запасів за І-ІІ квартали 2011 року. | Розраховані значення включали такі, як відсоткова зміна та лаги. | 750 | Значення, розділені комами | Класифікація, регресія, часові ряди | 2014 | M. Brown et al. | |
Statlog (Australian Credit Approval) | Заявки на кредитні картки прийняті або відхилені та атрибути програми. | Назви атрибутів видаляються, а також ідентифікаційна інформація. Фактори були перемарковані. | 690 | Значення, розділені комами | Класифікація | 1987 | R. Quinlan | |
eBay auction data | Дані аукціону з різних об’єктів eBay.com на аукціонах різної тривалості | Містить усі ставки, ідентифікатор ставки, час ставок та ціни відкриття. | ~ 550 | Текст | Регресія, класифікація | 2012 | [en] et al. | |
Statlog (German Credit Data) | Бінарна класифікація кредиту на «хороша» або «погана» з багатьма ознаками | Наведено різні фінансові особливості кожної людини. | 690 | Текст | Класифікація | 1994 | H. Hofmann | |
Bank Marketing Dataset | Дані великої маркетингової кампанії, проведеної великим банком. | Наведено багато атрибутів клієнтів, до яких звертаються. Якщо клієнт підписався на банк також надається. | 45,211 | Текст | Класифікація | 2012 | S. Moro et al. | |
Istanbul Stock Exchange Dataset | Декілька фондових індексів відстежувалися майже два роки. | Немає | 536 | Текст | Класифікація, регресія | 2013 | O. Akbilgic | |
Default of Credit Card Clients | Дані про дефолт для тайванських кредиторів. | Для кожного облікового запису надаються різні функції. | 30,000 | Текст | Класифікація | 2016 | I. Yeh |
Погода
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створенная | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Cloud DataSet | Дані про 1024 різних хмарах. | Вилучено характеристики зображення. | 1024 | Текст | Класифікація, кластеризація | 1989 | P. Collard | |
El Nino Dataset | Океанографічні та приземні метеорологічні показання, отримані з серії буїв, розташованих по всій екваторіальній частині Тихого океану. | На кожному буї вимірюється 12 погодних атрибутів. | 178080 | Текст | Регресія | 1999 | [en] | |
Greenhouse Gas Observing Network Dataset | Часовий ряд концентрацій парникових газів у 2921 осередку сітки в Каліфорнії створений за допомогою моделювання погоди. | Немає | 2921 | Текст | Регресія | 2015 | D. Lucas | |
Atmospheric CO2 from Continuous Air Samples at Mauna Loa Observatory | Безперервні проби повітря на Гаваях, США. 44 роки рекордів. | Немає | 44 years | Текст | Регресія | 2001 | [en] | |
Ionosphere Dataset | Радарні дані з іоносфери. Завдання — розділити на хороші та погані результати радіолокації. | Немає | 351 | Текст | Класифікація | 1989 | Johns Hopkins University | |
Ozone Level Detection Dataset | Два набори даних про рівень озону на землі. | Надано багато функцій, включаючи погодні умови на момент вимірювання. | 2536 | Текст | Класифікація | 2008 | K. Zhang et al. |
Перепис населення
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створенная | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Adult Dataset | Дані перепису 1994 року, що містять демографічні ознаки дорослих та їхні доходи. | Очищено та анонімно. | 48,842 | Значення, розділені комами | Класифікація | 1996 | United States Census Bureau | |
Census-Income (KDD) | Зважені дані перепису з поточних опитувань населення 1994 та 1995 років. | Розділіть на навчальні та тестові набори. | 299,285 | Значення, розділені комами | Класифікація | 2000 | United States Census Bureau | |
IPUMS Census Database | Дані перепису з районів Лос-Анджелеса та Лонг-Біч. | Немає | 256,932 | Текст | Класифікація, регресія | 1999 | [en] | |
US Census Data 1990 | Часткові дані перепису населення США 1990 року. | Результати рандомізовані та вибрані корисні атрибути. | 2,458,285 | Текст | Класифікація, регресія | 1990 | United States Census Bureau |
Транзит
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Bike Sharing Dataset | Погодинний і добовий підрахунок прокату велосипедів у великому місті. | Надано багато функцій, включаючи погоду, тривалість подорожі тощо. | 17,389 | Текст | Регресія | 2013 | H. Fanaee-T | |
New York City Taxi Trip Data | Дані про подорожі жовтих і зелених таксі в Нью-Йорку. | Вказує місця посадки та висадки, тарифи та інші деталі поїздок. | 6 years | Текст | Класифікація, кластеризація | 2015 | [en] | |
Taxi Service Trajectory ECML PKDD | Траєкторії всіх таксі у великому місті. | Надано багато функцій, включаючи точки початку та зупинки. | 1,710,671 | Текст | Кластеризація, причинно-наслідкове відкриття | 2015 | M. Ferreira et al. | |
METR-LA | Швидкість від петлеві детекторів на шосе округу Лос-Анджелес.. | Середня швидкість за 5 хвилин. | 7 094 304 з 207 датчиків і 34 272 кроків | Значення, розділені комами | Регресія, прогнозування | 2014 | Jagadish et al. | |
PeMS | Швидкість, потік, зайнятість та інші показники від петлевих детекторів та інших датчиків на автостраді штату Каліфорнія, США. | Показник зазвичай зводиться до середнього з 5-хвилинними часовими кроками. | 39 000 індивідуальних детекторів, кожен із яких містить ряди часу | Значення, розділені комами | Регресія, прогнозування, прогнозування, інтерполяція | (оновлено в режимі реального часу) | California Department of Transportation |
Інтернет
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Webpages from Common Crawl 2012 | Велика колекція веб-сторінок і спосіб їх з’єднання за допомогою гіперпосилань | Немає | 3.5B | Текст | кластеризація, класифікація | 2013 | V. Granville | |
Internet Advertisements Dataset | Набір даних для прогнозування того, чи є дане зображення рекламою чи ні. | Функції кодують геометрію оголошень і фраз, що зустрічаються в URL-адресі. | 3279 | Текст | Класифікація | 1998 | N. Kushmerick | |
Internet Usage Dataset | Загальна демографічна характеристика користувачів Інтернету. | Немає | 10,104 | Текст | Класифікація, кластеризація | 1999 | D. Cook | |
URL Dataset | 120 днів URL-адрес великої конференції. | Наведено багато функцій кожної URL-адреси. | 2,396,130 | Текст | Класифікація | 2009 | J. Ma | |
Phishing Websites Dataset | Набір даних фішингових веб-сайтів. | МНаведено багато функцій кожного сайту. | 2456 | Текст | Класифікація | 2015 | R. Mustafa et al. | |
Online Retail Dataset | Онлайн-транзакції для британського інтернет-магазину. | Дані деталі кожної транзакції. | 541,909 | Текст | Класифікація, кластеризація | 2015 | D. Chen | |
Freebase Simple Topic Dump | Freebase — це онлайн-інструмент структурування всіх людських знань. | Теми з Freebase були вилучені. | багато | Текст | Класифікація, кластеризація | 2011 | Freebase | |
Farm Ads Dataset | Текст реклами ферми з сайтів. Надається бінарне схвалення або відхилення власниками вмісту. | Розраховані SVMlight розріджені вектори текстових слів в оголошеннях. | 4143 | Текст | Класифікація | 2011 | C. Masterharm et al. |
Ігри
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Poker Hand Dataset | 5 карткових рук із стандартної колоди з 52 карт. | Надаються атрибути кожної руки, включаючи покерні руки, утворені картами, які вона містить. | 1,025,010 | Текст | Регресія, класифікація | 2007 | R. Cattral | |
Connect-4 Dataset | Містить усі дозволені 8-шарові позиції в грі Connect-4, в якій жоден із гравців ще не виграв і в якій наступний хід не вимушений. | Немає | 67,557 | Текст | Класифікація | 1995 | J. Tromp | |
Chess (King-Rook vs. King) Dataset | База даних фіналу для білого короля та лади проти чорного короля. | Немає | 28,056 | Текст | Класифікація | 1994 | M. Bain et al. | |
Chess (King-Rook vs. King-Pawn) Dataset | King+Rook versus King+Pawn on a7. | Немає | 3196 | Текст | Класифікація | 1989 | R. Holte | |
Tic-Tac-Toe Endgame Dataset | Бінарна класифікація умов виграшу в хрестики-нулики. | Немає | 958 | Текст | Класифікація | 1991 | D. Aha |
Інші багатоваріантості
Назва | Опис | Обробка | Розмір | Формат | Задачі | Створення | Посилання | Джерело |
---|---|---|---|---|---|---|---|---|
Housing Data Set | Середні значення будинку в Бостоні з пов’язаними атрибутами будинку та району. | Немає | 506 | Текст | Регресія | 1993 | D. Harrison et al. | |
The Getty Vocabularies | структурована термінологія художньої та іншої матеріальної культури, архівні матеріали, візуальні сурогати та бібліографічні матеріали. | Немає | багато | Текст | Класифікація | 2015 | Getty Center | |
Yahoo! Front Page Today Module User Click Log | Журнал кліків користувача для статей новин, які відображаються на вкладці "Вибрані" модуля Today на Yahoo! Титульна сторінка. | Сумісний аналіз з білінійною моделлю. | 45 811 883 відвідування користувачів | Текст | Регресія, кластеризація | 2009 | Chu et al. | |
British Oceanographic Data Centre | Біологічні, хімічні, фізичні та геофізичні дані для океанів. Відстежено 22 тис. змінних. | Різні. | 22 тис. змінних, багато екземплярів | Текст | Регресія, кластеризація | 2015 | [en] | |
Congressional Voting Records Dataset | Дані голосування всіх представників США з 16 питань. | Детально записуються про використання програм кожним користувачем. | 435 | Текст | Класифікація | 1987 | J. Schlimmer | |
Entree Chicago Recommendation Dataset | Запис взаємодії користувачів із системою рекомендацій Entree Chicago. | Детально записуються дані про використання програми кожним користувачем. | 50,672 | Текст | Регресія, рекомендація | 2000 | R. Burke | |
Insurance Company Benchmark (COIL 2000) | Інформація про клієнтів страхової компанії. | Багато функцій кожного клієнта та послуг, якими вони користуються. | 9,000 | Текст | Регресія, класифікація | 2000 | P. van der Putten | |
Nursery Dataset | Дані від абітурієнтів до дитячих садків. | Включаються дані про сім'ю заявника та різні інші фактори. | 12,960 | Текст | Класифікація | 1997 | V. Rajkovic et al. | |
University Dataset | Дані, що описують атрибути великої кількості університетів. | Немає | 285 | Текст | Класифікація, кластеризація | 1988 | S. Sounders et al. | |
Blood Transfusion Service Center Dataset | Дані центру переливання крові. Надає дані про швидкість повернення донорів, частоту тощо. | Немає | 748 | Текст | Класифікація | 2008 | I. Yeh | |
Record Linkage Comparison Patterns Dataset | Великий набір записів. Завдання — зв’язати між собою відповідні записи. | Процедура блокування застосовується для вибору лише певних пар записів. | 5,749,132 | Текст | Класифікація | 2011 | University of Mainz | |
Nomao Dataset | Nomao збирає дані про місця з багатьох різних джерел. Завдання — виявити предмети, які описують одне й те саме місце. | Позначені копії. | 34,465 | Текст | Класифікація | 2012 | Nomao Labs | |
Movie Dataset | Дані для 10 000 фільмів. | Для кожного фільму надано кілька функцій. | 10,000 | Текст | Класифікація, кластеризація | 1999 | G. Wiederhold | |
Open University Learning Analytics Dataset | Інформація про студентів та їх взаємодію з віртуальним навчальним середовищем. | Жодного | ~ 30,000 | Текст | Класифікація, кластеризація, регресія | 2015 | J. Kuzilek et al. | |
Mobile phone records | Телекомунікаційна діяльність та взаємодії | Агрегація за клітинками географічної сітки та кожні 15 хвилин. | великий | Текст | Класифікація, кластеризація, регресія | 2015 | G. Barlacchi et al. |
Кураторські сховища наборів даних
Оскільки набори даних бувають у безлічі форматів і іноді можуть бути важкими у використанні, була проведена значна робота в організації та стандартизації формату наборів даних, щоб полегшити їх використання для дослідження машинного навчання.
- OpenML: веб-платформа з Python, R, Java та іншими API для завантаження сотень наборів даних машинного навчання, оцінки алгоритмів у наборах даних і порівняння продуктивності алгоритму з десятками інших алгоритмів.
- PMLB: велике сховище контрольних наборів даних для оцінки контрольованих алгоритмів машинного навчання. Забезпечує набори даних класифікації та регресії в стандартизованому форматі, які доступні через API Python.
- Metatext NLP: веб-сховище https://metatext.io/datasets, яке обслуговується спільнотою, містить майже 1000 контрольних наборів даних і збільшується. Надає багато завдань від класифікації до QA, а також різні мови від англійської, португальської до арабської.
- [en]: Off the Shelf and Open Source Datasets, розміщені та підтримувані компанією. Ці біологічні, графічні, фізичні, відповіді на запитання, сигнальні, звукові, текстові та відеоресурси налічують понад 250 і їх можна застосувати до більш ніж 25 різних випадків використання.
Дивись також
Цю статтю треба для відповідності Вікіпедії. (травень 2017) |
Примітки
- Edge.org. www.edge.org. Процитовано 24 травня 2022.
- Weiss, G. M.; Provost, F. (1 жовтня 2003). Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction. Journal of Artificial Intelligence Research (англ.). Т. 19. с. 315—354. doi:10.1613/jair.1199. ISSN 1076-9757. Процитовано 24 травня 2022.
- Turney, Peter D. (11 грудня 2002). Types of Cost in Inductive Concept Learning. arXiv:cs/0212034. Процитовано 24 травня 2022.
- Turney, Peter D. (11 грудня 2002). Types of Cost in Inductive Concept Learning. arXiv:cs/0212034. Процитовано 25 травня 2022.
- Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). Gunopulos, Dimitrios (ред.). Active Learning with Evolving Streaming Data. Machine Learning and Knowledge Discovery in Databases (англ.). Springer. с. 597—612. doi:10.1007/978-3-642-23808-6_39. ISBN . Процитовано 24 травня 2022.
- Zafeiriou, Stefanos; Kollias, Dimitrios; Nicolaou, Mihalis A.; Papaioannou, Athanasios; Zhao, Guoying; Kotsia, Irene (2017-07). Aff-Wild: Valence and Arousal ‘In-the-Wild’ Challenge. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). с. 1980—1987. doi:10.1109/CVPRW.2017.248. Процитовано 25 травня 2022.
- Kollias, Dimitrios; Tzirakis, Panagiotis; Nicolaou, Mihalis A.; Papaioannou, Athanasios; Zhao, Guoying; Schuller, Björn; Kotsia, Irene; Zafeiriou, Stefanos (1 червня 2019). Deep Affect Prediction in-the-Wild: Aff-Wild Database and Challenge, Deep Architectures, and Beyond. International Journal of Computer Vision (англ.). Т. 127, № 6. с. 907—929. doi:10.1007/s11263-019-01158-4. ISSN 1573-1405. Процитовано 25 травня 2022.
- Kollias, Dimitrios; Zafeiriou, Stefanos (25 вересня 2019). Expression, Affect, Action Unit Recognition: Aff-Wild2, Multi-Task Learning and ArcFace. arXiv:1910.04855 [cs, eess]. Процитовано 25 травня 2022.
- Kollias, D.; Schulc, Attila; Hajiyev, Elnar; Zafeiriou, S. (2020). Analysing Affective Behavior in the First ABAW 2020 Competition. 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020). doi:10.1109/FG47880.2020.00126. Процитовано 25 травня 2022.
- Wiskott, Laurenz, et al. «Face recognition by elastic bunch graph matching.»Pattern Analysis and Machine Intelligence, IEEE Transactions on 19.7 (1997): 775—779.
- Wiskott, L.; Krüger, Norbert; Kuiger, N.; von der Malsburg, C. (1997-07). Face recognition by elastic bunch graph matching. IEEE Transactions on Pattern Analysis and Machine Intelligence. Т. 19, № 7. с. 775—779. doi:10.1109/34.598235. ISSN 1939-3539. Процитовано 27 травня 2022.
- Livingstone, Steven R.; Russo, Frank A. (16 трав. 2018 р.). The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLOS ONE (англ.). Т. 13, № 5. с. e0196391. doi:10.1371/journal.pone.0196391. ISSN 1932-6203. PMC 5955500. PMID 29768426. Процитовано 28 травня 2022.
{{}}
: Обслуговування CS1: Сторінки з PMC з іншим форматом () Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Livingstone, Steven R.; Russo, Frank A. (5 квітня 2018), The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS), Zenodo, doi:10.5281/zenodo.1188976, процитовано 28 травня 2022
- Grgic, Mislav, Kresimir Delac, and Sonja Grgic. «SCface–surveillance cameras face database.» Multimedia tools and applications 51.3 (2011): 863—879.
- Wallace, Roy, et al. «Inter-session variability modelling and joint factor analysis for face authentication.» Biometrics (IJCB), 2011 International Joint Conference on. IEEE, 2011.
- Georghiades, A. "Yale face database". Center For Computational Vision And Control At Yale University,.
- Nguyen, D.; Halupka, D.; Aarabi, P.; Sheikholeslami, A. (2006-08). Real-time face detection and lip feature extraction using field-programmable gate arrays. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). Т. 36, № 4. с. 902—912. doi:10.1109/TSMCB.2005.862728. ISSN 1941-0492. Процитовано 28 травня 2022.
- Kanade, T.; Cohn, J.F.; Yingli Tian. Comprehensive database for facial expression analysis. Proceedings Fourth IEEE International Conference on Automatic Face and Gesture Recognition (Cat. No. PR00580). IEEE Comput. Soc. doi:10.1109/afgr.2000.840611. Процитовано 28 травня 2022.
- Zeng, Zhihong; Pantic, Maja; Roisman, Glenn I.; Huang, Thomas S. (2009-01). A Survey of Affect Recognition Methods: Audio, Visual, and Spontaneous Expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence. Т. 31, № 1. с. 39—58. doi:10.1109/TPAMI.2008.52. ISSN 1939-3539. Процитовано 28 травня 2022.
- Lyons, Michael; Kamachi, Miyuki; Gyoba, Jiro (14 квітня 1998), The Japanese Female Facial Expression (JAFFE) Dataset, Zenodo, doi:10.5281/zenodo.3451524, процитовано 28 травня 2022
- Lyons, M.; Akamatsu, S.; Kamachi, M.; Gyoba, J. Coding facial expressions with Gabor wavelets. Proceedings Third IEEE International Conference on Automatic Face and Gesture Recognition. IEEE Comput. Soc. doi:10.1109/afgr.1998.670949. Процитовано 28 травня 2022.
- Ng, Hong-Wei; Winkler, Stefan (2014-10). A data-driven approach to cleaning large face datasets. 2014 IEEE International Conference on Image Processing (ICIP). IEEE. doi:10.1109/icip.2014.7025068. Процитовано 28 травня 2022.
- RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (28 березня 2016). One-to-many face recognition with bilinear CNNs. arXiv:1506.01342 [cs]. Процитовано 28 травня 2022.
- Jesorsky, Oliver; Kirchberg, Klaus J.; Frischholz, Robert W. (2001). Robust Face Detection Using the Hausdorff Distance. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg. с. 90—95. ISBN .
- Karam, Lina J.; Zhu, Tong (17 березня 2015). Quality labeled faces in the wild (QLFW): a database for studying face recognition in real-world environments. Human Vision and Electronic Imaging XX. SPIE. doi:10.1117/12.2080393. Процитовано 28 травня 2022.
- Bhatt, Rajen B.; Sharma, Gaurav; Dhall, Abhinav; Chaudhury, Santanu (2009). Efficient Skin Region Segmentation Using Low Complexity Fuzzy Decision Tree Model. 2009 Annual IEEE India Conference. IEEE. doi:10.1109/indcon.2009.5409447. Процитовано 28 травня 2022.
- Lingala, Mounika; Joe Stanley, R.; Rader, Ryan K.; Hagerty, Jason; Rabinovitz, Harold S.; Oliviero, Margaret; Choudhry, Iqra; Stoecker, William V. (1 липня 2014). Fuzzy logic color detection: Blue areas in melanoma dermoscopy images. Computerized Medical Imaging and Graphics (англ.). Т. 38, № 5. с. 403—410. doi:10.1016/j.compmedimag.2014.03.007. ISSN 0895-6111. PMC 4287461. PMID 24786720. Процитовано 28 травня 2022.
{{}}
: Обслуговування CS1: Сторінки з PMC з іншим форматом () - Maes, Chris; Fabry, Thomas; Keustermans, Johannes; Smeets, Dirk; Suetens, Paul; Vandermeulen, Dirk (2010-09). Feature detection on 3D face surfaces for pose normalisation and recognition. 2010 Fourth IEEE International Conference on Biometrics: Theory, Applications and Systems (BTAS). IEEE. doi:10.1109/btas.2010.5634543. Процитовано 28 травня 2022.
- Savran, Arman; Alyüz, Neşe; Dibeklioğlu, Hamdi; Çeliktutan, Oya; Gökberk, Berk; Sankur, Bülent; Akarun, Lale (2008). Bosphorus Database for 3D Face Analysis. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg. с. 47—56. ISBN .
- Heseltine, T.; Pears, N.; Austin, J. Three-dimensional face recognition: an eigensurface approach. 2004 International Conference on Image Processing, 2004. ICIP '04. IEEE. doi:10.1109/icip.2004.1419769. Процитовано 28 травня 2022.
- Ge, Yun; et al. (2011). "3D Novel Face Sample Modeling for Face Recognition". Journal of Multimedia. ojs.academypublisher.com. doi:10.4304/jmm.6.5.467-475. Процитовано 28 травня 2022.
- Wang, Yueming, Jianzhuang Liu, and Xiaoou Tang. «Robust 3D face recognition by local shape difference boosting.» Pattern Analysis and Machine Intelligence, IEEE Transactions on 32.10 (2010): 1858—1870.
- Zhong, Cheng, Zhenan Sun, and Tieniu Tan. «Robust 3D face recognition using learned visual codebook.» Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on. IEEE, 2007.
- Zhao, G., Huang, X., Taini, M., Li, S. Z., & Pietikäinen, M. (2011). Facial expression recognition from near-infrared videos. Image and Vision Computing, 29(9), 607—619.
- Soyel, Hamit, and Hasan Demirel. «Facial expression recognition using 3D facial feature distances.» Image Analysis and Recognition. Springer Berlin Heidelberg, 2007. 831—838.
- Bowyer, Kevin W., Kyong Chang, and Patrick Flynn. «A survey of approaches and challenges in 3D and multi-modal 3D+ 2D face recognition.» Computer vision and image understanding 101.1 (2006): 1-15.
- Tan, Xiaoyang, and Bill Triggs. «Enhanced local texture feature sets for face recognition under difficult lighting conditions.» Image Processing, IEEE Transactions on 19.6 (2010): 1635—1650.
- Mousavi, Mir Hashem, Karim Faez, and Amin Asghari. «Three dimensional face recognition using SVM classifier.» Computer and Information Science, 2008. ICIS 08. Seventh IEEE/ACIS International Conference on. IEEE, 2008.
- Amberg, Brian, Reinhard Knothe, and Thomas Vetter. «Expression invariant 3D face recognition with a morphable model.» Automatic Face & Gesture Recognition, 2008. FG'08. 8th IEEE International Conference on. IEEE, 2008.
- İrfanoğlu, M. O., Berk Gökberk, and Lale Akarun. «3D shape-based face recognition using automatically registered facial surfaces.» Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on. Vol. 4. IEEE, 2004.
- Beumier, Charles, and Marc Acheroy. «Face verification from 3D and grey level clues.» Pattern recognition letters 22.12 (2001): 1321—1329.
- Computer Science. arxiv.org. Процитовано 28 травня 2022.
- SoF dataset. sites.google.com (укр.). Процитовано 28 травня 2022.
- IMDB-WIKI - 500k+ face images with age and gender labels. data.vision.ee.ethz.ch. Процитовано 28 травня 2022.
- Patron-Perez, Alonso; Marszalek, Marcin; Reid, Ian; Zisserman, Andrew (2012-12). Structured Learning of Human Interactions in TV Shows. IEEE Transactions on Pattern Analysis and Machine Intelligence. Т. 34, № 12. с. 2441—2453. doi:10.1109/TPAMI.2012.24. ISSN 1939-3539. Процитовано 20 травня 2022.
- Ofli, Ferda; Chaudhry, Rizwan; Kurillo, Gregorij; Vidal, Rene; Bajcsy, Ruzena (2013-01). Berkeley MHAD: A comprehensive Multimodal Human Action Database. 2013 IEEE Workshop on Applications of Computer Vision (WACV). IEEE. doi:10.1109/wacv.2013.6474999. Процитовано 20 травня 2022.
- N.Z.), Asian Conference on Pattern Recognition (5th : 2019 : Auckland,. Pattern recognition : 5th Asian Conference, ACPR 2019, Auckland, New Zealand, November 26-29, 2019, Revised selected papers. ISBN . OCLC 1142374420.
- Feichtenhofer, Christoph; Pinz, Axel; Zisserman, Andrew (2016-06). Convolutional Two-Stream Network Fusion for Video Action Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. doi:10.1109/cvpr.2016.213. Процитовано 28 травня 2022.
- Rama., Zhao, Wenyi. Chellappa,. Face processing : advanced modeling and methods. ISBN . OCLC 953864701.
- Krishna, Ranjay; Zhu, Yuke; Groth, Oliver; Johnson, Justin; Hata, Kenji; Kravitz, Joshua; Chen, Stephanie; Kalantidis, Yannis; Li, Li-Jia; Shamma, David A; Bernstein, Michael S; Fei-Fei, Li (2017). Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. International Journal of Computer Vision. 123: 32—73. arXiv:1602.07332. doi:10.1007/s11263-016-0981-7.
- Karayev, S., et al. «A category-level 3-D object dataset: putting the Kinect to work [ 21 грудня 2019 у Wayback Machine.].» Proceedings of the IEEE International Conference on Computer Vision Workshops. 2011.
- Tighe, Joseph, and Svetlana Lazebnik. «Superparsing: scalable nonparametric image parsing with superpixels [ 6 серпня 2019 у Wayback Machine.].» Computer Vision–ECCV 2010. Springer Berlin Heidelberg, 2010. 352—365.
- Arbelaez, P.; Maire, M; Fowlkes, C; Malik, J (May 2011). (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 33 (5): 898—916. doi:10.1109/tpami.2010.161. PMID 20733228. Архів оригіналу (PDF) за 8 травня 2012. Процитовано 27 лютого 2016.
- Lin, Tsung-Yi, et al. «Microsoft coco: Common objects in context.» Computer Vision–ECCV 2014. Springer International Publishing, 2014. 740—755.
- Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya (1 грудня 2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (англ.). Т. 115, № 3. с. 211—252. doi:10.1007/s11263-015-0816-y. ISSN 1573-1405. Процитовано 27 травня 2022.
- . cocodataset.org. Архів оригіналу за 20 жовтня 2021. Процитовано 17 жовтня 2021.
- Xiao, Jianxiong, et al. «Sun database: Large-scale scene recognition from abbey to zoo.» Computer vision and pattern recognition (CVPR), 2010 IEEE conference on. IEEE, 2010.
- Donahue, Jeff; Jia, Yangqing; Vinyals, Oriol; Hoffman, Judy; Zhang, Ning; Tzeng, Eric; Darrell, Trevor (2013). DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition. arXiv:1310.1531 [cs.CV].
- Deng, Jia, et al. «Imagenet: A large-scale hierarchical image database.»Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009.
- Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. «Imagenet classification with deep convolutional neural networks [ 31 серпня 2019 у Wayback Machine.].» Advances in neural information processing systems. 2012.
- Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrari, Victor Gomes, Abhinav Gupta, Dhyanesh Narayanan, Chen Sun, Gal Chechik, Kevin Murphy. «OpenImages: A public dataset for large-scale multi-label and multi-class image classification, 2017. Available from https://github.com/openimages [ 14 квітня 2020 у Wayback Machine.].»
- Vyas, Apoorv, et al. «Commercial Block Detection in Broadcast News Videos.» Proceedings of the 2014 Indian Conference on Computer Vision Graphics and Image Processing. ACM, 2014.
- Hauptmann, Alexander G., and Michael J. Witbrock. «Story segmentation and detection of commercials in broadcast news video.» Research and Technology Advances in Digital Libraries, 1998. ADL 98. Proceedings. IEEE International Forum on. IEEE, 1998.
- Tung, Anthony KH, Xin Xu, and Beng Chin Ooi. «Curler: finding and visualizing nonlinear correlation clusters [ 6 серпня 2019 у Wayback Machine.].» Proceedings of the 2005 ACM SIGMOD international conference on Management of data. ACM, 2005.
- Jarrett, Kevin, et al. «What is the best multi-stage architecture for object recognition? [ 6 серпня 2019 у Wayback Machine.].» Computer Vision, 2009 IEEE 12th International Conference on. IEEE, 2009.
- Lazebnik, Svetlana, Cordelia Schmid, and Jean Ponce. «Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories [ 6 серпня 2019 у Wayback Machine.].»Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.
- Griffin, G., A. Holub, and P. Perona. Caltech-256 object category dataset California Inst. Technol., Tech. Rep. 7694, 2007 [Online]. Available: http://authors.library.caltech.edu/7694 [ 7 липня 2019 у Wayback Machine.] , 2007.
- Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto. Modern information retrieval. Vol. 463. New York: ACM press, 1999.
- Fu, Xiping, et al. «NOKMeans: Non-Orthogonal K-means Hashing.» Computer Vision—ACCV 2014. Springer International Publishing, 2014. 162—177.
- Heitz, Geremy; Elidan, Gal; Packer, Benjamin; Koller, Daphne (1 серпня 2009). Shape-Based Object Localization for Descriptive Classification. International Journal of Computer Vision (англ.). Т. 84, № 1. с. 40—62. doi:10.1007/s11263-009-0228-y. ISSN 1573-1405. Процитовано 27 травня 2022.
- M. Cordts, M. Omran, S. Ramos, T. Scharwächter, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, «The Cityscapes Dataset [ 17 квітня 2020 у Wayback Machine.].» In CVPR Workshop on The Future of Datasets in Vision, 2015.
- Everingham, Mark та ін. (2010). The pascal visual object classes (voc) challenge. International Journal of Computer Vision. 88 (2): 303—338. doi:10.1007/s11263-009-0275-4.
- Felzenszwalb, Pedro F.; Girshick, Ross B.; McAllester, David; Ramanan, Deva (2010-09). Object Detection with Discriminatively Trained Part-Based Models. IEEE Transactions on Pattern Analysis and Machine Intelligence. Т. 32, № 9. с. 1627—1645. doi:10.1109/TPAMI.2009.167. ISSN 1939-3539. Процитовано 27 травня 2022.
- Gong, Yunchao, and Svetlana Lazebnik. «Iterative quantization: A procrustean approach to learning binary codes.» Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011.
- . Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 is not ImageNet or CIFAR-10. 9 жовтня 2018. Архів оригіналу за 12 листопада 2018. Процитовано 13 листопада 2018.
- , Zalando Research, 7 жовтня 2017, архів оригіналу за 20 липня 2019, процитовано 7 жовтня 2017
- . Machine Learning, etc. 8 вересня 2011. Архів оригіналу за 1 вересня 2019. Процитовано 13 жовтня 2017.
- Houben, Sebastian, et al. «Detection of traffic signs in real-world images: The German Traffic Sign Detection Benchmark.» Neural Networks (IJCNN), The 2013 International Joint Conference on. IEEE, 2013.
- Mathias, Mayeul, et al. «Traffic sign recognition—How far are we from the solution? [ 30 грудня 2020 у Wayback Machine.].» Neural Networks (IJCNN), The 2013 International Joint Conference on. IEEE, 2013.
- Geiger, Andreas, Philip Lenz, and Raquel Urtasun. «Are we ready for autonomous driving? the kitti vision benchmark suite [ 22 грудня 2018 у Wayback Machine.].» Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012.
- Sturm, Jürgen, et al. «A benchmark for the evaluation of RGB-D SLAM systems [ 12 липня 2019 у Wayback Machine.].» Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on. IEEE, 2012.
- The KITTI Vision Benchmark Suite на YouTube (англ.)
- Chaladze, G., Kalatozishvili, L. (2017). Linnaeus 5 dataset. Chaladze.com. Retrieved 13 November 2017, from http://chaladze.com/l5/ [ 25 серпня 2019 у Wayback Machine.]
- Kragh, Mikkel F. та ін. (2017). . Sensors. 17 (11): 2579. doi:10.3390/s17112579. PMC 5713196. PMID 29120383. Архів оригіналу за 31 жовтня 2018. Процитовано 7 вересня 2019.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Afifi, Mahmoud (12 листопада 2017). Gender recognition and biometric identification using a large dataset of hand images. arXiv:1711.04322 [cs.CV].
- Lomonaco, Vincenzo; Maltoni, Davide (18 жовтня 2017). CORe50: a New Dataset and Benchmark for Continuous Object Recognition. arXiv:1705.03550 [cs.CV].
- She, Qi; Feng, Fan; Hao, Xinyue; Yang, Qihan; Lan, Chuanlin; Lomonaco, Vincenzo; Shi, Xuesong; Wang, Zhengwei; Guo, Yao (6 березня 2020). OpenLORIS-Object: A Robotic Vision Dataset and Benchmark for Lifelong Deep Learning. arXiv:1911.06487 [cs, stat]. Процитовано 28 травня 2022.
- Morozov, Alexei A.; Sushkova, Olga S.; Polupanov, Alexander F. (2017-06). Object-oriented logic programming of 3D intelligent video surveillance: The problem statement. 2017 IEEE 26th International Symposium on Industrial Electronics (ISIE). IEEE. doi:10.1109/isie.2017.8001491. Процитовано 28 травня 2022.
- Morozov, Alexei; Sushkova, Olga; Kershner, Ivan; Polupanov, Alexander (2019). Development of a Method of Terahertz Intelligent Video Surveillance Based on the Semantic Fusion of Terahertz and 3D Video Images. Proceedings of the V International conference Information Technology and Nanotechnology 2019. IP Zaitsev V.D. doi:10.18287/1613-0073-2019-2391-134-143. Процитовано 28 травня 2022.
- author., Tecuci, Gheorghe,. Knowledge engineering : building cognitive assistants for evidence-based reasoning. ISBN . OCLC 927619906.
- Frey, Peter W.; Slate, David J. (1991-03). Letter recognition using Holland-style adaptive classifiers. Machine Learning. Т. 6, № 2. с. 161—182. doi:10.1007/bf00114162. ISSN 0885-6125. Процитовано 20 травня 2022.
- Peltonen, Jaakko; Klami, Arto; Kaski, Samuel (2004-10). Improved learning of Riemannian metrics for exploratory analysis. Neural Networks (англ.). Т. 17, № 8-9. с. 1087—1100. doi:10.1016/j.neunet.2004.06.008. Процитовано 20 травня 2022.
- Liu, Cheng-Lin; Yin, Fei; Wang, Da-Han; Wang, Qiu-Feng (2013-01). Online and offline handwritten Chinese character recognition: Benchmarking on new databases. Pattern Recognition (англ.). Т. 46, № 1. с. 155—162. doi:10.1016/j.patcog.2012.06.021. Процитовано 20 травня 2022.
- Wang, Da-Han; Liu, Cheng-Lin; Yu, Jin-Lun; Zhou, Xiang-Dong (2009-07). CASIA-OLHWDB1: A Database of Online Handwritten Chinese Characters. 2009 10th International Conference on Document Analysis and Recognition. с. 1206—1210. doi:10.1109/ICDAR.2009.163. Процитовано 20 травня 2022.
- Williams, Ben H.; Toussaint, Marc; Storkey, Amos J. (2006). Extracting Motion Primitives from Natural Handwriting Data. Artificial Neural Networks – ICANN 2006. Berlin, Heidelberg: Springer Berlin Heidelberg. с. 634—643. ISBN .
- Calif.), IEEE/ACM International Conference on Computer-Aided Design (1998 : San Jose, (1998). 1998 IEEE/ACM International Conference on Computer-Aided Design : digest of technical papers : November 8-12, 1998, San Jose, California. IEEE Computer Society Press. ISBN . OCLC 40434775.
- V., Cantoni, (1989). Recent issues in pattern analysis and recognition. Springer-Verlag. OCLC 555471615.
- Cohen, Gregory; Afshar, Saeed; Tapson, Jonathan; van Schaik, André (17 лютого 2017). EMNIST: an extension of MNIST to handwritten letters. arXiv:1702.05373 [cs]. Процитовано 27 травня 2022.
- André, Cohen, Gregory Afshar, Saeed Tapson, Jonathan van Schaik, (17 лютого 2017). EMNIST: an extension of MNIST to handwritten letters. OCLC 1106257270.
- Cohen, Gregory; Afshar, Saeed; Tapson, Jonathan; van Schaik, André (17 лютого 2017). EMNIST: an extension of MNIST to handwritten letters. arXiv:1702.05373 [cs]. Процитовано 20 травня 2022.
- Figure 4: Samples of handwritten isolated Arabic characters. dx.doi.org. Процитовано 20 травня 2022.
- One-Shot Learning Considerations. Internet-Scale Pattern Recognition. Chapman and Hall/CRC. 20 листопада 2012. с. 53—66.
- Figure 10: Combination the result of feature selection and WGCNA. dx.doi.org. Процитовано 20 травня 2022.
- editor, Bieger, Jordi., editor Goertzel, Ben., editor Potapov, Alexey.,. Artificial General Intelligence : 8th International Conference, AGI 2015, AGI 2015, Berlin, Germany, July 22-25, 2015, Proceedings. ISBN . OCLC 1113542889.
- Online), International Conference on Artificial Neural Networks (European Neural Network Society) (30th : 2021 :. Artificial neural networks and machine learning -- ICANN 2021 : 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, September 14-17, 2021, Proceedings. ISBN . OCLC 1268260200.
- Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (Nov./1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE. Т. 86, № 11. с. 2278—2324. doi:10.1109/5.726791. Процитовано 20 травня 2022.
- Kussul, Ernst; Baidyk, Tatiana (2004-10). Improved method of handwritten digit recognition tested on MNIST database. Image and Vision Computing (англ.). Т. 22, № 12. с. 971—981. doi:10.1016/j.imavis.2004.03.008. Процитовано 20 травня 2022.
- Xu, L.; Krzyzak, A.; Suen, C.Y. (May-June/1992). Methods of combining multiple classifiers and their applications to handwriting recognition. IEEE Transactions on Systems, Man, and Cybernetics. Т. 22, № 3. с. 418—435. doi:10.1109/21.155943. Процитовано 20 травня 2022.
- Alimoglu, F.; Alpaydin, E. Combining multiple representations and classifiers for pen-based handwritten digit recognition. Proceedings of the Fourth International Conference on Document Analysis and Recognition. IEEE Comput. Soc. doi:10.1109/icdar.1997.620583. Процитовано 20 травня 2022.
- Tang, E.K.; Suganthan, P.N.; Yao, X.; Qin, A.K. (2005-04). Linear dimensionality reduction using relevance weighted LDA. Pattern Recognition (англ.). Т. 38, № 4. с. 485—493. doi:10.1016/j.patcog.2004.09.005. Процитовано 20 травня 2022.
- Hong, Yi, et al (PDF).
- Drahan, K. I. (1975). [Endocrinologic peculiarities of the course of pregnancy and labor in primaparous women of the older age groups]. Pediatriia Akusherstvo I Ginekologiia. № 5. с. 41—44. ISSN 0031-4048. PMID 1701. Процитовано 20 травня 2022.
- Rothschild, M.; Schlein, J.; Parker, K.; Neville, C.; Sternberg, S. (30 жовтня 1975). The jumping mechanism of Xenopsylla cheopis. III. Execution of the jump and activity. Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences. Т. 271, № 914. с. 499—515. doi:10.1098/rstb.1975.0064. ISSN 0962-8436. PMID 1806. Процитовано 20 травня 2022.
- Liu, Qun; Collier, Edward; Mukhopadhyay, Supratik (2019). Jatowt, Adam (ред.). PCGAN-CHAR: Progressively Trained Classifier Generative Adversarial Networks for Classification of Noisy Handwritten Bangla Characters. Digital Libraries at the Crossroads of Digital Information for the Future (англ.). Springer International Publishing. с. 3—15. doi:10.1007/978-3-030-34058-2_1. ISBN . Процитовано 27 травня 2022.
- iSAID. captain-whu.github.io. Процитовано 27 травня 2022.
- Butenuth, Matthias; Burkert, Florian; Schmidt, Florian; Hinz, Stefan; Hartmann, Dirk; Kneidl, Angelika; Borrmann, Andre; Sirmacek, Beril (2011-11). Integrating pedestrian simulation, tracking and event detection for crowd analysis. 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops). IEEE. doi:10.1109/iccvw.2011.6130237. Процитовано 20 травня 2022.
- India), CIPR (Conference) (1st : 2019 : Sibpur,. Computational intelligence in pattern recognition : proceedings of CIPR 2019. ISBN . OCLC 1113880051.
- Fradi, Hajer; Dugelay, Jean-Luc (2012-12). Low level crowd analysis using frame-wise normalized feature for people counting. 2012 IEEE International Workshop on Information Forensics and Security (WIFS). IEEE. doi:10.1109/wifs.2012.6412657. Процитовано 20 травня 2022.
- Johnson, Brian Alan; Tateishi, Ryutaro; Hoan, Nguyen Thanh (27 червня 2013). A hybrid pansharpening approach and multiscale object-based image analysis for mapping diseased pine and oak trees. International Journal of Remote Sensing. Т. 34, № 20. с. 6969—6982. doi:10.1080/01431161.2013.810825. ISSN 0143-1161. Процитовано 20 травня 2022.
- Mohd Pozi, Muhammad Syafiq; Sulaiman, Md Nasir; Mustapha, Norwati; Perumal, Thinagaran (3 липня 2015). A new classification model for a class imbalanced data set using genetic programming and support vector machines: case study for wilt disease classification. Remote Sensing Letters (англ.). Т. 6, № 7. с. 568—577. doi:10.1080/2150704X.2015.1062159. ISSN 2150-704X. Процитовано 20 травня 2022.
- China), International Conference on Digital Image Processing (8th : 2016 : Chengdu,. Eighth International Conference on Digital Image Processing (ICDIP 2016) : 20-23 May 2016, Chengdu, China. ISBN . OCLC 971084912.
- Gallego, Antonio-Javier. MASATI dataset - MAritime SATellite Imagery dataset. www.iuii.ua.es (англ.). Процитовано 20 травня 2022.
- Gallego, Antonio-Javier; Pertusa, Antonio; Gil, Pablo (24 березня 2018). Automatic Ship Classification from Optical Aerial Images with Convolutional Neural Networks. Remote Sensing. Т. 10, № 4. с. 511. doi:10.3390/rs10040511. ISSN 2072-4292. Процитовано 20 травня 2022.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Chatterjee, Sankhadeep; Ghosh, Subhodeep; Dawn, Subham; Hore, Sirshendu; Dey, Nilanjan (2016). Forest Type Classification: A Hybrid NN-GA Model Based Approach. Advances in Intelligent Systems and Computing. New Delhi: Springer India. с. 227—236. ISBN .
- Diegert, Carl (2010-10). A combinatorial method for tracing objects using semantics of their shape. 2010 IEEE 39th Applied Imagery Pattern Recognition Workshop (AIPR). IEEE. doi:10.1109/aipr.2010.5759716. Процитовано 20 травня 2022.
- Frédéric, Razakarivony, Sebastien Jurie,. Small Target Detection combining Foreground and Background Manifolds. OCLC 877840527.
- Ilijason, Robert (2021). Getting Started with Databricks. Getting Started with Databricks. Berkeley, CA: Apress. ISBN .
- Vakalopoulou, Maria; Bus, Norbert; Karantzalos, Konstantinos; Paragios, Nikos (2017-07). Integrating edge/boundary priors with classification scores for building detection in very high resolution data. 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). IEEE. с. 3309—3312. doi:10.1109/IGARSS.2017.8127705. ISBN . Процитовано 20 травня 2022.
- Vakalopoulou, Maria; Bus, Norbert; Karantzalos, Konstantinos; Paragios, Nikos (2017-07). Integrating edge/boundary priors with classification scores for building detection in very high resolution data. 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). с. 3309—3312. doi:10.1109/IGARSS.2017.8127705. Процитовано 27 травня 2022.
- Yang, Yi; Newsam, Shawn (2 листопада 2010). Bag-of-visual-words and spatial extensions for land-use classification. Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. Association for Computing Machinery. с. 270—279. doi:10.1145/1869790.1869829. ISBN . Процитовано 27 травня 2022.
- Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (3 листопада 2015). DeepSat: a learning framework for satellite imagery. Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems (англ.). ACM. с. 1—10. doi:10.1145/2820783.2820816. ISBN . Процитовано 20 травня 2022.
- Liu, Qun; Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (1 лютого 2020). DeepSat V2: feature augmented convolutional neural nets for satellite image classification. Remote Sensing Letters. Т. 11, № 2. с. 156—165. doi:10.1080/2150704X.2019.1693071. ISSN 2150-704X. Процитовано 20 травня 2022.
- Liu, Qun; Basu, Saikat; Ganguly, Sangram; Mukhopadhyay, Supratik; DiBiano, Robert; Karki, Manohar; Nemani, Ramakrishna (1 лютого 2020). DeepSat V2: feature augmented convolutional neural nets for satellite image classification. Remote Sensing Letters (англ.). Т. 11, № 2. с. 156—165. doi:10.1080/2150704X.2019.1693071. ISSN 2150-704X. Процитовано 20 травня 2022.
- Harken, A. H.; Woods, M. (1976-02). The influence of oxyhemoglobin affinity on tissue oxygen consumption. Annals of Surgery. Т. 183, № 2. с. 130—135. doi:10.1097/00000658-197602000-00008. ISSN 0003-4932. PMC 1344074. PMID 2111. Процитовано 20 травня 2022.
- Ebadi, Ashkan; Paul, Patrick; Auer, Sofia; Tremblay, Stéphane (19 листопада 2021), The gas meter image dataset (NRC-GAMMA) (англ.), National Research Council of Canada, doi:10.4224/3c8s-z290, процитовано 20 травня 2022
- Rabah, Chaima Ben; Coatrieux, Gouenou; Abdelfattah, Riadh (2020-10). The Supatlantique Scanned Documents Database for Digital Image Forensics Purposes. 2020 IEEE International Conference on Image Processing (ICIP). IEEE. doi:10.1109/icip40778.2020.9190665. Процитовано 20 травня 2022.
- Mills, Kyle; Tamblyn, Isaac (12 березня 2019), Big graphene dataset (англ.), National Research Council of Canada, doi:10.4224/c8sc04578j.data, процитовано 20 травня 2022
- Mills, Kyle; Spanner, Michael; Tamblyn, Isaac (18 травня 2018), Quantum simulations of an electron in a two dimensional potential well (англ.), National Research Council of Canada, doi:10.4224/physreva.96.042113.data, процитовано 20 травня 2022
- Rohrbach, Marcus; Amin, Sikandar; Andriluka, Mykhaylo; Schiele, Bernt (2012-06). A database for fine grained activity detection of cooking activities. 2012 IEEE Conference on Computer Vision and Pattern Recognition. с. 1194—1201. doi:10.1109/CVPR.2012.6247801. Процитовано 20 травня 2022.
- Kuehne, Hilde; Arslan, Ali; Serre, Thomas (2014-06). The Language of Actions: Recovering the Syntax and Semantics of Goal-Directed Human Activities. 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE. doi:10.1109/cvpr.2014.105. Процитовано 20 травня 2022.
- Sviatoslav, Voloshynovskiy, et al (PDF).
- Taran, O.; Rezaeifar, S.; Dabrowski, O.; Schlechten, J.; Holotyak, T.; Voloshynovskiy, S. (2017-08). PharmaPack: Mobile fine-grained recognition of pharma packages. 2017 25th European Signal Processing Conference (EUSIPCO). IEEE. doi:10.23919/eusipco.2017.8081543. Процитовано 20 травня 2022.
- Xiang, Li, Pu Li, Xiangyang Long, (14 червня 2020). FenceMask: A Data Augmentation Approach for Pre-extracted Image Features. OCLC 1228414137.
- Diagnosis. Seizures in Dogs and Cats. Hoboken, NJ: John Wiley & Sons, Inc. 1 травня 2015. с. 94—128. ISBN .
- Biggs, Benjamin; Boyne, Oliver; Charles, James; Fitzgibbon, Andrew; Cipolla, Roberto (2020). Who Left the Dogs Out? 3D Animal Reconstruction with Expectation Maximization in the Loop. Computer Vision – ECCV 2020. Cham: Springer International Publishing. с. 195—211. ISBN .
- Stefan, Sharif Razavian, Ali Azizpour, Hossein Sullivan, Josephine Carlsson, (2014). CNN features off-the-shelf : An Astounding Baseline for Recognition. KTH, Datorseende och robotik, CVAP. OCLC 1233686320.
- Ortega, M.; Rui, Y.; Chakrabarti, K.; Porkaew, K.; Mehrotra, S.; Huang, T.S. (Nov.-Dec./1998). Supporting ranked Boolean similarity queries in MARS. IEEE Transactions on Knowledge and Data Engineering. Т. 10, № 6. с. 905—925. doi:10.1109/69.738357. Процитовано 20 травня 2022.
- France), International Conference on Medical Image Computing and Computer-Assisted Intervention (15th : 2012 : Nice, (2012). Medical image computing and computer-assisted intervention--MICCAI 2012. 15th International Conference, Nice, France, October 1-5, 2012, Proceedings. Springer. ISBN . OCLC 811773023.
- Deneke, Tewodors; Haile, Habtegebreil; Lafond, Sebastien; Lilius, Johan (2014-07). Video transcoding time prediction for proactive load balancing. 2014 IEEE International Conference on Multimedia and Expo (ICME). IEEE. doi:10.1109/icme.2014.6890256. Процитовано 20 травня 2022.
- 10.3726/978-3-653-03968-9/3. Inactive DOIs. CrossRef.
- Preparation H1N1, et al.: Influenza vaccination, 2010-2011. PsycEXTRA Dataset. 2010. Процитовано 27 травня 2022.
- author., Barnard, Kobus.,. Computational methods for integrating vision and language. ISBN . OCLC 1127139088.
- Shin, Kwangsoo; Jeon, Junhyeong; Lee, Seungbin; Lim, Boyoung; Jeong, Minsoo; Nang, Jongho (2019). Approach for Video Classification with Multi-label on YouTube-8M Dataset. Lecture Notes in Computer Science. Cham: Springer International Publishing. с. 317—324. ISBN .
- Fisher, Justin; Kil, Hyunyoung; Lee, Dongwon (2006). OpenArXiv = arXiv + RDBMS + web services. Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries - JCDL '06. ACM Press. doi:10.1145/1141753.1141870. Процитовано 20 травня 2022.
- Matthieu., Deru, (2020). Deep Learning mit TensorFlow, Keras und TensorFlow.js. Rheinwerk Verlag. ISBN . OCLC 1204141741.
- Thomee, Bart; Shamma, David A.; Friedland, Gerald; Elizalde, Benjamin; Ni, Karl; Poland, Douglas; Borth, Damian; Li, Li-Jia (25 січня 2016). YFCC100M: the new data in multimedia research. Communications of the ACM (англ.). Т. 59, № 2. с. 64—73. doi:10.1145/2812802. ISSN 0001-0782. Процитовано 20 травня 2022.
- Baveye, Yoann; Dellandrea, Emmanuel; Chamaret, Christel; Liming Chen (1 січня 2015). LIRIS-ACCEDE: A Video Database for Affective Content Analysis. IEEE Transactions on Affective Computing. Т. 6, № 1. с. 43—55. doi:10.1109/taffc.2015.2396531. ISSN 1949-3045. Процитовано 20 травня 2022.
- Baveye, Yoann; Dellandrea, Emmanuel; Chamaret, Christel; Chen, Liming (2015-09). Deep learning vs. kernel methods: Performance for emotion prediction in videos. 2015 International Conference on Affective Computing and Intelligent Interaction (ACII). IEEE. doi:10.1109/acii.2015.7344554. Процитовано 20 травня 2022.
- Zhang, Xiaotong; Cheng, Xingliang; Xu, Mingxing; Zheng, Thomas Fang (2 вересня 2018). Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task. Interspeech 2018. ISCA. doi:10.21437/interspeech.2018-1744. Процитовано 20 травня 2022.
- Johnson, Sam; Everingham, Mark (2010). Clustered Pose and Nonlinear Appearance Models for Human Pose Estimation. Procedings of the British Machine Vision Conference 2010. British Machine Vision Association. doi:10.5244/c.24.12. Процитовано 20 травня 2022.
- Johnson, Sam; Everingham, Mark (2011-06). Learning effective human pose estimation from inaccurate annotation. CVPR 2011. IEEE. doi:10.1109/cvpr.2011.5995318. Процитовано 20 травня 2022.
- Reports of six individual workshops. Nursing Mirror and Midwives Journal. Т. 142, № 2. 8 січня 1976. с. 56—59. ISSN 0143-2524. PMID 1711. Процитовано 20 травня 2022.
- Eduard, Jauhar, Sujay Kumar Turney, Peter Hovy, (11 лютого 2016). TabMCQ: A Dataset of General Knowledge Tables and Multiple-choice Questions. OCLC 1106232721.
- Taj-Eddin, Islam A.T.F.; Afifi, Mahmoud; Korashy, Mostafa; Hamdy, Doha; Nasser, Marwa; Derbaz, Shimaa (2016-07). A new compression technique for surveillance videos: Evaluation using new dataset. 2016 Sixth International Conference on Digital Information and Communication Technology and its Applications (DICTAP). IEEE. с. 159—164. doi:10.1109/DICTAP.2016.7544020. ISBN . Процитовано 20 травня 2022.
- Tabak, Michael A.; Norouzzadeh, Mohammad S.; Wolfson, David W.; Sweeney, Steven J.; Vercauteren, Kurt C.; Snow, Nathan P.; Halseth, Joseph M.; Di Salvo, Paul A.; Lewis, Jesse S. (2019-04). Photopoulou, Theoni (ред.). Machine learning to classify animal species in camera trap images: Applications in ecology. Methods in Ecology and Evolution (англ.). Т. 10, № 4. с. 585—590. doi:10.1111/2041-210X.13120. ISSN 2041-210X. Процитовано 20 травня 2022.
- Taj-Eddin, Islam A. T. F. (2 листопада 2017). Can we see photosynthesis? Magnifying the tiny color changes of plant green leaves using Eulerian video magnification. Journal of Electronic Imaging. Т. 26, № 06. с. 1. doi:10.1117/1.JEI.26.6.060501. ISSN 1017-9909. Процитовано 20 травня 2022.
- author., Danesi, Marcel, 1946-. An anthropology of puzzles : the role of puzzles in the origins and evolution of mind and culture. ISBN . OCLC 1043395986.
- den, McAuley, Julian Targett, Christopher Shi, Qinfeng Hengel, Anton van (15 червня 2015). Image-based Recommendations on Styles and Substitutes. OCLC 1106220231.
- author., Cantarella, Cara,. TEAS review. ISBN . OCLC 1140410786.
- Ganesan, Kavita; Zhai, ChengXiang (2012-04). Opinion-based entity ranking. Information Retrieval (англ.). Т. 15, № 2. с. 116—150. doi:10.1007/s10791-011-9174-8. ISSN 1386-4564. Процитовано 20 травня 2022.
- China), ICSI (Conference) (4th : 2013 : Harbin,. Advances in swarm intelligence : 4th International Conference, ICSI 2013, Harbin, China, June 12-15, 2013, proceedings. ISBN . OCLC 851389904.
- Harper, F. Maxwell; Konstan, Joseph A. (7 січня 2016). The MovieLens Datasets: History and Context. ACM Transactions on Interactive Intelligent Systems (англ.). Т. 5, № 4. с. 1—19. doi:10.1145/2827872. ISSN 2160-6455. Процитовано 20 травня 2022.
- McFee, Brian, et al.
- Koenigstein, Noam; Dror, Gideon; Koren, Yehuda (2011). Yahoo! music recommendations. Proceedings of the fifth ACM conference on Recommender systems - RecSys '11. ACM Press. doi:10.1145/2043932.2043964. Процитовано 20 травня 2022.
- Dezhao., Song, (2014). Towards a linked semantic web: Precisely, comprehensively and scalably linking heterogeneous data in the semantic web. ISBN . OCLC 875517979.
- Tan, Peter J.; Dowe, David L. (2002). MML Inference of Decision Graphs with Multi-way Joins. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg. с. 131—142. ISBN .
- Schneebeli, Célia (23 грудня 2020). Where lol Is: Function and Position of lol Used as a Discourse Marker in YouTube Comments. Discours. № 27. doi:10.4000/discours.10900. ISSN 1963-1723. Процитовано 20 травня 2022.
- Kim, Byung Joo (2012). Lee, Geuk; Howard, Daniel; Ślęzak, Dominik; Hong, You Sik (ред.). A Classifier for Big Data. Convergence and Hybrid Information Technology (англ.). Т. 310. Berlin, Heidelberg: Springer Berlin Heidelberg. с. 505—512. doi:10.1007/978-3-642-32692-9_63. ISBN .
- D., Pérezgonzález, Jose. Predicting Skytrax airport rankings from customer reviews. OCLC 754949191.
- 1959-, Kuncheva, Ludmila I. (Ludmila Ilieva),. Combining pattern classifiers : methods and algorithms. ISBN . OCLC 878051089.
- Luu-Thuy, Luu, Son T. Van Nguyen, Kiet Nguyen, Ngan (25 вересня 2020). Empirical Study of Text Augmentation on Social Media Text in Vietnamese. OCLC 1228434572.
- Lim, Tjen-Sien; Loh, Wei-Yin; Shih, Yu-Shan (1 вересня 2000). A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-Three Old and New Classification Algorithms. Machine Learning (англ.). Т. 40, № 3. с. 203—228. doi:10.1023/A:1007608224229. ISSN 1573-0565. Процитовано 27 травня 2022.
- editor., Gelbukh, Alexander.,. Computational Linguistics and Intelligent Text Processing 17th International Conference, CICLing 2016, Konya, Turkey, April 3-9, 2016, Revised Selected Papers, Part II. ISBN . OCLC 1205194968.
- Buchanan, R. L.; Ayres, J. C. (1975-12). Effect of initial pH on aflatoxin production. Applied Microbiology. Т. 30, № 6. с. 1050—1051. doi:10.1128/am.30.6.1050-1051.1975. ISSN 0003-6919. PMC 376591. PMID 2104. Процитовано 20 травня 2022.
{{}}
: Обслуговування CS1: Сторінки з PMC з іншим форматом () - Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014-12). A Joint Model for Topic-Sentiment Evolution over Time. 2014 IEEE International Conference on Data Mining. IEEE. с. 773—778. doi:10.1109/ICDM.2014.82. ISBN . Процитовано 20 травня 2022.
- Inkster, Gordon (11 червня 2014). First Catch your Corpus: Building a French Undergraduate Corpus from Readily Available Textual Resources. Teaching and Language Corpora. except Chapter 2 Corpus Evidcncc in Language Description © John M, Sindair: Routledge. с. 267—276. ISBN .
- Cyril, Amini, Massih R. Usunier, Nicolas Goutte, (2010). Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization. OCLC 698457052.
- . Архів оригіналу за 5 листопада 2021. Процитовано 27 травня 2022.
- Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France.
- The Examiner - Spam Clickbait Catalog. www.kaggle.com (англ.). Процитовано 20 травня 2022.
- A Million News Headlines. www.kaggle.com (англ.). Процитовано 20 травня 2022.
- List of datasets for machine-learning research. Wikipedia (англ.). 18 травня 2022. Процитовано 20 травня 2022.
- Kulkarni, Rohit (11 листопада 2018), The Historical Reuters News-Wire (англ.), Harvard Dataverse, doi:10.7910/dvn/xdb74w, процитовано 20 травня 2022
- Irish Times - Waxy-Wany News. www.kaggle.com (англ.). Процитовано 20 травня 2022.
- Prahal, Misra, Rishabh Arora, (20 серпня 2019). Sarcasm Detection using Hybrid Neural Network. OCLC 1228361723.
- Khaled., Elleithy, (2010). Technological developments in networking, education and automation. Springer. ISBN . OCLC 646114019.
- Klimt, Bryan, and Yiming Yang (PDF).
- Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (7 червня 2000). An evaluation of Naive Bayesian anti-spam filtering. arXiv:cs/0006013. Процитовано 27 травня 2022.
- Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). The Journal of Machine Learning Research. 7: 2673–2698.
- Almeida, Tiago A.; Hidalgo, José María G.; Yamakami, Akebo (2011). Contributions to the study of SMS spam filtering. Proceedings of the 11th ACM symposium on Document engineering - DocEng '11. ACM Press. doi:10.1145/2034691.2034742. Процитовано 20 травня 2022.
- China), International Conference on Information Technology and Management Science (2012 : Chongqing, (2013). 2012 International Conference on Information Technology and Management Science (ICITMS 2012) proceedings. Springer. ISBN . OCLC 828409296.
- Thorsten, CARNEGIE-MELLON UNIV PITTSBURGH PA DEPT OF COMPUTER SCIENCE Joachims, (1996-03). A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. OCLC 831635005.
- editor., Cao, Jiuwen. Proceedings of ELM-2014 Volume 1 Algorithms and Theories. ISBN . OCLC 1264895874.
- Dooms, Simon (6 травня 2022), MovieTweetings, процитовано 20 травня 2022
- RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV].
- Hu, Yuting; Zheng, Liang; Yang, Yi; Huang, Yongfeng (2018-04). Twitter100k: A Real-World Dataset for Weakly Supervised Cross-Media Retrieval. IEEE Transactions on Multimedia. Т. 20, № 4. с. 927—938. doi:10.1109/tmm.2017.2760101. ISSN 1520-9210. Процитовано 20 травня 2022.
- Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". CS224N Project Report, Stanford. 1: 12.
- Chikersal, Prerna; Poria, Soujanya; Cambria, Erik (2015). SeNTU: Sentiment Analysis of Tweets by Combining a Rule-based Classifier with Supervised Learning. Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015). Association for Computational Linguistics. doi:10.18653/v1/s15-2108. Процитовано 20 травня 2022.
- compilation., Gibson, Rachel, 1968- editor of compilation. Cantijoch, Marta, 1978- editor of compilation. Ward, Stephen, 1965- editor of (2014). Analyzing social media data and web networks. Palgrave Macmillan. ISBN . OCLC 942512517.
- Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." School of Computing, Informatics and Decision Systems Engineering, Arizona State University (2009).
- McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". NIPS. 2012: 2012.
- Lovro., Šubelj,. Network-based statistical comparison of citation topology of bibliographic databases. OCLC 905091598.
- Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT). 2013.
- Abooraig, Raddad; Al-Zu'bi, Shadi; Kanan, Tarek; Hawashin, Bilal; Al Ayoub, Mahmoud; Hmeidi, Ismail (2018-06). Automatic categorization of Arabic articles based on their political orientation. Digital Investigation. Т. 25. с. 24—41. doi:10.1016/j.diin.2018.04.003. ISSN 1742-2876. Процитовано 20 травня 2022.
- Eustache, Kawala, François Douzal-Chouakria, Ahlame Gaussier, Eric Dimert,. Prédictions d'activité dans les réseaux sociaux en ligne. OCLC 862968361.
- Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." 4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques. 2013.
- Xu, Wei; Callison-Burch, Chris; Dolan, Bill (2015). SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT). Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015). Association for Computational Linguistics. doi:10.18653/v1/s15-2001. Процитовано 20 травня 2022.
- Xu, Wei; Ritter, Alan; Callison-Burch, Chris; Dolan, William B.; Ji, Yangfeng (2014-12). Extracting Lexically Divergent Paraphrases from Twitter. Transactions of the Association for Computational Linguistics. Т. 2. с. 435—448. doi:10.1162/tacl_a_00194. ISSN 2307-387X. Процитовано 20 травня 2022.
- Ohio), World Environmental and Water Resources Congress (2013 : Cincinnati,. World Environmental and Water Resources Congress 2013 : showcasing the future : proceedings of the 2013 congress, May 19-23, 2013, Cincinnati, Ohio. OCLC 855593586.
- Southampton, University of, geoparsepy: Geoparsing library to extract and disambiguate locations from text, using OSM database for very high throughputs and no rate limits, процитовано 20 травня 2022
- 1908-2001., Barnouw, Erik, (2001). Media lost and found. Fordham University Press. ISBN . OCLC 45015331.
- Streamlit. huggingface.co. Процитовано 20 травня 2022.
- "Dutch Social media collection". kaggle.com. Retrieved 18 December 2020.
- Adams, Paige; Anand, Pranav; Gehrke, Grant; Gera, Ralucca; Draeger, Marco; Martell, Craig; Squire, Kevin (1 вересня 2008). ReSEARCH: A Requirements Search Engine: Progress Report 2. Процитовано 27 травня 2022.
- Bill, Sordoni, Alessandro Galley, Michel Auli, Michael Brockett, Chris Ji, Yangfeng Mitchell, Margaret Nie, Jian-Yun Gao, Jianfeng Dolan, (22 червня 2015). A Neural Network Approach to Context-Sensitive Generation of Conversational Responses. OCLC 1106220776.
- Westbury Lab Web Site: Reduced Redundancy USENET Corpus Download. www.psych.ualberta.ca. Процитовано 20 травня 2022.
- . Архів оригіналу за 29 червня 2018. Процитовано 27 травня 2022.
- Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Message posted to.
- Lowe, Ryan; Pow, Nissan; Serban, Iulian; Pineau, Joelle (2015). The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems. Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Association for Computational Linguistics. doi:10.18653/v1/w15-4640. Процитовано 20 травня 2022.
- Williams, Jason; Raux, Antoine; Henderson, Matthew (1 квітня 2016). The Dialog State Tracking Challenge Series: A Review. Dialogue & Discourse (амер.). Процитовано 20 травня 2022.
- Kowsari, Kamran; Brown, Donald E.; Heidarysafa, Mojtaba; Jafari Meimandi, Kiana; Gerber, Matthew S.; Barnes, Laura E. (2017-12). HDLTex: Hierarchical Deep Learning for Text Classification. 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE. с. 364—371. doi:10.1109/ICMLA.2017.0-134. ISBN . Процитовано 20 травня 2022.
- Brown, Donald; Heidarysafa, Mojtaba; Jafari Meimandi, Kiana; Gerber, Matthew; Barnes, Laura (15 березня 2018), Web of Science Dataset, Mendeley, doi:10.17632/9rw3vkcfy4.6, процитовано 20 травня 2022
- India), CICLing (Conference) (13th : 2012 : New Delhi, (2012). Computational linguistics and intelligent text processing : 13th International Conference, CICLing 2012, New Delhi, India, March 11-17, 2012, proceedings. Springer. ISBN . OCLC 798421231.
- Nagwani, N K (2015-12). Summarizing large text collection using topic modeling and clustering based on MapReduce framework. Journal of Big Data (англ.). Т. 2, № 1. с. 6. doi:10.1186/s40537-015-0020-5. ISSN 2196-1115. Процитовано 20 травня 2022.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Qing., Tian, (2009). Self-presentation and social interaction on blogs : a structural equation modeling of the uses and gratifications of blogging. OCLC 426169703.
- Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."Computational Models of Natural Argument. 2011.
- Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." Physica A: Statistical Mechanics and its Applications391.16 (2012): 4165–4180.
- Ireland, M. P. (15 грудня 1975). Distribution of lead, zinc and calcium in Dendrobaena rubida (Oligochaeta) living in soil contaminated by base metal mining in Wales. Comparative Biochemistry and Physiology. B, Comparative Biochemistry. Т. 52, № 4. с. 551—555. doi:10.1016/0305-0491(75)90236-9. ISSN 0305-0491. PMID 1206. Процитовано 20 травня 2022.
- Eid, Ahmad; El-Makky, Nagwa; Nagi, Khaled (2019). Towards Machine Comprehension of Arabic Text. Proceedings of the 11th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management. SCITEPRESS - Science and Technology Publications. doi:10.5220/0008065402820288. Процитовано 20 травня 2022.
- Messina, F. S. (1975-11). Caesium ion: antagonism to chlorpromazine- and L-dopa- produced behavioural depression in mice. The Journal of Pharmacy and Pharmacology. Т. 27, № 11. с. 873—874. doi:10.1111/j.2042-7158.1975.tb10236.x. ISSN 0022-3573. PMID 1502. Процитовано 20 травня 2022.
- Diana., Sampson, Geoffrey. McCarthy, (2005). Corpus linguistics : readings in a widening discipline. Continuum. ISBN . OCLC 854965241.
- Collins, Michael (2003-12). Head-Driven Statistical Models for Natural Language Parsing. Computational Linguistics (англ.). Т. 29, № 4. с. 589—637. doi:10.1162/089120103322753356. ISSN 0891-2017. Процитовано 20 травня 2022.
- Mitwirkender, Guyon, Isabelle. Feature extraction foundations and applications. ISBN . OCLC 723990568.
- Technology, Dorothy Curtis and Slav Petrov. Massachusetts Institute of Technology. Dept. of Electrical Engineering and Computer Science. Massachusetts Institute of Technology. Dept. of Electrical Engineering and Computer Science. Lin, Yuri, M. Eng. Massachusetts Institute of (1 березня 2013). Syntactically annotated Ngrams for Google Books. Massachusetts Institute of Technology. OCLC 1135080554.
- Venugopalan, Subhashini; Hendricks, Lisa Anne; Mooney, Raymond; Saenko, Kate (2016). Improving LSTM-based Video Description with Linguistic Knowledge Mined from Text. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. doi:10.18653/v1/d16-1204. Процитовано 20 травня 2022.
- http://www.academia.edu/download/30766398/759.pdf[недоступне посилання]
- Solorio, Thamar; Hasan, Ragib; Mizan, Mainul (2013-06). A Case Study of Sockpuppet Detection in Wikipedia. Proceedings of the Workshop on Language Analysis in Social Media. Association for Computational Linguistics. с. 59—68. Процитовано 27 травня 2022.
- Ciarelli, Patrick Marques; Oliveira, Elias (2009). Agglomeration and Elimination of Terms for Dimensionality Reduction. 2009 Ninth International Conference on Intelligent Systems Design and Applications. IEEE. doi:10.1109/isda.2009.9. Процитовано 20 травня 2022.
- Zhou, Mingyuan, Oscar Hernan Madrid Padilla, and James G. Scott. "Priors for random count matrices derived from a family of negative binomial processes." Journal of the American Statistical Association just-accepted (2015): 00–00.
- Memphis), Association for Consumer Research (U.S.). Conference (35th : 2007 : (2008). Advances in consumer research. Association for Consumer Research. ISBN . OCLC 799995265.
- Mclean, D. M. (1975-10). Mosquito-borne arboviruses in arctic america. Medical Biology. Т. 53, № 5. с. 264—270. ISSN 0302-2137. PMID 1602. Процитовано 20 травня 2022.
- James., Miller, (2018). IBM Watson projects : eight exciting projects that put artificial intelligence into practice for optimal business performance. Packt. ISBN . OCLC 1056912561.
- Soysal, Ömer M. (2015-04). Association rule mining with mostly associated sequential patterns. Expert Systems with Applications (англ.). Т. 42, № 5. с. 2582—2592. doi:10.1016/j.eswa.2014.10.049. Процитовано 20 травня 2022.
- Bowman, Samuel R.; Angeli, Gabor; Potts, Christopher; Manning, Christopher D. (2015). A large annotated corpus for learning natural language inference. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. doi:10.18653/v1/d15-1075. Процитовано 20 травня 2022.
- Jörg., Liling, Tan. Zampieri, Marcos. Ljubešić, Nikola, 1979- Tiedemann,. Merging comparable data sources for the discrimination of similar languages the DSL corpus collection. OCLC 989161600.
- Words Glossed with Definitions from Johnson’s Dictionary. Samuel Johnson. Yale University Press. 5 січня 2021. с. 815—818.
- Elsahar, Hady; Vougiouklis, Pavlos; Remaci, Arslen; Gravier, Christophe; Hare, Jonathon; Laforest, Frederique; Simperl, Elena (2018-05). T-REx: A Large Scale Alignment of Natural Language with Knowledge Base Triples. Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). European Language Resources Association (ELRA). Процитовано 20 травня 2022.
- Rothschild, M.; Schlein, J. (30 жовтня 1975). The jumping mechanism of Xenopsylla cheopis. I. Exoskeletal structures and musculature. Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences. Т. 271, № 914. с. 457—490. doi:10.1098/rstb.1975.0062. ISSN 0962-8436. PMID 1804. Процитовано 20 травня 2022.
- Llewellyn, Dawn (18 січня 2018). ‘But I Still Read The Bible!’. Oxford Scholarship Online. doi:10.1093/oso/9780198722618.003.0032. Процитовано 20 травня 2022.
- Nangia, Nikita; Bowman, Samuel R. (2019). Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics. doi:10.18653/v1/p19-1449. Процитовано 20 травня 2022.
- Lam, Quan Hoang; Le, Quang Duy; Nguyen, Van Kiet; Nguyen, Ngan Luu-Thuy (2020). UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning. Computational Collective Intelligence. Cham: Springer International Publishing. с. 730—742. ISBN .
- To, Huy Quoc; Nguyen, Kiet Van; Nguyen, Ngan Luu-Thuy; Nguyen, Anh Gia-Tuan (18 грудня 2020). Gender Prediction Based on Vietnamese Names with Machine Learning Techniques. Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval. ACM. doi:10.1145/3443279.3443309. Процитовано 20 травня 2022.
- Manning, H. L. (1975-12). New medium for isolating iron-oxidizing and heterotrophic acidophilic bacteria from acid mine drainage. Applied Microbiology. Т. 30, № 6. с. 1010—1016. doi:10.1128/am.30.6.1010-1016.1975. ISSN 0003-6919. PMC 376583. PMID 2103. Процитовано 20 травня 2022.
{{}}
: Обслуговування CS1: Сторінки з PMC з іншим форматом () - The Pile. pile.eleuther.ai. Процитовано 27 травня 2022.
- JSON Lines. jsonlines.org. Процитовано 27 травня 2022.
- Görts, C. P. (1975). Role of acetate metabolism in sporulation of Saccharomyces carlsbergensis. Antonie Van Leeuwenhoek. Т. 41, № 3. с. 265—271. doi:10.1007/BF02565062. ISSN 0003-6072. PMID 2101. Процитовано 20 травня 2022.
- The Pile. pile.eleuther.ai. Процитовано 20 травня 2022.
- M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen, and E. Dupoux (2015). "The Zero Resource Speech Challenge 2015," in INTERSPEECH-2015.
- M. Versteegh, X. Anguera, A. Jansen, and E. Dupoux, (2016) (PDF).
- Sakar, Betul Erdogdu; Isenkul, M. Erdem; Sakar, C. Okan; Sertbas, Ahmet; Gurgen, Fikret; Delil, Sakir; Apaydin, Hulya; Kursun, Olcay (2013-07). Collection and Analysis of a Parkinson Speech Dataset With Multiple Types of Sound Recordings. IEEE Journal of Biomedical and Health Informatics. Т. 17, № 4. с. 828—834. doi:10.1109/JBHI.2013.2245674. ISSN 2168-2208. Процитовано 26 травня 2022.
- Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014 (PDF).
- Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on. Vol. 5. IEEE, 2010.
- Maaten, Laurens (PDF).
- Cole, Ronald; Fanty, Mark (1990). Spoken Letter Recognition. Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27,1990. Процитовано 26 травня 2022.
- Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008) (PDF).
- Kudo, Mineichi; Toyama, Jun; Shimbo, Masaru (1 листопада 1999). Multidimensional curve classification using passing-through regions. Pattern Recognition Letters (англ.). Т. 20, № 11. с. 1103—1111. doi:10.1016/S0167-8655(99)00077-X. ISSN 0167-8655. Процитовано 26 травня 2022.
- Jaeger, Herbert; Lukoševičius, Mantas; Popovici, Dan; Siewert, Udo (1 квітня 2007). Optimization and applications of echo state networks with leaky- integrator neurons. Neural Networks (англ.). Т. 20, № 3. с. 335—352. doi:10.1016/j.neunet.2007.04.016. ISSN 0893-6080. Процитовано 26 травня 2022.
- Tsanas, Athanasios; Little, Max A.; McSharry, Patrick E.; Ramig, Lorraine O. (2010-04). Accurate Telemonitoring of Parkinson's Disease Progression by Noninvasive Speech Tests. IEEE Transactions on Biomedical Engineering. Т. 57, № 4. с. 884—893. doi:10.1109/TBME.2009.2036000. ISSN 1558-2531. Процитовано 26 травня 2022.
- Clifford, Gari D.; Clifton, David (18 лютого 2012). Wireless Technology in Disease Management and Medicine. Annual Review of Medicine. Т. 63, № 1. с. 479—492. doi:10.1146/annurev-med-051210-114650. ISSN 0066-4219. Процитовано 26 травня 2022.
- Zue, Victor; Seneff, Stephanie; Glass, James (1 серпня 1990). Speech database development at MIT: Timit and beyond. Speech Communication (англ.). Т. 9, № 4. с. 351—356. doi:10.1016/0167-6393(90)90010-7. ISSN 0167-6393. Процитовано 26 травня 2022.
- Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on. Vol. 2. IEEE, 1993.
- University of Southampton. Wikipedia (англ.). 15 травня 2022. Процитовано 27 травня 2022.
- Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M. (5 березня 2020). Common Voice: A Massivel
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Nabori danih vikoristovuyutsya dlya doslidzhennya mashinnogo navchannya posilannya na nih vikoristovuyutsya v naukovih akademichnih stattyah Nabori danih ye nevid yemnoyu chastinoyu galuzi mashinnogo navchannya Znachni dosyagnennya v cij galuzi mozhut buti rezultatom progresu v algoritmah navchannya napriklad deep learning komp yuternogo obladnannya ta sho ne tak ochevidno dostupnosti visokoyakisnih naboriv navchalnih danih Visokoyakisni markovani navchalni nabori danih dlya algoritmiv mashinnogo kerovanogo navchannya i napivkerovane navchannya zazvichaj vazhko ta dorogo stvoriti cherez veliku kilkist chasu neobhidnogo dlya poznachennya danih Hocha yih ne potribno poznachati visokoyakisni nabori danih dlya napivkerovanogo navchannya takozh mozhe buti skladnim i dorogim u stvorenni Nabori danih oriyentovani zdebilshogo na virishennya zadach klasifikaciyi ta rozpiznavannya i mistyat ocifrovani zobrazhennya video teksti signali zvuki tosho Danni zobrazhennyaCi nabori danih skladayutsya perevazhno iz zobrazhen abo video vikoristovuyutsya dlya takih zavdan yak viyavlyannya ob yektiv rozpiznavannya oblichchya ta en Rozpiznavannya osib U komp yuternomu bachenni zobrazhennya oblich shiroko vikoristovuyutsya dlya rozrobki sistem yaki rozpiznayut oblichchya zajmayutsya obnaruzhennyam oblyach ta bagatoh inshih proektiv Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Aff Wild 298 video z 200 osobami 1 250 000 anotovanih vruchnu zobrazhen anotovani z tochki zoru afektu rozmiriv valentnist zbudzhennya obstanovka v dikij prirodi baza koloriv rizni dozvoli serednye 640x360 viyavleni oblichchya oriyentiri oblichchya ta anotaciyi valentno zbudzhennya Priblizno 1 250 000 zobrazhen z anotaciyami vruchnu video vizualni audiomodalnosti rozpiznavannya afektu ocinka valentnosti zbudzhennya 2017 CVPR IJCV D Kollias et al Aff Wild2 558 video z 458 osobami 2 800 000 zobrazhen anotovanih vruchnu anotovani za i kategorichnim afektom 7 osnovnih viraziv nejtralnij shastya smutok zdivuvannya strah ogida gniv ii vimirnij afekt valentnist zbudzhennya iii odinici diyi AUs 1 2 4 6 12 15 20 25 obstanovka v dikij prirodi baza koloriv rizni dozvoli serednye 1030x630 viyavleni oblichchya viyavleni ta virivnyani oblichchya ta anotaciyi Priblizno 2 800 000 zobrazhen z anotaciyami vruchnu video vizualni audiomodalnosti rozpiznavannya afektu ocinka valentnosti zbudzhennya bazova klasifikaciya viraziv viyavlennya odinic diyi 2019 BMVC FG D Kollias et al en 11338 zobrazhen 1199 osib u riznih poziciyah i v riznij chas Nemaye 11 338 Zobrazhennya Klasifikaciya rozpiznavannya oblichchya 2003 United States Department of Defense Ryerson Audio Visual Database of Emotional Speech and Song RAVDESS 7356 video ta audiozapisiv 24 profesijnih aktoriv Po 8 emocij u dvoh intensivnosti Fajli poznacheni virazom Ocinki perevirki sprijnyattya nadani 319 ocinyuvachami 7 356 Video zvukovi fajli Klasifikaciya rozpiznavannya oblichchya rozpiznavannya golosu 2018 S R Livingstone and F A Russo SCFace Kolorovi zobrazhennya oblich pid riznimi kutami Roztashuvannya vidilenih ris oblichchya Navedeni koordinati ob yektiv 4 160 Zobrazhennya tekst Klasifikaciya rozpiznavannya oblichchya 2011 M Grgic et al Yale Face Database Oblichchya 15 osib u 11 riznih virazah Mitki viraziv 165 Zobrazhennya Rozpiznavannya oblichchya 1997 J Yang et al Cohn Kanade AU Coded Expression Database Velika baza danih zobrazhen z mitkami dlya viraziv Vidstezhennya pevnih ris oblichchya 500 poslidovnostej Zobrazhennya tekst Analiz virazu oblichchya 2000 T Kanade et al JAFFE Facial Expression Database 213 zobrazhen iz 7 virazami oblichchya 6 osnovnih viraziv oblichchya 1 nejtralnij stvorenih 10 yaponskimi modelyami Zobrazhennya obrizayutsya do oblasti oblichchya Vklyuchaye dani semantichnih ocinok na etiketkah emocij 213 Zobrazhennya tekst Rozpiznavannya virazu oblichchya 1998 Lyons Kamachi Gyoba FaceScrub Zobrazhennya publichnih diyachiv vidaleni z poshuku zobrazhen Nazva ta m zh anotaciya 107 818 Zobrazhennya tekst Rozpiznavannya oblichchya 2014 H Ng et al BioID Face Database Zobrazhennya oblich iz poznachenimi polozhennyami ochej Vstanovit polozhennya ochej vruchnu 1521 Zobrazhennya tekst Rozpiznavannya oblichchya 2001 BioID Skin Segmentation Dataset Dovilno vidibrani znachennya koloriv iz zobrazhen oblich B G R znachennya vityagnuti 245 057 Tekst Segmentaciya klasifikaciya 2012 R Bhatt Bosphorus Baza danih 3D zobrazhen oblichchya 34 odinici diyi ta 6 viraziv poznachenih Poznacheno 24 oriyentiri na oblichchi 4652 Zobrazhennya tekst Rozpiznavannya oblich klasifikaciya 2008 A Savran et al UOY 3D Face nejtralne oblichchya 5 viraziv gniv shastya smutok ochi zakriti brovi pidnyati markuvannya 5250 Zobrazhennya tekst Rozpiznavannya oblich klasifikaciya 2004 en CASIA Virazi gniv posmishka smih zdivuvannya zakriti ochi Nemaye 4624 Zobrazhennya tekst Rozpiznavannya oblich klasifikaciya 2007 en CASIA Virazi Zlist Vidraza Strah Shastya Smutok Podiv Nemaye 480 Video z anotovanim vidimim spektrom i blizhnim infrachervonim viprominyuvannyam znimaye zi shvidkistyu 25 kadriv v sekundu Rozpiznavannya oblich klasifikaciya 2011 Zhao G et al BU 3DFE nejtralne oblichchya i 6 viraziv gniv shastya smutok zdivuvannya ogida strah 4 rivni Vilucheno 3D zobrazhennya Nemaye 2500 Zobrazhennya tekst Rozpiznavannya virazu oblichchya klasifikaciya 2006 Binghamton University en Dataset Do 22 zrazkiv dlya kozhnogo predmeta Virazi gniv shastya smutok zdivuvannya ogida rozdutij 3D dani Nemaye 4007 Zobrazhennya tekst Rozpiznavannya oblich klasifikaciya 2004 National Institute of Standards and Technology Gavabdb Do 61 zrazka dlya kozhnogo predmeta Virazi oblichchya nejtralni posmishka frontalnij akcentovanij smih frontalnij dovilnij zhest 3D zobrazhennya Nemaye 549 Zobrazhennya tekst Rozpiznavannya oblich klasifikaciya 2008 en 3D RMA Do 100 predmetiv virazi perevazhno nejtralni Takozh kilka poz Nemaye 9971 Zobrazhennya tekst Rozpiznavannya oblich klasifikaciya 2004 Royal Military Academy Belgium SoF 112 osib 66 cholovikiv i 46 zhinok nosyat okulyari za riznih umov osvitlennya Nabir sintetichnih filtriv rozmittya oklyuziyi shumi ta posterizaciya riznogo rivnya skladnosti 42 592 2 662 originalne zobrazhennya 16 sintetichnih zobrazhen Zobrazhennya fajl Mat Klasifikaciya za stattyu rozpiznavannya oblich rozpiznavannya oblichchya ocinka viku ta viyavlennya okulyariv 2017 Afifi M et al IMDB WIKI IMDB i Vikipediya zobrazhennya oblichchya z mitkami stati ta viku Nemaye 523 051 Zobrazhennya Genderna klasifikaciya rozpiznavannya oblichchya rozpiznavannya oblichchya ocinka viku 2015 R Rothe R Timofte L V Gool Rozpiznavannya dij Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo TV Human Interaction Dataset Video z 20 riznih televizijnih shou dlya prognozuvannya socialnih dij rukostiskannya p yat obijmi pocilunok Nemaye 6 766 videoklipiv videoklip Prognoz diyi 2013 Patron Perez A et al Berkeley Multimodal Human Action Database MHAD Zapisi odniyeyi osobi yaka vikonuye 12 dij Poperednya obrobka MoCap 660 zrazkiv dij 8 Phase Space Motion Capture 2 stereokameri 4 chotirikameri 6 akselerometriv 4 mikrofoni Klasifikaciya dij 2013 Ofli F et al THUMOS Dataset Velikij nabir video danih dlya klasifikaciyi dij Diyi klasifikovani ta poznacheni 45 mln kadriv video Video zobrazhennya tekst Klasifikaciya viyavlennya diyi 2013 Y Jiang et al MEXAction2 Nabir videodanih dlya lokalizaciyi diyi ta viyavlennya Diyi klasifikovani ta poznacheni 1000 Video Viyavlennya diyi 2014 Stoian et al Viyavlennya ta rozpiznavannya ob yektiv Nazva Opis Obrobka Rozmyr Format Zadachi Stvorennya Posilannya Dzherelo Visual Genome Zobrazhennya ta yih opis 108 000 Zobrazhennya tekst Pidpisi do zobrazhen 2016 R Krishna et al Berkeley 3 D Object Dataset 849 zobrazhen zroblenih u 75 riznih scenah Poznacheno blizko 50 riznih klasiv ob yektiv Obmezhuvalni ramki ta markuvannya ob yektiv 849 Markovani zobrazhennya tekst Rozpiznavannya ob yektiv 2014 A Janoch et al Berkeley Segmentation Data Set and Benchmarks 500 BSDS500 500 prirodnih zobrazhen chitko rozdilenih na rozrizneni potyagi pidmnozhini perevirki ta testuvannya kod porivnyalnogo analizu Na osnovi BSDS300 Kozhne zobrazhennya segmentovano v serednomu za p yatma riznimi predmetami 500 Segmentovani zobrazhennya Viyavlennya konturiv ta iyerarhichna segmentaciya zobrazhennya 2011 University of California Berkeley Microsoft Common Objects in Context COCO skladni pobutovi sceni zvichajnih predmetiv u yih prirodnomu konteksti Vidilennya markuvannya ta klasifikaciya ob yektiv na 91 tip ob yekta 2 500 000 Markovani zobrazhennya tekst Rozpiznavannya ob yektiv 2015 T Lin et al SUN Database Duzhe velika baza danih rozpiznavannya scen i ob yektiv Miscya ta predmeti poznachayutsya Ob yekti segmentovani 131 067 Zobrazhennya tekst Rozpiznavannya ob yektiv rozpiznavannya sceni 2014 J Xiao et al en Labeled object image database used in the en Poznacheni ob yekti obmezhuvalni ramki opisovi slova funkciyi SIFT 14 197 122 Zobrazhennya tekst Rozpiznavannya ob yektiv rozpiznavannya sceni 2009 2014 J Deng et al Open Images Velikij nabir zobrazhen iz licenziyeyu CC BY 2 0 z mitkami na rivni zobrazhennya ta obmezhuyuchimi ramkami sho ohoplyuyut tisyachi klasiv Mitki na rivni zobrazhennya obmezhuvalni ramki 9 178 275 Zobrazhennya tekst Klasifikaciya rozpiznavannya ob yektiv 2017 TV News Channel Commercial Detection Dataset Televizijna reklama ta vipusk novin Funkciyi audio ta video otrimani z fotografij 129 685 Tekst Klasterizaciya klasifikaciya 2015 P Guha et al Statlog Image Segmentation Dataset Primirniki buli vidibrani vipadkovim chinom z bazi danih iz 7 zovnishnih zobrazhen i segmentovani vruchnu shob stvoriti klasifikaciyu dlya kozhnogo pikselya Rozrahovano bagato funkcij 2310 Tekst Klasifikaciya 1990 en en Zobrazhennya predmetiv Poznacheno detalni konturi ob yekta 9146 Zobrazhennya Klasifikaciya rozpiznavannya ob yektiv 2003 F Li et al Caltech 256 Velikij nabir zobrazhen dlya klasifikaciyi ob yektiv Zobrazhennya rozbiti na kategoriyi ta vidsortovani vruchnu 30 607 Zobrazhennya tekst Klasifikaciya viyavlennya ob yektiv 2007 G Griffin et al SIFT10M Dataset Funkciyi SIFT naboru danih Caltech 256 Rozshirene viluchennya funkcij SIFT 11 164 866 Tekst Klasifikaciya viyavlennya ob yektiv 2016 X Fu et al LabelMe Komentovani zobrazhennya scen Okresleni ob yekti 187 240 Zobrazhennya tekst Klasifikaciya viyavlennya ob yektiv 2005 MIT Computer Science and Artificial Intelligence Laboratory Cityscapes Dataset Stereo videosekciyi zapisani u vulichnih scenah z anotaciyami na rivni pikseliv Metadani takozh vklyucheni Segmentaciya ta markuvannya na rivni pikseliv 25 000 Zobrazhennya tekst Klasifikaciya viyavlennya ob yektiv 2016 Daimler AG et al PASCAL VOC Dataset Velika kilkist zobrazhen dlya zavdan klasifikaciyi Markuvannya obmezhuvalna ramka v komplekti 500 000 Zobrazhennya tekst Klasifikaciya viyavlennya ob yektiv 2010 M Everingham et al en Dataset Bagato malenkih zobrazhen z nizkoyu rozdilnoyu zdatnistyu 10 klasiv ob yektiv Klasi poznacheni stvoreni rozdili navchalnih naboriv 60 000 Zobrazhennya Klasifikaciya 2009 A Krizhevsky et al CIFAR 100 Dataset Yak i CIFAR 10 vishe ale nadano 100 klasiv ob yektiv Klasi poznacheni stvoreni rozdili navchalnih naboriv 60 000 Zobrazhennya Klasifikaciya 2009 A Krizhevsky et al CINIC 10 Dataset Yedinij vnesok CIFAR 10 i Imagenet z 10 klasami i 3 rozdilami Bilshe za CIFAR 10 Klasi poznacheni navchannya perevirka stvoreni rozdili testovih naboriv 270 000 Zobrazhennya Klasifikaciya 2018 Luke N Darlow Elliot J Crowley Antreas Antoniou Amos J Storkey Fashion MNIST Baza danih modnih tovariv shozha na MNIST Klasi poznacheni stvoreni rozdili navchalnih naboriv 60 000 Zobrazhennya Klasifikaciya 2017 Zalando SE notMNIST Deyaki zagalnodostupni shrifti ta vityagnuti z nih glifi shob zrobiti nabir danih podibnim do MNIST Isnuye 10 klasiv z literami A J vzyatimi z riznih shriftiv Deyaki zahalʹnodostupni Klasi poznacheni stvoreni rozdili navchalnih naboriv 500 000 Zobrazhennya Klasifikaciya 2011 Yaroslav Bulatov German Traffic Sign Detection Benchmark Dataset Zobrazhennya z transportnih zasobiv dorozhnih znakiv na nimeckih dorogah Ci znaki vidpovidayut standartam OON i tomu taki zh yak i v inshih krayinah Znaki z markuvannyam vruchnu 900 Zobrazhennya Klasifikaciya 2013 S Houben et al KITTI Vision Benchmark Dataset Avtonomni transportni zasobi sho ruhalisya mistom serednogo rozmiru fiksuvali zobrazhennya riznih rajoniv za dopomogoyu kamer i lazernih skaneriv Bagato testiv otrimanih z danih gt 100 GB of data Zobrazhennya tekst Klasifikaciya viyavlennya ob yektiv 2012 A Geiger et al Linnaeus 5 dataset Zobrazhennya 5 klasiv predmetiv Klasi poznacheni stvoreni rozdili navchalnih naboriv 8000 Zobrazhennya Klasifikaciya 2017 Chaladze amp Kalatozishvili FieldSAFE Multimodalnij nabir danih dlya viyavlennya pereshkod u silskomu gospodarstvi vklyuchayuchi stereokameru teplovizijnu kameru veb kameru 360 gradusnu kameru lidar radar i tochnu lokalizaciyu Klasi poznacheni geografichno gt 400 GB of data Zobrazhennya ta trivimirni hmari tochok Klasifikaciya viyavlennya ob yektiv lokalizaciya ob yektiv 2017 M Kragh et al 11K Hands 11 076 zobrazhen ruk 1600 x 1200 pikseliv 190 sub yektiv riznogo viku vid 18 do 75 rokiv dlya rozpiznavannya stati ta biometrichnoyi identifikaciyi Nemaye 11 076 hand images Zobrazhennya ta fajli etiketok mat txt i csv Rozpiznavannya stati ta biometrichna identifikaciya 2017 M Afifi CORe50 Specialno rozroblena dlya bezperervnogo dovichnogo navchannya ta rozpiznavannya ob yektiv ce kolekciya z ponad 500 video 30 kadriv v sekundu iz 50 domashnimi ob yektami yaki nalezhat do 10 riznih kategorij Poznacheni klasi rozdili navchalnih naboriv stvoreni na osnovi 3 h shlyahovogo testu dlya kilkoh zapuskiv 164 866 RBG D images zobrazhennya png abo pkl ta fajli etiketok pkl txt tsv Klasifikaciya rozpiznavannya ob yektiv 2017 V Lomonaco and D Maltoni OpenLORIS Object Nabir danih Lifelong Continual Robotic Vision OpenLORIS Object zibranij realnimi robotami vstanovlenimi z kilkoma datchikami visokoyi rozdilnoyi zdatnosti vklyuchaye kolekciyu z 121 ekzemplyara ob yektiv 1 a versiya naboru danih 40 kategorij predmetiv povsyakdennoyi potrebi v 20 scenah U nabori danih retelno vrahovano 4 faktori seredovisha dlya riznih scen vklyuchayuchi osvitlennya oklyuziyu rozmir u pikselyah ob yekta ta bezlad i chitko viznachaye rivni skladnosti kozhnogo faktora Poznacheni klasi rozdili naboru dlya navchannya perevirki testuvannya stvorenih za dopomogoyu scenariyiv testu 1 106 424 zobrazhennya RBG D zobrazhennya png i pkl ta fajli etiketok pkl Klasifikaciya rozpiznavannya ob yektiv protyagom usogo zhittya robototehnichne bachennya 2019 Q She et al THz and thermal video data set Cej multispektralnij nabir danih vklyuchaye teragercovi teplovi vizualni blizhni infrachervoni ta trivimirni video ob yektiv prihovanih pid odyagom lyudej Nadayutsya tablici 3D poshuku yaki dozvolyayut proektuvati zobrazhennya na trivimirni hmari tochok More than 20 videos The duration of each video is about 85 seconds about 345 frames AP2J Eksperimenti z viyavlennyam prihovanih ob yektiv 2019 Alexei A Morozov and Olga S Sushkova Pocherk i rozpiznavannya simvoliv Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Artificial Characters Dataset Shtuchno zgenerovani dani sho opisuyut strukturu 10 velikih anglijskih liter Koordinati namalovanih linij zadani yak cili chisla Rizni inshi osoblivosti 6000 Tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 1992 H Guvenir et al Letter Dataset Verhni drukovani literi Z usih zobrazhen vityaguyetsya 17 funkcij 20 000 Tekst OCR klasifikaciya 1991 D Slate et al CASIA HWDB Baza danih rukopisnih kitajskih simvoliv oflajn 3755 klasiv u nabori simvoliv en Zobrazhennya v siromu kolori z fonovimi pikselyami poznacheni yak 255 1 172 907 Zobrazhennya tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 2009 CASIA CASIA OLHWDB Baza danih rukopisnih kitajskih iyeroglifiv onlajn zibrana za dopomogoyu ruchki Anoto na paperi 3755 klasiv u nabori simvoliv en Nadaye poslidovnosti koordinat shtrihiv 1 174 364 Zobrazhennya tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 2009 CASIA Character Trajectories Dataset Markovani zrazki trayektorij kinchika pera dlya lyudej yaki pishut prosti simvoli 3 dimensional pen tip velocity trajectory matrix for each sample 2858 Tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 2008 B Williams Chars74K Dataset Rozpiznavannya simvoliv u prirodnih zobrazhennyah simvoliv yaki vikoristovuyutsya yak anglijskoyu tak i kannadskoyu Trivimirna matricya trayektorij shvidkosti kinchika pera dlya kozhnogo zrazka 74 107 Rozpiznavannya simvoliv rozpiznavannya rukopisnogo tekstu OCR klasifikaciya 2009 T de Campos EMNIST dataset Rukopisni simvoli vid 3600 avtoriv Pohidne vid specialnoyi bazi danih NIST 19 Peretvoreno na zobrazhennya rozmirom 28x28 pikseliv sho vidpovidayut naboru danih MNIST 800 000 Zobrazhennya rozpiznavannya simvoliv klasifikaciya rozpiznavannya pocherku 2016 EMNIST dataset Documentation Gregory Cohen et al UJI Pen Characters Dataset Izolovani rukopisni simvoli Dano koordinati polozhennya pera yak simvoli 11 640 Tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 2009 F Prat et al Gisette Dataset Zrazki pocherku z 4 i 9 simvoliv yaki chasto plutayut Funkciyi vityagnuti z zobrazhen rozdileni na train test rozmir zobrazhen rukopisnogo vvedennya normalizovano 13 500 Zobrazhennya tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 2003 Yann LeCun et al Omniglot dataset 1623 riznih rukopisnih simvoli z 50 riznih alfavitiv Markovani vruchnu 38 300 Zobrazhennya tekst Klasifikaciya odnorazove navchannya 2015 American Association for the Advancement of Science MNIST database Baza danih rukopisnih cifr Markovani vruchnu 60 000 Zobrazhennya tekst Klasifikaciya 1998 National Institute of Standards and Technology Optical Recognition of Handwritten Digits Dataset Normovani rastrovi zobrazhennya rukopisnih danih Rozmir normalizovano ta zistavleno na rastrovi zobrazhennya 5620 Zobrazhennya tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 1998 E Alpaydin et al Pen Based Recognition of Handwritten Digits Dataset Rukopisni cifri na elektronnij ruchci plansheti Vityaguyutsya vektori oznak dlya rivnomirnogo rozmishennya 10 992 Zobrazhennya tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 1998 E Alpaydin et al Semeion Handwritten Digit Dataset Rukopisni cifri vid 80 osib Usi rukopisni cifri normalizovano za rozmirom i vidobrazheno v odnij sitci 1593 Zobrazhennya tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 2008 T Srl HASYv2 Rukopisni matematichni simvoli Usi simvoli vidcentrovani ta mayut rozmir 32px x 32px 168233 Zobrazhennya tekst Klasifikaciya 2017 Martin Thoma Noisy Handwritten Bangla Dataset Vklyuchaye nabir danih rukopisnih cifr 10 klasiv i bazovij nabir danih simvoliv 50 klasiv kozhen nabir danih maye tri tipi shumu bilij gausiv rozmittya v rusi ta znizhenu kontrastnist Usi zobrazhennya vidcentrovani ta mayut rozmir 32x32 Numeral Dataset 23330 Character Dataset 76000 Zobrazhennya tekst Rozpiznavannya rukopisnogo tekstu klasifikaciya 2017 M Karki et al Aerofotoznimki Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo iSAID Instance Segmentation in Aerial Images Dataset Tochna anotaciya na rivni ekzemplyara vikonana profesijnimi anotatorami perevirena ta pidtverdzhena ekspertnimi anotatorami yaki vidpovidayut chitko viznachenim instrukciyam 655 451 15 classes Zobrazhennya jpg json Povitryana klasifikaciya viyavlennya ob yektiv segmentaciya ekzemplyariv 2019 Syed Waqas Zamir Aditya Arora Akshita Gupta Salman Khan Guolei Sun Fahad Shahbaz Khan Fan Zhu Ling Shao Gui Song Xia Xiang Bai Aerial Image Segmentation Dataset 80 aerofotoznimkiv visokoyi rozdilnoyi zdatnosti z prostorovoyu rozdilnoyu zdatnistyu vid 0 3 do 1 0 Zobrazhennya segmentovani vruchnu 80 Zobrazhennya Povitryana klasifikaciya viyavlennya ob yektiv 2013 J Yuan et al KIT AIS Data Set Kilka poznachenih naboriv navchalnih ta ocinyuvalnih danih aerofotoznimkiv natovpu Zobrazhennya poznacheni vruchnu shob pokazuvati shlyahi lyudej cherez natovp 150 Zobrazhennya z dorizhkami Vidstezhennya lyudej povitryane sposterezhennya 2012 M Butenuth et al Wilt Dataset Dani distancijnogo zonduvannya hvorih derev ta inshogo gruntovogo pokrivu Vilucheno rizni funkciyi 4899 Zobrazhennya Klasifikaciya viyavlennya povitryanih ob yektiv 2014 B Johnson MASATI dataset Morski sceni optichnih aerofotoznimkiv iz vidimogo spektru Vin mistit kolorovi zobrazhennya v dinamichnih morskih seredovishah kozhne zobrazhennya mozhe mistiti odnu abo kilka cilej za riznih pogodnih umov i umov osvitlennya Obmezhuvalni ramki ta markuvannya ob yektiv 7389 Zobrazhennya Klasifikaciya viyavlennya povitryanih ob yektiv 2018 A J Gallego et al Forest Type Mapping Dataset Suputnikovi zobrazhennya lisiv Yaponiyi Vilucheno diapazoni dovzhin hvili zobrazhennya 326 Tekst Klasifikaciya 2015 B Johnson en Komentovani zobrazhennya nakladnih Zobrazhennya z kilkoma ob yektami Ponad 30 anotacij i ponad 60 statistichnih danih yaki opisuyut cil u konteksti zobrazhennya 1000 Zobrazhennya tekst Klasifikaciya 2009 F Tanner et al SpaceNet SpaceNet ce sukupnist komercijnih suputnikovih zobrazhen i poznachenih navchalnih danih Fajli GeoTiff i GeoJSON sho mistyat slidi budivli gt 17533 Zobrazhennya Klasifikaciya identifikaciya ob yekta 2017 en UC Merced Land Use Dataset Ci zobrazhennya buli vruchnu vityagnuti z velikih zobrazhen iz kolekciyi zobrazhen miskih rajoniv Nacionalnoyi karti USGS dlya riznih miskih rajoniv SShA Ce 21 klasnij nabir zobrazhen zemlekoristuvannya priznachenij dlya doslidnickih cilej Dlya kozhnogo klasu ye 100 zobrazhen 2 100 Zobrazhennya fishki rozmirom 256x256 30 sm 1 fut GSD Klasifikaciya zemelnogo pokrivu 2010 Yi Yang and Shawn Newsam SAT 4 Airborne Dataset Zobrazhennya bulo vityagnuto z naboru danih Nacionalnoyi programi zobrazhennya silskogo gospodarstva NAIP SAT 4 maye chotiri shiroki klasi gruntovogo pokrivu vklyuchaye bezplidni zemli dereva pasovisha ta klas yakij skladayetsya z usih klasiv gruntovogo pokrivu krim troh vishezaznachenih 500 000 Zobrazhennya Klasifikaciya 2015 S Basu et al SAT 6 Airborne Dataset Zobrazhennya bulo vityagnuto z naboru danih Nacionalnoyi programi zobrazhennya silskogo gospodarstva NAIP SAT 6 maye shist shirokih klasiv gruntovogo pokrivu vklyuchaye bezplidni zemli dereva pasovisha dorogi budivli ta vodojmi 405 000 Zobrazhennya Klasifikaciya 2015 S Basu et al Inshi zobrazhennya Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo NRC GAMMA Novij etalonnij nabir zobrazhen gazovogo lichilnika Zhodnogo 28 883 Zobrazhennya etiketka Klasifikaciya 2021 A Ebadi P Paul S Auer amp S Tremblay The SUPATLANTIQUE dataset Zobrazhennya vidskanovanih oficijnih dokumentiv ta dokumentiv Vikipediyi Zhodnogo 4908 TIFF pdf Identifikaciya vihidnogo pristroyu viyavlennya pidrobok klasifikaciya 2020 C Ben Rabah et al Density functional theory quantum simulations of graphene Poznacheni zobrazhennya vihidnih danih dlya modelyuvannya grafenu Neobrobleni dani u formati HDF5 i vihidni mitki z kvantovogo modelyuvannya teoriyi funkcionalnoyi shilnosti 60744 testovih i 501473 navchalnih fajliv Markovani zobrazhennya Regresiya 2019 K Mills amp I Tamblyn Quantum simulations of an electron in a two dimensional potential well Poznacheni zobrazhennya vihidnih danih dlya modelyuvannya 2d kvantovoyi mehaniki Neobrobleni dani u formati HDF5 ta vihidni mitki z kvantovogo modelyuvannya 1 3 miljona zobrazhen Markovani zobrazhennya Regresiya 2017 K Mills M A Spanner amp I Tamblyn MPII Cooking Activities Dataset Video ta zobrazhennya riznih kulinarnih zahodiv Shlyahi ta napryamki diyalnosti mitki dribnozerniste poznachennya ruhu klas aktivnosti viluchennya ta markuvannya neruhomih zobrazhen 881 755 frames Markovani video zobrazhennya tekst Klasifikaciya 2012 M Rohrbach et al FAMOS Dataset 5000 unikalnih mikrostruktur vsi zrazki buli otrimani 3 razi za dopomogoyu dvoh riznih kamer Originalni fajli PNG vidsortovani za kameroyu a potim za pridbannyam Fajli danih MATLAB z odniyeyu matriceyu 16384 raziv 5000 na kameru na oderzhannya 30 000 Fajli zobrazhen i mat Autentifikaciya 2012 S Voloshynovskiy et al PharmaPack Dataset 1000 unikalnih klasiv z 54 zobrazhennyami v klasi Markuvannya klasiv bagato lokalnih deskriptoriv takih yak SIFT i aKaZE i lokalni agreatori funkcij yak ot Fisher Vector FV 54 000 Fajli zobrazhen i mat Dribnozernista klasifikaciya 2017 O Taran and S Rezaeifar et al Stanford Dogs Dataset Zobrazhennya 120 porid sobak z usogo svitu Nadayutsya rozdili dlya navchannya testu ta anotaciyi ImageNet 20 580 Zobrazhennya tekst Dribnozernista klasifikaciya 2011 A Khosla et al StanfordExtra Dataset 2D klyuchovi tochki ta segmentaciyi dlya naboru danih Stanford Dogs Nadano 2D klyuchovi tochki ta segmentaciyi 12 035 Markovani zobrazhennya 3D rekonstrukciya ocinka pozi 2020 B Biggs et al The Oxford IIIT Pet Dataset 37 kategorij domashnih tvarin iz priblizno 200 zobrazhennyami kozhnoyi Mitka porodi shilna ramka segmentaciya perednogo planu ta fonu 7 400 Zobrazhennya tekst Klasifikaciya viyavlennya ob yektiv 2012 O Parkhi et al Corel Image Features Data Set Baza danih zobrazhen z vityagnutimi funkciyami Bagato funkcij vklyuchayuchi gistogramu koloriv teksturu spilnogo poyavi ta kolirni momenti 68 040 Tekst Klasifikaciya viyavlennya ob yektiv 1999 M Ortega Bindenberger et al Online Video Characteristics and Transcoding Time Dataset Chas perekoduvannya dlya riznih video ta vlastivostej video Nadano funkciyi video 168 286 Tekst Regresiya 2015 T Deneke et al Microsoft Sequential Image Narrative Dataset SIND Nabir danih dlya poslidovnogo pereglyadu movi Opisovi pidpisi ta rozpovid navedeno dlya kozhnoyi fotografiyi a fotografiyi roztashovani v poslidovnosti 81 743 Zobrazhennya tekst Vizualne opovidannya 2016 Microsoft Research Caltech UCSD Birds 200 2011 Dataset Velikij nabir zobrazhen ptahiv Roztashuvannya chastin dlya ptahiv ramki 312 binarnih atributiv 11 788 Zobrazhennya tekst Klasifikaciya 2011 C Wah et al YouTube 8M Velikij i riznomanitnij nabir videodanih iz mitkami Identifikatori video YouTube i pov yazani mitki z riznomanitnogo slovnika z 4800 vizualnih ob yektiv 8 million Video tekst Klasifikaciya video 2016 S Abu El Haija et al YFCC100M Velikij i riznomanitnij nabir danih zobrazhen i video z mitkami Roztashuvannya chastin dlya ptahiv obmezhuvalni ramki 312 binarnih atributiv nadani Flickr Videos and Images ta pov yazani opisi nazvi tegi ta inshi metadani napriklad EXIF ta geotegi 100 million Video zobrazhennya tekst Klasifikaciya video ta zobrazhen 2016 B Thomee et al Discrete LIRIS ACCEDE Korotki video z anotaciyami dlya valentnosti ta zbudzhennya Etiketki valentnosti ta zbudzhennya 9800 Video Video viyavlennya emocij 2015 Y Baveye et al Continuous LIRIS ACCEDE Dovgi video z anotaciyami dlya valentnosti ta zbudzhennya a takozh zibrani galvanichni reakciyi shkiri Etiketki valentnosti ta zbudzhennya 30 Video Video viyavlennya emocij 2015 Y Baveye et al MediaEval LIRIS ACCEDE Rozshirennya Discrete LIRIS ACCEDE vklyuchayuchi anotaciyi dlya rivniv nasilstva u filmah Mitki nasilstva valentnosti ta zbudzhennya 10900 Video Video viyavlennya emocij 2015 Y Baveye et al Leeds Sports Pose Artikulovani anotaciyi lyudskoyi pozi na 2000 prirodnih sportivnih zobrazhennyah iz Flickr Grubij urozhaj navkolo odniyeyi osobi yaka cikavit z 14 spilnimi etiketkami 2000 Zobrazhennya plyus mitki fajliv mat Ocinka pozi lyudini 2010 S Johnson and M Everingham Leeds Sports Pose Extended Training Chitko sformulovani anotaciyi lyudskoyi pozi na 10 000 prirodnih sportivnih zobrazhen iz Flickr 14 spilnih etiketok cherez kraudsorsing 10000 Zobrazhennya plyus mitki fajliv mat Ocinka pozi lyudini 2011 S Johnson and M Everingham MCQ Dataset 6 riznih realnih ispitiv iz mnozhinnim viborom 735 blankiv vidpovidej i 33 540 blokiv vidpovidej dlya ocinki metodiv i sistem komp yuternogo zoru rozroblenih dlya sistem ocinyuvannya testiv iz mnozhinnim viborom Zhodnogo 735 blankiv vidpovidej ta 33 540 skrinok dlya vidpovidej Mitki fajliv zobrazhen i mat Rozrobka sistem ocinyuvannya testiv iz mnozhinnim viborom 2017 Afifi M et al Surveillance Videos Spravzhni videosposterezhennya ohoplyuyut velikij chas sposterezhennya 7 dniv po 24 godini kozhne Zhodnogo 19 surveillance videos 7 days with 24 hours each Video Stisnennya danih 2016 Taj Eddin I A T F et al LILA BC Markovana informacijna biblioteka Oleksandriyi biologiya ta ohorona Poznacheni zobrazhennya yaki pidtrimuyut doslidzhennya mashinnogo navchannya v galuzi ekologiyi ta ekologiyi Zhodnogo 10M images Zobrazhennya Klasifikaciya 2019 LILA working group Can We See Photosynthesis 32 video dlya vosmi zhivih i vosmi mertvih listkiv zapisanih v umovah osvitlennya postijnogo ta zminnogo strumu Zhodnogo 32 video Video Viyavlennya zhivosti roslin 2017 Taj Eddin I A T F et al Mathematical Mathematics Memes Kolekciya z 10 000 memiv z matematiki Zhodnogo 10 000 Zobrazhennya Vizualne opovidannya viyavlennya ob yektiv 2021 Mathematical Mathematics MemesTekstovi daniCi nabori danih skladayutsya perevazhno z tekstu dlya takih zavdan yak obrobka movi analiz nastroyiv pereklad i klasternij analiz Vidguki Nazva Opis Obrobotka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Amazon reviews Oglyadi amerikanskih produktiv vid Amazon com Zhodnogo 233 1 million Tekst Klasifikaciya analiz nastroyiv 2015 2018 McAuley et al OpinRank Review Dataset Oglyadi avtomobiliv i goteliv vid Edmunds com i TripAdvisor vidpovidno Zhodnogo 42 230 259 000 respectively Tekst Analiz nastroyiv klasterizaciya 2011 K Ganesan et al MovieLens 22 000 000 ocinok i 580 000 tegiv zastosovano do 33 000 filmiv 240 000 koristuvachiv Zhodnogo 22M Tekst Regresiya klasterizaciya klasifikaciya 2016 en Yahoo Music User Ratings of Musical Artists Ponad 10 miljoniv rejtingiv vikonavciv vid koristuvachiv Yahoo Zhodnogo ne opisano 10M Tekst Klasifikaciya regresiya 2004 Yahoo Car Evaluation Data Set Vlastivosti avtomobilya ta yih zagalna prijnyatnist Navedeno shist kategorialnih oznak 1728 Tekst Klasifikaciya 1997 M Bohanec YouTube Comedy Slam Preference Dataset Dani pro golosuvannya koristuvachiv dlya par video yaki vidobrazhayutsya na YouTube Koristuvachi golosuvali za smishnishi video Nadano metadani video 1 138 562 Tekst Klasifikaciya 2012 Google Skytrax User Reviews Dataset Vidguki koristuvachiv pro aviakompaniyi aeroporti miscya ta saloni vid Skytrax Ocinki ye dribnimi i vklyuchayut bagato aspektiv dosvidu v aeroportu 41396 Tekst Klasifikaciya regresiya 2015 Q Nguyen Teaching Assistant Evaluation Dataset Oglyadi pomichnika vchitelya Navedeno osoblivosti kozhnogo ekzemplyara taki yak klas rozmir klasu ta vikladach 151 Tekst Klasifikaciya 1997 W Loh et al Vietnamese Students Feedback Corpus UIT VSFC Vidguki studentiv Komentari 16 000 Tekst Klasifikaciya 1997 Nguyen et al Vietnamese Social Media Emotion Corpus UIT VSMEC Komentari koristuvachiv u Facebook Komentari 6 927 Tekst Klasifikaciya 1997 Nguyen et al Vietnamese Open domain Complaint Detection dataset ViOCD Komentari koristuvachiv u Facebook Komentari 5 485 Tekst Klasifikaciya 2021 Nguyen et al Novini Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo NYSK Dataset Anglijski novini pro spravu shodo zvinuvachen u seksualnomu nasilstvi proti kolishnogo direktora MVF Dominika Stross Kana Vidfiltrovano ta predstavleno u formati XML 10 421 XML tekst Analiz nastroyiv vidilennya temi 2013 Dermouche M et al The Reuters Corpus Volume 1 Velikij korpus novin Reuters anglijskoyu movoyu Dribnozernista kategorizaciya ta kodi tem 810 000 Tekst Klasifikaciya klasterizaciya uzagalnennya 2002 Reuters The Reuters Corpus Volume 2 Velikij korpus novin Reuters kilkoma movami Dribnozernista kategorizaciya ta kodi tem 487 000 Tekst Klasifikaciya klasterizaciya uzagalnennya 2005 Reuters Thomson Reuters Text Research Collection Velikij korpus novin Detali ne opisani 1 800 370 Tekst Klasifikaciya klasterizaciya uzagalnennya 2009 T Rose et al Saudi Newspapers Corpus 31 030 arabskih gazetnih statej Vilucheno metadani 31 030 JSON Pidvedennya pidsumkiv klasterizaciya 2015 M Alhagri RE3D Relationship and Entity Extraction Evaluation Dataset Entity and Relation poznacheni dani z riznih novin ta derzhavnih dzherel Za pidtrimki Dstl Vidfiltrovano kategorizaciya za dopomogoyu tipiv Baleen nevidomo JSON Klasifikaciya sutnist i rozpiznavannya vidnosin 2017 Dstl en Spam Clickbait Catalogue Primanki klikiv spam zagolovki z kraudsorsingu z 2010 po 2015 rik Opublikuvati datu ta zagolovki 3 089 781 CSV Klasterizaciya podiyi nastroyi 2016 R Kulkarni ABC Australia News Corpus Ves korpus novin ABC Australia z 2003 po 2019 rik Opublikuvati datu ta zagolovki 1 186 018 CSV Klasterizaciya podiyi nastroyi 2020 R Kulkarni Worldwide News Aggregate of 20K en Tizhnevij znimok usih onlajn zagolovkiv ponad 20 movami Chas publikaciyi URL adresa ta zagolovki 1 398 431 CSV Klasterizaciya podiyi viznachennya movi 2018 R Kulkarni Reuters News Wire Headline 11 rokiv podij iz mitkami chasu opublikovanih u novinah Chas publikaciyi tekst zagolovka 16 121 310 CSV NLP Komp yuterna lingvistika Podiyi 2018 R Kulkarni Ireland News Corpus Novini 24 rokiv Irlandiyi z 1996 po 2019 rik Chas publikaciyi kategoriya zagolovka ta tekst 1 484 340 CSV NLP Komp yuterna lingvistika Podiyi 2020 R Kulkarni News Headlines Dataset for Sarcasm Detection Visokoyakisnij nabir danih iz sarkastichnimi ta nesarkastichnimi zagolovkami novin Chistij normovanij tekst 26 709 JSON NLP Komp yuterna lingvistika 2018 Rishabh Misra Povidomlennya Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Enron Email Dataset Elektronni listi vid spivrobitnikiv Enron rozbiti v papki Vkladennya vidaleno nedijsni adresi elektronnoyi poshti peretvoreni na user enron com abo no address enron com 500 000 Tekst Analiz merezhi analiz nastroyiv 2004 2015 Klimt B and Y Yang Ling Spam Dataset Korpus sho mistit yak legitimni listi tak i spam Chotiri versiyi korpusu shodo togo chi buv uvimknenij lemmatizator chi stop list 2 412 Ham 481 Spam Tekst Klasifikaciya 2000 Androutsopoulos J et al SMS Spam Collection Dataset Zibrani SMS povidomlennya zi spamom Nemaye 5 574 Tekst Klasifikaciya 2011 T Almeida et al Messages from 20 different newsgroups Povidomlennya z 20 riznih grup novin Nemaye 20 000 Tekst Obrobka prirodnoyi movi 1999 T Mitchell et al Spambase Dataset Spam elektronnih listiv Vilucheno bagato tekstovih funkcij 4 601 Tekst Viyavlennya spamu klasifikaciya 1999 M Hopkins et al Tvitter i tviti Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo MovieTweetings Nabir danih rejtingu filmiv na osnovi zagalnodostupnih i dobre strukturovanih tvitiv 710 000 Tekst Klasifikaciya regresiya 2018 S Dooms Twitter100k Pari zobrazhen i tvitiv 100 000 Tekst i zobrazhennya Mizhmedijnij poshuk 2017 Y Hu et al Sentiment140 Dani tvitiv za 2009 rik vklyuchayuchi originalnij tekst mitku chasu koristuvacha ta nastroyi Klasifikovano za dopomogoyu distancijnogo sposterezhennya vid nayavnosti smajlika v tviti 1 578 627 Tviti komi rozdileni znachennya analiz nastroyiv 2009 A Go et al ASU Twitter Dataset Dani merezhi Twitter a ne faktichni tviti Pokazuye zv yazki mizh velikoyu kilkistyu koristuvachiv Nemaye 11 316 811 koristuvachiv 85 331 846 pidklyuchen Tekst Klasterizaciya analiz grafiv 2009 R Zafarani et al SNAP Social Circles Twitter Database Veliki dani merezhi Twitter Harakteristiki vuzliv kola ta merezhi ego 1 768 149 Tekst Klasterizaciya analiz grafiv 2012 J McAuley et al Twitter Dataset for Arabic Sentiment Analysis Arabski tviti Zrazki poznacheni vruchnu yak pozitivni chi negativni 2000 Tekst Klasifikaciya 2014 N Abdulla Buzz in Social Media Dataset Dani z Twitter i Tom s Hardware Cej nabir danih zoseredzheno na konkretnih aktualnih temah yaki obgovoryuyutsya na cih sajtah Dani vidobrazhayutsya u vikni shob koristuvach mig sprobuvati peredbachiti podiyi yaki prizveli do shumu v socialnih merezhah 140 000 Tekst Regresiya klasifikaciya 2013 F Kawala et al Paraphrase and Semantic Similarity in Twitter PIT Cej nabir danih zoseredzhuyetsya na tomu chi mayut tviti majzhe odnakove znachennya informaciyu chi ni Markuvannya vruchnu tokenizaciyu teguvannya chastin movi ta imenovanih ob yektiv 18 762 Tekst Regresiya klasifikaciya 2015 Xu et al Geoparse Twitter benchmark dataset Cej nabir danih mistit tviti pid chas riznih novinnih podij u riznih krayinah Zgadki pro miscepolozhennya poznacheni vruchnu do metadanih JSON dodano anotaciyi pro misceznahodzhennya 6 386 Tweets JSON Klasifikaciya viluchennya informaciyi 2014 S E Middleton et al Dutch Social media collection Cej nabir danih mistit tviti pro COVID 19 zrobleni niderlandskimi nosiyami abo koristuvachami z Niderlandiv Dani buli poznacheni mashinoyu klasifikovano za nastroyi tekst tvitiv i opis koristuvacha perekladenij anglijskoyu Viluchayutsya zgadki pro galuz 271 342 JSONL Nastroyi klasifikaciya z kilkoma mitkami mashinnij pereklad 2020 Aaaksh Gupta CoronaWhy Dialogi Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo NPS Chat Corpus Publikaciyi z vikovih onlajn chativ Konfidencijnist ruk zamaskovana poznachena yak chastina movi ta dialog akt 500 000 XML NLP programuvannya lingvistika 2007 Forsyth E Lin J amp Martell C Twitter Triple Corpus A B A trijki vityagnuto z Twitter 4 232 Tekst NLP 2016 Sordini A et al UseNet Corpus Povidomlennya na forumi UseNet Anonimni elektronni listi ta URL adresi Propusheni dokumenti dovzhinoyu lt 500 sliv abo gt 500 000 sliv abo yaki buli lt 90 anglijskoyu 7 billion Tekst 2011 Shaoul C amp Westbury C NUS SMS Corpus SMS povidomlennya zibrani mizh dvoma koristuvachami z analizom chasu 10 000 XML NLP 2011 KAN M Reddit All Comments Corpus Usi komentari na Reddit stanom na 2015 rik 1 7 billion JSON NLP doslidzhennya 2015 Stuck In the Matrix Ubuntu Dialogue Corpus Dialogi vityagnuti z potoku chatu Ubuntu na IRC 930 thousand dialogues 7 1 million utterances CSV Dialogue Systems Research 2015 Lowe R et al Dialog State Tracking Challenge Problemi vidstezhennya stanu dialogu 2 i 3 DSTC2 amp 3 buli doslidnickim zavdannyam zoseredzhenim na pokrashenni suchasnogo rivnya vidstezhennya stanu movnih dialogovih sistem Transkripciya rozmovnih dialogiv z markuvannyam DSTC2 contains 3 2k calls DSTC3 contains 2 3k calls Json Vidstezhennya stanu dialogu 2014 Henderson Matthew and Thomson Blaise and Williams Jason D Inshij tekst Nazva Opis Obrobka Rozmir Format Format Stvorenij Posilannya Dzherelo Web of Science Dataset Iyerarhichni nabori danih dlya klasifikaciyi tekstu Nemaye 46 985 Tekst klasifikaciya Kategorizaciya 2017 K Kowsari et al Legal Case Reports Rozglyad sprav Federalnogo sudu Avstraliyi z 2006 po 2009 roki Nemaye 4 000 Tekst Pidvedennya pidsumkiv analiz cituvannya 2012 F Galgani et al Blogger Authorship Corpus Zapisi v blozi 19 320 lyudej iz blogger com Bloger sam nadaye stat vik galuz ta astrologichnij znak 681 288 Tekst Analiz nastroyiv uzagalnennya klasifikaciya 2006 J Schler et al Social Structure of Facebook Networks Velikij nabir danih socialnoyi strukturi Facebook Nemaye Ohopleno 100 koledzhiv Tekst Analiz merezhi klasterizaciya 2012 A Traud et al Dataset for the Machine Comprehension of Text Rozpovidi ta vidpovidni zapitannya dlya perevirki rozuminnya tekstu Nemaye 660 Tekst Obrobka prirodnoyi movi mashinne rozuminnya 2013 M Richardson et al The Penn Treebank Project Prirodnij tekst anotovanij dlya movnoyi strukturi Tekst rozbirayetsya na semantichni dereva 1 mln sliv Tekst Obrobka prirodnoyi movi uzagalnennya 1995 M Marcus et al DEXTER Dataset Postavlene zavdannya viznachiti za navedenimi oznakami yaki statti stosuyutsya korporativnih pridban Vilucheni oznaki vklyuchayut osnovi sliv Vklyucheni funkciyi vidvolikacha 2600 Tekst Klasifikaciya 2008 Reuters Google Books N grams N grami z duzhe velikogo korpusu knig Nemaye 2 2 TB tekstu Tekst Klasifikaciya klasterizaciya regresiya 2011 Google Personae Corpus Zibrano dlya eksperimentiv iz viznachennya avtorstva ta peredbachennya osobistosti Skladayetsya z 145 ese gollandskoyu movoyu Krim zvichajnih tekstiv navodyatsya sintaksichno anotovani teksti 145 Tekst Klasifikaciya regresiya 2008 K Luyckx et al CNAE 9 Dataset Zavdannya na kategorizaciyu dlya vilnih tekstovih opisiv brazilskih kompanij Vilucheno chastotu sliv 1080 Tekst Klasifikaciya 2012 P Ciarelli et al Sentiment Labeled Sentences Dataset 3000 rechen poznachenih nastroyem Nastroyi kozhnogo rechennya vruchnu poznacheni yak pozitivni chi negativni 3000 Tekst Klasifikaciya analiz nastroyiv 2015 D Kotzias BlogFeedback Dataset Nabir danih dlya prognozuvannya kilkosti komentariv yaki otrimaye publikaciya na osnovi funkcij ciyeyi publikaciyi Vilucheno bagato funkcij kozhnogo povidomlennya 60 021 Tekst Regresiya 2014 K Buza Stanford Natural Language Inference SNLI Corpus Pidpisi do zobrazhen poyednuyutsya z neshodavno stvorenimi rechennyami shob utvoriti sut protirichchya abo nejtralni pari Mitki klasiv Entailment sintaksichnij analiz za dopomogoyu analizatora Stanford PCFG 570 000 Tekst Visnovok prirodnoyi movi rozpiznavannya tekstu 2015 S Bowman et al DSL Corpus Collection DSLCC Bagatomovna zbirka korotkih urivkiv publicistichnih tekstiv shozhimi movami ta dialektami Nemaye 294 000 fraz Tekst Rozriznennya shozhih mov 2017 Tan Liling et al Urban Dictionary Dataset Korpus sliv golosiv i viznachen Imena koristuvachiv anonimni 2 580 925 CSV NLP mashinne rozuminnya 2016 May Anonymous T REx Referati Vikipediyi uzgodzheni z sutnostyami Vikidanih Virivnyuvannya trijok Vikidanih z tezami Vikipediyi 11M virivnyani trijki JSON and NIF 3 NLP viluchennya vidnosin 2018 H Elsahar et al General Language Understanding Evaluation GLUE Test iz dev yati zavdan Rizni 1M rechen i par rechen NLU 2018 Wang et al Contract Understanding Atticus Dataset CUAD formerly known as Atticus Open Contract Dataset AOK Nabir danih yuridichnih dogovoriv z bagatimi ekspertnimi anotaciyami 13 000 etiketok CSV and PDF Obrobka prirodnoyi movi QnA 2021 The Atticus Project Vietnamese Image Captioning Dataset UIT ViIC V yetnamskij nabir danih pidpisiv zobrazhen 19 250 pidpisiv dlya 3 850 zobrazhen CSV and PDF Obrobka prirodnoyi movi komp yuternij zir 2020 Lam et al Vietnamese Names annotated with Genders UIT ViNames V yetnamski nazvi z anotaciyami statej 26 850 v yetnamskih povnih imen iz anotaciyeyu stati CSV Obrobka prirodnoyi movi 2020 To et al Vietnamese Constructive and Toxic Speech Detection Dataset UIT ViCTSD V yetnamskij nabir danih dlya viyavlennya konstruktivnoyi ta toksichnoyi movi 10 000 v yetnamskih koristuvachiv prokomentuvali internet gazeti v 10 domenah CSV Obrobka prirodnoyi moviObrobka prirodnoyi movi 2021 Nguyen et al The Pile Zbirka kilkoh velikih naboriv danih iz riznomanitnih i nestrukturovanih tekstiv Rizni vidalennya HTML i Javascript z veb sajtiv vidalennya povtoryuvanih rechen 825 GiB anglijskim tekstom JSON Lines Obrobka prirodnoyi movi peredbachennya tekstu 2021 Gao etZvukovi daniCi nabori danih skladayutsya zi zvukiv i zvukovih funkcij yaki vikoristovuyutsya dlya takih zavdan yak rozpiznavannya movlennya ta sintez movlennya Movlennya Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Zero Resource Speech Challenge 2015 Spontanne movlennya anglijska mova Chitana mova Xitsonga Nemaye neobrobleni fajli WAV anglijska 5 god 12 dinamikiv Xitsonga 2 30 24 dinamiki WAV audio only Nekontrolovane viyavlennya movnih vlastivostej pidryadnih odinic odinic sliv 2015 Versteegh et al Parkinson Speech Dataset Bagato zapisiv lyudej iz hvoroboyu Parkinsona ta bez neyi Vilucheno golosovi harakteristiki ocinka zahvoryuvannya likarem za unifikovanoyu shkaloyu ocinki en 1 040 Tekst Klasifikaciya regresiya 2013 B E Sakar et al Spoken Arabic Digits Rozmovni arabski cifri z 44 cholovikiv i 44 zhinok Chasovi ryadi koeficiyentiv mel chastotnogo kepstru 8 800 Tekst Klasifikaciya 2010 M Bedda et al ISOLET Dataset Nazvi rozmovnih bukv Osoblivosti vityagnuti zi zvukiv 7797 Tekst Klasifikaciya 1994 R Cole et al Japanese Vowels Dataset Dev yat cholovikiv yaki govoryat vimovlyali dvi yaponski golosni pidryad Zastosuvav do nogo 12 gradusnij analiz linijnogo prognozuvannya shob otrimati diskretno chasovij ryad z 12 koeficiyentami kepstru 640 Tekst Klasifikaciya 1999 M Kudo et al Parkinson s Telemonitoring Dataset Bagato zapisiv lyudej iz hvoroboyu Parkinsona ta bez neyi Vilucheno zvukovi harakteristiki 5875 Tekst Klasifikaciya 2009 A Tsanas et al en Zapisi 630 nosiyiv vosmi osnovnih dialektiv amerikanskoyi anglijskoyi kozhen z yakih chitaye desyat fonetichno nasichenih rechen Movlennya leksichno i fonematichno transkribuyetsya 6300 Tekst Rozpiznavannya movlennya klasifikaciya 1986 J Garofolo et al en Korpus movlennya suchasnoyi standartnoyi arabskoyi movi MSA dlya odnogo movcya z fonetichnimi ta orfografichnimi transkriptami virivnyanimi na rivni fonem Movlennya orfografichno i fonetichno transkribuyetsya z nagolosami 1900 Tekst WAV Sintez movlennya rozpiznavannya movlennya virivnyuvannya korpusu logopediya osvita 2016 N Halabi en Zagalnodostupna baza danih kraudsorsingu v shirokomu diapazoni dialektiv Perevirka inshimi koristuvachami English 1 118 hours MP3 z vidpovidnimi tekstovimi fajlami Rozpiznavannya movi June 2017 December 2019 Mozilla LJSpeech Korpus anglijskih zapisiv audioknig yaki ye zagalnodostupnimi rozbitimi na korotki klipi za rozdilovimi znakami Perevirka yakosti normalizovana transkripciya poryad z originalom 13 100 CSV WAV Sintez movlennya 2017 Keith Ito Linda Johnson Muzika Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Geographic Origin of Music Data Set Zvukovi osoblivosti muzichnih zrazkiv z riznih misc Funkciyi audio otrimani za dopomogoyu programnogo zabezpechennya MARSYAS 1 059 Tekst Geografichna klasifikaciya klasterizaciya 2014 F Zhou et al Million Song Dataset Zvukovi funkciyi z miljona riznih pisen Funkciyi audio vilucheno 1M Tekst Klasifikaciya klasterizaciya 2011 T Bertin Mahieux et al MUSDB18 Bagatodorizhkovi zapisi populyarnoyi muziki Sirij zvuk 150 MP4 WAV Podil dzherel 2017 Z Rafii et al en Audio pid Creative Commons iz 100 tisyach pisen 343 dni 1TiB z iyerarhiyeyu iz 161 zhanru metadanimi danimi koristuvacha tekstom u dovilnij formi Funkciyi neobroblenogo zvuku ta audio 106 574 Tekst MP3 Klasifikaciya rekomendaciya 2017 M Defferrard et al Bach Choral Harmony Dataset Horalni akordi Baha Funkciyi audio vilucheno 5665 Tekst Klasifikaciya 2014 D Radicioni et al Inshi zvuki Klasifikaciya Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo UrbanSound Markovani zvukozapisi zvukiv takih yak kondicioneri avtomobilni gudki ta diti yaki grayut Vidsortovano po papkah za klasom podij a takozh metadanimi u fajli JSON ta anotaciyami u fajli CSV 1 059 Zvuk WAV Klasifikaciya 2014 J Salamon et al AudioSet 10 sekundni zvukovi fragmenti z video YouTube ta ontologiya z ponad 500 mitok 128 d PCA d VGG ish pokazuye kozhni 1 sekundu 2 084 320 Tekstovi CSV i fajli TensorFlow Record Klasifikaciya 2017 J Gemmeke et al Google Bird Audio Detection challenge Audio zi stancij monitoringu navkolishnogo seredovisha a takozh zapisi z kraudsorsingu 17 000 Klasifikaciya 2016 2018 Queen Mary University and en WSJ0 Hipster Ambient Mixtures Audio z WSJ0 zmishano z shumom zapisanim u rajoni zatoki San Francisko Klipi z shumom vidpovidni klipam WSJ0 28 000 Zvuk WAV Rozdilennya dzherel zvuku 2019 Wichern G et al Whisper and MERL Clotho 4981 zvukovij zrazok trivalistyu vid 15 do 30 sekund kozhen z yakih maye p yat riznih pidpisiv dovzhinoyu vid 8 do 20 sliv 24 905 Zvuk WAV ta tekst CSV Avtomatichni subtitri 2020 K Drossos S Lipping and T VirtanenDani signaluNabori danih sho mistyat informaciyu pro elektrichnij signal sho vimagaye pevnoyi obrobki signalu dlya podalshogo analizu Elektrichni Nazva Opis Obrobka Rozmir Format Zadachi Stvorenij Posilannya Dzherelo Witty Worm Dataset Nabir danih iz detalnoyu informaciyeyu pro poshirennya hrobaka Witty ta zarazhenih komp yuteriv Rozdilit na zagalnodostupnij nabir i obmezhenij nabir sho mistit bilsh konfidencijnu informaciyu yak ot zagolovki IP i UDP 55 909 IP addresses Tekst Klasifikaciya 2004 Center for Applied Internet Data Analysis Cuff Less Blood Pressure Estimation Dataset Ochisheni zhittyevo vazhlivi signali vid paciyentiv yaki mozhna vikoristovuvati dlya ocinki arterialnogo tisku Zhittyevi pokazniki 125 Gc ochisheno 12 000 Tekst Klasifikaciya regresiya 2015 M Kachuee et al Gas Sensor Array Drift Dataset Vimiryuvannya z 16 himichnih datchikiv vikoristanih u modelyuvanni dlya kompensaciyi drejfu Velika kilkist nadanih funkcij 13 910 Tekst Klasifikaciya 2012 A Vergara Servo Dataset Dani sho ohoplyuyut nelinijni spivvidnoshennya sho sposterigayutsya v shemi servopidsilyuvacha Navedeno rivni riznih komponentiv yak funkciyi inshih komponentiv 167 Tekst Regresiya 1993 K Ullrich UJIIndoorLoc Mag Dataset Baza danih lokalizaciyi vseredini primishen dlya testuvannya vnutrishnih sistem pozicionuvannya Dani bazuyutsya na magnitnomu poli Dano rozdili na trenuvannya ta testi 40 000 Tekst Klasifikaciya regresiya klasterizaciya 2015 D Rambla et al Sensorless Drive Diagnosis Dataset Elektrichni signali vid dviguniv z nespravnimi komponentami Vilucheno statistichni oznaki 58 508 Tekst Klasifikaciya 2015 M Bator Vidstezhennya ruh Nazva Opis Obrobka Rozmir Format Zadachi Stvorennij Posilannya Dzherelo Wearable Computing Classification of Body Postures and Movements PUC Rio Lyudi yaki vikonuyut p yat standartnih dij pid chas nosinnya trekeriv ruhu Nemaye 165 632 Tekst Klasifikaciya 2013 en Gesture Phase Segmentation Dataset Funkciyi otrimani z video lyudej yaki roblyat rizni zhesti Vilucheni funkciyi spryamovani na vivchennya fazovoyi segmentaciyi zhestiv 9900 Tekst Klasifikaciya klasterizaciya 2014 R Madeo et a Vicon Physical Action Data Set Dataset 10 zvichajnih i 10 agresivnih fizichnih dij yaki vimiryuyut aktivnist lyudini yaku vidstezhuye 3D treker Bagato parametriv zapisuye 3D treker 3000 Tekst Klasifikaciya 2011 T Theodoridis Daily and Sports Activities Dataset Dani datchikiv dviguna dlya 19 shodennih i sportivnih zanyat Nadano bagato datchikiv bez poperednoyi obrobki signaliv 9120 Tekst Klasifikaciya 2013 B Barshan et al Human Activity Recognition Using Smartphones Dataset Dani giroskopa ta akselerometra vid lyudej yaki nosyat smartfoni ta vikonuyut zvichajni diyi Vikonani diyi poznachayutsya vsi signali poperedno obroblyayutsya na nayavnist shumu 10 299 Tekst Klasifikaciya 2012 J Reyes Ortiz et al Australian Sign Language Signs Avstralijski znaki zhestovoyu movoyu znyati rukavichkami dlya vidstezhennya ruhu Nemaye 2565 Tekst Klasifikaciya 2002 M Kadous Weight Lifting Exercises monitored with Inertial Measurement Units P yat variantiv vpravi na skruchuvannya bicepsa sho kontrolyuyutsya za dopomogoyu IMU Deyaki statistichni dani rozrahovani na osnovi neobroblenih danih 39 242 Tekst Klasifikaciya 2013 W Ugulino et al sEMG for Basic Hand movements Dataset Dvi bazi danih poverhnevih elektromiografichnih signaliv 6 ruhiv ruk Nemaye 3000 Tekst Klasifikaciya 2014 C Sapsanis et al REALDISP Activity Recognition Dataset Ocinit metodi sho stosuyutsya vplivu zmishennya datchika pri rozpiznavanni aktivnosti sho mozhna nositi Nemaye 1419 Tekst Klasifikaciya 2014 O Banos et al Heterogeneity Activity Recognition Dataset Dani z kilkoh riznih rozumnih pristroyiv dlya lyudej yaki vikonuyut rizni vidi diyalnosti Nemaye 43 930 257 Tekst Klasifikaciya klasterizaciya 2015 A Stisen et al Indoor User Movement Prediction from RSS Data Timchasovi dani bezdrotovoyi merezhi yaki mozhna vikoristovuvati dlya vidstezhennya peremishennya lyudej v ofisi Nemaye 13 197 Tekst Klasifikaciya 2016 D Bacciu PAMAP2 Physical Activity Monitoring Dataset 18 riznih vidiv fizichnih navantazhen yaki vikonuvali 9 viprobovuvanih u 3 IDU Nemaye 3 850 505 Tekst Klasifikaciya 2012 A Reiss OPPORTUNITY Activity Recognition Dataset Rozpiznavannya lyudskoyi aktivnosti vid datchikiv yaki mozhna nositi ob yekta ta navkolishnogo seredovisha ce nabir danih rozroblenij dlya porivnyannya algoritmiv rozpiznavannya lyudskoyi diyalnosti Nemaye 2551 Tekst Klasifikaciya 2012 D Roggen et al Real World Activity Recognition Dataset Rozpiznavannya lyudskoyi diyalnosti za dopomogoyu nosovih pristroyiv Rozriznyaye sim polozhen na korpusi pristroyu ta mistit shist riznih tipiv datchikiv Nemaye 3 150 000 za datchik Tekst Klasifikaciya 2016 T Sztyler et al Toronto Rehab Stroke Pose Dataset Trivimirni ocinki pozi lyudini Kinect paciyentiv iz insultom ta zdorovih uchasnikiv yaki vikonuyut nabir zavdan za dopomogoyu robota dlya reabilitaciyi pislya insultu Nemaye 10 zdorovih lyudej i 9 lyudej yaki perezhili insult 3500 6000 kadriv na lyudinu CSV Klasifikaciya 2017 E Dolatabadi et al Corpus of Social Touch CoST 7805 zhestiv fiksuyut 14 riznih zhestiv socialnogo dotiku vikonanih 31 doslidzhuvanim Zhesti vikonuvalis u troh variantah nizhni normalni ta grubi na sitci datchika tisku obmotanoyi navkolo ruki manekena Zdijsnyuvani sensorni zhesti segmentovani ta poznacheni 7805 zjomok zhestiv CSV Klasifikaciya 2016 M Jung et al Inshi signali Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Wine Dataset Himichnij analiz vin viroshenih v odnomu regioni Italiyi ale otrimanih z troh riznih sortiv Navedeno 13 vlastivostej kozhnogo vina 178 Tekst Klasifikaciya regresiya 1991 M Forina et al Combined Cycle Power Plant Data Set Dani vid riznih datchikiv na elektrostanciyi yaka pracyuye protyagom 6 rokiv Zhodnogo 9568 Tekst Regresiya 2014 P Tufekci et al Fizichni daniNabori danih z fizichnih sistem Fizika visokih energij Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo HIGGS Dataset Modelyuvannya Monte Karlo zitknen priskoryuvachiv chastinok Navedeno 28 oznak kozhnogo zitknennya 11M Tekst Klasifikaciya 2014 D Whiteson HEPMASS Dataset Modelyuvannya Monte Karlo zitknen priskoryuvachiv chastinok Meta vidokremiti signal vid shumu Navedeno 28 oznak kozhnogo zitknennya 10 500 000 Tekst Klasifikaciya 2016 D Whiteson Sistemi Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Yacht Hydrodynamics Dataset Produktivnist yahti na osnovi rozmiriv Dlya kozhnoyi yahti nadano shist funkcij 308 Tekst Regresiya 2013 R Lopez Robot Execution Failures Dataset 5 naboriv danih yaki zoseredzheni na zbij roboti robotiv u vikonanni zvichajnih zavdan Cilochiselni funkciyi taki yak krutnij moment ta inshi vimiryuvannya datchikiv 463 Tekst Klasifikaciya 1999 L Seabra et al Pittsburgh Bridges Dataset Opis konstrukciyi dayetsya z tochki zoru kilkoh vlastivostej riznih mostiv Navedeno rizni osoblivosti mostu 108 Tekst Klasifikaciya 1990 Y Reich et al Automobile Dataset Dani pro avtomobili yih strahovij rizik ta normovani zbitki Harakteristiki avtomobilya vilucheni 205 Tekst Regresiya 1987 J Schimmer et al Auto MPG Dataset Dani MPG dlya avtomobiliv Navedeno visim osoblivostej kozhnogo avtomobilya 398 Tekst Regresiya 1993 Carnegie Mellon University Energy Efficiency Dataset Vimogi do opalennya ta oholodzhennya navedeni yak funkciya parametriv budivli Parametri budivli navedeno 768 Tekst Klasifikaciya regresiya 2012 A Xifara et al Airfoil Self Noise Dataset Seriya aerodinamichnih ta akustichnih viprobuvan dvo ta trivimirnih sekcij lopati aerodinamichnogo profilyu Navedeno dani pro chastotu kut ataki tosho 1503 Tekst Regresiya 2014 R Lopez Challenger USA Space Shuttle O Ring Dataset Sprobujte peredbachiti problemi z ushilnyuvalnimi kilcyami vrahovuyuchi poperedni dani Challenger Navedeno kilka osoblivostej kozhnogo polotu napriklad temperatura zapusku 23 Tekst Regresiya 1993 D Draper et al Statlog Shuttle Dataset Nabori danih kosmichnogo chovnika NASA Nadano dev yat oznak 58 000 Tekst Klasifikaciya 2002 NASA Astronomiya Nazva Opis Obrobka Rozmir Format Zadacha Stvorennya Posilannya Dzherelo Volcanoes on Venus JARtool experiment Dataset Zobrazhennya Veneri otrimani kosmichnim korablem Magellan Zobrazhennya poznachayutsya lyudmi not given Zobrazhennya Klasifikaciya 1991 M Burl MAGIC Gamma Telescope Dataset Monte Karlo generuvav podiyi visokoyi energiyi gamma chastinok Chislenni funkciyi otrimani z modelyuvannya 19 020 Tekst Klasifikaciyaion 2007 R Bock Solar Flare Dataset Vimiryuvannya kilkosti pevnih tipiv sonyachnih spalahiv sho vidbuvayutsya protyagom 24 godin Nadano bagato specifichnih osoblivostej sonyachnih spalahiv 1389 Tekst Rozdilennya dzherela zvuku 1989 G Bradshaw CAMELS Multifield Dataset 2D karti ta 3D sitki z tisyach N til i najsuchasnishih gidrodinamichnih simulyacij sho ohoplyuyut shirokij diapazon znachen kosmologichnih i astrofizichnih parametriv Kozhna karta ta sitka mayut 6 kosmologichnih ta astrofizichnih parametriv pov yazanih z neyu 405 000 2D maps and 405 000 3D grids 2D maps and 3D grids Regresiya 2021 Francisco Villaescusa Navarro et al Nauka pro Zemlyu Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Volcanoes of the World Dani pro viverzhennya vulkaniv dlya vsih vidomih vulkanichnih podij na Zemli Navedeno taki detali yak region subregion tektonichni umovi dominuyuchij tip girskih porid 1535 Tekst Regresiya klasifikaciya 2013 E Venzke et al Seismic bumps Dataset Sejsmichna diyalnist na vugilnij shahti Sejsmichna aktivnist bula klasifikovana yak nebezpechna chi ni 2584 Tekst Klasifikaciya 2013 M Sikora et al CAMELS US Nabir gidrologichnih danih vodozboru z gidrometeorologichnimi hronometrazhami ta riznimi atributami div Posilannya 671 CSV Text Shapefile Regresiya 2017 N Addor et al A Newman et al CAMELS Chile Nabir gidrologichnih danih vodozboru z gidrometeorologichnimi hronometrazhami ta riznimi atributami div Posilannya 516 CSV Text Shapefile Regresiya 2018 C Alvarez Garreton et al CAMELS Brazil Nabir gidrologichnih danih vodozboru z gidrometeorologichnimi hronometrazhami ta riznimi atributami div Posilannya 897 CSV Text Shapefile Regresiya 2020 V Chagas et al CAMELS GB Nabir gidrologichnih danih vodozboru z gidrometeorologichnimi hronometrazhami ta riznimi atributami div Posilannya 671 CSV Text Shapefile Regresiya 2020 G Coxon et al CAMELS Australia Nabir gidrologichnih danih vodozboru z gidrometeorologichnimi hronometrazhami ta riznimi atributami div Posilannya 222 CSV Text Shapefile Regresiya 2021 K Fowler et al LamaH CE Nabir gidrologichnih danih vodozboru z gidrometeorologichnimi hronometrazhami ta riznimi atributami div Posilannya 859 CSV Text Shapefile Regresiya 2021 C Klingler et al Inshi fizichni Nazva Opis Obrobka Rozmir Format Zadachi Stvorenij Posilannya Dzherelo Concrete Compressive Strength Dataset Nabir danih pro vlastivosti betonu ta micnist na stisk Dlya kozhnogo zrazka nadano dev yat oznak 1030 Tekst Regresiya 2007 I Yeh Concrete Slump Test Dataset Osadka betonu navedena z tochki zoru vlastivostej Navedeni harakteristiki betonu taki yak letyucha zola voda tosho 103 Tekst Regresiya 2009 I Yeh Musk Dataset Sprognozujte chi bude molekula vrahovuyuchi osoblivosti muskusom chi nemuskusom Dlya kozhnoyi molekuli navedeno 168 oznak 6598 Tekst Klasifikaciya 1994 Arris Pharmaceutical Corp Steel Plates Faults Dataset Stalevi plastini 7 riznih tipiv Dlya kozhnogo zrazka navedeno 27 oznak 1941 Tekst Klasifikaciya 2010 Semeion Research CenterBiologichni daniNabori danih z biologichnih sistem Socialni Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Synthetic Fundus Dataset Fotorealistichni zobrazhennya sitkivki ta segmentaciyi sudin Publichnij domen 2500 zobrazhen z rozdilnistyu 1500 1152 pikseliv korisnih dlya segmentaciyi ta klasifikaciyi ven i arterij na odnomu foni 2500 Zobrazhennya Klasifikaciya segmentaciya 2020 C Valenti et al EEG Database Doslidzhennya dlya vivchennya korelyativ EEG genetichnoyi shilnosti do alkogolizmu Vimiryuvannya za dopomogoyu 64 elektrodiv rozmishenih na shkiri golovi vidbirayutsya pri chastoti 256 Gc epoha 3 9 ms protyagom 1 sekundi 122 Tekst Klasifikaciya 1999 H Begleiter P300 Interface Dataset Dani vid dev yati sub yektiv zibrani za dopomogoyu interfejsu mozok komp yuter na osnovi P300 dlya sub yektiv z obmezhenimi mozhlivostyami Rozdilit na chotiri zanyattya dlya kozhnogo predmeta Dano kod MATLAB 1 224 Tekst Klasifikaciya 2008 U Hoffman et al Heart Disease Data Set Pripisuyut paciyentiv iz sercevimi zahvoryuvannyami ta bez nih 75 atributiv nadanih dlya kozhnogo paciyenta z deyakimi vidsutnimi znachennyami 303 Tekst Klasifikaciya 1988 A Janosi et al Breast Cancer Wisconsin Diagnostic Dataset Nabir danih pro osoblivosti utvorennya grudej Diagnoz stavit likar Navedeno 10 oznak dlya kozhnogo zrazka 569 Tekst Klasifikaciya 1995 W Wolberg et al National Survey on Drug Use and Health Shirokomasshtabne doslidzhennya zdorov ya ta vzhivannya narkotikiv u Spoluchenih Shtatah Nemaye 55 268 Tekst Klasifikaciya regresiya 2012 United States Department of Health and Human Services Lung Cancer Dataset Nabir danih pro rak legeniv bez viznachennya atributiv Dlya kozhnogo vipadku navedeno 56 oznak 32 Tekst Klasifikaciya 1992 Z Hong et al Arrhythmia Dataset Dani dlya grupi paciyentiv z yakih u deyakih sposterigayetsya serceva aritmiya 276 funkcij dlya kozhnogo ekzemplyara 452 Tekst Klasifikaciya 1998 H Altay et al Diabetes 130 US hospitals for years 1999 2008 Dataset Dani pro readmisiyu za 9 rokiv u 130 amerikanskih likarnyah dlya paciyentiv z cukrovim diabetom Navedeno bagato osoblivostej kozhnoyi readmisiyi 100 000 Tekst Klasifikaciya klasterizaciya 2014 J Clore et al Diabetic Retinopathy Debrecen Dataset Harakteristiki otrimani iz zobrazhen ochej z diabetichnoyu retinopatiyeyu ta bez neyi Vilucheno oznaki ta diagnostovano umovi 1151 Tekst Klasifikaciya 2014 B Antal et al Diabetic Retinopathy Messidor Dataset Metodi ocinki metodiv segmentaciyi ta indeksaciyi v oblasti oftalmologiyi sitkivki MESSIDOR Harakterizuye stupin retinopatiyi ta rizik rozvitku makulyarnogo nabryaku 1200 Zobrazhennya tekst Klasifikaciya segmentaciya 2008 Messidor Project Liver Disorders Dataset Dani dlya lyudej iz zahvoryuvannyami pechinki Dlya kozhnogo paciyenta navedeno sim biologichnih oznak 345 Tekst Klasifikaciya 1990 Bupa Medical Research Ltd Thyroid Disease Dataset 10 baz danih paciyentiv iz zahvoryuvannyami shitopodibnoyi zalozi Nemaye 7200 Tekst Klasifikaciya 1987 R Quinlan Mesothelioma Dataset Dani paciyentiv z mezoteliomoyu Navedeno veliku kilkist osoblivostej vklyuchayuchi vpliv azbestu 324 TextTekst Klasifikaciya2016 2016 A Tanrikulu et al Parkinson s Vision Based Pose Estimation Dataset 2D ocinki pozi lyudini paciyentiv z hvoroboyu Parkinsona yaki vikonuyut riznomanitni zavdannya Tremtinnya kameri vilucheno z trayektorij 134 Tekst Klasifikaciya regresiya 2017 M Li et al KEGG Metabolic Reaction Network Undirected Dataset Merezha metabolichnih shlyahiv Dano merezhu reakcij i merezhu vidnoshen Navedeno detalni harakteristiki dlya kozhnogo vuzla merezhi ta shlyahu 65 554 Tekst Klasifikaciya klasterizaciya regresiya 2011 M Naeem et al Modified Human Sperm Morphology Analysis Dataset MHSMA Zobrazhennya spermi lyudini 235 paciyentiv z cholovichim faktorom bezpliddya poznacheni dlya normalnoyi abo anomalnoyi spermatozoyidi akrosomi golovki vakuoli ta hvosta Obrizanij navkolo odniyeyi golovki spermatozoyida Normalizovane zbilshennya Stvoreno rozdili dlya navchannya perevirki ta testuvannya 1 540 npy files Klasifikaciya 2019 S Javadi and S A Mirroshandel Tvarini Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Abalone Dataset Fizichni vimiryuvannya vushka Takozh vkazano pogodni umovi ta misce roztashuvannya Nemaye 4177 Tekst Regresiya 1995 Marine Research Laboratories Taroona Zoo Dataset Shtuchnij nabir danih sho ohoplyuye 7 klasiv tvarin Tvarini podilyayutsya na 7 kategorij dlya kozhnoyi navedeni osoblivosti 101 Tekst Klasifikaciya 1990 R Forsyth Demospongiae Dataset Dani pro morskih gubkah 503 gubki klasu Demosponge opisuyutsya riznimi oznakami 503 Tekst Klasifikaciya 2010 E Armengol et al Farm animals data Inventarizaciya danih PLF korovi svini roztashuvannya priskorennya tosho Markovani nabori danih Spisok postijno onovlyuyetsya Tekst Klasifikaciya 2020 V Bloch Splice junction Gene Sequences Dataset Poslidovnosti geniv z yednannya primativ DNK z asocijovanoyu nedoskonaloyu teoriyeyu domenu Nemaye 3190 Tekst Klasifikaciya 1992 G Towell et al Mice Protein Expression Dataset Rivni ekspresiyi 77 bilkiv vimiryali v kori golovnogo mozku mishej Nemaye 1080 Tekst Klasifikaciya klasterizaciya 2015 C Higuera et al Gibkij Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo UCI Mushroom Dataset Oznaki ta klasifikaciya gribiv Navedeno bagato vlastivostej kozhnogo griba 8124 Tekst Klasifikaciya 1987 J Schlimmer Secondary Mushroom Dataset Oznaki ta klasifikaciya gribiv Zmodelovani dani z bilshih i realistichnishih pervinnih zapisiv gribiv Povnistyu vidtvoryuvanij 61069 Tekst Klasifikaciya 2020 D Wagner et al Roslini Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Forest Fires Dataset Lisovi pozhezhi ta yih vlastivosti Vilucheno 13 oznak kozhnoyi pozhezhi 517 Tekst Regresiya 2008 P Cortez et al Irisi Fishera Tri tipi irisiv opisuyutsya 4 riznimi oznakami Nemaye 150 Tekst Klasifikaciya 1936 R Fisher Plant Species Leaves Dataset Shistnadcyat zrazkiv listya kozhnogo iz sta vidiv roslin Dano deskriptor formi dribnomasshtabne pole ta gistogrami teksturi 1600 Tekst Klasifikaciya 2012 J Cope et al Soybean Dataset Baza danih hvorih roslin soyi Navedeno 35 oznak dlya kozhnoyi roslini Roslini podilyayutsya na 19 kategorij 307 Tekst Klasifikaciya 1988 R Michalski et al Seeds Dataset Vimiryuvannya geometrichnih vlastivostej yader troh riznih sortiv pshenici Nemaye 210 Tekst Klasifikaciya klasterizaciya 2012 Charytanowicz et al Covertype Dataset mDani dlya prognozuvannya tipu lisistosti suvoro na osnovi kartografichnih zminnih Navedeno bagato geografichnih ob yektiv 581 012 Tekst Klasifikaciya 1998 J Blackard et al Abscisic Acid Signaling Network Dataset Dani dlya merezhi signalizaciyi zavodu Meta viznachiti nabir pravil yaki keruyut merezheyu Nemaye 300 Tekst Prichinno vidkrittya 2008 J Jenkens et al Folio Dataset 20 fotografij listya dlya kozhnogo z 32 vidiv Nemaye 637 Zobrazhennya tekst Klasifikaciya viyavlennya 2015 T Munisami et al Oxford Flower Dataset Nabir danih kvitiv 17 kategoriyi Rozdili poyizdiv testiv poznacheni zobrazhennya 1360 Zobrazhennya tekst Klasifikaciya 2006 M E Nilsback et al Plant Seedlings Dataset Nabir danih 12 kategoriyi sadzhanciv roslin Markovani zobrazhennya segmentovani zobrazhennya Markovani zobrazhennya segmentovani zobrazhennya 5544 Zobrazhennya Klasifikaciya viyavlennya 2017 Giselsson et al Fruits 360 dataset Baza danih iz zobrazhennyami 120 fruktiv i ovochiv 100x100 pikseliv bilij fon 82213 Zobrazhennya jpg Klasifikaciya 2017 2019 Mihai Oltean Horea Muresan Mikrob Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Ecoli Dataset Miscya lokalizaciyi bilkiv Navedeno rizni osoblivosti misc lokalizaciyi bilkiv 336 Tekst Klasifikaciya 1996 K Nakai et al MicroMass Dataset Identifikaciya mikroorganizmiv za danimi mas spektrometriyi Rizni funkciyi mas spektrometra 931 Tekst Klasifikaciya 2013 P Mahe et al Yeast Dataset Prognozuvannya klitinnoyi lokalizaciyi bilkiv Visim funkcij navedeno dlya kozhnogo vipadku 1484 Tekst Klasifikaciya 1996 K Nakai et al Vidkrittya narkotikiv Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Tox21 Dataset Prognozuvannya rezultativ biologichnih analiziv Navedeno himichni deskriptori molekul 12707 Tekst Klasifikaciya 2016 A Mayr et al Dani pro anomaliyiNazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Numenta Anomaly Benchmark NAB Dani vporyadkovani z mitkami chasu odnoznachni metriki Usi fajli danih mistyat anomaliyi yaksho ne zaznacheno inshe Nemaye 50 files Znachennya rozdileni komami Viyavlennya anomalij 2016 postijno onovlyuyetsya Numenta Skoltech Anomaly Benchmark SKAB Kozhen fajl predstavlyaye odin eksperiment i mistit odnu anomaliyu Nabir danih yavlyaye soboyu bagatovariantnij chasovij ryad zibranij iz datchikiv vstanovlenih na testovomu stendi Ye dvi rozmitki dlya problem viyavlennya vikidiv tochkovi anomaliyi ta viyavlennya tochok zmin kolektivni anomaliyi 30 files v0 9 Znachennya rozdileni komami Viyavlennya anomalij 2020 postijno onovlyuyetsya Iurii D Katser and Vyacheslav O Kozitsin On the Evaluation of Unsupervised Outlier Detection Measures Datasets and an Empirical Study Bilshist fajliv danih adaptovano z danih repozitariyu mashinnogo navchannya UCI deyaki zibrani z literaturi obroblyayutsya vidsutni znachennya lishe chislovi atributi rizni vidsotki anomalij mitki 1000 files ARFF Viyavlennya anomalij 2016 mozhlivo onovleno novimi naborami danih ta abo rezultatami Campos et al Vidpovidi na pitannyaCej rozdil mistit nabori danih yaki mayut spravu zi strukturovanimi danimi Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo DBpedia Neural Question Answering DBNQA Dataset Velika kolekciya Question to SPARQL specialno rozroblena dlya vidpovidi na nejronni zapitannya vidkritogo domenu cherez bazu znan DBpedia Cej nabir danih mistit veliku kolekciyu vidkritih shabloniv Neural SPARQL ta ekzemplyariv dlya navchannya mashin Neural SPARQL vin buv poperedno obroblenij napivavtomatichnimi instrumentami anotaciyi a takozh troma ekspertami SPARQL 894 499 Pari pitannya zapit Vidpovid na zapitannya 2018 Hartmann Soru and Marx et al Vietnamese Question Answering Dataset UIT ViQuAD Velika kolekciya v yetnamskih pitan dlya ocinki modelej MRC Cej nabir danih mistit ponad 23 000 stvorenih lyudmi par pitan i vidpovidej na osnovi 5 109 urivkiv iz 174 v yetnamskih statej z Vikipediyi 23 074 Pari pitannya zapit Vidpovid na zapitannya 2020 Nguyen et al Vietnamese Multiple Choice Machine Reading Comprehension Corpus ViMMRC Kolekciya v yetnamskih pitan z kilkoma vidpovidyami dlya ocinki modelej MRC Cej korpus vklyuchaye 2783 v yetnamski zapitannya z kilkoma vidpovidyami 2 783 Pari pitannya zapit Vidpovid na zapitannya Mashinne rozuminnya prochitanogo 2020 Nguyen et al Bagatovariantni daniNabori danih sho skladayutsya z ryadkiv sposterezhen i stovpciv atributiv sho harakterizuyut ci sposterezhennya Zazvichaj vikoristovuyetsya dlya regresijnogo analizu abo klasifikaciyi ale mozhut vikoristovuvatisya j inshi tipi algoritmiv Cej rozdil mistit nabori danih yaki ne vpisuyutsya v vishezaznacheni kategoriyi Finansi Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Dow Jones Index Shotizhnevi dani zapasiv za I II kvartali 2011 roku Rozrahovani znachennya vklyuchali taki yak vidsotkova zmina ta lagi 750 Znachennya rozdileni komami Klasifikaciya regresiya chasovi ryadi 2014 M Brown et al Statlog Australian Credit Approval Zayavki na kreditni kartki prijnyati abo vidhileni ta atributi programi Nazvi atributiv vidalyayutsya a takozh identifikacijna informaciya Faktori buli peremarkovani 690 Znachennya rozdileni komami Klasifikaciya 1987 R Quinlan eBay auction data Dani aukcionu z riznih ob yektiv eBay com na aukcionah riznoyi trivalosti Mistit usi stavki identifikator stavki chas stavok ta cini vidkrittya 550 Tekst Regresiya klasifikaciya 2012 en et al Statlog German Credit Data Binarna klasifikaciya kreditu na horosha abo pogana z bagatma oznakami Navedeno rizni finansovi osoblivosti kozhnoyi lyudini 690 Tekst Klasifikaciya 1994 H Hofmann Bank Marketing Dataset Dani velikoyi marketingovoyi kampaniyi provedenoyi velikim bankom Navedeno bagato atributiv kliyentiv do yakih zvertayutsya Yaksho kliyent pidpisavsya na bank takozh nadayetsya 45 211 Tekst Klasifikaciya 2012 S Moro et al Istanbul Stock Exchange Dataset Dekilka fondovih indeksiv vidstezhuvalisya majzhe dva roki Nemaye 536 Tekst Klasifikaciya regresiya 2013 O Akbilgic Default of Credit Card Clients Dani pro defolt dlya tajvanskih kreditoriv Dlya kozhnogo oblikovogo zapisu nadayutsya rizni funkciyi 30 000 Tekst Klasifikaciya 2016 I Yeh Pogoda Nazva Opis Obrobka Rozmir Format Zadachi Stvorennaya Posilannya Dzherelo Cloud DataSet Dani pro 1024 riznih hmarah Vilucheno harakteristiki zobrazhennya 1024 Tekst Klasifikaciya klasterizaciya 1989 P Collard El Nino Dataset Okeanografichni ta prizemni meteorologichni pokazannya otrimani z seriyi buyiv roztashovanih po vsij ekvatorialnij chastini Tihogo okeanu Na kozhnomu buyi vimiryuyetsya 12 pogodnih atributiv 178080 Tekst Regresiya 1999 en Greenhouse Gas Observing Network Dataset Chasovij ryad koncentracij parnikovih gaziv u 2921 oseredku sitki v Kaliforniyi stvorenij za dopomogoyu modelyuvannya pogodi Nemaye 2921 Tekst Regresiya 2015 D Lucas Atmospheric CO2 from Continuous Air Samples at Mauna Loa Observatory Bezperervni probi povitrya na Gavayah SShA 44 roki rekordiv Nemaye 44 years Tekst Regresiya 2001 en Ionosphere Dataset Radarni dani z ionosferi Zavdannya rozdiliti na horoshi ta pogani rezultati radiolokaciyi Nemaye 351 Tekst Klasifikaciya 1989 Johns Hopkins University Ozone Level Detection Dataset Dva nabori danih pro riven ozonu na zemli Nadano bagato funkcij vklyuchayuchi pogodni umovi na moment vimiryuvannya 2536 Tekst Klasifikaciya 2008 K Zhang et al Perepis naselennya Nazva Opis Obrobka Rozmir Format Zadachi Stvorennaya Posilannya Dzherelo Adult Dataset Dani perepisu 1994 roku sho mistyat demografichni oznaki doroslih ta yihni dohodi Ochisheno ta anonimno 48 842 Znachennya rozdileni komami Klasifikaciya 1996 United States Census Bureau Census Income KDD Zvazheni dani perepisu z potochnih opituvan naselennya 1994 ta 1995 rokiv Rozdilit na navchalni ta testovi nabori 299 285 Znachennya rozdileni komami Klasifikaciya 2000 United States Census Bureau IPUMS Census Database Dani perepisu z rajoniv Los Andzhelesa ta Long Bich Nemaye 256 932 Tekst Klasifikaciya regresiya 1999 en US Census Data 1990 Chastkovi dani perepisu naselennya SShA 1990 roku Rezultati randomizovani ta vibrani korisni atributi 2 458 285 Tekst Klasifikaciya regresiya 1990 United States Census Bureau Tranzit Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Bike Sharing Dataset Pogodinnij i dobovij pidrahunok prokatu velosipediv u velikomu misti Nadano bagato funkcij vklyuchayuchi pogodu trivalist podorozhi tosho 17 389 Tekst Regresiya 2013 H Fanaee T New York City Taxi Trip Data Dani pro podorozhi zhovtih i zelenih taksi v Nyu Jorku Vkazuye miscya posadki ta visadki tarifi ta inshi detali poyizdok 6 years Tekst Klasifikaciya klasterizaciya 2015 en Taxi Service Trajectory ECML PKDD Trayektoriyi vsih taksi u velikomu misti Nadano bagato funkcij vklyuchayuchi tochki pochatku ta zupinki 1 710 671 Tekst Klasterizaciya prichinno naslidkove vidkrittya 2015 M Ferreira et al METR LA Shvidkist vid petlevi detektoriv na shose okrugu Los Andzheles Serednya shvidkist za 5 hvilin 7 094 304 z 207 datchikiv i 34 272 krokiv Znachennya rozdileni komami Regresiya prognozuvannya 2014 Jagadish et al PeMS Shvidkist potik zajnyatist ta inshi pokazniki vid petlevih detektoriv ta inshih datchikiv na avtostradi shtatu Kaliforniya SShA Pokaznik zazvichaj zvoditsya do serednogo z 5 hvilinnimi chasovimi krokami 39 000 individualnih detektoriv kozhen iz yakih mistit ryadi chasu Znachennya rozdileni komami Regresiya prognozuvannya prognozuvannya interpolyaciya onovleno v rezhimi realnogo chasu California Department of Transportation Internet Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Webpages from Common Crawl 2012 Velika kolekciya veb storinok i sposib yih z yednannya za dopomogoyu giperposilan Nemaye 3 5B Tekst klasterizaciya klasifikaciya 2013 V Granville Internet Advertisements Dataset Nabir danih dlya prognozuvannya togo chi ye dane zobrazhennya reklamoyu chi ni Funkciyi koduyut geometriyu ogoloshen i fraz sho zustrichayutsya v URL adresi 3279 Tekst Klasifikaciya 1998 N Kushmerick Internet Usage Dataset Zagalna demografichna harakteristika koristuvachiv Internetu Nemaye 10 104 Tekst Klasifikaciya klasterizaciya 1999 D Cook URL Dataset 120 dniv URL adres velikoyi konferenciyi Navedeno bagato funkcij kozhnoyi URL adresi 2 396 130 Tekst Klasifikaciya 2009 J Ma Phishing Websites Dataset Nabir danih fishingovih veb sajtiv MNavedeno bagato funkcij kozhnogo sajtu 2456 Tekst Klasifikaciya 2015 R Mustafa et al Online Retail Dataset Onlajn tranzakciyi dlya britanskogo internet magazinu Dani detali kozhnoyi tranzakciyi 541 909 Tekst Klasifikaciya klasterizaciya 2015 D Chen Freebase Simple Topic Dump Freebase ce onlajn instrument strukturuvannya vsih lyudskih znan Temi z Freebase buli vilucheni bagato Tekst Klasifikaciya klasterizaciya 2011 Freebase Farm Ads Dataset Tekst reklami fermi z sajtiv Nadayetsya binarne shvalennya abo vidhilennya vlasnikami vmistu Rozrahovani SVMlight rozridzheni vektori tekstovih sliv v ogoloshennyah 4143 Tekst Klasifikaciya 2011 C Masterharm et al Igri Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Poker Hand Dataset 5 kartkovih ruk iz standartnoyi kolodi z 52 kart Nadayutsya atributi kozhnoyi ruki vklyuchayuchi pokerni ruki utvoreni kartami yaki vona mistit 1 025 010 Tekst Regresiya klasifikaciya 2007 R Cattral Connect 4 Dataset Mistit usi dozvoleni 8 sharovi poziciyi v gri Connect 4 v yakij zhoden iz gravciv she ne vigrav i v yakij nastupnij hid ne vimushenij Nemaye 67 557 Tekst Klasifikaciya 1995 J Tromp Chess King Rook vs King Dataset Baza danih finalu dlya bilogo korolya ta ladi proti chornogo korolya Nemaye 28 056 Tekst Klasifikaciya 1994 M Bain et al Chess King Rook vs King Pawn Dataset King Rook versus King Pawn on a7 Nemaye 3196 Tekst Klasifikaciya 1989 R Holte Tic Tac Toe Endgame Dataset Binarna klasifikaciya umov vigrashu v hrestiki nuliki Nemaye 958 Tekst Klasifikaciya 1991 D Aha Inshi bagatovariantosti Nazva Opis Obrobka Rozmir Format Zadachi Stvorennya Posilannya Dzherelo Housing Data Set Seredni znachennya budinku v Bostoni z pov yazanimi atributami budinku ta rajonu Nemaye 506 Tekst Regresiya 1993 D Harrison et al The Getty Vocabularies strukturovana terminologiya hudozhnoyi ta inshoyi materialnoyi kulturi arhivni materiali vizualni surogati ta bibliografichni materiali Nemaye bagato Tekst Klasifikaciya 2015 Getty Center Yahoo Front Page Today Module User Click Log Zhurnal klikiv koristuvacha dlya statej novin yaki vidobrazhayutsya na vkladci Vibrani modulya Today na Yahoo Titulna storinka Sumisnij analiz z bilinijnoyu modellyu 45 811 883 vidviduvannya koristuvachiv Tekst Regresiya klasterizaciya 2009 Chu et al British Oceanographic Data Centre Biologichni himichni fizichni ta geofizichni dani dlya okeaniv Vidstezheno 22 tis zminnih Rizni 22 tis zminnih bagato ekzemplyariv Tekst Regresiya klasterizaciya 2015 en Congressional Voting Records Dataset Dani golosuvannya vsih predstavnikiv SShA z 16 pitan Detalno zapisuyutsya pro vikoristannya program kozhnim koristuvachem 435 Tekst Klasifikaciya 1987 J Schlimmer Entree Chicago Recommendation Dataset Zapis vzayemodiyi koristuvachiv iz sistemoyu rekomendacij Entree Chicago Detalno zapisuyutsya dani pro vikoristannya programi kozhnim koristuvachem 50 672 Tekst Regresiya rekomendaciya 2000 R Burke Insurance Company Benchmark COIL 2000 Informaciya pro kliyentiv strahovoyi kompaniyi Bagato funkcij kozhnogo kliyenta ta poslug yakimi voni koristuyutsya 9 000 Tekst Regresiya klasifikaciya 2000 P van der Putten Nursery Dataset Dani vid abituriyentiv do dityachih sadkiv Vklyuchayutsya dani pro sim yu zayavnika ta rizni inshi faktori 12 960 Tekst Klasifikaciya 1997 V Rajkovic et al University Dataset Dani sho opisuyut atributi velikoyi kilkosti universitetiv Nemaye 285 Tekst Klasifikaciya klasterizaciya 1988 S Sounders et al Blood Transfusion Service Center Dataset Dani centru perelivannya krovi Nadaye dani pro shvidkist povernennya donoriv chastotu tosho Nemaye 748 Tekst Klasifikaciya 2008 I Yeh Record Linkage Comparison Patterns Dataset Velikij nabir zapisiv Zavdannya zv yazati mizh soboyu vidpovidni zapisi Procedura blokuvannya zastosovuyetsya dlya viboru lishe pevnih par zapisiv 5 749 132 Tekst Klasifikaciya 2011 University of Mainz Nomao Dataset Nomao zbiraye dani pro miscya z bagatoh riznih dzherel Zavdannya viyaviti predmeti yaki opisuyut odne j te same misce Poznacheni kopiyi 34 465 Tekst Klasifikaciya 2012 Nomao Labs Movie Dataset Dani dlya 10 000 filmiv Dlya kozhnogo filmu nadano kilka funkcij 10 000 Tekst Klasifikaciya klasterizaciya 1999 G Wiederhold Open University Learning Analytics Dataset Informaciya pro studentiv ta yih vzayemodiyu z virtualnim navchalnim seredovishem Zhodnogo 30 000 Tekst Klasifikaciya klasterizaciya regresiya 2015 J Kuzilek et al Mobile phone records Telekomunikacijna diyalnist ta vzayemodiyi Agregaciya za klitinkami geografichnoyi sitki ta kozhni 15 hvilin velikij Tekst Klasifikaciya klasterizaciya regresiya 2015 G Barlacchi et al Kuratorski shovisha naboriv danihOskilki nabori danih buvayut u bezlichi formativ i inodi mozhut buti vazhkimi u vikoristanni bula provedena znachna robota v organizaciyi ta standartizaciyi formatu naboriv danih shob polegshiti yih vikoristannya dlya doslidzhennya mashinnogo navchannya OpenML veb platforma z Python R Java ta inshimi API dlya zavantazhennya soten naboriv danih mashinnogo navchannya ocinki algoritmiv u naborah danih i porivnyannya produktivnosti algoritmu z desyatkami inshih algoritmiv PMLB velike shovishe kontrolnih naboriv danih dlya ocinki kontrolovanih algoritmiv mashinnogo navchannya Zabezpechuye nabori danih klasifikaciyi ta regresiyi v standartizovanomu formati yaki dostupni cherez API Python Metatext NLP veb shovishe https metatext io datasets yake obslugovuyetsya spilnotoyu mistit majzhe 1000 kontrolnih naboriv danih i zbilshuyetsya Nadaye bagato zavdan vid klasifikaciyi do QA a takozh rizni movi vid anglijskoyi portugalskoyi do arabskoyi en Off the Shelf and Open Source Datasets rozmisheni ta pidtrimuvani kompaniyeyu Ci biologichni grafichni fizichni vidpovidi na zapitannya signalni zvukovi tekstovi ta videoresursi nalichuyut ponad 250 i yih mozhna zastosuvati do bilsh nizh 25 riznih vipadkiv vikoristannya Divis takozhPorivnyannya programnogo zabezpechennya glibokogo navchannya en en Cyu stattyu treba vikifikuvati dlya vidpovidnosti standartam yakosti Vikipediyi Bud laska dopomozhit dodavannyam dorechnih vnutrishnih posilan abo vdoskonalennyam rozmitki statti traven 2017 PrimitkiEdge org www edge org Procitovano 24 travnya 2022 Weiss G M Provost F 1 zhovtnya 2003 Learning When Training Data are Costly The Effect of Class Distribution on Tree Induction Journal of Artificial Intelligence Research angl T 19 s 315 354 doi 10 1613 jair 1199 ISSN 1076 9757 Procitovano 24 travnya 2022 Turney Peter D 11 grudnya 2002 Types of Cost in Inductive Concept Learning arXiv cs 0212034 Procitovano 24 travnya 2022 Turney Peter D 11 grudnya 2002 Types of Cost in Inductive Concept Learning arXiv cs 0212034 Procitovano 25 travnya 2022 Zliobaite Indre Bifet Albert Pfahringer Bernhard Holmes Geoff 2011 Gunopulos Dimitrios red Active Learning with Evolving Streaming Data Machine Learning and Knowledge Discovery in Databases angl Springer s 597 612 doi 10 1007 978 3 642 23808 6 39 ISBN 978 3 642 23808 6 Procitovano 24 travnya 2022 Zafeiriou Stefanos Kollias Dimitrios Nicolaou Mihalis A Papaioannou Athanasios Zhao Guoying Kotsia Irene 2017 07 Aff Wild Valence and Arousal In the Wild Challenge 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops CVPRW s 1980 1987 doi 10 1109 CVPRW 2017 248 Procitovano 25 travnya 2022 Kollias Dimitrios Tzirakis Panagiotis Nicolaou Mihalis A Papaioannou Athanasios Zhao Guoying Schuller Bjorn Kotsia Irene Zafeiriou Stefanos 1 chervnya 2019 Deep Affect Prediction in the Wild Aff Wild Database and Challenge Deep Architectures and Beyond International Journal of Computer Vision angl T 127 6 s 907 929 doi 10 1007 s11263 019 01158 4 ISSN 1573 1405 Procitovano 25 travnya 2022 Kollias Dimitrios Zafeiriou Stefanos 25 veresnya 2019 Expression Affect Action Unit Recognition Aff Wild2 Multi Task Learning and ArcFace arXiv 1910 04855 cs eess Procitovano 25 travnya 2022 Kollias D Schulc Attila Hajiyev Elnar Zafeiriou S 2020 Analysing Affective Behavior in the First ABAW 2020 Competition 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition FG 2020 doi 10 1109 FG47880 2020 00126 Procitovano 25 travnya 2022 Wiskott Laurenz et al Face recognition by elastic bunch graph matching Pattern Analysis and Machine Intelligence IEEE Transactions on 19 7 1997 775 779 Wiskott L Kruger Norbert Kuiger N von der Malsburg C 1997 07 Face recognition by elastic bunch graph matching IEEE Transactions on Pattern Analysis and Machine Intelligence T 19 7 s 775 779 doi 10 1109 34 598235 ISSN 1939 3539 Procitovano 27 travnya 2022 Livingstone Steven R Russo Frank A 16 trav 2018 r The Ryerson Audio Visual Database of Emotional Speech and Song RAVDESS A dynamic multimodal set of facial and vocal expressions in North American English PLOS ONE angl T 13 5 s e0196391 doi 10 1371 journal pone 0196391 ISSN 1932 6203 PMC 5955500 PMID 29768426 Procitovano 28 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z PMC z inshim formatom posilannya Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Livingstone Steven R Russo Frank A 5 kvitnya 2018 The Ryerson Audio Visual Database of Emotional Speech and Song RAVDESS Zenodo doi 10 5281 zenodo 1188976 procitovano 28 travnya 2022 Grgic Mislav Kresimir Delac and Sonja Grgic SCface surveillance cameras face database Multimedia tools and applications 51 3 2011 863 879 Wallace Roy et al Inter session variability modelling and joint factor analysis for face authentication Biometrics IJCB 2011 International Joint Conference on IEEE 2011 Georghiades A Yale face database Center For Computational Vision And Control At Yale University Nguyen D Halupka D Aarabi P Sheikholeslami A 2006 08 Real time face detection and lip feature extraction using field programmable gate arrays IEEE Transactions on Systems Man and Cybernetics Part B Cybernetics T 36 4 s 902 912 doi 10 1109 TSMCB 2005 862728 ISSN 1941 0492 Procitovano 28 travnya 2022 Kanade T Cohn J F Yingli Tian Comprehensive database for facial expression analysis Proceedings Fourth IEEE International Conference on Automatic Face and Gesture Recognition Cat No PR00580 IEEE Comput Soc doi 10 1109 afgr 2000 840611 Procitovano 28 travnya 2022 Zeng Zhihong Pantic Maja Roisman Glenn I Huang Thomas S 2009 01 A Survey of Affect Recognition Methods Audio Visual and Spontaneous Expressions IEEE Transactions on Pattern Analysis and Machine Intelligence T 31 1 s 39 58 doi 10 1109 TPAMI 2008 52 ISSN 1939 3539 Procitovano 28 travnya 2022 Lyons Michael Kamachi Miyuki Gyoba Jiro 14 kvitnya 1998 The Japanese Female Facial Expression JAFFE Dataset Zenodo doi 10 5281 zenodo 3451524 procitovano 28 travnya 2022 Lyons M Akamatsu S Kamachi M Gyoba J Coding facial expressions with Gabor wavelets Proceedings Third IEEE International Conference on Automatic Face and Gesture Recognition IEEE Comput Soc doi 10 1109 afgr 1998 670949 Procitovano 28 travnya 2022 Ng Hong Wei Winkler Stefan 2014 10 A data driven approach to cleaning large face datasets 2014 IEEE International Conference on Image Processing ICIP IEEE doi 10 1109 icip 2014 7025068 Procitovano 28 travnya 2022 RoyChowdhury Aruni Lin Tsung Yu Maji Subhransu Learned Miller Erik 28 bereznya 2016 One to many face recognition with bilinear CNNs arXiv 1506 01342 cs Procitovano 28 travnya 2022 Jesorsky Oliver Kirchberg Klaus J Frischholz Robert W 2001 Robust Face Detection Using the Hausdorff Distance Lecture Notes in Computer Science Berlin Heidelberg Springer Berlin Heidelberg s 90 95 ISBN 978 3 540 42216 7 Karam Lina J Zhu Tong 17 bereznya 2015 Quality labeled faces in the wild QLFW a database for studying face recognition in real world environments Human Vision and Electronic Imaging XX SPIE doi 10 1117 12 2080393 Procitovano 28 travnya 2022 Bhatt Rajen B Sharma Gaurav Dhall Abhinav Chaudhury Santanu 2009 Efficient Skin Region Segmentation Using Low Complexity Fuzzy Decision Tree Model 2009 Annual IEEE India Conference IEEE doi 10 1109 indcon 2009 5409447 Procitovano 28 travnya 2022 Lingala Mounika Joe Stanley R Rader Ryan K Hagerty Jason Rabinovitz Harold S Oliviero Margaret Choudhry Iqra Stoecker William V 1 lipnya 2014 Fuzzy logic color detection Blue areas in melanoma dermoscopy images Computerized Medical Imaging and Graphics angl T 38 5 s 403 410 doi 10 1016 j compmedimag 2014 03 007 ISSN 0895 6111 PMC 4287461 PMID 24786720 Procitovano 28 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z PMC z inshim formatom posilannya Maes Chris Fabry Thomas Keustermans Johannes Smeets Dirk Suetens Paul Vandermeulen Dirk 2010 09 Feature detection on 3D face surfaces for pose normalisation and recognition 2010 Fourth IEEE International Conference on Biometrics Theory Applications and Systems BTAS IEEE doi 10 1109 btas 2010 5634543 Procitovano 28 travnya 2022 Savran Arman Alyuz Nese Dibeklioglu Hamdi Celiktutan Oya Gokberk Berk Sankur Bulent Akarun Lale 2008 Bosphorus Database for 3D Face Analysis Lecture Notes in Computer Science Berlin Heidelberg Springer Berlin Heidelberg s 47 56 ISBN 978 3 540 89990 7 Heseltine T Pears N Austin J Three dimensional face recognition an eigensurface approach 2004 International Conference on Image Processing 2004 ICIP 04 IEEE doi 10 1109 icip 2004 1419769 Procitovano 28 travnya 2022 Ge Yun et al 2011 3D Novel Face Sample Modeling for Face Recognition Journal of Multimedia ojs academypublisher com doi 10 4304 jmm 6 5 467 475 Procitovano 28 travnya 2022 Wang Yueming Jianzhuang Liu and Xiaoou Tang Robust 3D face recognition by local shape difference boosting Pattern Analysis and Machine Intelligence IEEE Transactions on 32 10 2010 1858 1870 Zhong Cheng Zhenan Sun and Tieniu Tan Robust 3D face recognition using learned visual codebook Computer Vision and Pattern Recognition 2007 CVPR 07 IEEE Conference on IEEE 2007 Zhao G Huang X Taini M Li S Z amp Pietikainen M 2011 Facial expression recognition from near infrared videos Image and Vision Computing 29 9 607 619 Soyel Hamit and Hasan Demirel Facial expression recognition using 3D facial feature distances Image Analysis and Recognition Springer Berlin Heidelberg 2007 831 838 Bowyer Kevin W Kyong Chang and Patrick Flynn A survey of approaches and challenges in 3D and multi modal 3D 2D face recognition Computer vision and image understanding 101 1 2006 1 15 Tan Xiaoyang and Bill Triggs Enhanced local texture feature sets for face recognition under difficult lighting conditions Image Processing IEEE Transactions on 19 6 2010 1635 1650 Mousavi Mir Hashem Karim Faez and Amin Asghari Three dimensional face recognition using SVM classifier Computer and Information Science 2008 ICIS 08 Seventh IEEE ACIS International Conference on IEEE 2008 Amberg Brian Reinhard Knothe and Thomas Vetter Expression invariant 3D face recognition with a morphable model Automatic Face amp Gesture Recognition 2008 FG 08 8th IEEE International Conference on IEEE 2008 Irfanoglu M O Berk Gokberk and Lale Akarun 3D shape based face recognition using automatically registered facial surfaces Pattern Recognition 2004 ICPR 2004 Proceedings of the 17th International Conference on Vol 4 IEEE 2004 Beumier Charles and Marc Acheroy Face verification from 3D and grey level clues Pattern recognition letters 22 12 2001 1321 1329 Computer Science arxiv org Procitovano 28 travnya 2022 SoF dataset sites google com ukr Procitovano 28 travnya 2022 IMDB WIKI 500k face images with age and gender labels data vision ee ethz ch Procitovano 28 travnya 2022 Patron Perez Alonso Marszalek Marcin Reid Ian Zisserman Andrew 2012 12 Structured Learning of Human Interactions in TV Shows IEEE Transactions on Pattern Analysis and Machine Intelligence T 34 12 s 2441 2453 doi 10 1109 TPAMI 2012 24 ISSN 1939 3539 Procitovano 20 travnya 2022 Ofli Ferda Chaudhry Rizwan Kurillo Gregorij Vidal Rene Bajcsy Ruzena 2013 01 Berkeley MHAD A comprehensive Multimodal Human Action Database 2013 IEEE Workshop on Applications of Computer Vision WACV IEEE doi 10 1109 wacv 2013 6474999 Procitovano 20 travnya 2022 N Z Asian Conference on Pattern Recognition 5th 2019 Auckland Pattern recognition 5th Asian Conference ACPR 2019 Auckland New Zealand November 26 29 2019 Revised selected papers ISBN 978 3 030 41299 9 OCLC 1142374420 Feichtenhofer Christoph Pinz Axel Zisserman Andrew 2016 06 Convolutional Two Stream Network Fusion for Video Action Recognition 2016 IEEE Conference on Computer Vision and Pattern Recognition CVPR IEEE doi 10 1109 cvpr 2016 213 Procitovano 28 travnya 2022 Rama Zhao Wenyi Chellappa Face processing advanced modeling and methods ISBN 978 0 08 048884 4 OCLC 953864701 Krishna Ranjay Zhu Yuke Groth Oliver Johnson Justin Hata Kenji Kravitz Joshua Chen Stephanie Kalantidis Yannis Li Li Jia Shamma David A Bernstein Michael S Fei Fei Li 2017 Visual Genome Connecting Language and Vision Using Crowdsourced Dense Image Annotations International Journal of Computer Vision 123 32 73 arXiv 1602 07332 doi 10 1007 s11263 016 0981 7 Karayev S et al A category level 3 D object dataset putting the Kinect to work 21 grudnya 2019 u Wayback Machine Proceedings of the IEEE International Conference on Computer Vision Workshops 2011 Tighe Joseph and Svetlana Lazebnik Superparsing scalable nonparametric image parsing with superpixels 6 serpnya 2019 u Wayback Machine Computer Vision ECCV 2010 Springer Berlin Heidelberg 2010 352 365 Arbelaez P Maire M Fowlkes C Malik J May 2011 PDF IEEE Transactions on Pattern Analysis and Machine Intelligence 33 5 898 916 doi 10 1109 tpami 2010 161 PMID 20733228 Arhiv originalu PDF za 8 travnya 2012 Procitovano 27 lyutogo 2016 Lin Tsung Yi et al Microsoft coco Common objects in context Computer Vision ECCV 2014 Springer International Publishing 2014 740 755 Russakovsky Olga Deng Jia Su Hao Krause Jonathan Satheesh Sanjeev Ma Sean Huang Zhiheng Karpathy Andrej Khosla Aditya 1 grudnya 2015 ImageNet Large Scale Visual Recognition Challenge International Journal of Computer Vision angl T 115 3 s 211 252 doi 10 1007 s11263 015 0816 y ISSN 1573 1405 Procitovano 27 travnya 2022 cocodataset org Arhiv originalu za 20 zhovtnya 2021 Procitovano 17 zhovtnya 2021 Xiao Jianxiong et al Sun database Large scale scene recognition from abbey to zoo Computer vision and pattern recognition CVPR 2010 IEEE conference on IEEE 2010 Donahue Jeff Jia Yangqing Vinyals Oriol Hoffman Judy Zhang Ning Tzeng Eric Darrell Trevor 2013 DeCAF A Deep Convolutional Activation Feature for Generic Visual Recognition arXiv 1310 1531 cs CV Deng Jia et al Imagenet A large scale hierarchical image database Computer Vision and Pattern Recognition 2009 CVPR 2009 IEEE Conference on IEEE 2009 Krizhevsky Alex Ilya Sutskever and Geoffrey E Hinton Imagenet classification with deep convolutional neural networks 31 serpnya 2019 u Wayback Machine Advances in neural information processing systems 2012 Ivan Krasin Tom Duerig Neil Alldrin Andreas Veit Sami Abu El Haija Serge Belongie David Cai Zheyun Feng Vittorio Ferrari Victor Gomes Abhinav Gupta Dhyanesh Narayanan Chen Sun Gal Chechik Kevin Murphy OpenImages A public dataset for large scale multi label and multi class image classification 2017 Available from https github com openimages 14 kvitnya 2020 u Wayback Machine Vyas Apoorv et al Commercial Block Detection in Broadcast News Videos Proceedings of the 2014 Indian Conference on Computer Vision Graphics and Image Processing ACM 2014 Hauptmann Alexander G and Michael J Witbrock Story segmentation and detection of commercials in broadcast news video Research and Technology Advances in Digital Libraries 1998 ADL 98 Proceedings IEEE International Forum on IEEE 1998 Tung Anthony KH Xin Xu and Beng Chin Ooi Curler finding and visualizing nonlinear correlation clusters 6 serpnya 2019 u Wayback Machine Proceedings of the 2005 ACM SIGMOD international conference on Management of data ACM 2005 Jarrett Kevin et al What is the best multi stage architecture for object recognition 6 serpnya 2019 u Wayback Machine Computer Vision 2009 IEEE 12th International Conference on IEEE 2009 Lazebnik Svetlana Cordelia Schmid and Jean Ponce Beyond bags of features Spatial pyramid matching for recognizing natural scene categories 6 serpnya 2019 u Wayback Machine Computer Vision and Pattern Recognition 2006 IEEE Computer Society Conference on Vol 2 IEEE 2006 Griffin G A Holub and P Perona Caltech 256 object category dataset California Inst Technol Tech Rep 7694 2007 Online Available http authors library caltech edu 7694 7 lipnya 2019 u Wayback Machine 2007 Baeza Yates Ricardo and Berthier Ribeiro Neto Modern information retrieval Vol 463 New York ACM press 1999 Fu Xiping et al NOKMeans Non Orthogonal K means Hashing Computer Vision ACCV 2014 Springer International Publishing 2014 162 177 Heitz Geremy Elidan Gal Packer Benjamin Koller Daphne 1 serpnya 2009 Shape Based Object Localization for Descriptive Classification International Journal of Computer Vision angl T 84 1 s 40 62 doi 10 1007 s11263 009 0228 y ISSN 1573 1405 Procitovano 27 travnya 2022 M Cordts M Omran S Ramos T Scharwachter M Enzweiler R Benenson U Franke S Roth and B Schiele The Cityscapes Dataset 17 kvitnya 2020 u Wayback Machine In CVPR Workshop on The Future of Datasets in Vision 2015 Everingham Mark ta in 2010 The pascal visual object classes voc challenge International Journal of Computer Vision 88 2 303 338 doi 10 1007 s11263 009 0275 4 Felzenszwalb Pedro F Girshick Ross B McAllester David Ramanan Deva 2010 09 Object Detection with Discriminatively Trained Part Based Models IEEE Transactions on Pattern Analysis and Machine Intelligence T 32 9 s 1627 1645 doi 10 1109 TPAMI 2009 167 ISSN 1939 3539 Procitovano 27 travnya 2022 Gong Yunchao and Svetlana Lazebnik Iterative quantization A procrustean approach to learning binary codes Computer Vision and Pattern Recognition CVPR 2011 IEEE Conference on IEEE 2011 Luke N Darlow Elliot J Crowley Antreas Antoniou Amos J Storkey 2018 CINIC 10 is not ImageNet or CIFAR 10 9 zhovtnya 2018 Arhiv originalu za 12 listopada 2018 Procitovano 13 listopada 2018 Zalando Research 7 zhovtnya 2017 arhiv originalu za 20 lipnya 2019 procitovano 7 zhovtnya 2017 Machine Learning etc 8 veresnya 2011 Arhiv originalu za 1 veresnya 2019 Procitovano 13 zhovtnya 2017 Houben Sebastian et al Detection of traffic signs in real world images The German Traffic Sign Detection Benchmark Neural Networks IJCNN The 2013 International Joint Conference on IEEE 2013 Mathias Mayeul et al Traffic sign recognition How far are we from the solution 30 grudnya 2020 u Wayback Machine Neural Networks IJCNN The 2013 International Joint Conference on IEEE 2013 Geiger Andreas Philip Lenz and Raquel Urtasun Are we ready for autonomous driving the kitti vision benchmark suite 22 grudnya 2018 u Wayback Machine Computer Vision and Pattern Recognition CVPR 2012 IEEE Conference on IEEE 2012 Sturm Jurgen et al A benchmark for the evaluation of RGB D SLAM systems 12 lipnya 2019 u Wayback Machine Intelligent Robots and Systems IROS 2012 IEEE RSJ International Conference on IEEE 2012 The KITTI Vision Benchmark Suite na YouTube angl Chaladze G Kalatozishvili L 2017 Linnaeus 5 dataset Chaladze com Retrieved 13 November 2017 from http chaladze com l5 25 serpnya 2019 u Wayback Machine Kragh Mikkel F ta in 2017 Sensors 17 11 2579 doi 10 3390 s17112579 PMC 5713196 PMID 29120383 Arhiv originalu za 31 zhovtnya 2018 Procitovano 7 veresnya 2019 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Afifi Mahmoud 12 listopada 2017 Gender recognition and biometric identification using a large dataset of hand images arXiv 1711 04322 cs CV Lomonaco Vincenzo Maltoni Davide 18 zhovtnya 2017 CORe50 a New Dataset and Benchmark for Continuous Object Recognition arXiv 1705 03550 cs CV She Qi Feng Fan Hao Xinyue Yang Qihan Lan Chuanlin Lomonaco Vincenzo Shi Xuesong Wang Zhengwei Guo Yao 6 bereznya 2020 OpenLORIS Object A Robotic Vision Dataset and Benchmark for Lifelong Deep Learning arXiv 1911 06487 cs stat Procitovano 28 travnya 2022 Morozov Alexei A Sushkova Olga S Polupanov Alexander F 2017 06 Object oriented logic programming of 3D intelligent video surveillance The problem statement 2017 IEEE 26th International Symposium on Industrial Electronics ISIE IEEE doi 10 1109 isie 2017 8001491 Procitovano 28 travnya 2022 Morozov Alexei Sushkova Olga Kershner Ivan Polupanov Alexander 2019 Development of a Method of Terahertz Intelligent Video Surveillance Based on the Semantic Fusion of Terahertz and 3D Video Images Proceedings of the V International conference Information Technology and Nanotechnology 2019 IP Zaitsev V D doi 10 18287 1613 0073 2019 2391 134 143 Procitovano 28 travnya 2022 author Tecuci Gheorghe Knowledge engineering building cognitive assistants for evidence based reasoning ISBN 978 1 107 12256 7 OCLC 927619906 Frey Peter W Slate David J 1991 03 Letter recognition using Holland style adaptive classifiers Machine Learning T 6 2 s 161 182 doi 10 1007 bf00114162 ISSN 0885 6125 Procitovano 20 travnya 2022 Peltonen Jaakko Klami Arto Kaski Samuel 2004 10 Improved learning of Riemannian metrics for exploratory analysis Neural Networks angl T 17 8 9 s 1087 1100 doi 10 1016 j neunet 2004 06 008 Procitovano 20 travnya 2022 Liu Cheng Lin Yin Fei Wang Da Han Wang Qiu Feng 2013 01 Online and offline handwritten Chinese character recognition Benchmarking on new databases Pattern Recognition angl T 46 1 s 155 162 doi 10 1016 j patcog 2012 06 021 Procitovano 20 travnya 2022 Wang Da Han Liu Cheng Lin Yu Jin Lun Zhou Xiang Dong 2009 07 CASIA OLHWDB1 A Database of Online Handwritten Chinese Characters 2009 10th International Conference on Document Analysis and Recognition s 1206 1210 doi 10 1109 ICDAR 2009 163 Procitovano 20 travnya 2022 Williams Ben H Toussaint Marc Storkey Amos J 2006 Extracting Motion Primitives from Natural Handwriting Data Artificial Neural Networks ICANN 2006 Berlin Heidelberg Springer Berlin Heidelberg s 634 643 ISBN 978 3 540 38871 5 Calif IEEE ACM International Conference on Computer Aided Design 1998 San Jose 1998 1998 IEEE ACM International Conference on Computer Aided Design digest of technical papers November 8 12 1998 San Jose California IEEE Computer Society Press ISBN 1 58113 008 2 OCLC 40434775 V Cantoni 1989 Recent issues in pattern analysis and recognition Springer Verlag OCLC 555471615 Cohen Gregory Afshar Saeed Tapson Jonathan van Schaik Andre 17 lyutogo 2017 EMNIST an extension of MNIST to handwritten letters arXiv 1702 05373 cs Procitovano 27 travnya 2022 Andre Cohen Gregory Afshar Saeed Tapson Jonathan van Schaik 17 lyutogo 2017 EMNIST an extension of MNIST to handwritten letters OCLC 1106257270 Cohen Gregory Afshar Saeed Tapson Jonathan van Schaik Andre 17 lyutogo 2017 EMNIST an extension of MNIST to handwritten letters arXiv 1702 05373 cs Procitovano 20 travnya 2022 Figure 4 Samples of handwritten isolated Arabic characters dx doi org Procitovano 20 travnya 2022 One Shot Learning Considerations Internet Scale Pattern Recognition Chapman and Hall CRC 20 listopada 2012 s 53 66 Figure 10 Combination the result of feature selection and WGCNA dx doi org Procitovano 20 travnya 2022 editor Bieger Jordi editor Goertzel Ben editor Potapov Alexey Artificial General Intelligence 8th International Conference AGI 2015 AGI 2015 Berlin Germany July 22 25 2015 Proceedings ISBN 3 319 21365 2 OCLC 1113542889 Online International Conference on Artificial Neural Networks European Neural Network Society 30th 2021 Artificial neural networks and machine learning ICANN 2021 30th International Conference on Artificial Neural Networks Bratislava Slovakia September 14 17 2021 Proceedings ISBN 978 3 030 86340 1 OCLC 1268260200 Lecun Y Bottou L Bengio Y Haffner P Nov 1998 Gradient based learning applied to document recognition Proceedings of the IEEE T 86 11 s 2278 2324 doi 10 1109 5 726791 Procitovano 20 travnya 2022 Kussul Ernst Baidyk Tatiana 2004 10 Improved method of handwritten digit recognition tested on MNIST database Image and Vision Computing angl T 22 12 s 971 981 doi 10 1016 j imavis 2004 03 008 Procitovano 20 travnya 2022 Xu L Krzyzak A Suen C Y May June 1992 Methods of combining multiple classifiers and their applications to handwriting recognition IEEE Transactions on Systems Man and Cybernetics T 22 3 s 418 435 doi 10 1109 21 155943 Procitovano 20 travnya 2022 Alimoglu F Alpaydin E Combining multiple representations and classifiers for pen based handwritten digit recognition Proceedings of the Fourth International Conference on Document Analysis and Recognition IEEE Comput Soc doi 10 1109 icdar 1997 620583 Procitovano 20 travnya 2022 Tang E K Suganthan P N Yao X Qin A K 2005 04 Linear dimensionality reduction using relevance weighted LDA Pattern Recognition angl T 38 4 s 485 493 doi 10 1016 j patcog 2004 09 005 Procitovano 20 travnya 2022 Hong Yi et al PDF Drahan K I 1975 Endocrinologic peculiarities of the course of pregnancy and labor in primaparous women of the older age groups Pediatriia Akusherstvo I Ginekologiia 5 s 41 44 ISSN 0031 4048 PMID 1701 Procitovano 20 travnya 2022 Rothschild M Schlein J Parker K Neville C Sternberg S 30 zhovtnya 1975 The jumping mechanism of Xenopsylla cheopis III Execution of the jump and activity Philosophical Transactions of the Royal Society of London Series B Biological Sciences T 271 914 s 499 515 doi 10 1098 rstb 1975 0064 ISSN 0962 8436 PMID 1806 Procitovano 20 travnya 2022 Liu Qun Collier Edward Mukhopadhyay Supratik 2019 Jatowt Adam red PCGAN CHAR Progressively Trained Classifier Generative Adversarial Networks for Classification of Noisy Handwritten Bangla Characters Digital Libraries at the Crossroads of Digital Information for the Future angl Springer International Publishing s 3 15 doi 10 1007 978 3 030 34058 2 1 ISBN 978 3 030 34058 2 Procitovano 27 travnya 2022 iSAID captain whu github io Procitovano 27 travnya 2022 Butenuth Matthias Burkert Florian Schmidt Florian Hinz Stefan Hartmann Dirk Kneidl Angelika Borrmann Andre Sirmacek Beril 2011 11 Integrating pedestrian simulation tracking and event detection for crowd analysis 2011 IEEE International Conference on Computer Vision Workshops ICCV Workshops IEEE doi 10 1109 iccvw 2011 6130237 Procitovano 20 travnya 2022 India CIPR Conference 1st 2019 Sibpur Computational intelligence in pattern recognition proceedings of CIPR 2019 ISBN 978 981 13 9042 5 OCLC 1113880051 Fradi Hajer Dugelay Jean Luc 2012 12 Low level crowd analysis using frame wise normalized feature for people counting 2012 IEEE International Workshop on Information Forensics and Security WIFS IEEE doi 10 1109 wifs 2012 6412657 Procitovano 20 travnya 2022 Johnson Brian Alan Tateishi Ryutaro Hoan Nguyen Thanh 27 chervnya 2013 A hybrid pansharpening approach and multiscale object based image analysis for mapping diseased pine and oak trees International Journal of Remote Sensing T 34 20 s 6969 6982 doi 10 1080 01431161 2013 810825 ISSN 0143 1161 Procitovano 20 travnya 2022 Mohd Pozi Muhammad Syafiq Sulaiman Md Nasir Mustapha Norwati Perumal Thinagaran 3 lipnya 2015 A new classification model for a class imbalanced data set using genetic programming and support vector machines case study for wilt disease classification Remote Sensing Letters angl T 6 7 s 568 577 doi 10 1080 2150704X 2015 1062159 ISSN 2150 704X Procitovano 20 travnya 2022 China International Conference on Digital Image Processing 8th 2016 Chengdu Eighth International Conference on Digital Image Processing ICDIP 2016 20 23 May 2016 Chengdu China ISBN 1 5106 0504 5 OCLC 971084912 Gallego Antonio Javier MASATI dataset MAritime SATellite Imagery dataset www iuii ua es angl Procitovano 20 travnya 2022 Gallego Antonio Javier Pertusa Antonio Gil Pablo 24 bereznya 2018 Automatic Ship Classification from Optical Aerial Images with Convolutional Neural Networks Remote Sensing T 10 4 s 511 doi 10 3390 rs10040511 ISSN 2072 4292 Procitovano 20 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Chatterjee Sankhadeep Ghosh Subhodeep Dawn Subham Hore Sirshendu Dey Nilanjan 2016 Forest Type Classification A Hybrid NN GA Model Based Approach Advances in Intelligent Systems and Computing New Delhi Springer India s 227 236 ISBN 978 81 322 2756 4 Diegert Carl 2010 10 A combinatorial method for tracing objects using semantics of their shape 2010 IEEE 39th Applied Imagery Pattern Recognition Workshop AIPR IEEE doi 10 1109 aipr 2010 5759716 Procitovano 20 travnya 2022 Frederic Razakarivony Sebastien Jurie Small Target Detection combining Foreground and Background Manifolds OCLC 877840527 Ilijason Robert 2021 Getting Started with Databricks Getting Started with Databricks Berkeley CA Apress ISBN 978 1 4842 6919 0 Vakalopoulou Maria Bus Norbert Karantzalos Konstantinos Paragios Nikos 2017 07 Integrating edge boundary priors with classification scores for building detection in very high resolution data 2017 IEEE International Geoscience and Remote Sensing Symposium IGARSS IEEE s 3309 3312 doi 10 1109 IGARSS 2017 8127705 ISBN 978 1 5090 4951 6 Procitovano 20 travnya 2022 Vakalopoulou Maria Bus Norbert Karantzalos Konstantinos Paragios Nikos 2017 07 Integrating edge boundary priors with classification scores for building detection in very high resolution data 2017 IEEE International Geoscience and Remote Sensing Symposium IGARSS s 3309 3312 doi 10 1109 IGARSS 2017 8127705 Procitovano 27 travnya 2022 Yang Yi Newsam Shawn 2 listopada 2010 Bag of visual words and spatial extensions for land use classification Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems Association for Computing Machinery s 270 279 doi 10 1145 1869790 1869829 ISBN 978 1 4503 0428 3 Procitovano 27 travnya 2022 Basu Saikat Ganguly Sangram Mukhopadhyay Supratik DiBiano Robert Karki Manohar Nemani Ramakrishna 3 listopada 2015 DeepSat a learning framework for satellite imagery Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems angl ACM s 1 10 doi 10 1145 2820783 2820816 ISBN 978 1 4503 3967 4 Procitovano 20 travnya 2022 Liu Qun Basu Saikat Ganguly Sangram Mukhopadhyay Supratik DiBiano Robert Karki Manohar Nemani Ramakrishna 1 lyutogo 2020 DeepSat V2 feature augmented convolutional neural nets for satellite image classification Remote Sensing Letters T 11 2 s 156 165 doi 10 1080 2150704X 2019 1693071 ISSN 2150 704X Procitovano 20 travnya 2022 Liu Qun Basu Saikat Ganguly Sangram Mukhopadhyay Supratik DiBiano Robert Karki Manohar Nemani Ramakrishna 1 lyutogo 2020 DeepSat V2 feature augmented convolutional neural nets for satellite image classification Remote Sensing Letters angl T 11 2 s 156 165 doi 10 1080 2150704X 2019 1693071 ISSN 2150 704X Procitovano 20 travnya 2022 Harken A H Woods M 1976 02 The influence of oxyhemoglobin affinity on tissue oxygen consumption Annals of Surgery T 183 2 s 130 135 doi 10 1097 00000658 197602000 00008 ISSN 0003 4932 PMC 1344074 PMID 2111 Procitovano 20 travnya 2022 Ebadi Ashkan Paul Patrick Auer Sofia Tremblay Stephane 19 listopada 2021 The gas meter image dataset NRC GAMMA angl National Research Council of Canada doi 10 4224 3c8s z290 procitovano 20 travnya 2022 Rabah Chaima Ben Coatrieux Gouenou Abdelfattah Riadh 2020 10 The Supatlantique Scanned Documents Database for Digital Image Forensics Purposes 2020 IEEE International Conference on Image Processing ICIP IEEE doi 10 1109 icip40778 2020 9190665 Procitovano 20 travnya 2022 Mills Kyle Tamblyn Isaac 12 bereznya 2019 Big graphene dataset angl National Research Council of Canada doi 10 4224 c8sc04578j data procitovano 20 travnya 2022 Mills Kyle Spanner Michael Tamblyn Isaac 18 travnya 2018 Quantum simulations of an electron in a two dimensional potential well angl National Research Council of Canada doi 10 4224 physreva 96 042113 data procitovano 20 travnya 2022 Rohrbach Marcus Amin Sikandar Andriluka Mykhaylo Schiele Bernt 2012 06 A database for fine grained activity detection of cooking activities 2012 IEEE Conference on Computer Vision and Pattern Recognition s 1194 1201 doi 10 1109 CVPR 2012 6247801 Procitovano 20 travnya 2022 Kuehne Hilde Arslan Ali Serre Thomas 2014 06 The Language of Actions Recovering the Syntax and Semantics of Goal Directed Human Activities 2014 IEEE Conference on Computer Vision and Pattern Recognition IEEE doi 10 1109 cvpr 2014 105 Procitovano 20 travnya 2022 Sviatoslav Voloshynovskiy et al PDF Taran O Rezaeifar S Dabrowski O Schlechten J Holotyak T Voloshynovskiy S 2017 08 PharmaPack Mobile fine grained recognition of pharma packages 2017 25th European Signal Processing Conference EUSIPCO IEEE doi 10 23919 eusipco 2017 8081543 Procitovano 20 travnya 2022 Xiang Li Pu Li Xiangyang Long 14 chervnya 2020 FenceMask A Data Augmentation Approach for Pre extracted Image Features OCLC 1228414137 Diagnosis Seizures in Dogs and Cats Hoboken NJ John Wiley amp Sons Inc 1 travnya 2015 s 94 128 ISBN 978 1 118 68969 1 Biggs Benjamin Boyne Oliver Charles James Fitzgibbon Andrew Cipolla Roberto 2020 Who Left the Dogs Out 3D Animal Reconstruction with Expectation Maximization in the Loop Computer Vision ECCV 2020 Cham Springer International Publishing s 195 211 ISBN 978 3 030 58620 1 Stefan Sharif Razavian Ali Azizpour Hossein Sullivan Josephine Carlsson 2014 CNN features off the shelf An Astounding Baseline for Recognition KTH Datorseende och robotik CVAP OCLC 1233686320 Ortega M Rui Y Chakrabarti K Porkaew K Mehrotra S Huang T S Nov Dec 1998 Supporting ranked Boolean similarity queries in MARS IEEE Transactions on Knowledge and Data Engineering T 10 6 s 905 925 doi 10 1109 69 738357 Procitovano 20 travnya 2022 France International Conference on Medical Image Computing and Computer Assisted Intervention 15th 2012 Nice 2012 Medical image computing and computer assisted intervention MICCAI 2012 15th International Conference Nice France October 1 5 2012 Proceedings Springer ISBN 978 3 642 33418 4 OCLC 811773023 Deneke Tewodors Haile Habtegebreil Lafond Sebastien Lilius Johan 2014 07 Video transcoding time prediction for proactive load balancing 2014 IEEE International Conference on Multimedia and Expo ICME IEEE doi 10 1109 icme 2014 6890256 Procitovano 20 travnya 2022 10 3726 978 3 653 03968 9 3 Inactive DOIs CrossRef Preparation H1N1 et al Influenza vaccination 2010 2011 PsycEXTRA Dataset 2010 Procitovano 27 travnya 2022 author Barnard Kobus Computational methods for integrating vision and language ISBN 1 60845 113 5 OCLC 1127139088 Shin Kwangsoo Jeon Junhyeong Lee Seungbin Lim Boyoung Jeong Minsoo Nang Jongho 2019 Approach for Video Classification with Multi label on YouTube 8M Dataset Lecture Notes in Computer Science Cham Springer International Publishing s 317 324 ISBN 978 3 030 11017 8 Fisher Justin Kil Hyunyoung Lee Dongwon 2006 OpenArXiv arXiv RDBMS web services Proceedings of the 6th ACM IEEE CS joint conference on Digital libraries JCDL 06 ACM Press doi 10 1145 1141753 1141870 Procitovano 20 travnya 2022 Matthieu Deru 2020 Deep Learning mit TensorFlow Keras und TensorFlow js Rheinwerk Verlag ISBN 978 3 8362 7427 2 OCLC 1204141741 Thomee Bart Shamma David A Friedland Gerald Elizalde Benjamin Ni Karl Poland Douglas Borth Damian Li Li Jia 25 sichnya 2016 YFCC100M the new data in multimedia research Communications of the ACM angl T 59 2 s 64 73 doi 10 1145 2812802 ISSN 0001 0782 Procitovano 20 travnya 2022 Baveye Yoann Dellandrea Emmanuel Chamaret Christel Liming Chen 1 sichnya 2015 LIRIS ACCEDE A Video Database for Affective Content Analysis IEEE Transactions on Affective Computing T 6 1 s 43 55 doi 10 1109 taffc 2015 2396531 ISSN 1949 3045 Procitovano 20 travnya 2022 Baveye Yoann Dellandrea Emmanuel Chamaret Christel Chen Liming 2015 09 Deep learning vs kernel methods Performance for emotion prediction in videos 2015 International Conference on Affective Computing and Intelligent Interaction ACII IEEE doi 10 1109 acii 2015 7344554 Procitovano 20 travnya 2022 Zhang Xiaotong Cheng Xingliang Xu Mingxing Zheng Thomas Fang 2 veresnya 2018 Imbalance Learning based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task Interspeech 2018 ISCA doi 10 21437 interspeech 2018 1744 Procitovano 20 travnya 2022 Johnson Sam Everingham Mark 2010 Clustered Pose and Nonlinear Appearance Models for Human Pose Estimation Procedings of the British Machine Vision Conference 2010 British Machine Vision Association doi 10 5244 c 24 12 Procitovano 20 travnya 2022 Johnson Sam Everingham Mark 2011 06 Learning effective human pose estimation from inaccurate annotation CVPR 2011 IEEE doi 10 1109 cvpr 2011 5995318 Procitovano 20 travnya 2022 Reports of six individual workshops Nursing Mirror and Midwives Journal T 142 2 8 sichnya 1976 s 56 59 ISSN 0143 2524 PMID 1711 Procitovano 20 travnya 2022 Eduard Jauhar Sujay Kumar Turney Peter Hovy 11 lyutogo 2016 TabMCQ A Dataset of General Knowledge Tables and Multiple choice Questions OCLC 1106232721 Taj Eddin Islam A T F Afifi Mahmoud Korashy Mostafa Hamdy Doha Nasser Marwa Derbaz Shimaa 2016 07 A new compression technique for surveillance videos Evaluation using new dataset 2016 Sixth International Conference on Digital Information and Communication Technology and its Applications DICTAP IEEE s 159 164 doi 10 1109 DICTAP 2016 7544020 ISBN 978 1 4673 9609 7 Procitovano 20 travnya 2022 Tabak Michael A Norouzzadeh Mohammad S Wolfson David W Sweeney Steven J Vercauteren Kurt C Snow Nathan P Halseth Joseph M Di Salvo Paul A Lewis Jesse S 2019 04 Photopoulou Theoni red Machine learning to classify animal species in camera trap images Applications in ecology Methods in Ecology and Evolution angl T 10 4 s 585 590 doi 10 1111 2041 210X 13120 ISSN 2041 210X Procitovano 20 travnya 2022 Taj Eddin Islam A T F 2 listopada 2017 Can we see photosynthesis Magnifying the tiny color changes of plant green leaves using Eulerian video magnification Journal of Electronic Imaging T 26 06 s 1 doi 10 1117 1 JEI 26 6 060501 ISSN 1017 9909 Procitovano 20 travnya 2022 author Danesi Marcel 1946 An anthropology of puzzles the role of puzzles in the origins and evolution of mind and culture ISBN 978 1 350 08985 3 OCLC 1043395986 den McAuley Julian Targett Christopher Shi Qinfeng Hengel Anton van 15 chervnya 2015 Image based Recommendations on Styles and Substitutes OCLC 1106220231 author Cantarella Cara TEAS review ISBN 978 1 260 46239 5 OCLC 1140410786 Ganesan Kavita Zhai ChengXiang 2012 04 Opinion based entity ranking Information Retrieval angl T 15 2 s 116 150 doi 10 1007 s10791 011 9174 8 ISSN 1386 4564 Procitovano 20 travnya 2022 China ICSI Conference 4th 2013 Harbin Advances in swarm intelligence 4th International Conference ICSI 2013 Harbin China June 12 15 2013 proceedings ISBN 978 3 642 38702 9 OCLC 851389904 Harper F Maxwell Konstan Joseph A 7 sichnya 2016 The MovieLens Datasets History and Context ACM Transactions on Interactive Intelligent Systems angl T 5 4 s 1 19 doi 10 1145 2827872 ISSN 2160 6455 Procitovano 20 travnya 2022 McFee Brian et al Koenigstein Noam Dror Gideon Koren Yehuda 2011 Yahoo music recommendations Proceedings of the fifth ACM conference on Recommender systems RecSys 11 ACM Press doi 10 1145 2043932 2043964 Procitovano 20 travnya 2022 Dezhao Song 2014 Towards a linked semantic web Precisely comprehensively and scalably linking heterogeneous data in the semantic web ISBN 978 1 303 66041 2 OCLC 875517979 Tan Peter J Dowe David L 2002 MML Inference of Decision Graphs with Multi way Joins Lecture Notes in Computer Science Berlin Heidelberg Springer Berlin Heidelberg s 131 142 ISBN 978 3 540 00197 3 Schneebeli Celia 23 grudnya 2020 Where lol Is Function and Position of lol Used as a Discourse Marker in YouTube Comments Discours 27 doi 10 4000 discours 10900 ISSN 1963 1723 Procitovano 20 travnya 2022 Kim Byung Joo 2012 Lee Geuk Howard Daniel Slezak Dominik Hong You Sik red A Classifier for Big Data Convergence and Hybrid Information Technology angl T 310 Berlin Heidelberg Springer Berlin Heidelberg s 505 512 doi 10 1007 978 3 642 32692 9 63 ISBN 978 3 642 32691 2 D Perezgonzalez Jose Predicting Skytrax airport rankings from customer reviews OCLC 754949191 1959 Kuncheva Ludmila I Ludmila Ilieva Combining pattern classifiers methods and algorithms ISBN 978 1 118 91454 0 OCLC 878051089 Luu Thuy Luu Son T Van Nguyen Kiet Nguyen Ngan 25 veresnya 2020 Empirical Study of Text Augmentation on Social Media Text in Vietnamese OCLC 1228434572 Lim Tjen Sien Loh Wei Yin Shih Yu Shan 1 veresnya 2000 A Comparison of Prediction Accuracy Complexity and Training Time of Thirty Three Old and New Classification Algorithms Machine Learning angl T 40 3 s 203 228 doi 10 1023 A 1007608224229 ISSN 1573 0565 Procitovano 27 travnya 2022 editor Gelbukh Alexander Computational Linguistics and Intelligent Text Processing 17th International Conference CICLing 2016 Konya Turkey April 3 9 2016 Revised Selected Papers Part II ISBN 978 3 319 75487 1 OCLC 1205194968 Buchanan R L Ayres J C 1975 12 Effect of initial pH on aflatoxin production Applied Microbiology T 30 6 s 1050 1051 doi 10 1128 am 30 6 1050 1051 1975 ISSN 0003 6919 PMC 376591 PMID 2104 Procitovano 20 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z PMC z inshim formatom posilannya Dermouche Mohamed Velcin Julien Khouas Leila Loudcher Sabine 2014 12 A Joint Model for Topic Sentiment Evolution over Time 2014 IEEE International Conference on Data Mining IEEE s 773 778 doi 10 1109 ICDM 2014 82 ISBN 978 1 4799 4302 9 Procitovano 20 travnya 2022 Inkster Gordon 11 chervnya 2014 First Catch your Corpus Building a French Undergraduate Corpus from Readily Available Textual Resources Teaching and Language Corpora except Chapter 2 Corpus Evidcncc in Language Description c John M Sindair Routledge s 267 276 ISBN 978 1 315 84267 7 Cyril Amini Massih R Usunier Nicolas Goutte 2010 Learning from Multiple Partially Observed Views an Application to Multilingual Text Categorization OCLC 698457052 Arhiv originalu za 5 listopada 2021 Procitovano 27 travnya 2022 Al Harbi S Almuhareb A Al Thubaity A Khorsheed M S Al Rajeh A 2008 Automatic Arabic Text Classification Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data Lyon France The Examiner Spam Clickbait Catalog www kaggle com angl Procitovano 20 travnya 2022 A Million News Headlines www kaggle com angl Procitovano 20 travnya 2022 List of datasets for machine learning research Wikipedia angl 18 travnya 2022 Procitovano 20 travnya 2022 Kulkarni Rohit 11 listopada 2018 The Historical Reuters News Wire angl Harvard Dataverse doi 10 7910 dvn xdb74w procitovano 20 travnya 2022 Irish Times Waxy Wany News www kaggle com angl Procitovano 20 travnya 2022 Prahal Misra Rishabh Arora 20 serpnya 2019 Sarcasm Detection using Hybrid Neural Network OCLC 1228361723 Khaled Elleithy 2010 Technological developments in networking education and automation Springer ISBN 978 90 481 9150 5 OCLC 646114019 Klimt Bryan and Yiming Yang PDF Androutsopoulos Ion Koutsias John Chandrinos Konstantinos V Paliouras George Spyropoulos Constantine D 7 chervnya 2000 An evaluation of Naive Bayesian anti spam filtering arXiv cs 0006013 Procitovano 27 travnya 2022 Bratko Andrej et al 2006 Spam filtering using statistical data compression models PDF The Journal of Machine Learning Research 7 2673 2698 Almeida Tiago A Hidalgo Jose Maria G Yamakami Akebo 2011 Contributions to the study of SMS spam filtering Proceedings of the 11th ACM symposium on Document engineering DocEng 11 ACM Press doi 10 1145 2034691 2034742 Procitovano 20 travnya 2022 China International Conference on Information Technology and Management Science 2012 Chongqing 2013 2012 International Conference on Information Technology and Management Science ICITMS 2012 proceedings Springer ISBN 978 3 642 34910 2 OCLC 828409296 Thorsten CARNEGIE MELLON UNIV PITTSBURGH PA DEPT OF COMPUTER SCIENCE Joachims 1996 03 A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization OCLC 831635005 editor Cao Jiuwen Proceedings of ELM 2014 Volume 1 Algorithms and Theories ISBN 978 3 319 14063 6 OCLC 1264895874 Dooms Simon 6 travnya 2022 MovieTweetings procitovano 20 travnya 2022 RoyChowdhury Aruni Lin Tsung Yu Maji Subhransu Learned Miller Erik 2017 Twitter100k A Real world Dataset for Weakly Supervised Cross Media Retrieval arXiv 1703 06618 cs CV Hu Yuting Zheng Liang Yang Yi Huang Yongfeng 2018 04 Twitter100k A Real World Dataset for Weakly Supervised Cross Media Retrieval IEEE Transactions on Multimedia T 20 4 s 927 938 doi 10 1109 tmm 2017 2760101 ISSN 1520 9210 Procitovano 20 travnya 2022 Go Alec Bhayani Richa Huang Lei 2009 Twitter sentiment classification using distant supervision CS224N Project Report Stanford 1 12 Chikersal Prerna Poria Soujanya Cambria Erik 2015 SeNTU Sentiment Analysis of Tweets by Combining a Rule based Classifier with Supervised Learning Proceedings of the 9th International Workshop on Semantic Evaluation SemEval 2015 Association for Computational Linguistics doi 10 18653 v1 s15 2108 Procitovano 20 travnya 2022 compilation Gibson Rachel 1968 editor of compilation Cantijoch Marta 1978 editor of compilation Ward Stephen 1965 editor of 2014 Analyzing social media data and web networks Palgrave Macmillan ISBN 978 1 137 27677 3 OCLC 942512517 Zafarani Reza and Huan Liu Social computing data repository at ASU School of Computing Informatics and Decision Systems Engineering Arizona State University 2009 McAuley Julian J Leskovec Jure Learning to Discover Social Circles in Ego Networks NIPS 2012 2012 Lovro Subelj Network based statistical comparison of citation topology of bibliographic databases OCLC 905091598 Abdulla N et al Arabic sentiment analysis Corpus based and lexicon based Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies AEECT 2013 Abooraig Raddad Al Zu bi Shadi Kanan Tarek Hawashin Bilal Al Ayoub Mahmoud Hmeidi Ismail 2018 06 Automatic categorization of Arabic articles based on their political orientation Digital Investigation T 25 s 24 41 doi 10 1016 j diin 2018 04 003 ISSN 1742 2876 Procitovano 20 travnya 2022 Eustache Kawala Francois Douzal Chouakria Ahlame Gaussier Eric Dimert Predictions d activite dans les reseaux sociaux en ligne OCLC 862968361 Kawala Francois et al Predictions d activite dans les reseaux sociaux en ligne 4ieme conference sur les modeles et l analyse des reseaux Approches mathematiques et informatiques 2013 Xu Wei Callison Burch Chris Dolan Bill 2015 SemEval 2015 Task 1 Paraphrase and Semantic Similarity in Twitter PIT Proceedings of the 9th International Workshop on Semantic Evaluation SemEval 2015 Association for Computational Linguistics doi 10 18653 v1 s15 2001 Procitovano 20 travnya 2022 Xu Wei Ritter Alan Callison Burch Chris Dolan William B Ji Yangfeng 2014 12 Extracting Lexically Divergent Paraphrases from Twitter Transactions of the Association for Computational Linguistics T 2 s 435 448 doi 10 1162 tacl a 00194 ISSN 2307 387X Procitovano 20 travnya 2022 Ohio World Environmental and Water Resources Congress 2013 Cincinnati World Environmental and Water Resources Congress 2013 showcasing the future proceedings of the 2013 congress May 19 23 2013 Cincinnati Ohio OCLC 855593586 Southampton University of geoparsepy Geoparsing library to extract and disambiguate locations from text using OSM database for very high throughputs and no rate limits procitovano 20 travnya 2022 1908 2001 Barnouw Erik 2001 Media lost and found Fordham University Press ISBN 0 8232 2098 2 OCLC 45015331 Streamlit huggingface co Procitovano 20 travnya 2022 Dutch Social media collection kaggle com Retrieved 18 December 2020 Adams Paige Anand Pranav Gehrke Grant Gera Ralucca Draeger Marco Martell Craig Squire Kevin 1 veresnya 2008 ReSEARCH A Requirements Search Engine Progress Report 2 Procitovano 27 travnya 2022 Bill Sordoni Alessandro Galley Michel Auli Michael Brockett Chris Ji Yangfeng Mitchell Margaret Nie Jian Yun Gao Jianfeng Dolan 22 chervnya 2015 A Neural Network Approach to Context Sensitive Generation of Conversational Responses OCLC 1106220776 Westbury Lab Web Site Reduced Redundancy USENET Corpus Download www psych ualberta ca Procitovano 20 travnya 2022 Arhiv originalu za 29 chervnya 2018 Procitovano 27 travnya 2022 Stuck In the Matrix 2015 July 3 I have every publicly available Reddit comment for research 1 7 billion comments 250 GB compressed Any interest in this Original post Message posted to Lowe Ryan Pow Nissan Serban Iulian Pineau Joelle 2015 The Ubuntu Dialogue Corpus A Large Dataset for Research in Unstructured Multi Turn Dialogue Systems Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue Association for Computational Linguistics doi 10 18653 v1 w15 4640 Procitovano 20 travnya 2022 Williams Jason Raux Antoine Henderson Matthew 1 kvitnya 2016 The Dialog State Tracking Challenge Series A Review Dialogue amp Discourse amer Procitovano 20 travnya 2022 Kowsari Kamran Brown Donald E Heidarysafa Mojtaba Jafari Meimandi Kiana Gerber Matthew S Barnes Laura E 2017 12 HDLTex Hierarchical Deep Learning for Text Classification 2017 16th IEEE International Conference on Machine Learning and Applications ICMLA IEEE s 364 371 doi 10 1109 ICMLA 2017 0 134 ISBN 978 1 5386 1418 1 Procitovano 20 travnya 2022 Brown Donald Heidarysafa Mojtaba Jafari Meimandi Kiana Gerber Matthew Barnes Laura 15 bereznya 2018 Web of Science Dataset Mendeley doi 10 17632 9rw3vkcfy4 6 procitovano 20 travnya 2022 India CICLing Conference 13th 2012 New Delhi 2012 Computational linguistics and intelligent text processing 13th International Conference CICLing 2012 New Delhi India March 11 17 2012 proceedings Springer ISBN 978 3 642 28604 9 OCLC 798421231 Nagwani N K 2015 12 Summarizing large text collection using topic modeling and clustering based on MapReduce framework Journal of Big Data angl T 2 1 s 6 doi 10 1186 s40537 015 0020 5 ISSN 2196 1115 Procitovano 20 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Qing Tian 2009 Self presentation and social interaction on blogs a structural equation modeling of the uses and gratifications of blogging OCLC 426169703 Anand Pranav et al Believe Me We Can Do This Annotating Persuasive Acts in Blog Text Computational Models of Natural Argument 2011 Traud Amanda L Peter J Mucha and Mason A Porter Social structure of Facebook networks Physica A Statistical Mechanics and its Applications391 16 2012 4165 4180 Ireland M P 15 grudnya 1975 Distribution of lead zinc and calcium in Dendrobaena rubida Oligochaeta living in soil contaminated by base metal mining in Wales Comparative Biochemistry and Physiology B Comparative Biochemistry T 52 4 s 551 555 doi 10 1016 0305 0491 75 90236 9 ISSN 0305 0491 PMID 1206 Procitovano 20 travnya 2022 Eid Ahmad El Makky Nagwa Nagi Khaled 2019 Towards Machine Comprehension of Arabic Text Proceedings of the 11th International Joint Conference on Knowledge Discovery Knowledge Engineering and Knowledge Management SCITEPRESS Science and Technology Publications doi 10 5220 0008065402820288 Procitovano 20 travnya 2022 Messina F S 1975 11 Caesium ion antagonism to chlorpromazine and L dopa produced behavioural depression in mice The Journal of Pharmacy and Pharmacology T 27 11 s 873 874 doi 10 1111 j 2042 7158 1975 tb10236 x ISSN 0022 3573 PMID 1502 Procitovano 20 travnya 2022 Diana Sampson Geoffrey McCarthy 2005 Corpus linguistics readings in a widening discipline Continuum ISBN 0 8264 8803 X OCLC 854965241 Collins Michael 2003 12 Head Driven Statistical Models for Natural Language Parsing Computational Linguistics angl T 29 4 s 589 637 doi 10 1162 089120103322753356 ISSN 0891 2017 Procitovano 20 travnya 2022 Mitwirkender Guyon Isabelle Feature extraction foundations and applications ISBN 978 3 540 35488 8 OCLC 723990568 Technology Dorothy Curtis and Slav Petrov Massachusetts Institute of Technology Dept of Electrical Engineering and Computer Science Massachusetts Institute of Technology Dept of Electrical Engineering and Computer Science Lin Yuri M Eng Massachusetts Institute of 1 bereznya 2013 Syntactically annotated Ngrams for Google Books Massachusetts Institute of Technology OCLC 1135080554 Venugopalan Subhashini Hendricks Lisa Anne Mooney Raymond Saenko Kate 2016 Improving LSTM based Video Description with Linguistic Knowledge Mined from Text Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics doi 10 18653 v1 d16 1204 Procitovano 20 travnya 2022 http www academia edu download 30766398 759 pdf nedostupne posilannya Solorio Thamar Hasan Ragib Mizan Mainul 2013 06 A Case Study of Sockpuppet Detection in Wikipedia Proceedings of the Workshop on Language Analysis in Social Media Association for Computational Linguistics s 59 68 Procitovano 27 travnya 2022 Ciarelli Patrick Marques Oliveira Elias 2009 Agglomeration and Elimination of Terms for Dimensionality Reduction 2009 Ninth International Conference on Intelligent Systems Design and Applications IEEE doi 10 1109 isda 2009 9 Procitovano 20 travnya 2022 Zhou Mingyuan Oscar Hernan Madrid Padilla and James G Scott Priors for random count matrices derived from a family of negative binomial processes Journal of the American Statistical Association just accepted 2015 00 00 Memphis Association for Consumer Research U S Conference 35th 2007 2008 Advances in consumer research Association for Consumer Research ISBN 978 0 915552 61 0 OCLC 799995265 Mclean D M 1975 10 Mosquito borne arboviruses in arctic america Medical Biology T 53 5 s 264 270 ISSN 0302 2137 PMID 1602 Procitovano 20 travnya 2022 James Miller 2018 IBM Watson projects eight exciting projects that put artificial intelligence into practice for optimal business performance Packt ISBN 978 1 78934 669 5 OCLC 1056912561 Soysal Omer M 2015 04 Association rule mining with mostly associated sequential patterns Expert Systems with Applications angl T 42 5 s 2582 2592 doi 10 1016 j eswa 2014 10 049 Procitovano 20 travnya 2022 Bowman Samuel R Angeli Gabor Potts Christopher Manning Christopher D 2015 A large annotated corpus for learning natural language inference Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics doi 10 18653 v1 d15 1075 Procitovano 20 travnya 2022 Jorg Liling Tan Zampieri Marcos Ljubesic Nikola 1979 Tiedemann Merging comparable data sources for the discrimination of similar languages the DSL corpus collection OCLC 989161600 Words Glossed with Definitions from Johnson s Dictionary Samuel Johnson Yale University Press 5 sichnya 2021 s 815 818 Elsahar Hady Vougiouklis Pavlos Remaci Arslen Gravier Christophe Hare Jonathon Laforest Frederique Simperl Elena 2018 05 T REx A Large Scale Alignment of Natural Language with Knowledge Base Triples Proceedings of the Eleventh International Conference on Language Resources and Evaluation LREC 2018 European Language Resources Association ELRA Procitovano 20 travnya 2022 Rothschild M Schlein J 30 zhovtnya 1975 The jumping mechanism of Xenopsylla cheopis I Exoskeletal structures and musculature Philosophical Transactions of the Royal Society of London Series B Biological Sciences T 271 914 s 457 490 doi 10 1098 rstb 1975 0062 ISSN 0962 8436 PMID 1804 Procitovano 20 travnya 2022 Llewellyn Dawn 18 sichnya 2018 But I Still Read The Bible Oxford Scholarship Online doi 10 1093 oso 9780198722618 003 0032 Procitovano 20 travnya 2022 Nangia Nikita Bowman Samuel R 2019 Human vs Muppet A Conservative Estimate of Human Performance on the GLUE Benchmark Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics Association for Computational Linguistics doi 10 18653 v1 p19 1449 Procitovano 20 travnya 2022 Lam Quan Hoang Le Quang Duy Nguyen Van Kiet Nguyen Ngan Luu Thuy 2020 UIT ViIC A Dataset for the First Evaluation on Vietnamese Image Captioning Computational Collective Intelligence Cham Springer International Publishing s 730 742 ISBN 978 3 030 63006 5 To Huy Quoc Nguyen Kiet Van Nguyen Ngan Luu Thuy Nguyen Anh Gia Tuan 18 grudnya 2020 Gender Prediction Based on Vietnamese Names with Machine Learning Techniques Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval ACM doi 10 1145 3443279 3443309 Procitovano 20 travnya 2022 Manning H L 1975 12 New medium for isolating iron oxidizing and heterotrophic acidophilic bacteria from acid mine drainage Applied Microbiology T 30 6 s 1010 1016 doi 10 1128 am 30 6 1010 1016 1975 ISSN 0003 6919 PMC 376583 PMID 2103 Procitovano 20 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z PMC z inshim formatom posilannya The Pile pile eleuther ai Procitovano 27 travnya 2022 JSON Lines jsonlines org Procitovano 27 travnya 2022 Gorts C P 1975 Role of acetate metabolism in sporulation of Saccharomyces carlsbergensis Antonie Van Leeuwenhoek T 41 3 s 265 271 doi 10 1007 BF02565062 ISSN 0003 6072 PMID 2101 Procitovano 20 travnya 2022 The Pile pile eleuther ai Procitovano 20 travnya 2022 M Versteegh R Thiolliere T Schatz X N Cao X Anguera A Jansen and E Dupoux 2015 The Zero Resource Speech Challenge 2015 in INTERSPEECH 2015 M Versteegh X Anguera A Jansen and E Dupoux 2016 PDF Sakar Betul Erdogdu Isenkul M Erdem Sakar C Okan Sertbas Ahmet Gurgen Fikret Delil Sakir Apaydin Hulya Kursun Olcay 2013 07 Collection and Analysis of a Parkinson Speech Dataset With Multiple Types of Sound Recordings IEEE Journal of Biomedical and Health Informatics T 17 4 s 828 834 doi 10 1109 JBHI 2013 2245674 ISSN 2168 2208 Procitovano 26 travnya 2022 Zhao Shunan et al Automatic detection of expressed emotion in Parkinson s disease Acoustics Speech and Signal Processing ICASSP 2014 IEEE International Conference on IEEE 2014 PDF Used in Hammami Nacereddine and Mouldi Bedda Improved tree model for Arabic speech recognition Computer Science and Information Technology ICCSIT 2010 3rd IEEE International Conference on Vol 5 IEEE 2010 Maaten Laurens PDF Cole Ronald Fanty Mark 1990 Spoken Letter Recognition Speech and Natural Language Proceedings of a Workshop Held at Hidden Valley Pennsylvania June 24 27 1990 Procitovano 26 travnya 2022 Chapelle Olivier Sindhwani Vikas Keerthi Sathiya S 2008 PDF Kudo Mineichi Toyama Jun Shimbo Masaru 1 listopada 1999 Multidimensional curve classification using passing through regions Pattern Recognition Letters angl T 20 11 s 1103 1111 doi 10 1016 S0167 8655 99 00077 X ISSN 0167 8655 Procitovano 26 travnya 2022 Jaeger Herbert Lukosevicius Mantas Popovici Dan Siewert Udo 1 kvitnya 2007 Optimization and applications of echo state networks with leaky integrator neurons Neural Networks angl T 20 3 s 335 352 doi 10 1016 j neunet 2007 04 016 ISSN 0893 6080 Procitovano 26 travnya 2022 Tsanas Athanasios Little Max A McSharry Patrick E Ramig Lorraine O 2010 04 Accurate Telemonitoring of Parkinson s Disease Progression by Noninvasive Speech Tests IEEE Transactions on Biomedical Engineering T 57 4 s 884 893 doi 10 1109 TBME 2009 2036000 ISSN 1558 2531 Procitovano 26 travnya 2022 Clifford Gari D Clifton David 18 lyutogo 2012 Wireless Technology in Disease Management and Medicine Annual Review of Medicine T 63 1 s 479 492 doi 10 1146 annurev med 051210 114650 ISSN 0066 4219 Procitovano 26 travnya 2022 Zue Victor Seneff Stephanie Glass James 1 serpnya 1990 Speech database development at MIT Timit and beyond Speech Communication angl T 9 4 s 351 356 doi 10 1016 0167 6393 90 90010 7 ISSN 0167 6393 Procitovano 26 travnya 2022 Kapadia Sadik Valtcho Valtchev and S J Young MMI training for continuous phoneme recognition on the TIMIT database Acoustics Speech and Signal Processing 1993 ICASSP 93 1993 IEEE International Conference on Vol 2 IEEE 1993 University of Southampton Wikipedia angl 15 travnya 2022 Procitovano 27 travnya 2022 Ardila Rosana Branson Megan Davis Kelly Henretty Michael Kohler Michael Meyer Josh Morais Reuben Saunders Lindsay Tyers Francis M 5 bereznya 2020 Common Voice A Massivel