Пошук архітектури нейронної мережі (ПАНМ, англ. Neural Architecture Search) — це метод для автоматизації проектування штучних нейронних мереж (ШНМ), модель що широко використовується у галузі машинного навчання. ПАНМ використано для розробки мереж, які не поступаються або перевершують архітектури, розроблені вручну. Методи ПАНМ можна класифікувати за простором пошуку, стратегією пошуку та стратегією оцінки продуктивності:
- Простір пошуку визначає тип(и) ШНМ, які можуть бути проектовані та оптимізовані.
- Стратегія пошуку визначає підхід, використовуваний для дослідження простору пошуку.
- Стратегія оцінки продуктивності оцінює продуктивність можливої ШНМ на етапі розробки (без її створення та навчання).
ПАНМ тісно пов'язаний із оптимізацією гіперпараметрів та метанавчанням і є підгалуззю автоматизованого машинного навчання (AutoML).
Навчання з підкріпленням
Навчання з підкріпленням (НП) може бути основою для стратегії пошуку ПАНМ. Barret Zoph та [en] використали ПАНМ з НП для обробки набору даних [en] і досягли архітектури мережі, яка конкурує з кращими розробленими вручну архітектурами за точністю, з рівнем помилок 3,65, що на 0,09 % краще та у 1,05 рази швидше, ніж у відповідної моделі, спроектованої вручну. На наборі даних [en] (PTB) ця модель створила рекурентний блок, який перевершує LSTM, досягаючи значення складності тестового набору 62,4, або на 3,6 складності краще, ніж попередня провідна система. На завданні мовного моделювання символів PTB вона досягла 1,214 бітів на символ.
Навчання архітектури моделі безпосередньо на великому наборі даних може бути тривалим процесом. NASNet розв'язав цю проблему шляхом перенесення структурного блоку, розробленого для невеликого набору даних, на більший набір даних. Конструкція була обмежена використанням двох типів згорткових блоків для повернення карт ознак, які виконують дві основні функції при згортці вхідної карти ознак: звичайні комірки, які повертають карти однакового розміру (висоти і ширини), і комірки зменшення, в яких висота і ширина повернутої карти ознак зменшуються вдвічі. Для комірок зменшення початкова операція, яка застосовується до входів крміпрк, використовує крок два (для скорочення висоти і ширини). Вивчені елементи конструкції включали такі аспекти, які нижній (нижні) шар(и) кожного вищого шару взято як вхід, перетворення, застосовані на тому шарі та об'єднання кількох виходів на кожному шарі. У вивченому прикладі найкращий згортковий шар (або «комірка») був розроблений для набору даних [en] і потім застосований до набору даних [en], створюючи копії цієї комірки, кожну зі своїми параметрами. Такий підхід забезпечив точність на рівні 82,7 % топ-1 та 96,2 % топ-5. Це перевищило кращі архітектури, створені вручну, за рахунок 9 мільярдів менших операцій з рухомою комою FLOPS — зменшення на 28 %. Система продовжувала перевершувати вручну розроблений альтернативний варіант на різних рівнях обчислень. Вивчені ознаки зображень, отримані в результаті класифікації зображень, можуть бути перенесені на інші задачі комп'ютерного зору. Наприклад, для виявлення об'єктів навчені комірки, інтегровані з фреймворком Faster-RCNN, покращили продуктивність на 4 % на наборі даних COCO.
У так званому Ефективному Пошуці Архітектури Нейронних Мереж (ЕПАНМ), контролер виявляє архітектури, навчаючись шукати оптимальний підграф у великому графі. Контролер навчається за допомогою методу (градієнту стратегії) вибирати підграф, який максимізує очікувану винагороду набору перевірки. Модель, що відповідає підграфу, навчається мінімізувати канонічну втрату перехресної ентропії. Кілька дочірніх моделей ділять параметри, ЕПАНМ потребує менше годин на GPU, ніж інші підходи, і в 1000 разів менше, ніж «стандартний» ПАНМ. На [en] ЕПАНМ досягнув тестової помилки 2,89 %, що зіставно з NASNet. На Penn Treebank ЕПАНМ досягнув показника помилки тесту 55,8.
Еволюція
Альтернативний підхід до ПАНМ ґрунтується на еволюційних алгоритмах і використовується кількома групами. Еволюційний алгоритм для ПАНМ зазвичай виконує наступну процедуру. Спочатку створюється пул, що складається з різних архітектур-кандидатів разом із їхніми балами валідації (привабливість). На кожному етапі архітектури в пулі кандидатів мутуються (наприклад: заміна згорткового шару 3x3 на згортковий шар 5x5). Далі нові архітектури тренуються з нуля протягом кількох епох, і отримують бали валідації. Потім найгірші архітектури в пулі кандидатів замінюються кращими, новішими архітектурами. Цю процедуру повторюють кілька разів, і таким чином пул кандидатів з часом удосконалюється. Мутації в контексті еволюції ШНМ — це операції, такі як додавання або видалення шару, включаючи зміну типу шару (наприклад, від згорткового до пулінгу), зміну гіперпараметрів шару та зміну гіперпараметрів навчання. На наборах даних [en] та [en] еволюція та НП показали порівнянні результати, при цьому обидва дещо перевершували випадковий пошук.
Баєсова оптимізація
Баєсова оптимізація (БО), яка довела свою ефективність у гіперпараметричній оптимізації, також може бути застосована до ПАНМ. У цьому контексті цільова функція відображає архітектуру на її помилку валідації після навчання протягом кількох епох. На кожній ітерації баєсова оптимізація використовує замінник для моделювання цієї цільової функції на основі раніше отриманих архітектур і їхніх помилок валідації. Далі обирається наступна архітектура для оцінки, максимізуючи функцію вибору, таку як очікуване покращення, яке забезпечує баланс між дослідженням та експлуатацією. Максимізація функції вибору та оцінка цільової функції часто є обчислювально-витратними для ПАНМ, що робить застосування байєсівської оптимізації складним у цьому контексті.
Недавно BANANAS досягла багатообіцяючих результатів у цьому напрямку, запровадивши високопродуктивну реалізацію БО у поєднанні з нейронним предиктором.
Сходження на вершину
Інша група дослідників використовувала алгоритм сходження на вершину, при якому застосовувалися морфізми мережі, а потім короткі косинусоїдальні прогони оптимізації. При такому підході було отримано конкурентоздатні результати, при цьому використовувана кількість ресурсів була приблизно такого ж порядку, яка необхідна для навчання однієї мережі. Наприклад, на наборі даних [en] цей метод створив і навчив мережу з рівнем помилок менше 5 % протягом 12 годин на одному графічному процесорі.
Багатокритеріальний пошук
Хоча більшість підходів виключно зосереджені на пошуку архітектури з максимальною прогнозною ефективністю, для більшості практичних застосувань інші цілі також є важливими, такі як використання пам'яті, розмір моделі чи час отримання висновку. З цієї причини дослідники створили багатокритеріальний пошук.
LEMONADE — це еволюційний алгоритм, який використовує Ламаркізм для ефективної оптимізації кількох цілей. На кожному поколінні створюються дочірні мережі для покращення Парето-ефективності відносно поточної популяції ШНМ.
Neural Architect вважається багатокритеріальним НП-заснованим ПАНМ з урахуванням ресурсів із вбудовуванням мережі та передбаченням продуктивності. Вбудовування мережі перетворює існуючу мережу в навчальний вектор вбудовування. На основі вбудовування контролерна мережа генерує трансформації цільової мережі. Багатокритеріальна функція винагороди враховує точність мережі, обчислювальний ресурс та час навчання. Винагорода передбачається кількома мережами імітації продуктивності, які навчаються перед або спільно з контролерною мережею. Контролерна мережа навчається методом градієнту стратегії. Після модифікації отримана мережа-кандидат оцінюється як мережею точності, так і мережею часу навчання. Результати комбінуються за допомогою системи винагороди, яка передає свій результат назад контролерній мережі.
Моделі одного погляду
НП або ПАНМ на основі еволюції вимагає тисяч годин використання графічних процесорів пошуку/навчання для досягнення найсучасніших результатів комп'ютерного зору, як описано в статтях NASNet, mNASNet та MobileNetV3.
Для зменшення обчислювальних витрат багато останніх методів ПАНМ покладаються на ідею розподілу ваги. У цьому підході визначається одна надпараметризована супермережа (також відома як модель одного погляду). Супермережа є дуже великим спрямованим ациклічним графом, підграфи якого є різними нейромережами-кандидатами. Таким чином, у супермережі ваги спільно використовуються великою кількістю різних підархітектур, які мають спільні ребра, кожне з яких розглядається як шлях у межах супермережі. Основна ідея полягає в тому, щоб навчити одну супермережу, яка охоплює багато варіантів остаточного дизайну, замість створення та навчання тисяч мереж незалежно одна від одної. Крім навчених параметрів, вивчається набір параметрів архітектури для відображення вподобань одного модуля порівняно з іншим. Такі методи зменшують необхідні обчислювальні ресурси до кількох GPU-днів.
Більш нові роботи додатково поєднують цю парадигму спільного використання ваг, з неперервним розширенням простору пошуку, що дозволяє використовувати методи оптимізації на основі градієнтів. Загалом ці підходи відомі як диференційований пошук архітектур (Differentiable NAS) і виявилися дуже ефективними у дослідженні простору пошуку нейроархітектур. Одним з найпопулярніших алгоритмів серед градієнтних методів для пошуку архітектур ПАНМ є DARTS. Однак DARTS стикається з проблемами, такими як продуктивність в процесі навчання через неминуче об'єднання пропускових з'єднань та погане узагальнення, які були вирішені багатьма сучасними алгоритмами. Методи, такі як, спрямовані, на забезпечення стійкості DARTS та зроблення ландшафту точності валідації більш гладкими за допомогою введення регуляризації на основі гессіана та випадкового згладжування/атак-протиагенту. Причини погіршення продуктивності подальше аналізуються з точки зору вибору архітектури.
Диференційований пошук архітектур (Differentiable NAS) показав конкурентоздатні результати, використовуючи лише частину часу пошуку, якого вимагають методи пошуку на основі НП. Наприклад, FBNet (скорочено від Facebook Berkeley Network) продемонструвала, що пошук на основі супермережі породжує мережі, які перевершують криву компромісу між швидкістю та точністю mNASNet та MobileNetV2 на наборі даних з класифікації зображень ImageNet. FBNet досягає цього, використовуючи у більш ніж 400 разів менше часу пошуку, ніж було використано для mNASNet. Крім того, SqueezeNAS продемонстрував, що пошук на основі супермережі породжує нейромережі, які перевершують криву компромісу між швидкістю та точністю MobileNetV3 на наборі даних з семантичної сегментації Cityscapes, і SqueezeNAS використовує у більш ніж 100 разів менше часу пошуку, ніж використовувався авторами MobileNetV3 для пошуку НП-засобами.
Бенчмарки для пошуку архітектур нейронних мереж
Пошук архітектур нейронних мереж часто вимагає значних обчислювальних ресурсів через витрати на дороговартісні етапи навчання та оцінки. Це додатково призводить до великого вуглецевого сліду, необхідного для оцінки цих методів. Щоб подолати це обмеження, були впроваджені бенчмарки для ПАНМ, на основі яких можна або оцінити, або передбачити кінцеву продуктивність нейронних архітектур за лічені секунди. Бенчмарк для ПАНМ визначається як набір даних із фіксованим розподілом тренувань та тестів, простором пошуку та фіксованим конвеєром тренування (гіперпараметрами). Головним чином існують два типи бенчмарків для ПАНМ: замісниковий та табличний. Замісниковий бенчмарк використовує замісникову модель (наприклад, нейронну мережу), щоб передбачити продуктивність архітектури з простору пошуку. З іншого боку, табличний бенчмарк оцінює фактичну продуктивність архітектури, навченої до збіжності. Обидва ці бенчмарки можна запитувати та використовувати для ефективного моделювання багатьох ПАНМ-алгоритмів, використовуючи лише центральний процесор для запиту замість навчання архітектури з нуля.
Примітки
- Elsken, Thomas; Metzen, Jan Hendrik; Hutter, Frank (8 серпня 2019). Neural Architecture Search: A Survey. Journal of Machine Learning Research. 20 (55): 1—21. arXiv:1808.05377. Bibcode:2018arXiv180805377E — через jmlr.org.
- Wistuba, Martin; Rawat, Ambrish; Pedapati, Tejaswini (4 травня 2019). A Survey on Neural Architecture Search. arXiv:1905.01392 [cs.LG].
- Zoph, Barret; Le, Quoc V. (4 листопада 2016). Neural Architecture Search with Reinforcement Learning. arXiv:1611.01578 [cs.LG].
- Zoph, Barret; Vasudevan, Vijay; Shlens, Jonathon; Le, Quoc V. (21 липня 2017). Learning Transferable Architectures for Scalable Image Recognition. arXiv:1707.07012 [cs.CV].
- Matthias Feurer and Frank Hutter. Hyperparameter optimization. In: AutoML: Methods, Systems, Challenges, pages 3–38.
- Vanschoren, Joaquin (2019). Meta-Learning. Automated Machine Learning. The Springer Series on Challenges in Machine Learning. с. 35—61. doi:10.1007/978-3-030-05318-5_2. ISBN . S2CID 239362577.
- Zoph, Barret; Vasudevan, Vijay; Shlens, Jonathon; Le, Quoc V. (2 листопада 2017). AutoML for large scale image classification and object detection. Research Blog (амер.). Процитовано 20 лютого 2018.
- Hieu, Pham; Y., Guan, Melody; Barret, Zoph; V., Le, Quoc; Jeff, Dean (9 лютого 2018). Efficient Neural Architecture Search via Parameter Sharing. arXiv:1802.03268 [cs.LG].
- Real, Esteban; Moore, Sherry; Selle, Andrew; Saxena, Saurabh; Suematsu, Yutaka Leon; Tan, Jie; Le, Quoc; Kurakin, Alex (3 березня 2017). Large-Scale Evolution of Image Classifiers. arXiv:1703.01041 [cs.NE].
- Suganuma, Masanori; Shirakawa, Shinichi; Nagao, Tomoharu (3 квітня 2017). A Genetic Programming Approach to Designing Convolutional Neural Network Architectures (англ.). arXiv:1704.00764v2 [cs.NE].
- Liu, Hanxiao; Simonyan, Karen; Vinyals, Oriol; Fernando, Chrisantha; Kavukcuoglu, Koray (1 листопада 2017). Hierarchical Representations for Efficient Architecture Search (англ.). arXiv:1711.00436v2 [cs.LG].
- Real, Esteban; Aggarwal, Alok; Huang, Yanping; Le, Quoc V. (5 лютого 2018). Regularized Evolution for Image Classifier Architecture Search. arXiv:1802.01548 [cs.NE].
- Miikkulainen, Risto; Liang, Jason; Meyerson, Elliot; Rawal, Aditya; Fink, Dan; Francon, Olivier; Raju, Bala; Shahrzad, Hormoz; Navruzyan, Arshak; Duffy, Nigel; Hodjat, Babak (4 березня 2017). Evolving Deep Neural Networks. arXiv:1703.00548 [cs.NE].
- Xie, Lingxi; Yuille, Alan (2017). Genetic CNN. 2017 IEEE International Conference on Computer Vision (ICCV). с. 1388—1397. arXiv:1703.01513. doi:10.1109/ICCV.2017.154. ISBN . S2CID 206770867.
- Elsken, Thomas; Metzen, Jan Hendrik; Hutter, Frank (24 квітня 2018). Efficient Multi-objective Neural Architecture Search via Lamarckian Evolution. arXiv:1804.09081 [stat.ML].
- Liu, Yuqiao; Sun, Yanan; Xue, Bing; Zhang, Mengjie; Yen, Gary G; Tan, Kay Chen (2021). A Survey on Evolutionary Neural Architecture Search. IEEE Transactions on Neural Networks and Learning Systems. PP (2): 1—21. arXiv:2008.10937. doi:10.1109/TNNLS.2021.3100554. PMID 34357870. S2CID 221293236.
- White, Colin; Neiswanger, Willie; Savani, Yash (2 листопада 2020). BANANAS: Bayesian Optimization with Neural Architectures for Neural Architecture Search. arXiv:1910.11858 [cs.LG].
- Thomas, Elsken; Jan Hendrik, Metzen; Frank, Hutter (13 листопада 2017). Simple And Efficient Architecture Search for Convolutional Neural Networks. arXiv:1711.04528 [stat.ML].
- Zhou, Yanqi; Diamos, Gregory. (PDF). Baidu. Архів оригіналу (PDF) за 27 вересня 2019. Процитовано 27 вересня 2019.
- Tan, Mingxing; Chen, Bo; Pang, Ruoming; Vasudevan, Vijay; Sandler, Mark; Howard, Andrew; Le, Quoc V. (2018). MnasNet: Platform-Aware Neural Architecture Search for Mobile. arXiv:1807.11626 [cs.CV].
- Howard, Andrew; Sandler, Mark; Chu, Grace; Chen, Liang-Chieh; Chen, Bo; Tan, Mingxing; Wang, Weijun; Zhu, Yukun; Pang, Ruoming; Vasudevan, Vijay; Le, Quoc V.; Adam, Hartwig (6 травня 2019). Searching for MobileNetV3. arXiv:1905.02244 [cs.CV].
- Pham, H., Guan, M.Y., Zoph, B., Le, Q.V., Dean, J.: Efficient neural architecture search via parameter sharing. In: Proceedings of the 35th International Conference on Machine Learning (2018).
- Li, L., Talwalkar, A.: Random search and reproducibility for neural architecture search. In: Proceedings of the Conference on Uncertainty in Artificial Intelligence (2019).
- H. Cai, L. Zhu, and S. Han. Proxylessnas: Direct neural architecture search on target task and hardware. ICLR, 2019.
- X. Dong and Y. Yang. Searching for a robust neural architecture in four gpu hours. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2019.
- H. Liu, K. Simonyan, and Y. Yang. Darts: Differentiable architecture search. In ICLR, 2019
- S. Xie, H. Zheng, C. Liu, and L. Lin. Snas: stochastic neural architecture search. ICLR, 2019.
- Chu, Xiangxiang and Zhou, Tianbao and Zhang, Bo and Li, Jixiang. Fair darts: Eliminating unfair advantages in differentiable architecture search. In ECCV, 2020
- Arber Zela, Thomas Elsken, Tonmoy Saikia, Yassine Marrakchi, Thomas Brox, Frank Hutter. Understanding and Robustifying Differentiable Architecture Search. In ICLR, 2020
- Xiangning Chen, Cho-Jui Hsieh. Stabilizing Differentiable Architecture Search via Perturbation-based Regularization. In ICML, 2020
- Yuhui Xu, Lingxi Xie, Xiaopeng Zhang, Xin Chen, Guo-Jun Qi, Qi Tian, Hongkai Xiong. PC-DARTS: Partial Channel Connections for Memory-Efficient Architecture Search. In ICLR, 2020
- Ruochen Wang, Minhao Cheng, Xiangning Chen, Xiaocheng Tang, Cho-Jui Hsieh. Rethinking Architecture Selection in Differentiable NAS. In ICLR, 2022
- Wu, Bichen; Dai, Xiaoliang; Zhang, Peizhao; Wang, Yanghan; Sun, Fei; Wu, Yiming; Tian, Yuandong; Vajda, Peter; Jia, Yangqing; Keutzer, Kurt (24 May 2019). FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search. arXiv:1812.03443 [cs.CV].
- Sandler, Mark; Howard, Andrew; Zhu, Menglong; Zhmoginov, Andrey; Chen, Liang-Chieh (2018). MobileNetV2: Inverted Residuals and Linear Bottlenecks. arXiv:1801.04381 [cs.CV].
- Keutzer, Kurt (22 травня 2019). Co-Design of DNNs and NN Accelerators (PDF). IEEE. Процитовано 26 вересня 2019.
- Shaw, Albert; Hunter, Daniel; Iandola, Forrest; Sidhu, Sammy (2019). SqueezeNAS: Fast neural architecture search for faster semantic segmentation. arXiv:1908.01748 [cs.CV].
- Yoshida, Junko (25 серпня 2019). Does Your AI Chip Have Its Own DNN?. EE Times. Процитовано 26 вересня 2019.
- Ying, C., Klein, A., Christiansen, E., Real, E., Murphy, K. and Hutter, F., 2019, May. Nas-bench-101: Towards reproducible neural architecture search. In International Conference on Machine Learning (pp. 7105-7114). PMLR.
- Zela, A., Siems, J. and Hutter, F., 2020. Nas-bench-1shot1: Benchmarking and dissecting one-shot neural architecture search. arXiv preprint arXiv:2001.10422.
- Dong, X. and Yang, Y., 2020. Nas-bench-201: Extending the scope of reproducible neural architecture search. arXiv preprint arXiv:2001.00326.
- Siems, J., Zimmer, L., Zela, A., Lukasik, J., Keuper, M. and Hutter, F., 2020. Nas-bench-301 and the case for surrogate benchmarks for neural architecture search. arXiv preprint arXiv:2008.09777.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Poshuk arhitekturi nejronnoyi merezhi PANM angl Neural Architecture Search ce metod dlya avtomatizaciyi proektuvannya shtuchnih nejronnih merezh ShNM model sho shiroko vikoristovuyetsya u galuzi mashinnogo navchannya PANM vikoristano dlya rozrobki merezh yaki ne postupayutsya abo perevershuyut arhitekturi rozrobleni vruchnu Metodi PANM mozhna klasifikuvati za prostorom poshuku strategiyeyu poshuku ta strategiyeyu ocinki produktivnosti Prostir poshuku viznachaye tip i ShNM yaki mozhut buti proektovani ta optimizovani Strategiya poshuku viznachaye pidhid vikoristovuvanij dlya doslidzhennya prostoru poshuku Strategiya ocinki produktivnosti ocinyuye produktivnist mozhlivoyi ShNM na etapi rozrobki bez yiyi stvorennya ta navchannya PANM tisno pov yazanij iz optimizaciyeyu giperparametriv ta metanavchannyam i ye pidgaluzzyu avtomatizovanogo mashinnogo navchannya AutoML Navchannya z pidkriplennyamNavchannya z pidkriplennyam NP mozhe buti osnovoyu dlya strategiyi poshuku PANM Barret Zoph ta en vikoristali PANM z NP dlya obrobki naboru danih en i dosyagli arhitekturi merezhi yaka konkuruye z krashimi rozroblenimi vruchnu arhitekturami za tochnistyu z rivnem pomilok 3 65 sho na 0 09 krashe ta u 1 05 razi shvidshe nizh u vidpovidnoyi modeli sproektovanoyi vruchnu Na nabori danih en PTB cya model stvorila rekurentnij blok yakij perevershuye LSTM dosyagayuchi znachennya skladnosti testovogo naboru 62 4 abo na 3 6 skladnosti krashe nizh poperednya providna sistema Na zavdanni movnogo modelyuvannya simvoliv PTB vona dosyagla 1 214 bitiv na simvol Navchannya arhitekturi modeli bezposeredno na velikomu nabori danih mozhe buti trivalim procesom NASNet rozv yazav cyu problemu shlyahom perenesennya strukturnogo bloku rozroblenogo dlya nevelikogo naboru danih na bilshij nabir danih Konstrukciya bula obmezhena vikoristannyam dvoh tipiv zgortkovih blokiv dlya povernennya kart oznak yaki vikonuyut dvi osnovni funkciyi pri zgortci vhidnoyi karti oznak zvichajni komirki yaki povertayut karti odnakovogo rozmiru visoti i shirini i komirki zmenshennya v yakih visota i shirina povernutoyi karti oznak zmenshuyutsya vdvichi Dlya komirok zmenshennya pochatkova operaciya yaka zastosovuyetsya do vhodiv krmiprk vikoristovuye krok dva dlya skorochennya visoti i shirini Vivcheni elementi konstrukciyi vklyuchali taki aspekti yaki nizhnij nizhni shar i kozhnogo vishogo sharu vzyato yak vhid peretvorennya zastosovani na tomu shari ta ob yednannya kilkoh vihodiv na kozhnomu shari U vivchenomu prikladi najkrashij zgortkovij shar abo komirka buv rozroblenij dlya naboru danih en i potim zastosovanij do naboru danih en stvoryuyuchi kopiyi ciyeyi komirki kozhnu zi svoyimi parametrami Takij pidhid zabezpechiv tochnist na rivni 82 7 top 1 ta 96 2 top 5 Ce perevishilo krashi arhitekturi stvoreni vruchnu za rahunok 9 milyardiv menshih operacij z ruhomoyu komoyu FLOPS zmenshennya na 28 Sistema prodovzhuvala perevershuvati vruchnu rozroblenij alternativnij variant na riznih rivnyah obchislen Vivcheni oznaki zobrazhen otrimani v rezultati klasifikaciyi zobrazhen mozhut buti pereneseni na inshi zadachi komp yuternogo zoru Napriklad dlya viyavlennya ob yektiv navcheni komirki integrovani z frejmvorkom Faster RCNN pokrashili produktivnist na 4 na nabori danih COCO U tak zvanomu Efektivnomu Poshuci Arhitekturi Nejronnih Merezh EPANM kontroler viyavlyaye arhitekturi navchayuchis shukati optimalnij pidgraf u velikomu grafi Kontroler navchayetsya za dopomogoyu metodu gradiyentu strategiyi vibirati pidgraf yakij maksimizuye ochikuvanu vinagorodu naboru perevirki Model sho vidpovidaye pidgrafu navchayetsya minimizuvati kanonichnu vtratu perehresnoyi entropiyi Kilka dochirnih modelej dilyat parametri EPANM potrebuye menshe godin na GPU nizh inshi pidhodi i v 1000 raziv menshe nizh standartnij PANM Na en EPANM dosyagnuv testovoyi pomilki 2 89 sho zistavno z NASNet Na Penn Treebank EPANM dosyagnuv pokaznika pomilki testu 55 8 EvolyuciyaAlternativnij pidhid do PANM gruntuyetsya na evolyucijnih algoritmah i vikoristovuyetsya kilkoma grupami Evolyucijnij algoritm dlya PANM zazvichaj vikonuye nastupnu proceduru Spochatku stvoryuyetsya pul sho skladayetsya z riznih arhitektur kandidativ razom iz yihnimi balami validaciyi privablivist Na kozhnomu etapi arhitekturi v puli kandidativ mutuyutsya napriklad zamina zgortkovogo sharu 3x3 na zgortkovij shar 5x5 Dali novi arhitekturi trenuyutsya z nulya protyagom kilkoh epoh i otrimuyut bali validaciyi Potim najgirshi arhitekturi v puli kandidativ zaminyuyutsya krashimi novishimi arhitekturami Cyu proceduru povtoryuyut kilka raziv i takim chinom pul kandidativ z chasom udoskonalyuyetsya Mutaciyi v konteksti evolyuciyi ShNM ce operaciyi taki yak dodavannya abo vidalennya sharu vklyuchayuchi zminu tipu sharu napriklad vid zgortkovogo do pulingu zminu giperparametriv sharu ta zminu giperparametriv navchannya Na naborah danih en ta en evolyuciya ta NP pokazali porivnyanni rezultati pri comu obidva desho perevershuvali vipadkovij poshuk Bayesova optimizaciyaBayesova optimizaciya BO yaka dovela svoyu efektivnist u giperparametrichnij optimizaciyi takozh mozhe buti zastosovana do PANM U comu konteksti cilova funkciya vidobrazhaye arhitekturu na yiyi pomilku validaciyi pislya navchannya protyagom kilkoh epoh Na kozhnij iteraciyi bayesova optimizaciya vikoristovuye zaminnik dlya modelyuvannya ciyeyi cilovoyi funkciyi na osnovi ranishe otrimanih arhitektur i yihnih pomilok validaciyi Dali obirayetsya nastupna arhitektura dlya ocinki maksimizuyuchi funkciyu viboru taku yak ochikuvane pokrashennya yake zabezpechuye balans mizh doslidzhennyam ta ekspluataciyeyu Maksimizaciya funkciyi viboru ta ocinka cilovoyi funkciyi chasto ye obchislyuvalno vitratnimi dlya PANM sho robit zastosuvannya bajyesivskoyi optimizaciyi skladnim u comu konteksti Nedavno BANANAS dosyagla bagatoobicyayuchih rezultativ u comu napryamku zaprovadivshi visokoproduktivnu realizaciyu BO u poyednanni z nejronnim prediktorom Shodzhennya na vershinuInsha grupa doslidnikiv vikoristovuvala algoritm shodzhennya na vershinu pri yakomu zastosovuvalisya morfizmi merezhi a potim korotki kosinusoyidalni progoni optimizaciyi Pri takomu pidhodi bulo otrimano konkurentozdatni rezultati pri comu vikoristovuvana kilkist resursiv bula priblizno takogo zh poryadku yaka neobhidna dlya navchannya odniyeyi merezhi Napriklad na nabori danih en cej metod stvoriv i navchiv merezhu z rivnem pomilok menshe 5 protyagom 12 godin na odnomu grafichnomu procesori Bagatokriterialnij poshukHocha bilshist pidhodiv viklyuchno zoseredzheni na poshuku arhitekturi z maksimalnoyu prognoznoyu efektivnistyu dlya bilshosti praktichnih zastosuvan inshi cili takozh ye vazhlivimi taki yak vikoristannya pam yati rozmir modeli chi chas otrimannya visnovku Z ciyeyi prichini doslidniki stvorili bagatokriterialnij poshuk LEMONADE ce evolyucijnij algoritm yakij vikoristovuye Lamarkizm dlya efektivnoyi optimizaciyi kilkoh cilej Na kozhnomu pokolinni stvoryuyutsya dochirni merezhi dlya pokrashennya Pareto efektivnosti vidnosno potochnoyi populyaciyi ShNM Neural Architect vvazhayetsya bagatokriterialnim NP zasnovanim PANM z urahuvannyam resursiv iz vbudovuvannyam merezhi ta peredbachennyam produktivnosti Vbudovuvannya merezhi peretvoryuye isnuyuchu merezhu v navchalnij vektor vbudovuvannya Na osnovi vbudovuvannya kontrolerna merezha generuye transformaciyi cilovoyi merezhi Bagatokriterialna funkciya vinagorodi vrahovuye tochnist merezhi obchislyuvalnij resurs ta chas navchannya Vinagoroda peredbachayetsya kilkoma merezhami imitaciyi produktivnosti yaki navchayutsya pered abo spilno z kontrolernoyu merezheyu Kontrolerna merezha navchayetsya metodom gradiyentu strategiyi Pislya modifikaciyi otrimana merezha kandidat ocinyuyetsya yak merezheyu tochnosti tak i merezheyu chasu navchannya Rezultati kombinuyutsya za dopomogoyu sistemi vinagorodi yaka peredaye svij rezultat nazad kontrolernij merezhi Modeli odnogo poglyaduNP abo PANM na osnovi evolyuciyi vimagaye tisyach godin vikoristannya grafichnih procesoriv poshuku navchannya dlya dosyagnennya najsuchasnishih rezultativ komp yuternogo zoru yak opisano v stattyah NASNet mNASNet ta MobileNetV3 Dlya zmenshennya obchislyuvalnih vitrat bagato ostannih metodiv PANM pokladayutsya na ideyu rozpodilu vagi U comu pidhodi viznachayetsya odna nadparametrizovana supermerezha takozh vidoma yak model odnogo poglyadu Supermerezha ye duzhe velikim spryamovanim aciklichnim grafom pidgrafi yakogo ye riznimi nejromerezhami kandidatami Takim chinom u supermerezhi vagi spilno vikoristovuyutsya velikoyu kilkistyu riznih pidarhitektur yaki mayut spilni rebra kozhne z yakih rozglyadayetsya yak shlyah u mezhah supermerezhi Osnovna ideya polyagaye v tomu shob navchiti odnu supermerezhu yaka ohoplyuye bagato variantiv ostatochnogo dizajnu zamist stvorennya ta navchannya tisyach merezh nezalezhno odna vid odnoyi Krim navchenih parametriv vivchayetsya nabir parametriv arhitekturi dlya vidobrazhennya vpodoban odnogo modulya porivnyano z inshim Taki metodi zmenshuyut neobhidni obchislyuvalni resursi do kilkoh GPU dniv Bilsh novi roboti dodatkovo poyednuyut cyu paradigmu spilnogo vikoristannya vag z neperervnim rozshirennyam prostoru poshuku sho dozvolyaye vikoristovuvati metodi optimizaciyi na osnovi gradiyentiv Zagalom ci pidhodi vidomi yak diferencijovanij poshuk arhitektur Differentiable NAS i viyavilisya duzhe efektivnimi u doslidzhenni prostoru poshuku nejroarhitektur Odnim z najpopulyarnishih algoritmiv sered gradiyentnih metodiv dlya poshuku arhitektur PANM ye DARTS Odnak DARTS stikayetsya z problemami takimi yak produktivnist v procesi navchannya cherez neminuche ob yednannya propuskovih z yednan ta pogane uzagalnennya yaki buli virisheni bagatma suchasnimi algoritmami Metodi taki yak spryamovani na zabezpechennya stijkosti DARTS ta zroblennya landshaftu tochnosti validaciyi bilsh gladkimi za dopomogoyu vvedennya regulyarizaciyi na osnovi gessiana ta vipadkovogo zgladzhuvannya atak protiagentu Prichini pogirshennya produktivnosti podalshe analizuyutsya z tochki zoru viboru arhitekturi Diferencijovanij poshuk arhitektur Differentiable NAS pokazav konkurentozdatni rezultati vikoristovuyuchi lishe chastinu chasu poshuku yakogo vimagayut metodi poshuku na osnovi NP Napriklad FBNet skorocheno vid Facebook Berkeley Network prodemonstruvala sho poshuk na osnovi supermerezhi porodzhuye merezhi yaki perevershuyut krivu kompromisu mizh shvidkistyu ta tochnistyu mNASNet ta MobileNetV2 na nabori danih z klasifikaciyi zobrazhen ImageNet FBNet dosyagaye cogo vikoristovuyuchi u bilsh nizh 400 raziv menshe chasu poshuku nizh bulo vikoristano dlya mNASNet Krim togo SqueezeNAS prodemonstruvav sho poshuk na osnovi supermerezhi porodzhuye nejromerezhi yaki perevershuyut krivu kompromisu mizh shvidkistyu ta tochnistyu MobileNetV3 na nabori danih z semantichnoyi segmentaciyi Cityscapes i SqueezeNAS vikoristovuye u bilsh nizh 100 raziv menshe chasu poshuku nizh vikoristovuvavsya avtorami MobileNetV3 dlya poshuku NP zasobami Benchmarki dlya poshuku arhitektur nejronnih merezhPoshuk arhitektur nejronnih merezh chasto vimagaye znachnih obchislyuvalnih resursiv cherez vitrati na dorogovartisni etapi navchannya ta ocinki Ce dodatkovo prizvodit do velikogo vuglecevogo slidu neobhidnogo dlya ocinki cih metodiv Shob podolati ce obmezhennya buli vprovadzheni benchmarki dlya PANM na osnovi yakih mozhna abo ociniti abo peredbachiti kincevu produktivnist nejronnih arhitektur za licheni sekundi Benchmark dlya PANM viznachayetsya yak nabir danih iz fiksovanim rozpodilom trenuvan ta testiv prostorom poshuku ta fiksovanim konveyerom trenuvannya giperparametrami Golovnim chinom isnuyut dva tipi benchmarkiv dlya PANM zamisnikovij ta tablichnij Zamisnikovij benchmark vikoristovuye zamisnikovu model napriklad nejronnu merezhu shob peredbachiti produktivnist arhitekturi z prostoru poshuku Z inshogo boku tablichnij benchmark ocinyuye faktichnu produktivnist arhitekturi navchenoyi do zbizhnosti Obidva ci benchmarki mozhna zapituvati ta vikoristovuvati dlya efektivnogo modelyuvannya bagatoh PANM algoritmiv vikoristovuyuchi lishe centralnij procesor dlya zapitu zamist navchannya arhitekturi z nulya PrimitkiElsken Thomas Metzen Jan Hendrik Hutter Frank 8 serpnya 2019 Neural Architecture Search A Survey Journal of Machine Learning Research 20 55 1 21 arXiv 1808 05377 Bibcode 2018arXiv180805377E cherez jmlr org Wistuba Martin Rawat Ambrish Pedapati Tejaswini 4 travnya 2019 A Survey on Neural Architecture Search arXiv 1905 01392 cs LG Zoph Barret Le Quoc V 4 listopada 2016 Neural Architecture Search with Reinforcement Learning arXiv 1611 01578 cs LG Zoph Barret Vasudevan Vijay Shlens Jonathon Le Quoc V 21 lipnya 2017 Learning Transferable Architectures for Scalable Image Recognition arXiv 1707 07012 cs CV Matthias Feurer and Frank Hutter Hyperparameter optimization In AutoML Methods Systems Challenges pages 3 38 Vanschoren Joaquin 2019 Meta Learning Automated Machine Learning The Springer Series on Challenges in Machine Learning s 35 61 doi 10 1007 978 3 030 05318 5 2 ISBN 978 3 030 05317 8 S2CID 239362577 Zoph Barret Vasudevan Vijay Shlens Jonathon Le Quoc V 2 listopada 2017 AutoML for large scale image classification and object detection Research Blog amer Procitovano 20 lyutogo 2018 Hieu Pham Y Guan Melody Barret Zoph V Le Quoc Jeff Dean 9 lyutogo 2018 Efficient Neural Architecture Search via Parameter Sharing arXiv 1802 03268 cs LG Real Esteban Moore Sherry Selle Andrew Saxena Saurabh Suematsu Yutaka Leon Tan Jie Le Quoc Kurakin Alex 3 bereznya 2017 Large Scale Evolution of Image Classifiers arXiv 1703 01041 cs NE Suganuma Masanori Shirakawa Shinichi Nagao Tomoharu 3 kvitnya 2017 A Genetic Programming Approach to Designing Convolutional Neural Network Architectures angl arXiv 1704 00764v2 cs NE Liu Hanxiao Simonyan Karen Vinyals Oriol Fernando Chrisantha Kavukcuoglu Koray 1 listopada 2017 Hierarchical Representations for Efficient Architecture Search angl arXiv 1711 00436v2 cs LG Real Esteban Aggarwal Alok Huang Yanping Le Quoc V 5 lyutogo 2018 Regularized Evolution for Image Classifier Architecture Search arXiv 1802 01548 cs NE Miikkulainen Risto Liang Jason Meyerson Elliot Rawal Aditya Fink Dan Francon Olivier Raju Bala Shahrzad Hormoz Navruzyan Arshak Duffy Nigel Hodjat Babak 4 bereznya 2017 Evolving Deep Neural Networks arXiv 1703 00548 cs NE Xie Lingxi Yuille Alan 2017 Genetic CNN 2017 IEEE International Conference on Computer Vision ICCV s 1388 1397 arXiv 1703 01513 doi 10 1109 ICCV 2017 154 ISBN 978 1 5386 1032 9 S2CID 206770867 Elsken Thomas Metzen Jan Hendrik Hutter Frank 24 kvitnya 2018 Efficient Multi objective Neural Architecture Search via Lamarckian Evolution arXiv 1804 09081 stat ML Liu Yuqiao Sun Yanan Xue Bing Zhang Mengjie Yen Gary G Tan Kay Chen 2021 A Survey on Evolutionary Neural Architecture Search IEEE Transactions on Neural Networks and Learning Systems PP 2 1 21 arXiv 2008 10937 doi 10 1109 TNNLS 2021 3100554 PMID 34357870 S2CID 221293236 White Colin Neiswanger Willie Savani Yash 2 listopada 2020 BANANAS Bayesian Optimization with Neural Architectures for Neural Architecture Search arXiv 1910 11858 cs LG Thomas Elsken Jan Hendrik Metzen Frank Hutter 13 listopada 2017 Simple And Efficient Architecture Search for Convolutional Neural Networks arXiv 1711 04528 stat ML Zhou Yanqi Diamos Gregory PDF Baidu Arhiv originalu PDF za 27 veresnya 2019 Procitovano 27 veresnya 2019 Tan Mingxing Chen Bo Pang Ruoming Vasudevan Vijay Sandler Mark Howard Andrew Le Quoc V 2018 MnasNet Platform Aware Neural Architecture Search for Mobile arXiv 1807 11626 cs CV Howard Andrew Sandler Mark Chu Grace Chen Liang Chieh Chen Bo Tan Mingxing Wang Weijun Zhu Yukun Pang Ruoming Vasudevan Vijay Le Quoc V Adam Hartwig 6 travnya 2019 Searching for MobileNetV3 arXiv 1905 02244 cs CV Pham H Guan M Y Zoph B Le Q V Dean J Efficient neural architecture search via parameter sharing In Proceedings of the 35th International Conference on Machine Learning 2018 Li L Talwalkar A Random search and reproducibility for neural architecture search In Proceedings of the Conference on Uncertainty in Artificial Intelligence 2019 H Cai L Zhu and S Han Proxylessnas Direct neural architecture search on target task and hardware ICLR 2019 X Dong and Y Yang Searching for a robust neural architecture in four gpu hours In IEEE Conference on Computer Vision and Pattern Recognition IEEE Computer Society 2019 H Liu K Simonyan and Y Yang Darts Differentiable architecture search In ICLR 2019 S Xie H Zheng C Liu and L Lin Snas stochastic neural architecture search ICLR 2019 Chu Xiangxiang and Zhou Tianbao and Zhang Bo and Li Jixiang Fair darts Eliminating unfair advantages in differentiable architecture search In ECCV 2020 Arber Zela Thomas Elsken Tonmoy Saikia Yassine Marrakchi Thomas Brox Frank Hutter Understanding and Robustifying Differentiable Architecture Search In ICLR 2020 Xiangning Chen Cho Jui Hsieh Stabilizing Differentiable Architecture Search via Perturbation based Regularization In ICML 2020 Yuhui Xu Lingxi Xie Xiaopeng Zhang Xin Chen Guo Jun Qi Qi Tian Hongkai Xiong PC DARTS Partial Channel Connections for Memory Efficient Architecture Search In ICLR 2020 Ruochen Wang Minhao Cheng Xiangning Chen Xiaocheng Tang Cho Jui Hsieh Rethinking Architecture Selection in Differentiable NAS In ICLR 2022 Wu Bichen Dai Xiaoliang Zhang Peizhao Wang Yanghan Sun Fei Wu Yiming Tian Yuandong Vajda Peter Jia Yangqing Keutzer Kurt 24 May 2019 FBNet Hardware Aware Efficient ConvNet Design via Differentiable Neural Architecture Search arXiv 1812 03443 cs CV Sandler Mark Howard Andrew Zhu Menglong Zhmoginov Andrey Chen Liang Chieh 2018 MobileNetV2 Inverted Residuals and Linear Bottlenecks arXiv 1801 04381 cs CV Keutzer Kurt 22 travnya 2019 Co Design of DNNs and NN Accelerators PDF IEEE Procitovano 26 veresnya 2019 Shaw Albert Hunter Daniel Iandola Forrest Sidhu Sammy 2019 SqueezeNAS Fast neural architecture search for faster semantic segmentation arXiv 1908 01748 cs CV Yoshida Junko 25 serpnya 2019 Does Your AI Chip Have Its Own DNN EE Times Procitovano 26 veresnya 2019 Ying C Klein A Christiansen E Real E Murphy K and Hutter F 2019 May Nas bench 101 Towards reproducible neural architecture search In International Conference on Machine Learning pp 7105 7114 PMLR Zela A Siems J and Hutter F 2020 Nas bench 1shot1 Benchmarking and dissecting one shot neural architecture search arXiv preprint arXiv 2001 10422 Dong X and Yang Y 2020 Nas bench 201 Extending the scope of reproducible neural architecture search arXiv preprint arXiv 2001 00326 Siems J Zimmer L Zela A Lukasik J Keuper M and Hutter F 2020 Nas bench 301 and the case for surrogate benchmarks for neural architecture search arXiv preprint arXiv 2008 09777