У глибокому навчанні, тонке́ настро́ювання (англ. fine-tuning) — це підхід до передавального навчання, в якому ваги попередньо натренованої моделі тренують на нових даних. Тонке настроювання можливо виконувати для всієї нейронної мережі або лише для підмножини її шарів, у разі чого шари, які не піддаються тонкому настроюванню, «заморожуються» (не уточнюються під час кроку зворотного поширення). Модель також можна доповнювати «адаптерами» (англ. "adapters"), які складаються з набагато меншої кількості параметрів, аніж оригінальна модель, і тонко настроюються ефективним щодо параметрів чином шляхом настроювання ваг адаптерів і залишання решти ваг моделі замороженими.
Для деяких архітектур, таких як згорткові нейронні мережі, зазвичай заморожують ранні шари (найближчі до шару входу), оскільки вони вловлюють низькорівневі ознаки, тоді як пізніші шари часто розпізнають високорівневі ознаки, що можуть бути більше пов'язаними із завданням, на якому тренують модель.
Моделі, попередньо натреновані на великих і загальних корпусах, зазвичай тонко настоюють шляхом повторного використання параметрів моделі як вихідної точки, та додавання специфічного для завдання шару, який тренують з нуля. Тонке настроювання всієї моделі також поширене і часто дає кращі результати, але воно потребує довших обчислень.
Тонке настроювання зазвичай виконують за допомогою керованого навчання, але існують також методики тонкого настроювання моделей за допомогою слабкого керування. Тонке настроювання можливо поєднувати з ціллю на основі [en] для створення мовних моделей, таких як ChatGPT (тонко настроєна версія GPT-3) та [en].
Стійкість
Тонке настроювання може погіршити стійкість моделі до змін розподілу. Один зі способів запобігти цьому — лінійно інтерполювати ваги тонко настроєної моделі з вагами первинної моделі, що може значно підвищити продуктивність поза розподілом, при цьому здебільшого зберігаючи продуктивність у межах розподілу тонко настроєної моделі.
Варіанти
Низькорангове адаптування
Низькорангове адаптування (НРА, англ. low-rank adaption, LoRA) — це методика на основі адаптерів для ефективного тонкого настроювання моделей. Основна ідея полягає в тому, щоби розробити низькорангову матрицю, відтак додавши її до первинної матриці. «Адаптер» у цьому контексті — це набір низькорангових матриць, які при додаванні до базової моделі створюють тонко настроєну модель. Це дозволяє досягти продуктивності, яка наближається до тонкого настроювання повної моделі, з меншими вимогами до простору. Мовну модель з мільярдами параметрів можна тонко настроїти за допомогою НРА лише з декількома мільйонами параметрів.
Тонке настроювання на основі НРА стало популярним у спільноті Stable Diffusion. Підтримку НРА вбудовують до бібліотеки Diffusers з Hugging Face. Підтримка НРА та подібних методик також доступна для широкого спектра інших моделей за допомогою пакета Parameter-Efficient Fine-Tuning (PEFT) від Hugging Face.
Застосування
Обробка природної мови
Тонке настроювання поширене в обробці природної мови (ОПМ), особливо в області моделювання мови. Великі мовні моделі, такі як низка [en] від OpenAI, можливо тонко настроювати на даних для конкретних завдань ОПМ (завдань, які використовують попередньо натреновану модель) для покращення продуктивності порівняно з незміненою попередньо натренованою моделлю.
Комерційні моделі
Комерційно пропоновані великі мовні моделі іноді можливо тонко настроювати, якщо постачальник пропонує відповідний ППІ. Станом на 19 червня 2023 року, ППІ для тонкого настроювання мовних моделей пропонують OpenAI та від Microsoft Azure для підмножини їхніх моделей, а також Google Cloud Platform для деяких їхніх моделей [en], та інші. Не всі комерційні моделі на цей час[] підтримують тонке настроювання.
Див. також
Примітки
- Quinn, Joanne (2020). Dive into deep learning: tools for engagement (англ.). Thousand Oaks, California. с. 551. ISBN . оригіналу за 10 січня 2023. Процитовано 10 січня 2023.
- CS231n Convolutional Neural Networks for Visual Recognition. cs231n.github.io (англ.). Процитовано 9 March 2023.
- Liu, Haokun; Tam, Derek; Muqeeth, Mohammed; Mohta, Jay; Huang, Tenghao; Bansal, Mohit; Raffel, Colin A (2022). Koyejo, S.; Mohamed, S.; Agarwal, A.; Belgrave, D.; Cho, K.; Oh, A. (ред.). Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning (PDF). Advances in Neural Information Processing Systems (англ.). Т. 35. Curran Associates, Inc. с. 1950—1965.
- Zeiler, Matthew D; Fergus, Rob (2013). Visualizing and Understanding Convolutional Networks (англ.). arXiv:1311.2901.
- Dodge, Jesse; Ilharco, Gabriel; Schwartz, Roy; Farhadi, Ali; Hajishirzi, Hannaneh; Smith, Noah (2020). Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping (англ.). arXiv:2002.06305.
- Dingliwal, Saket; Shenoy, Ashish; Bodapati, Sravan; Gandhe, Ankur; Gadde, Ravi Teja; Kirchhoff, Katrin (2021). Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems (англ.). arXiv:2112.08718.
- Yu, Yue; Zuo, Simiao; Jiang, Haoming; Ren, Wendi; Zhao, Tuo; Zhang, Chao (2020). Fine-Tuning Pre-trained Language Model with Weak Supervision: A Contrastive-Regularized Self-Training Approach (англ.). arXiv:2010.07835.
- Introducing ChatGPT. openai.com (англ.). Процитовано 9 March 2023.
- Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martin; Thacker, Phoebe; Campbell-Gillingham, Lucy; Uesato, Jonathan; Huang, Po-Sen; Comanescu, Ramona; Yang, Fan; See, Abigail; Dathathri, Sumanth; Greig, Rory; Chen, Charlie; Fritz, Doug; Elias, Jaume Sanchez; Green, Richard; Mokrá, Soňa; Fernando, Nicholas; Wu, Boxi; Foley, Rachel; Young, Susannah; Gabriel, Iason; Isaac, William; Mellor, John; Hassabis, Demis; Kavukcuoglu, Koray; Hendricks, Lisa Anne; Irving, Geoffrey (2022). Improving alignment of dialogue agents via targeted human judgements (англ.). arXiv:2209.14375.
- Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela; Clark, Jack; Krueger, Gretchen; Sutskever, Ilya (2021). Learning Transferable Visual Models From Natural Language Supervision (англ.). arXiv:2103.00020 [cs.CV].
- Kumar, Ananya; Raghunathan, Aditi; Jones, Robbie; Ma, Tengyu; Liang, Percy (2022). Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution (англ.). arXiv:2202.10054.
- Wortsman, Mitchell; Ilharco, Gabriel; Kim, Jong Wook; Li, Mike; Kornblith, Simon; Roelofs, Rebecca; Gontijo-Lopes, Raphael; Hajishirzi, Hannaneh; Farhadi, Ali; Namkoong, Hongseok; Schmidt, Ludwig (2022). Robust fine-tuning of zero-shot models (англ.). arXiv:2109.01903 [cs.CV].
- Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu (28 січня 2022). LoRA: Low-Rank Adaptation of Large Language Models (англ.). arXiv:2106.09685.
- Ryu, Simo (13 лютого 2023). Using Low-rank adaptation to quickly fine-tune diffusion models. GitHub. Процитовано 19 червня 2023.
- Cuenca, Pedro; Paul, Sayak (26 січня 2023). Using LoRA for Efficient Stable Diffusion Fine-Tuning. Hugging Face (англ.). Процитовано 19 червня 2023.
- Parameter-Efficient Fine-Tuning using 🤗 PEFT. huggingface.co (англ.). Процитовано 20 червня 2023.
- Fine-tuning (англ.). OpenAI. Процитовано 19 червня 2023.
- Learn how to customize a model for your application (англ.). Microsoft. Процитовано 19 червня 2023.
- Tune text foundation models (англ.). Процитовано 19 червня 2023.
Це незавершена стаття зі штучного інтелекту. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U glibokomu navchanni tonke nastro yuvannya angl fine tuning ce pidhid do peredavalnogo navchannya v yakomu vagi poperedno natrenovanoyi modeli trenuyut na novih danih Tonke nastroyuvannya mozhlivo vikonuvati dlya vsiyeyi nejronnoyi merezhi abo lishe dlya pidmnozhini yiyi shariv u razi chogo shari yaki ne piddayutsya tonkomu nastroyuvannyu zamorozhuyutsya ne utochnyuyutsya pid chas kroku zvorotnogo poshirennya Model takozh mozhna dopovnyuvati adapterami angl adapters yaki skladayutsya z nabagato menshoyi kilkosti parametriv anizh originalna model i tonko nastroyuyutsya efektivnim shodo parametriv chinom shlyahom nastroyuvannya vag adapteriv i zalishannya reshti vag modeli zamorozhenimi Dlya deyakih arhitektur takih yak zgortkovi nejronni merezhi zazvichaj zamorozhuyut ranni shari najblizhchi do sharu vhodu oskilki voni vlovlyuyut nizkorivnevi oznaki todi yak piznishi shari chasto rozpiznayut visokorivnevi oznaki sho mozhut buti bilshe pov yazanimi iz zavdannyam na yakomu trenuyut model Modeli poperedno natrenovani na velikih i zagalnih korpusah zazvichaj tonko nastoyuyut shlyahom povtornogo vikoristannya parametriv modeli yak vihidnoyi tochki ta dodavannya specifichnogo dlya zavdannya sharu yakij trenuyut z nulya Tonke nastroyuvannya vsiyeyi modeli takozh poshirene i chasto daye krashi rezultati ale vono potrebuye dovshih obchislen Tonke nastroyuvannya zazvichaj vikonuyut za dopomogoyu kerovanogo navchannya ale isnuyut takozh metodiki tonkogo nastroyuvannya modelej za dopomogoyu slabkogo keruvannya Tonke nastroyuvannya mozhlivo poyednuvati z cillyu na osnovi en dlya stvorennya movnih modelej takih yak ChatGPT tonko nastroyena versiya GPT 3 ta en StijkistTonke nastroyuvannya mozhe pogirshiti stijkist modeli do zmin rozpodilu Odin zi sposobiv zapobigti comu linijno interpolyuvati vagi tonko nastroyenoyi modeli z vagami pervinnoyi modeli sho mozhe znachno pidvishiti produktivnist poza rozpodilom pri comu zdebilshogo zberigayuchi produktivnist u mezhah rozpodilu tonko nastroyenoyi modeli VariantiNizkorangove adaptuvannya Nizkorangove adaptuvannya NRA angl low rank adaption LoRA ce metodika na osnovi adapteriv dlya efektivnogo tonkogo nastroyuvannya modelej Osnovna ideya polyagaye v tomu shobi rozrobiti nizkorangovu matricyu vidtak dodavshi yiyi do pervinnoyi matrici Adapter u comu konteksti ce nabir nizkorangovih matric yaki pri dodavanni do bazovoyi modeli stvoryuyut tonko nastroyenu model Ce dozvolyaye dosyagti produktivnosti yaka nablizhayetsya do tonkogo nastroyuvannya povnoyi modeli z menshimi vimogami do prostoru Movnu model z milyardami parametriv mozhna tonko nastroyiti za dopomogoyu NRA lishe z dekilkoma miljonami parametriv Tonke nastroyuvannya na osnovi NRA stalo populyarnim u spilnoti Stable Diffusion Pidtrimku NRA vbudovuyut do biblioteki Diffusers z Hugging Face Pidtrimka NRA ta podibnih metodik takozh dostupna dlya shirokogo spektra inshih modelej za dopomogoyu paketa Parameter Efficient Fine Tuning PEFT vid Hugging Face ZastosuvannyaObrobka prirodnoyi movi Tonke nastroyuvannya poshirene v obrobci prirodnoyi movi OPM osoblivo v oblasti modelyuvannya movi Veliki movni modeli taki yak nizka en vid OpenAI mozhlivo tonko nastroyuvati na danih dlya konkretnih zavdan OPM zavdan yaki vikoristovuyut poperedno natrenovanu model dlya pokrashennya produktivnosti porivnyano z nezminenoyu poperedno natrenovanoyu modellyu Komercijni modeliKomercijno proponovani veliki movni modeli inodi mozhlivo tonko nastroyuvati yaksho postachalnik proponuye vidpovidnij PPI Stanom na 19 chervnya 2023 roku PPI dlya tonkogo nastroyuvannya movnih modelej proponuyut OpenAI ta vid Microsoft Azure dlya pidmnozhini yihnih modelej a takozh Google Cloud Platform dlya deyakih yihnih modelej en ta inshi Ne vsi komercijni modeli na cej chas koli pidtrimuyut tonke nastroyuvannya Div takozhPristosovuvannya oblasti viznachennya Veliki movni modeli Peredavalne navchannyaPrimitkiQuinn Joanne 2020 Dive into deep learning tools for engagement angl Thousand Oaks California s 551 ISBN 978 1 5443 6137 6 originalu za 10 sichnya 2023 Procitovano 10 sichnya 2023 CS231n Convolutional Neural Networks for Visual Recognition cs231n github io angl Procitovano 9 March 2023 Liu Haokun Tam Derek Muqeeth Mohammed Mohta Jay Huang Tenghao Bansal Mohit Raffel Colin A 2022 Koyejo S Mohamed S Agarwal A Belgrave D Cho K Oh A red Few Shot Parameter Efficient Fine Tuning is Better and Cheaper than In Context Learning PDF Advances in Neural Information Processing Systems angl T 35 Curran Associates Inc s 1950 1965 Zeiler Matthew D Fergus Rob 2013 Visualizing and Understanding Convolutional Networks angl arXiv 1311 2901 Dodge Jesse Ilharco Gabriel Schwartz Roy Farhadi Ali Hajishirzi Hannaneh Smith Noah 2020 Fine Tuning Pretrained Language Models Weight Initializations Data Orders and Early Stopping angl arXiv 2002 06305 Dingliwal Saket Shenoy Ashish Bodapati Sravan Gandhe Ankur Gadde Ravi Teja Kirchhoff Katrin 2021 Prompt Tuning GPT 2 language model for parameter efficient domain adaptation of ASR systems angl arXiv 2112 08718 Yu Yue Zuo Simiao Jiang Haoming Ren Wendi Zhao Tuo Zhang Chao 2020 Fine Tuning Pre trained Language Model with Weak Supervision A Contrastive Regularized Self Training Approach angl arXiv 2010 07835 Introducing ChatGPT openai com angl Procitovano 9 March 2023 Glaese Amelia McAleese Nat Trebacz Maja Aslanides John Firoiu Vlad Ewalds Timo Rauh Maribeth Weidinger Laura Chadwick Martin Thacker Phoebe Campbell Gillingham Lucy Uesato Jonathan Huang Po Sen Comanescu Ramona Yang Fan See Abigail Dathathri Sumanth Greig Rory Chen Charlie Fritz Doug Elias Jaume Sanchez Green Richard Mokra Sona Fernando Nicholas Wu Boxi Foley Rachel Young Susannah Gabriel Iason Isaac William Mellor John Hassabis Demis Kavukcuoglu Koray Hendricks Lisa Anne Irving Geoffrey 2022 Improving alignment of dialogue agents via targeted human judgements angl arXiv 2209 14375 Radford Alec Kim Jong Wook Hallacy Chris Ramesh Aditya Goh Gabriel Agarwal Sandhini Sastry Girish Askell Amanda Mishkin Pamela Clark Jack Krueger Gretchen Sutskever Ilya 2021 Learning Transferable Visual Models From Natural Language Supervision angl arXiv 2103 00020 cs CV Kumar Ananya Raghunathan Aditi Jones Robbie Ma Tengyu Liang Percy 2022 Fine Tuning can Distort Pretrained Features and Underperform Out of Distribution angl arXiv 2202 10054 Wortsman Mitchell Ilharco Gabriel Kim Jong Wook Li Mike Kornblith Simon Roelofs Rebecca Gontijo Lopes Raphael Hajishirzi Hannaneh Farhadi Ali Namkoong Hongseok Schmidt Ludwig 2022 Robust fine tuning of zero shot models angl arXiv 2109 01903 cs CV Hu Edward J Shen Yelong Wallis Phillip Allen Zhu Zeyuan Li Yuanzhi Wang Shean Wang Lu Chen Weizhu 28 sichnya 2022 LoRA Low Rank Adaptation of Large Language Models angl arXiv 2106 09685 Ryu Simo 13 lyutogo 2023 Using Low rank adaptation to quickly fine tune diffusion models GitHub Procitovano 19 chervnya 2023 Cuenca Pedro Paul Sayak 26 sichnya 2023 Using LoRA for Efficient Stable Diffusion Fine Tuning Hugging Face angl Procitovano 19 chervnya 2023 Parameter Efficient Fine Tuning using PEFT huggingface co angl Procitovano 20 chervnya 2023 Fine tuning angl OpenAI Procitovano 19 chervnya 2023 Learn how to customize a model for your application angl Microsoft Procitovano 19 chervnya 2023 Tune text foundation models angl Procitovano 19 chervnya 2023 Ce nezavershena stattya zi shtuchnogo intelektu Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi