Велика мовна модель або велика модель мови (ВММ або LLM від англ. large language model) — це модель мови, що складається з нейронної мережі з багатьма параметрами (від десятків мільйонів до мільярдів), навчених на великій кількості немаркованого тексту за допомогою самокерованого або напівкерованого навчання. LLM з'явилися приблизно у 2018 році та добре справляються з різноманітними завданнями. Це змістило фокус досліджень обробки природної мови з попередньої парадигми підготовки спеціалізованих керованих моделей для конкретних завдань.
Хоча термін «велика мовна модель» не має формального визначення, він часто відноситься до моделей глибокого навчання з мільйонами або навіть мільярдами параметрів, які були «попередньо навчені» на великому корпусі. LLM — це моделі загального призначення, які відмінно справляються з широким спектром завдань, на відміну від навчання для одного конкретного завдання (наприклад, аналіз настроїв, розпізнавання іменованих об'єктів або математичне міркування). Діапазон і майстерність, з якою вони можуть виконувати завдання, як правило, є функцією кількості ресурсів (даних, розміру параметрів, обчислювальної потужності), виділених для них.
Архітектура
Великі мовні моделі найчастіше використовують архітектуру типу трансформер, яка з 2018 року стала стандартною технікою глибокого навчання для послідовних даних (раніше найбільш поширеними були рекурентні архітектури, такі як LSTM).
Токенізація
LLM — це математичні функції, вхід і вихід яких є списками чисел. Отже, слова потрібно перетворити на числа.
LLM використовують окремий токенізатор, який відображає між текстами та списками цілих чисел. Цей токенізатор зазвичай спочатку адаптується до всього навчального набору даних, а потім заморожується до того, як LLM буде навчений. Токенізатор виконує подвійну роль, яка включає стиснення тексту, що економить обчислювальні ресурси. Наприклад, загальні слова або фрази на кшталт «де знаходиться» можуть бути закодовані в один токен замість семи символів.
Іншою функцією токенізаторів є стиснення тексту, що економить обчислення. Звичайні слова чи фрази, як-от «де є», можна закодувати одним маркером замість 7 символів. У серії OpenAI GPT використовується токенізатор, де 1 маркер відображає приблизно 4 символи, або приблизно 0,75 слова, у звичайному англійському тексті. Незвичайний англійський текст менш передбачуваний, тому менш стискається, тому для кодування потрібно більше токенів.
Токенізатор не може виводити довільні цілі числа. Зазвичай вони виводять лише цілі числа в діапазоні , де називається розміром його словникового запасу.
Деякі токенізери здатні обробляти довільний текст (зазвичай, працюючи безпосередньо з Unicode), але деякі ні. Зустрічаючи текст, який не кодується, токенізатор виводить спеціальний маркер (часто 0), який представляє «невідомий текст». Це часто записується як [UNK], наприклад, у статті BERT.
Інший спеціальний маркер, який зазвичай використовується, це [PAD] (часто 1), для «заповнення». Це використовується тому, що LLM зазвичай використовуються для пакетів тексту одночасно, і ці тексти не кодуються до однакової довжини. Оскільки LLM зазвичай вимагають, щоб вхідні дані були масивом без зубців, коротші закодовані тексти повинні бути доповнені, поки вони не збігаються з довжиною найдовшого.
Навчання
Більшість LLM попередньо навчені таким чином, що враховуючи навчальний набір текстових маркерів, модель передбачає маркери в наборі даних. Існує два загальних стилі такої попередньої підготовки:
- авторегресія (стиль GPT, «передбачити наступне слово»): якщо взяти сегмент тексту, наприклад «Я люблю їсти», модель передбачає наступні маркери, наприклад «морозиво».
- маскований («BERT-style», «close test»): враховуючи сегмент тексту, наприклад «I like to [MASK] [MASK] cream» модель передбачає замасковані лексеми, наприклад «eat ice».
Див. також
Примітки
- Goled, Shraddha (7 травня 2021). Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine.
- Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny (31 серпня 2022). Emergent Abilities of Large Language Models. Transactions on Machine Learning Research (англ.). ISSN 2835-8856.
- Bowman, Samuel R. (2023). Eight Things to Know about Large Language Models (PDF). arXiv:2304.00612.
- . platform.openai.com (англ.). Архів оригіналу за 23 квітня 2023. Процитовано 30 квітня 2023.
- Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 лютого 2020). A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP. Proceedings of the Australasian Computer Science Week Multiconference: 1—4. arXiv:2104.10810. doi:10.1145/3373017.3373028. ISBN .
В іншому мовному розділі є повніша стаття Large language model(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської.
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Velika movna model abo velika model movi VMM abo LLM vid angl large language model ce model movi sho skladayetsya z nejronnoyi merezhi z bagatma parametrami vid desyatkiv miljoniv do milyardiv navchenih na velikij kilkosti nemarkovanogo tekstu za dopomogoyu samokerovanogo abo napivkerovanogo navchannya LLM z yavilisya priblizno u 2018 roci ta dobre spravlyayutsya z riznomanitnimi zavdannyami Ce zmistilo fokus doslidzhen obrobki prirodnoyi movi z poperednoyi paradigmi pidgotovki specializovanih kerovanih modelej dlya konkretnih zavdan Hocha termin velika movna model ne maye formalnogo viznachennya vin chasto vidnositsya do modelej glibokogo navchannya z miljonami abo navit milyardami parametriv yaki buli poperedno navcheni na velikomu korpusi LLM ce modeli zagalnogo priznachennya yaki vidminno spravlyayutsya z shirokim spektrom zavdan na vidminu vid navchannya dlya odnogo konkretnogo zavdannya napriklad analiz nastroyiv rozpiznavannya imenovanih ob yektiv abo matematichne mirkuvannya Diapazon i majsternist z yakoyu voni mozhut vikonuvati zavdannya yak pravilo ye funkciyeyu kilkosti resursiv danih rozmiru parametriv obchislyuvalnoyi potuzhnosti vidilenih dlya nih ArhitekturaVeliki movni modeli najchastishe vikoristovuyut arhitekturu tipu transformer yaka z 2018 roku stala standartnoyu tehnikoyu glibokogo navchannya dlya poslidovnih danih ranishe najbilsh poshirenimi buli rekurentni arhitekturi taki yak LSTM Tokenizaciya LLM ce matematichni funkciyi vhid i vihid yakih ye spiskami chisel Otzhe slova potribno peretvoriti na chisla LLM vikoristovuyut okremij tokenizator yakij vidobrazhaye mizh tekstami ta spiskami cilih chisel Cej tokenizator zazvichaj spochatku adaptuyetsya do vsogo navchalnogo naboru danih a potim zamorozhuyetsya do togo yak LLM bude navchenij Tokenizator vikonuye podvijnu rol yaka vklyuchaye stisnennya tekstu sho ekonomit obchislyuvalni resursi Napriklad zagalni slova abo frazi na kshtalt de znahoditsya mozhut buti zakodovani v odin token zamist semi simvoliv Inshoyu funkciyeyu tokenizatoriv ye stisnennya tekstu sho ekonomit obchislennya Zvichajni slova chi frazi yak ot de ye mozhna zakoduvati odnim markerom zamist 7 simvoliv U seriyi OpenAI GPT vikoristovuyetsya tokenizator de 1 marker vidobrazhaye priblizno 4 simvoli abo priblizno 0 75 slova u zvichajnomu anglijskomu teksti Nezvichajnij anglijskij tekst mensh peredbachuvanij tomu mensh stiskayetsya tomu dlya koduvannya potribno bilshe tokeniv Tokenizator ne mozhe vivoditi dovilni cili chisla Zazvichaj voni vivodyat lishe cili chisla v diapazoni 0 1 2 V 1 displaystyle 0 1 2 V 1 de V displaystyle V nazivayetsya rozmirom jogo slovnikovogo zapasu Deyaki tokenizeri zdatni obroblyati dovilnij tekst zazvichaj pracyuyuchi bezposeredno z Unicode ale deyaki ni Zustrichayuchi tekst yakij ne koduyetsya tokenizator vivodit specialnij marker chasto 0 yakij predstavlyaye nevidomij tekst Ce chasto zapisuyetsya yak UNK napriklad u statti BERT Inshij specialnij marker yakij zazvichaj vikoristovuyetsya ce PAD chasto 1 dlya zapovnennya Ce vikoristovuyetsya tomu sho LLM zazvichaj vikoristovuyutsya dlya paketiv tekstu odnochasno i ci teksti ne koduyutsya do odnakovoyi dovzhini Oskilki LLM zazvichaj vimagayut shob vhidni dani buli masivom bez zubciv korotshi zakodovani teksti povinni buti dopovneni poki voni ne zbigayutsya z dovzhinoyu najdovshogo NavchannyaBilshist LLM poperedno navcheni takim chinom sho vrahovuyuchi navchalnij nabir tekstovih markeriv model peredbachaye markeri v nabori danih Isnuye dva zagalnih stili takoyi poperednoyi pidgotovki avtoregresiya stil GPT peredbachiti nastupne slovo yaksho vzyati segment tekstu napriklad Ya lyublyu yisti model peredbachaye nastupni markeri napriklad morozivo maskovanij BERT style close test vrahovuyuchi segment tekstu napriklad I like to MASK MASK cream model peredbachaye zamaskovani leksemi napriklad eat ice Div takozhGalyucinaciya Porodzhuvalnij shtuchnij intelekt Konstruyuvannya pidkazokPrimitkiGoled Shraddha 7 travnya 2021 Self Supervised Learning Vs Semi Supervised Learning How They Differ Analytics India Magazine Wei Jason Tay Yi Bommasani Rishi Raffel Colin Zoph Barret Borgeaud Sebastian Yogatama Dani Bosma Maarten Zhou Denny 31 serpnya 2022 Emergent Abilities of Large Language Models Transactions on Machine Learning Research angl ISSN 2835 8856 Bowman Samuel R 2023 Eight Things to Know about Large Language Models PDF arXiv 2304 00612 platform openai com angl Arhiv originalu za 23 kvitnya 2023 Procitovano 30 kvitnya 2023 Zaib Munazza Sheng Quan Z Emma Zhang Wei 4 lyutogo 2020 A Short Survey of Pre trained Language Models for Conversational AI A New Age in NLP Proceedings of the Australasian Computer Science Week Multiconference 1 4 arXiv 2104 10810 doi 10 1145 3373017 3373028 ISBN 9781450376976 V inshomu movnomu rozdili ye povnisha stattya Large language model angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad