LLaMA (Large Language Model Meta AI) — велика модель мови (LLM), випущена Meta AI у лютому 2023 року. Модель була навчена на широкому спектрі джерел даних, підтримуючи 20 мов з латинським і кириличним алфавітами. Унікальність LLaMA полягає у тому, що її можна запускати в автономному режимі на різних пристроях, зокрема ноутбуках і смартфонах, завдяки програмним інструментам, які дозволяють їй функціонувати на графічних процесорах споживчого класу. Вона доступна в декількох розмірах (кількість параметрів: 7B, 13B, 33B і 65B), що дозволяє використовувати її в різних випадках. LLaMA покликана демократизувати доступ до досліджень у галузі ШІ, оскільки вимагає менших обчислювальних потужностей і ресурсів і не потребує доступу до інтернету. Розробники LLaMA повідомили, що продуктивність моделі з 13 мільярдами параметрів у більшості тестів NLP перевищила продуктивність значно більшої GPT-3 (зі 175 мільярдами параметрів) і що найбільша модель була конкурентоспроможною з такими сучасними моделями, як . У той час як найпотужніші LLM зазвичай були доступні лише через обмежені API (якщо взагалі були доступні), Meta випустила вагові коефіцієнти LLaMA за некомерційною ліцензією. Протягом тижня після випуску LLaMA, дані моделі були відкрито опубліковані на інтернет-форумі 4chan за допомогою BitTorrent.
Архітектура і навчання
LLaMA використовує архітектуру типу трансформер, тобто використовує механізми самоуваги(англ. self-attention) для розуміння контексту слів у реченні та перекладу його у вихідні дані. Вона широко використовується для задач, пов'язаних з обробкою природної мови, завдяки своїй здатності ефективно обробляти далекі залежності в тексті. Трансформер є стандартною архітектурою для мовного моделювання з 2018 року. LLaMA, як і інші великі мовні моделі, працює, приймаючи на вхід послідовність слів і передбачаючи наступне слово, щоб рекурсивно генерувати текст. Токенізатор LLaMA - це модель BPE, заснована на фрагменті речення, з помітною особливістю, яка полягає в тому, що він не додає до рядка префіксний пробіл при декодуванні послідовності, якщо перша лексема є початком слова. Розробники LLaMA зосередили свої зусилля на масштабуванні продуктивності моделі шляхом збільшення об’єму навчальних даних, а не кількості параметрів, вважаючи, що панівними витратами для LLM є виконання висновків на навченій моделі, а не обчислювальні витрати процесу навчання. LLaMA було навчено на 1,4 трильйона токенів, отриманих із загальнодоступних джерел даних, у тому числі:
- Веб-сторінки, зібрані CommonCrawl
- Репозиторії з відкритим кодом на GitHub
- Вікіпедія 20 різними мовами
- Загальнодоступні книги проєкту «Гутенберг»
- Вихідний код LaTeX для наукових статей, завантажених в ArXiv
- Запитання та відповіді з веб-сайтів Stack Exchange
Розробка і реліз
Розробка LLaMA була мотивована необхідністю зробити великі мовні моделі більш доступними для дослідницької спільноти. Раніше значні ресурси, необхідні для навчання та запуску таких великих моделей, обмежували доступ до них, що ускладнювало розуміння дослідниками того, як і чому працюють ці великі мовні моделі. Це сповільнювало прогрес у зусиллях, спрямованих на підвищення їхньої надійності та пом'якшення відомих проблем, таких як упередженість, токсичність і потенціал для генерування дезінформації. Про реліз LLaMA було оголошено 23 лютого 2023 року у документі з описом навчання, архітектури та продуктивності моделі. Код, використаний для навчання моделі, був опублікований під ліцензією GPL 3. Доступ до вагових показників моделі регулювався шляхом подачі заявки, причому доступ надавався на індивідуальній основі академічним дослідникам, тим, хто працює в уряді, громадському секторі та академічному середовищі, а також дослідницьким лабораторіям по всьому світу.
Застосування і поширення
LLaMA була розроблена як універсальний інструмент і може бути застосована в багатьох різних ситуаціях, від створення творчого тексту до розв'язання математичних теорем. Менші моделі легше перенавчити та налаштувати для конкретних потреб.
Тривають дослідження, спрямовані на подолання проблем упередженості, токсичних коментарів та галюцинацій, характерних для великих мовних моделей, і LLaMA не є винятком з цих викликів. Випустивши код LLaMA, інші дослідники зможуть легше тестувати нові підходи до обмеження або усунення цих проблем у великих мовних моделях.
Центр дослідження базових моделей (CRFM) Інституту людського інтелекту Стенфордського університету (HAI) випустив Alpaca, навчальний рецепт на основі моделі LLaMA 7B, який використовує метод «самонавчання» для налаштування інструкцій із метою отримання можливостей, порівняних з моделлю OpenAI GPT-3.5 series text-davinci-003, за помірну ціну . Кілька проєктів з відкритим кодом продовжують цю роботу з тонкого налаштування LLaMA за допомогою набору даних Alpaca.
Список літератури
- Introducing LLaMA: A foundational, 65-billion-parameter language model. ai.facebook.com (укр.). Процитовано 15 червня 2023.
- Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 березня 2023). Alpaca: A Strong, Replicable Instruction-Following Model. Stanford Center for Research on Foundation Models.
- Smith N. A., Hajishirzi H. Self-Instruct: Aligning Language Model with Self Generated Instructions // ArXiv.org — 2022. — ISSN 2331-8422 — arXiv:2212.10560
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
LLaMA Large Language Model Meta AI velika model movi LLM vipushena Meta AI u lyutomu 2023 roku Model bula navchena na shirokomu spektri dzherel danih pidtrimuyuchi 20 mov z latinskim i kirilichnim alfavitami Unikalnist LLaMA polyagaye u tomu sho yiyi mozhna zapuskati v avtonomnomu rezhimi na riznih pristroyah zokrema noutbukah i smartfonah zavdyaki programnim instrumentam yaki dozvolyayut yij funkcionuvati na grafichnih procesorah spozhivchogo klasu Vona dostupna v dekilkoh rozmirah kilkist parametriv 7B 13B 33B i 65B sho dozvolyaye vikoristovuvati yiyi v riznih vipadkah LLaMA poklikana demokratizuvati dostup do doslidzhen u galuzi ShI oskilki vimagaye menshih obchislyuvalnih potuzhnostej i resursiv i ne potrebuye dostupu do internetu Rozrobniki LLaMA povidomili sho produktivnist modeli z 13 milyardami parametriv u bilshosti testiv NLP perevishila produktivnist znachno bilshoyi GPT 3 zi 175 milyardami parametriv i sho najbilsha model bula konkurentospromozhnoyu z takimi suchasnimi modelyami yak U toj chas yak najpotuzhnishi LLM zazvichaj buli dostupni lishe cherez obmezheni API yaksho vzagali buli dostupni Meta vipustila vagovi koeficiyenti LLaMA za nekomercijnoyu licenziyeyu Protyagom tizhnya pislya vipusku LLaMA dani modeli buli vidkrito opublikovani na internet forumi 4chan za dopomogoyu BitTorrent Arhitektura i navchannyaLLaMA vikoristovuye arhitekturu tipu transformer tobto vikoristovuye mehanizmi samouvagi angl self attention dlya rozuminnya kontekstu sliv u rechenni ta perekladu jogo u vihidni dani Vona shiroko vikoristovuyetsya dlya zadach pov yazanih z obrobkoyu prirodnoyi movi zavdyaki svoyij zdatnosti efektivno obroblyati daleki zalezhnosti v teksti Transformer ye standartnoyu arhitekturoyu dlya movnogo modelyuvannya z 2018 roku LLaMA yak i inshi veliki movni modeli pracyuye prijmayuchi na vhid poslidovnist sliv i peredbachayuchi nastupne slovo shob rekursivno generuvati tekst Tokenizator LLaMA ce model BPE zasnovana na fragmenti rechennya z pomitnoyu osoblivistyu yaka polyagaye v tomu sho vin ne dodaye do ryadka prefiksnij probil pri dekoduvanni poslidovnosti yaksho persha leksema ye pochatkom slova Rozrobniki LLaMA zoseredili svoyi zusillya na masshtabuvanni produktivnosti modeli shlyahom zbilshennya ob yemu navchalnih danih a ne kilkosti parametriv vvazhayuchi sho panivnimi vitratami dlya LLM ye vikonannya visnovkiv na navchenij modeli a ne obchislyuvalni vitrati procesu navchannya LLaMA bulo navcheno na 1 4 triljona tokeniv otrimanih iz zagalnodostupnih dzherel danih u tomu chisli Veb storinki zibrani CommonCrawl Repozitoriyi z vidkritim kodom na GitHub Vikipediya 20 riznimi movami Zagalnodostupni knigi proyektu Gutenberg Vihidnij kod LaTeX dlya naukovih statej zavantazhenih v ArXiv Zapitannya ta vidpovidi z veb sajtiv Stack ExchangeRozrobka i relizRozrobka LLaMA bula motivovana neobhidnistyu zrobiti veliki movni modeli bilsh dostupnimi dlya doslidnickoyi spilnoti Ranishe znachni resursi neobhidni dlya navchannya ta zapusku takih velikih modelej obmezhuvali dostup do nih sho uskladnyuvalo rozuminnya doslidnikami togo yak i chomu pracyuyut ci veliki movni modeli Ce spovilnyuvalo progres u zusillyah spryamovanih na pidvishennya yihnoyi nadijnosti ta pom yakshennya vidomih problem takih yak uperedzhenist toksichnist i potencial dlya generuvannya dezinformaciyi Pro reliz LLaMA bulo ogolosheno 23 lyutogo 2023 roku u dokumenti z opisom navchannya arhitekturi ta produktivnosti modeli Kod vikoristanij dlya navchannya modeli buv opublikovanij pid licenziyeyu GPL 3 Dostup do vagovih pokaznikiv modeli regulyuvavsya shlyahom podachi zayavki prichomu dostup nadavavsya na individualnij osnovi akademichnim doslidnikam tim hto pracyuye v uryadi gromadskomu sektori ta akademichnomu seredovishi a takozh doslidnickim laboratoriyam po vsomu svitu Zastosuvannya i poshirennyaLLaMA bula rozroblena yak universalnij instrument i mozhe buti zastosovana v bagatoh riznih situaciyah vid stvorennya tvorchogo tekstu do rozv yazannya matematichnih teorem Menshi modeli legshe perenavchiti ta nalashtuvati dlya konkretnih potreb Trivayut doslidzhennya spryamovani na podolannya problem uperedzhenosti toksichnih komentariv ta galyucinacij harakternih dlya velikih movnih modelej i LLaMA ne ye vinyatkom z cih viklikiv Vipustivshi kod LLaMA inshi doslidniki zmozhut legshe testuvati novi pidhodi do obmezhennya abo usunennya cih problem u velikih movnih modelyah Centr doslidzhennya bazovih modelej CRFM Institutu lyudskogo intelektu Stenfordskogo universitetu HAI vipustiv Alpaca navchalnij recept na osnovi modeli LLaMA 7B yakij vikoristovuye metod samonavchannya dlya nalashtuvannya instrukcij iz metoyu otrimannya mozhlivostej porivnyanih z modellyu OpenAI GPT 3 5 series text davinci 003 za pomirnu cinu Kilka proyektiv z vidkritim kodom prodovzhuyut cyu robotu z tonkogo nalashtuvannya LLaMA za dopomogoyu naboru danih Alpaca Spisok literaturiIntroducing LLaMA A foundational 65 billion parameter language model ai facebook com ukr Procitovano 15 chervnya 2023 Taori Rohan Gulrajani Ishaan Zhang Tianyi Dubois Yann Li Xuechen Guestrin Carlos Liang Percy Hashimoto Tatsunori B 13 bereznya 2023 Alpaca A Strong Replicable Instruction Following Model Stanford Center for Research on Foundation Models Smith N A Hajishirzi H Self Instruct Aligning Language Model with Self Generated Instructions ArXiv org 2022 ISSN 2331 8422 arXiv 2212 10560 d Track Q104633932d Track Q117202254d Track Q38882473d Track Q118398