Generative pre-trained transformer (GPT) — варіант «штучного інтелекту» — це сімейство мовних моделей, які зазвичай навчаються на великому корпусі текстових даних для створення тексту, схожого на текст людини. Вони побудовані з використанням декількох блоків трансформної архітектури. Їх можна точно налаштувати для виконання різноманітних завдань обробки природної мови, таких як генерація тексту, переклад мови та класифікація тексту. «Попереднє навчання» в його назві означає початковий процес навчання на великому текстовому корпусі, під час якого модель вчиться передбачати наступне слово в уривку, що забезпечує надійну основу для успішної роботи моделі в наступних завданнях з обмеженою кількістю даних, що стосуються конкретного завдання.
Застосування
- ChatGPT (Chat Generative Pre-trained Transformer) це чат-бот, запущений OpenAI у листопаді 2022 року. Він використовує GPT-3.5, і налаштований (підхід до перенесення навчання) як на кероване навчання, так і навчання з підкріпленням.
- BioGPT це GPT, який фокусується на відповідях на біомедичні запитання. Він розроблений Microsoft.
- ProtGPT2 це GPT, який зосереджується на білковому дизайні.
Історія
Цей розділ містить фрагменти англійською мовою. |
11 червня 2018 року OpenAI опублікував статтю під назвою «Покращення розуміння мови за допомогою генеративного попереднього навчання», в якому вони представили Generative Pre-trained Transformer (GPT). На той момент, найефективніші нейронні моделі НЛП в основному використовували кероване навчання з великих обсягів даних, позначених вручну. Ця залежність від керованого навчання обмежувала їх використання в наборах даних, які не були добре анотованими, а також робила навчання надзвичайно великих моделей надто дорогим і трудомістким; багато мов (наприклад, суахілі чи гаїтянська креольська) важко перекладати та інтерпретувати за допомогою таких моделей через брак доступного тексту для побудови корпусу. На відміну від цього, «напівкерований» підхід GPT включав два етапи: некерований генеративний етап «попереднього навчання», на якому мета моделювання мови використовувалася для встановлення початкових параметрів, і керований етап дискримінаційного «тонкого налаштування», на якому ці параметри були адаптовані до цільового завдання.
Архітектура | Кількість параметрів | Тренувальні дані | Дата релізу | Вартість тренування | |
---|---|---|---|---|---|
12-level, 12-headed Transformer decoder (no encoder), followed by linear-softmax. | 0.12 млрд | BookCorpus: 4.5 ГБ тексту, з 7000 невиданих книг різних жанрів. | 11.06.2018 | 1 місяць на 8 GPU (1.7e+19 FLOP) | |
GPT-2 | GPT-1, але з модифікованою нормалізацією | 1.5 млрд | WebText: 40 ГБ тексту, 8 млн документів, 45 млн вебсторінок з позитивними оцінками на Reddit | 14.02.2019(обмежена версія)/05.11.2019(повна версія) | Десятки петафлопс/s-day (1.5e+21 FLOP) |
GPT-3 | GPT-2, but with modification to allow larger scaling. | 175 млрд | 570 ГБ plaintext, 0.4 trillion tokens. Mostly CommonCrawl, WebText, Англійська Вікіпедія, and two books corpora (Books1 and Books2). | 28.05.2020 | 3640 петафлопс/s-day (3.1e+23 FLOP) |
Засекречена | 175 млрд | Інформація засекречена | 15.03.2022 | Інформація засекречена | |
GPT-4 | Засекречена | Невідомо | Інформація засекречена | 14.03.2023 | Інформація засекречена (орієнтовно 2.1e+25 FLOP) |
Див. також
Примітки
- Henry Kissinger, Eric Schmidt and Daniel Huttenlocher. A Robot Wrote This Book Review
- https://konkurent.ua/publication/112626/shtuchniy-intelekt-scho-bude-yakscho-ludini-ne-vdastsya-prokontroluvati-tehnologiu/ Штучний інтелект: що буде, якщо людині не вдасться проконтролювати технологію
- Roose, Kevin (5 грудня 2022). The Brilliance and Weirdness of ChatGPT. The New York Times (амер.). оригіналу за 18 січня 2023. Процитовано 26 грудня 2022.
Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash.
- Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. с. 551. ISBN . оригіналу за 10 січня 2023. Процитовано 10 січня 2023.
- Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H та ін. (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.
- Matthias Bastian (29 січня 2023). BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder.
- Ferruz, N., Schmidt, S. & Höcker, B. та ін. (2022). ProtGPT2 is a deep unsupervised language model for protein design. Nature Communications volume. 13. doi:10.1038/s41467-022-32007-7.
- Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training (PDF). OpenAI. с. 12. (PDF) оригіналу за 26 січня 2021. Процитовано 23 січня 2021.
- Tsvetkov, Yulia (22 червня 2017). Opportunities and Challenges in Working with Low-Resource Languages (PDF). Carnegie Mellon University. (PDF) оригіналу за 31 березня 2020. Процитовано 23 січня 2021.
- Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books: 19—27.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Generative pre trained transformer GPT variant shtuchnogo intelektu ce simejstvo movnih modelej yaki zazvichaj navchayutsya na velikomu korpusi tekstovih danih dlya stvorennya tekstu shozhogo na tekst lyudini Voni pobudovani z vikoristannyam dekilkoh blokiv transformnoyi arhitekturi Yih mozhna tochno nalashtuvati dlya vikonannya riznomanitnih zavdan obrobki prirodnoyi movi takih yak generaciya tekstu pereklad movi ta klasifikaciya tekstu Poperednye navchannya v jogo nazvi oznachaye pochatkovij proces navchannya na velikomu tekstovomu korpusi pid chas yakogo model vchitsya peredbachati nastupne slovo v urivku sho zabezpechuye nadijnu osnovu dlya uspishnoyi roboti modeli v nastupnih zavdannyah z obmezhenoyu kilkistyu danih sho stosuyutsya konkretnogo zavdannya Model GPTZastosuvannyaChatGPT Chat Generative Pre trained Transformer ce chat bot zapushenij OpenAI u listopadi 2022 roku Vin vikoristovuye GPT 3 5 i nalashtovanij pidhid do perenesennya navchannya yak na kerovane navchannya tak i navchannya z pidkriplennyam BioGPT ce GPT yakij fokusuyetsya na vidpovidyah na biomedichni zapitannya Vin rozroblenij Microsoft ProtGPT2 ce GPT yakij zoseredzhuyetsya na bilkovomu dizajni IstoriyaDokladnishe OpenAI Cej rozdil mistit neperekladeni fragmenti anglijskoyu movoyu Vi mozhete dopomogti proyektu pereklavshi yih ukrayinskoyu 11 chervnya 2018 roku OpenAI opublikuvav stattyu pid nazvoyu Pokrashennya rozuminnya movi za dopomogoyu generativnogo poperednogo navchannya v yakomu voni predstavili Generative Pre trained Transformer GPT Na toj moment najefektivnishi nejronni modeli NLP v osnovnomu vikoristovuvali kerovane navchannya z velikih obsyagiv danih poznachenih vruchnu Cya zalezhnist vid kerovanogo navchannya obmezhuvala yih vikoristannya v naborah danih yaki ne buli dobre anotovanimi a takozh robila navchannya nadzvichajno velikih modelej nadto dorogim i trudomistkim bagato mov napriklad suahili chi gayityanska kreolska vazhko perekladati ta interpretuvati za dopomogoyu takih modelej cherez brak dostupnogo tekstu dlya pobudovi korpusu Na vidminu vid cogo napivkerovanij pidhid GPT vklyuchav dva etapi nekerovanij generativnij etap poperednogo navchannya na yakomu meta modelyuvannya movi vikoristovuvalasya dlya vstanovlennya pochatkovih parametriv i kerovanij etap diskriminacijnogo tonkogo nalashtuvannya na yakomu ci parametri buli adaptovani do cilovogo zavdannya Versiyi GPT Arhitektura Kilkist parametriv Trenuvalni dani Data relizu Vartist trenuvannya12 level 12 headed Transformer decoder no encoder followed by linear softmax 0 12 mlrd BookCorpus 4 5 GB tekstu z 7000 nevidanih knig riznih zhanriv 11 06 2018 1 misyac na 8 GPU 1 7e 19 FLOP GPT 2 GPT 1 ale z modifikovanoyu normalizaciyeyu 1 5 mlrd WebText 40 GB tekstu 8 mln dokumentiv 45 mln vebstorinok z pozitivnimi ocinkami na Reddit 14 02 2019 obmezhena versiya 05 11 2019 povna versiya Desyatki petaflops s day 1 5e 21 FLOP GPT 3 GPT 2 but with modification to allow larger scaling 175 mlrd 570 GB plaintext 0 4 trillion tokens Mostly CommonCrawl WebText Anglijska Vikipediya and two books corpora Books1 and Books2 28 05 2020 3640 petaflops s day 3 1e 23 FLOP Zasekrechena 175 mlrd Informaciya zasekrechena 15 03 2022 Informaciya zasekrechenaGPT 4 Zasekrechena Nevidomo Informaciya zasekrechena 14 03 2023 Informaciya zasekrechena oriyentovno 2 1e 25 FLOP Div takozhKonstruyuvannya pidkazok Porodzhuvalnij shtuchnij intelektPrimitkiHenry Kissinger Eric Schmidt and Daniel Huttenlocher A Robot Wrote This Book Review https konkurent ua publication 112626 shtuchniy intelekt scho bude yakscho ludini ne vdastsya prokontroluvati tehnologiu Shtuchnij intelekt sho bude yaksho lyudini ne vdastsya prokontrolyuvati tehnologiyu Roose Kevin 5 grudnya 2022 The Brilliance and Weirdness of ChatGPT The New York Times amer originalu za 18 sichnya 2023 Procitovano 26 grudnya 2022 Like those tools ChatGPT which stands for generative pre trained transformer landed with a splash Quinn Joanne 2020 Dive into deep learning tools for engagement Thousand Oaks California s 551 ISBN 9781544361376 originalu za 10 sichnya 2023 Procitovano 10 sichnya 2023 Luo R Sun L Xia Y Qin T Zhang S Poon H ta in 2022 BioGPT generative pre trained transformer for biomedical text generation and mining Brief Bioinform 23 6 doi 10 1093 bib bbac409 PMID 36156661 Matthias Bastian 29 sichnya 2023 BioGPT is a Microsoft language model trained for biomedical tasks The Decoder Ferruz N Schmidt S amp Hocker B ta in 2022 ProtGPT2 is a deep unsupervised language model for protein design Nature Communications volume 13 doi 10 1038 s41467 022 32007 7 Radford Alec Narasimhan Karthik Salimans Tim Sutskever Ilya 11 chervnya 2018 Improving Language Understanding by Generative Pre Training PDF OpenAI s 12 PDF originalu za 26 sichnya 2021 Procitovano 23 sichnya 2021 Tsvetkov Yulia 22 chervnya 2017 Opportunities and Challenges in Working with Low Resource Languages PDF Carnegie Mellon University PDF originalu za 31 bereznya 2020 Procitovano 23 sichnya 2021 Zhu Yukun Kiros Ryan Zemel Rich Salakhutdinov Ruslan Urtasun Raquel Torralba Antonio Fidler Sanja 2015 Aligning Books and Movies Towards Story Like Visual Explanations by Watching Movies and Reading Books 19 27