У біоінформатиці, формат FASTA є текстовим файловим форматом для зберігання нуклеотидних послідовностей або пептидних послідовностей, у якому нуклеотиди або амінокислоти передаються за допомогою літер. Цей формат також дозволяє передавати опис цих послідовностей та короткий коментар до них. Назва формату походить від програмного пакету , але цей формат вже став незалежним стандартом у біоінформатиці.
Простота формату FASTA полегшує обробку послідовностей з використанням текстових редакторів та скриптових мов програмування на кшталт Perl, Python та Ruby.
Формат
Послідовність у форматі FASTA починається з рядка, що надає опис послідовності, а наступні рядки передають саму послідовність. Щоб відрізнити рядок опису від послідовності, він починається за символу «більше» ('>'). Перше слово після цього символу зазвичай є ідентифікатором послідовності, таким як номер послідовності у базі даних GenBank. Решта слів у першому рядку можуть передавати будь-яку інформацію стосовно послідовності. Всі слова у першому рядку необов'язкові і можуть бути у вільному форматі. Проте ідентифікатор має слідкувати безпосередньо за символом '>', тобто між '>' та ідентифікатором не має бути пробілів. Формат рекомендує обмежувати довжину рядків до 80 символів. Зазвичай рядки послідовності мають довжину у 60 символів. Послідовність закінчується перед рядком, що починається з символу '>'. Наприклад:
>IMGA|Medtr6g025160.1 F-box family-1 chr06_pseudomolecule_IMGAG_V3.5 5786157-5784331 H EGN_Mt100125 20100825 MNDTGMINFAFVCLLNGDRTINASVLGCWKLYLECGAALSLSAKMRFAYRPFQDIFLNAP SKGGLDFTQINMNLLSTVEVTCWHYWLFFLLRGIRNPVKRVIQKYSIYDNNDKLSDFPDC VLLHILSFLNTKYAVQTCVLAKRWKNLWKRLTSLIIGYSHFKDLKGFEYLIHGFFGTRDR STALQVLNFREECYVGYQSHLEWIVRYAFTHNVKRIRIDVKKVKHLQSYFFSCDTLTSLH ICVAFPQRTLFPNSLKFPALTYLFLGSFDFGVDDDGRVEPFSAFKRLNSLILQNCRSLDK QNLCISSATLTNLTIDYDSWALGYCKFELYTPNLCTFVYKGIPPVQQLCGSKSNLSSVKH ATIVVISLY* >IMGA|Medtr6g023700.1 Triacylglycerol lipase 2 chr06_pseudomolecule_IMGAG_V3.5 5390597-5393824 H EGN_Mt100125 20100825 MASLGSMNIVTLTFCVIILTTCNHQAHASSRVFLNKKNDKSPIQGLCASSVTIHGFKCEE HEVITKDGYILSIQRIPEGRSEAKSNVTKKKEPVIVQHGVFVDGATWFLNSPKQNLPMIL ANNGFDVWIPNTRGTKFSRKHTSLDPSNKTYWDWSWDELVTYEMPAIFDFISKQTGGQKI HYVGHSLGTLTALASLAEGKWENQVKSVALLSPVAYLSQMKSILGQIAARSLLSKECQEK LAQSECVGATWKRKYDEAMLKMETMSGEIEQREHEVHKLRRQIVKKNVQIELRAQGYHNL SAQGSVGSSSKMHIQILMNSLLQRA*
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U bioinformatici format FASTA ye tekstovim fajlovim formatom dlya zberigannya nukleotidnih poslidovnostej abo peptidnih poslidovnostej u yakomu nukleotidi abo aminokisloti peredayutsya za dopomogoyu liter Cej format takozh dozvolyaye peredavati opis cih poslidovnostej ta korotkij komentar do nih Nazva formatu pohodit vid programnogo paketu ale cej format vzhe stav nezalezhnim standartom u bioinformatici Prostota formatu FASTA polegshuye obrobku poslidovnostej z vikoristannyam tekstovih redaktoriv ta skriptovih mov programuvannya na kshtalt Perl Python ta Ruby FormatPoslidovnist u formati FASTA pochinayetsya z ryadka sho nadaye opis poslidovnosti a nastupni ryadki peredayut samu poslidovnist Shob vidrizniti ryadok opisu vid poslidovnosti vin pochinayetsya za simvolu bilshe gt Pershe slovo pislya cogo simvolu zazvichaj ye identifikatorom poslidovnosti takim yak nomer poslidovnosti u bazi danih GenBank Reshta sliv u pershomu ryadku mozhut peredavati bud yaku informaciyu stosovno poslidovnosti Vsi slova u pershomu ryadku neobov yazkovi i mozhut buti u vilnomu formati Prote identifikator maye slidkuvati bezposeredno za simvolom gt tobto mizh gt ta identifikatorom ne maye buti probiliv Format rekomenduye obmezhuvati dovzhinu ryadkiv do 80 simvoliv Zazvichaj ryadki poslidovnosti mayut dovzhinu u 60 simvoliv Poslidovnist zakinchuyetsya pered ryadkom sho pochinayetsya z simvolu gt Napriklad gt IMGA Medtr6g025160 1 F box family 1 chr06 pseudomolecule IMGAG V3 5 5786157 5784331 H EGN Mt100125 20100825 MNDTGMINFAFVCLLNGDRTINASVLGCWKLYLECGAALSLSAKMRFAYRPFQDIFLNAP SKGGLDFTQINMNLLSTVEVTCWHYWLFFLLRGIRNPVKRVIQKYSIYDNNDKLSDFPDC VLLHILSFLNTKYAVQTCVLAKRWKNLWKRLTSLIIGYSHFKDLKGFEYLIHGFFGTRDR STALQVLNFREECYVGYQSHLEWIVRYAFTHNVKRIRIDVKKVKHLQSYFFSCDTLTSLH ICVAFPQRTLFPNSLKFPALTYLFLGSFDFGVDDDGRVEPFSAFKRLNSLILQNCRSLDK QNLCISSATLTNLTIDYDSWALGYCKFELYTPNLCTFVYKGIPPVQQLCGSKSNLSSVKH ATIVVISLY gt IMGA Medtr6g023700 1 Triacylglycerol lipase 2 chr06 pseudomolecule IMGAG V3 5 5390597 5393824 H EGN Mt100125 20100825 MASLGSMNIVTLTFCVIILTTCNHQAHASSRVFLNKKNDKSPIQGLCASSVTIHGFKCEE HEVITKDGYILSIQRIPEGRSEAKSNVTKKKEPVIVQHGVFVDGATWFLNSPKQNLPMIL ANNGFDVWIPNTRGTKFSRKHTSLDPSNKTYWDWSWDELVTYEMPAIFDFISKQTGGQKI HYVGHSLGTLTALASLAEGKWENQVKSVALLSPVAYLSQMKSILGQIAARSLLSKECQEK LAQSECVGATWKRKYDEAMLKMETMSGEIEQREHEVHKLRRQIVKKNVQIELRAQGYHNL SAQGSVGSSSKMHIQILMNSLLQRA