У біоінформатиці формат FASTA є текстовим файловим форматом для зберігання нуклеотидних послідовностей або пептидних пос

У біоінформатиці, формат FASTA є текстовим файловим форматом для зберігання нуклеотидних послідовностей або пептидних послідовностей, у якому нуклеотиди або амінокислоти передаються за допомогою літер. Цей формат також дозволяє передавати опис цих послідовностей та короткий коментар до них. Назва формату походить від програмного пакету , але цей формат вже став незалежним стандартом у біоінформатиці.

Простота формату FASTA полегшує обробку послідовностей з використанням текстових редакторів та скриптових мов програмування на кшталт Perl, Python та Ruby.

Формат

Послідовність у форматі FASTA починається з рядка, що надає опис послідовності, а наступні рядки передають саму послідовність. Щоб відрізнити рядок опису від послідовності, він починається за символу «більше» ('>'). Перше слово після цього символу зазвичай є ідентифікатором послідовності, таким як номер послідовності у базі даних GenBank. Решта слів у першому рядку можуть передавати будь-яку інформацію стосовно послідовності. Всі слова у першому рядку необов'язкові і можуть бути у вільному форматі. Проте ідентифікатор має слідкувати безпосередньо за символом '>', тобто між '>' та ідентифікатором не має бути пробілів. Формат рекомендує обмежувати довжину рядків до 80 символів. Зазвичай рядки послідовності мають довжину у 60 символів. Послідовність закінчується перед рядком, що починається з символу '>'. Наприклад:

>IMGA|Medtr6g025160.1 F-box family-1 chr06_pseudomolecule_IMGAG_V3.5 5786157-5784331 H EGN_Mt100125 20100825 MNDTGMINFAFVCLLNGDRTINASVLGCWKLYLECGAALSLSAKMRFAYRPFQDIFLNAP SKGGLDFTQINMNLLSTVEVTCWHYWLFFLLRGIRNPVKRVIQKYSIYDNNDKLSDFPDC VLLHILSFLNTKYAVQTCVLAKRWKNLWKRLTSLIIGYSHFKDLKGFEYLIHGFFGTRDR STALQVLNFREECYVGYQSHLEWIVRYAFTHNVKRIRIDVKKVKHLQSYFFSCDTLTSLH ICVAFPQRTLFPNSLKFPALTYLFLGSFDFGVDDDGRVEPFSAFKRLNSLILQNCRSLDK QNLCISSATLTNLTIDYDSWALGYCKFELYTPNLCTFVYKGIPPVQQLCGSKSNLSSVKH ATIVVISLY* >IMGA|Medtr6g023700.1 Triacylglycerol lipase 2 chr06_pseudomolecule_IMGAG_V3.5 5390597-5393824 H EGN_Mt100125 20100825 MASLGSMNIVTLTFCVIILTTCNHQAHASSRVFLNKKNDKSPIQGLCASSVTIHGFKCEE HEVITKDGYILSIQRIPEGRSEAKSNVTKKKEPVIVQHGVFVDGATWFLNSPKQNLPMIL ANNGFDVWIPNTRGTKFSRKHTSLDPSNKTYWDWSWDELVTYEMPAIFDFISKQTGGQKI HYVGHSLGTLTALASLAEGKWENQVKSVALLSPVAYLSQMKSILGQIAARSLLSKECQEK LAQSECVGATWKRKYDEAMLKMETMSGEIEQREHEVHKLRRQIVKKNVQIELRAQGYHNL SAQGSVGSSSKMHIQILMNSLLQRA*