Formato FASTA

Formato FASTA: Formato FASTA

Saltar a navegación, búsqueda

En bioinformática, el formato FASTA es un formato de fichero informático basado en texto, utilizado para representar secuencias bien de ácidos nucleicos, bien de péptido, y en el que los pares de bases o los aminoácidos se representan usando códigos de una única letra. El formato también permite incluir nombres de secuencias y comentarios que preceden a las secuencias en sí.

La simplicidad del formato FASTA hace fácil el manipular y analizar secuencias usando herramientas de procesado de textos y lenguajes de guión como Python y PERL.

Contenido

1 Formato

1.1 Convertidores de formato

1.2 Línea de cabecera

1.3 Representación de la secuencia

1.4 Identificadores de secuencia

1.5 Extensiones de archivo

2 Formato HUPO-PSI

2.1 Bloque de cabecera

2.2 Línea de cabecera de secuencia

3 Referencias

4 Véase también

5 Enlaces externos

Formato

Una secuencia bajo formato FASTA comienza con una descripción en una única línea (línea de cabecera), seguida por líneas de datos de secuenca. La línea de descripción se distingue de los datos de secuencia por un símbolo '>' (mayor que) en la primera columna. La palabra siguiente a este símbolo es el identificador de la secuencia, y el resto de la línea es la descripción (ambos son opcionales). No debería existir espacio entre el '>' y la primera letra del identificador. Se recomienda que todas las líneas de texto sean menores de 80 caracteres. La secuencia termina si aparece otra línea comenzando con el símbolo '>'; esto indica el comienzo de otra secuencia. Un ejemplo simple de una secuencia en el formato FASTA puede ser:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY

Convertidores de formato

Los archivos FASTA pueden ser convertidos por lotes a, o desde, el formato MultiFASTA usando herramientas libres como FASTA to multi-FASTA converter y multi-FASTA to FASTA converter. También pueden conseguirse otras herramientas libres para conversión por lotes desde formatos de cromatogramas (ABI/SCF) a FASTA: ABI2FASTA converter y Chromatogram explorer.

Línea de cabecera

La línea de cabecera, que comienza con '>', proporciona un nombre y/o un identificador único a la secuencia, y a menudo bastante información adicional. Muy diferentes bases de datos de secuencias usan cabeceras estandarizadas, lo que ayuda a la extracción automática de información desde la cabecera. La línea de cabecera puede contener más de una cabecera, separadas por un carácter ^A (Control-A, tal y como se encuentra en [1]).

En el formato FASTA Pearson original, uno o más comentarios, distinguidos por un carácter ';' (punto y coma) al comienzo de la línea, podían aparecer tras la cabecera. La mayoría de las bases de datos y aplicaciones bioinformáticas no reconocen tales comentarios y siguen la especificación FASTA del NCBI. Un ejemplo de archivo con una secuencia múltiple bajo FASTA podría ser:

>SEQUENCE_1 MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL >SEQUENCE_2 SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Representación de la secuencia

Tras la línea de cabecera y los comentarios, una o más líneas pueden seguir para describir la secuencia: cada línea de una secuencia debería tener algo menos de 80 caracteres. Las secuencia pueden corresponder a secuencias de proteínas (estructura primaria de las proteínas) o de ácidos nucleicos, y pueden contener huecos (o gaps) o caracteres de alineamiento. Normalmente se espera que las secuencias se representen en los códigos estándar IUB/IUPAC para aminoácidos y ácidos nucléicos, con las siguientes excepciones: se aceptan letras minúsculas y se mapean a mayúsculas; un único guión o raya puede usarse para representar un hueco; y en secuencias de aminoácidos, 'U' y '*' son caracteres aceptables (ver más abajo). No se admiten dígitos numéricos, pero se utilizan en algunas bases de datos para indicar la posición en la secuencia.

Los códigos de ácidos nucléicos soportados son:

Código de ácido nucléico Significado

A Adenosina

C Citosina

G Guanina

T Timidina

U Uracilo

R G A (puRina)

Y T C (pirimidina/pYrimidine)

K G T (cetona/Ketone)

M A C (grupo aMino)

S G C (interacción fuerte/Strong interaction)

W A T (interacción débil/Weak interaction)

B G T C (no A) (B viene tras la A)

D G A T (no C) (D viene tras la C)

H A C T (no G) (H viene tras la G)

V G C A (no T, no U) (V viene tras la U)

N A G C T (cualquiera/aNy)

X máscara

- hueco (gap) de longitud indeterminada

Los códigos de aminoácidos soportados son:

Código de aminoácido Significado

A Alanina

B Ácido aspártico o Asparagina

C Cisteína

D Ácido aspártico

E Ácido glutámico

F Fenilalanina

G Glicina

H Histidina

I Isoleucina

K Lisina

L Leucina

M Metionina

N Asparagina

O Pirrolisina

P Prolina

Q Glutamina

R Arginina

S Serina

T Treonina

U Selenocisteína

V Valina

W Triptófano

Y Tirosina

Z Ácido glutámico o Glutamina

X cualquiera

* parada de traducción

- hueco (gap) de longitud indeterminada

Identificadores de secuencia

El NCBI definió un estándar para el identificador único usado para las secuencias (SeqID) en la línea de cabecera. La página man (manual de algunas aplicaciones o comandos bajo Unix) de la herramienta software formatdb comenta lo siguiente sobre el asunto: "formatdb analizará automáticamente el SeqID y creará índices, pero los identificadores de la base de datos en la línea de definición FASTA deben seguir las convenciones del FASTA Defline Format (formato FASTA de definición de línea)".

Sin embargo, no se da una descripción definitiva del formato defline de FASTA. Se ofrece a continuación un intento de tal formato:^{[cita requerida]}

GenBank gi|gi-number|gb|accesión|locus EMBL Data Library gi|gi-number|emb|accesión|locus DDBJ, DNA Database of Japan gi|gi-number|dbj|accesión|locus NBRF PIR pir||entrada Protein Research Foundation prf||nombre SWISS-PROT sp|accesión|nombre Brookhaven Protein Data Bank (1) pdb|entry|chain Brookhaven Protein Data Bank (2) entry:chain|PDBID|CADENA|SECUENCIA Patentes pat|país|número GenInfo Backbone Id bbs|número Identificador general base datos gnl|base de datos|identificador NCBI Reference Sequence ref|accesión|locus Local Sequence identifier lcl|identificador

Las barras verticales en la lista de arriba no son separadores en el sentido de la Backus-Naur form, sino que son parte del formato.

Extensiones de archivo

No hay una extensión de archivo estándar para un fichero de texto conteniendo secuencias formateadas bajo FASTA. Los ficheros de este formato tienen a menudo extensiones como .fa, .mpfa, .fna, .fsa, .fas o .fasta.

Formato HUPO-PSI

Este formato pretende resolver bastantes problemas del formato tradicional FASTA:

Las líneas de definición varían ampliamente sin una buena razón. Esto causa problemas a los usuarios finales que quieren usar estos archivos con herramientas de identificación de proteínas. Los creadores de estas herramientas se enfrentan a un desafío importante: o bien soportar todas esttas variaciones, o bien permitir al usuario hacer frente a las mismas.

La misma base de datos es procesada en diferentes motores de búsqueda -> identificadores diferentes -> dificultades para mapear (P00761 vs. ALBU_HUMAN).

La misma proteína en diferentes bases de datos puede tener identificadores muy diferentes (P00761 vs gi|3446572|sp|p00761 vs. IPI:12345678).

La información extraída de los formatos FASTA es heterogénea, lo que provoca problemas de análisis sintáctico.

Descripción y disponibilidad de la taxonomía (nombres lationos, nombres comunes, TaxID del NCBI=

Bloque de cabecera

Incluye información sobre la/s base/s de datos incluida/s. Todas las líneas del bloque empiezan con el carácter '#'. Un término de cabecera de la lista siguiente por línea:

Términos para la cabecera Descripción Valor

#\DbComponent= Incremento en la cuenta Entero

#\Name= Nombre de la base de datos CV según proveedor de la base de datos (UniprotKnowledgeBase)

#\PrimaryIdentifierType= Identificador para ser usado como prefijo para entradas de proteínas individuales CV

#\Decoy= ¿Es una base de datos señuelo? ?: true/false or description

#\Version= Versión de la base de datos, de acuerdo a su proveedor De acuerdo al proveedor de la base de datosAccording to the database provider

#\ReleaseDate= Fecha de la base de datos fuente

#\NumberOfEntries= Número de entradas Entero

#\Sequence_type= Tipo de secuencia DNA (ADN), AA, RNA (ARN), EST, etc.

Ejemplo de bloque cabecera:

#\Dbcomponent=1 #\Name=UniProt_SwissProt #\PrimaryIdentifierType=sp_ac #\Version=52.3 #\ReleaseDate=20070425 #\NumberOfEntries=248942 #\Sequence_type=Protein_sequence #\Dbcomponent=2 #\Name=ENSEMBL #\PrimaryIdentifierType=sp_ac #\Version=12.45.3.2 #\ReleaseDate=20070425 #\NumberOfEntries=1234567 #\Sequence_type=Protein_sequence

Línea de cabecera de secuencia

Descripción de la línea de cabecera de la entrada individual Ejemplo

La cabecera empieza con >, seguido por la AC primaria, precedida con el prefijo de la base de datos (útil si hay concatenadas más de una base de datos). Campo obligatorio. >sp_ac|P000761

Descripción de toda la información aparte de la secuencia \term=valor (los términosterms son descriptores de vocabulario controlado) \ID=ALBU_HUMAN

El orden de los campos adicionales no es importante

Valor puede ser una lista. Los elementos de la lista son representado como (valor_1)(valor_2) \ALTERNATE_AC=(P00786)(Q22222)

Valor puede estar entre " ", si es necesario \DE="Human serum albumin"

' puede usarse como separador para todos los campos individuales \MODRES=(1|Acetyl)

¿Ctrl-A como separador para entradas multi-cabecera? (Caso de uso NCBInr) (Caso de uso NCBInr)

Término de campo cabecera Definición Formato

ALT_AC AC alternativa

ID SwissProt_ID

DE Descripción de la proteína

ALT_DE Descripción alternativa

NCBITAXID Identificador de taxonomía NCBI (9606) Entero

TAX_LATIN Taxonomía con nombre en latín (Homo sapiens)

TAX_COM Taxonomía en formato de nombre común (human)

MODRES Residuo modificado (PTM) (posición|modificación) (PSI_MOD)

VARIANT Mutación de residuo (posición|residuo original|residuo final)

Ejemplo de entrada de proteína:

>sp_ac|P02769_WOSIG0 \ID=ALBU_BOVIN \DE="Serum albumin precursor (Allergen Bos d 6) (BSA)"\NCBITAXID=9913 \MODRES=(1|Acetyl) \VARIANT=(196|A|T) \LENGTH=589 RGVFRRDTHKSEIAHRFKDLGEEHFKGLVLIAFSQYLQQCPFDEHVKLVNELTEFAKTCV ADESHAGCEKSLHTLFGDELCKVASLRETYGDMADCCEKQEPERNECFLSHKDDSPDLPK LKPDPNTLCDEFKADEKKFWGKYLYEIARRHPYFYAPELLYYANKYNGVFQECCQAEDKG ACLLPKIETMREKVLASSARQRLRCASIQKFGERALKAWSVARLSQKFPKAEFVEVTKLV TDLTKVHKECCHGDLLECADDRADLAKYICDNQDTISSKLKECCDKPLLEKSHCIAEVEK DAIPENLPPLTADFAEDKDVCKNYQEAKDAFLGSFLYEYSRRHPEYAVSVLLRLAKEYEA TLEECCAKDDPHACYSTVFDKLKHLVDEPQNLIKQNCDQFEKLGEYGFQNALIVRYTRKV PQVSTPTLVEVSRSLGKVGTRCCTKPESERMPCTEDYLSLILNRLCVLHEKTPVSEKVTK CCTESLVNRRPCFSALTPDETYVPKAFDEKLFTFHADICTLPDTEKQIKKQTALVELLKH KPKATEEQLKTVMENFVAFVDKCCAADDKEACFAVEGPKLVVSTQTALA

Referencias

Mount, David W. Bioinformatics: Sequence and Genome Analysis, 2ª ed. Spring Harbor Press, 2004. ISBN 0-87969-712-1. Págs. 45 y siguientes.

Descripción del formato FASTA del NCBI.

Véase también

FASTA

Formato Stockholm

Enlaces externos

Convertidor Multi-FASTA a FASTA(Freeware)

Convertidor FASTA a multi-FASTA(Freeware)

HUPO-PSI, formato estándar FASTA, describe otro formato FASTA según propuso el Human Proteome Organisation's Proteomics Standards Initiative.

Readseq, para convertir formatos de secuencia a to FASTA. No se actualiza desde 1999. Necesita Java.

Readseq en línea en IUBio -- Readseq en línea en BCM

Convertidor Nexus a Fasta. Necesita Java

Convertidor GenBank a Fasta. Pobremente documentado.

Conversor de secuencia Conversor de secuencia entre 16 formatos diferentes.

Obtenido de "Formato FASTA"

Categoría: Bioinformática

Código de ácido nucléico	Significado
A	Adenosina
C	Citosina
G	Guanina
T	Timidina
U	Uracilo
R	G A (puRina)
Y	T C (pirimidina/pYrimidine)
K	G T (cetona/Ketone)
M	A C (grupo aMino)
S	G C (interacción fuerte/Strong interaction)
W	A T (interacción débil/Weak interaction)
B	G T C (no A) (B viene tras la A)
D	G A T (no C) (D viene tras la C)
H	A C T (no G) (H viene tras la G)
V	G C A (no T, no U) (V viene tras la U)
N	A G C T (cualquiera/aNy)
X	máscara
-	hueco (gap) de longitud indeterminada

Código de aminoácido	Significado
A	Alanina
B	Ácido aspártico o Asparagina
C	Cisteína
D	Ácido aspártico
E	Ácido glutámico
F	Fenilalanina
G	Glicina
H	Histidina
I	Isoleucina
K	Lisina
L	Leucina
M	Metionina
N	Asparagina
O	Pirrolisina
P	Prolina
Q	Glutamina
R	Arginina
S	Serina
T	Treonina
U	Selenocisteína
V	Valina
W	Triptófano
Y	Tirosina
Z	Ácido glutámico o Glutamina
X	cualquiera
*	parada de traducción
-	hueco (gap) de longitud indeterminada

Términos para la cabecera	Descripción	Valor
#\DbComponent=	Incremento en la cuenta	Entero
#\Name=	Nombre de la base de datos	CV según proveedor de la base de datos (UniprotKnowledgeBase)
#\PrimaryIdentifierType=	Identificador para ser usado como prefijo para entradas de proteínas individuales	CV
#\Decoy=	¿Es una base de datos señuelo?	?: true/false or description
#\Version=	Versión de la base de datos, de acuerdo a su proveedor	De acuerdo al proveedor de la base de datosAccording to the database provider
#\ReleaseDate=	Fecha de la base de datos fuente
#\NumberOfEntries=	Número de entradas	Entero
#\Sequence_type=	Tipo de secuencia	DNA (ADN), AA, RNA (ARN), EST, etc.

Descripción de la línea de cabecera de la entrada individual	Ejemplo
La cabecera empieza con >, seguido por la AC primaria, precedida con el prefijo de la base de datos (útil si hay concatenadas más de una base de datos). Campo obligatorio.	>sp_ac\|P000761
Descripción de toda la información aparte de la secuencia \term=valor (los términosterms son descriptores de vocabulario controlado)	\ID=ALBU_HUMAN
El orden de los campos adicionales no es importante
Valor puede ser una lista. Los elementos de la lista son representado como (valor_1)(valor_2)	\ALTERNATE_AC=(P00786)(Q22222)
Valor puede estar entre " ", si es necesario	\DE="Human serum albumin"
' puede usarse como separador para todos los campos individuales	\MODRES=(1\|Acetyl)
¿Ctrl-A como separador para entradas multi-cabecera? (Caso de uso NCBInr)	(Caso de uso NCBInr)

Término de campo cabecera	Definición	Formato
ALT_AC	AC alternativa
ID	SwissProt_ID
DE	Descripción de la proteína
ALT_DE	Descripción alternativa
NCBITAXID	Identificador de taxonomía NCBI (9606)	Entero
TAX_LATIN	Taxonomía con nombre en latín (Homo sapiens)
TAX_COM	Taxonomía en formato de nombre común (human)
MODRES	Residuo modificado (PTM)	(posición\|modificación) (PSI_MOD)
VARIANT	Mutación de residuo	(posición\|residuo original\|residuo final)

Игры ⚽ Нужен реферат?

Mira otros diccionarios:

FASTA — Saltar a navegación, búsqueda FASTA es un programa para alineamiento de secuencias de ADN y de proteínas. Fue descripto por primera vez (como FASTP) por David J. Lipman y William R. Pearson en 1985 en el artículo Rapid and sensitive protein… … Wikipedia Español
Alineamiento de secuencias — Un alineamiento de secuencias en bioinformática es una forma de representar y comparar dos o más secuencias o cadenas de ADN, ARN, o estructuras primarias proteicas para resaltar sus zonas de similitud, que podrían indicar relaciones funcionales… … Wikipedia Español
T-Coffee — (del inglés Tree based Consistency Objective Function For alignment Evaluation, función objetivo de coherencia basada en árbol para evaluación de alineamientos) es un software para el alineamiento múltiple de secuencias que utiliza un enfoque… … Wikipedia Español
Formatdb — Saltar a navegación, búsqueda Formatdb es una herramienta software de bioinformática molecular para formatear bases de datos de proteínas o nucleótidos para que puedan ser utilizadas por BLAST. Según su página man (manual de algunos comandos o… … Wikipedia Español
Bioinformática — Saltar a navegación, búsqueda La bioinformática, según una de sus definiciones más sencillas, es la aplicación de tecnología de computadores a la gestión y análisis de datos biológicos.[1] Los términos bioinformática, biología computacional y, en … Wikipedia Español
Gestión de derechos digitales — El estilo de esta traducción aún no ha sido revisado por terceros. Si eres hispanohablante nativo y no has participado en esta traducción puedes colaborar revisando y adaptando el estilo de ésta u otras traducciones ya acabadas. Gestión de… … Wikipedia Español
Clustal — Desarrollador Gibson T. (EMBL), Thompson J. (CNRS), Higgins D. (University College Dublin) Clustal Información general Última versión estable 2.1 1 … Wikipedia Español
Historia de Alcaudete — Este artículo o sección sobre historia necesita ser wikificado con un formato acorde a las convenciones de estilo. Por favor, edítalo para que las cumpla. Mientras tanto, no elimines este aviso puesto el 4 de noviembre de 2008. También puedes… … Wikipedia Español

Los diccionarios y las enciclopedias sobre el Académico

Formato FASTA

Formato FASTA

Contenido

Formato

Convertidores de formato

Línea de cabecera

Representación de la secuencia

Identificadores de secuencia

Extensiones de archivo

Formato HUPO-PSI

Bloque de cabecera

Línea de cabecera de secuencia

Referencias

Véase también

Enlaces externos

Mira otros diccionarios:

Compartir el artículo y extractos

Los diccionarios y las enciclopedias sobre el Académico

Wikipedia Español

Formato FASTA

Formato FASTA

Contenido

Formato

Convertidores de formato

Línea de cabecera

Representación de la secuencia

Identificadores de secuencia

Extensiones de archivo

Formato HUPO-PSI

Bloque de cabecera

Línea de cabecera de secuencia

Referencias

Véase también

Enlaces externos

Mira otros diccionarios:

Compartir el artículo y extractos

Link directo