Base de datos química

Base de datos química

Base de datos química

Una base de datos química es una base de datos específicamente diseñada para almacenar información química. Esta información puede incluir fórmulas, estructuras químicas y cristalinas, espectros, reacciones químicas, síntesis químicas, y datos termodinámicos.

Contenido

Tipos de bases de datos químicas

Estructuras químicas

Las estructuras químicas se representan tradicionalmente usando líneas que indican los enlaces químicos entre los átomos y dibujadas sobre papel (fórmula estructural 2D. Mientras que éstas son representaciones visuales ideales para el químico, no son válidas para uso computacional ni especialmente para algoritmo de búsqueda y almacenamiento informático. Las moléculas pequeñas (también llamadas ligandos en aplicaciones de diseño de fármacos), se representan usualmente usando listas de átomos y sus conexiones. Las moléculas grandes como proteínas se representan de un modo más compacto usando secuencias de aminoácidos, sus bloques de construcción. Las grandes bases de datos químicas para estructuras son capaces de gestionar el almacenamiento y búsqueda de información sobre millones de moléculas, ocupando terabytes de memoria física de ordenador.

Bases de datos de literatura científica

Las bases de datos de literatura científica relacionan las estructuras y otra información química con referencias importantes como artículos pedagógicos o patentes. Entre estas bases de datos se incluyen Chemical Abstracts Service STN y SciFinder o EBSCOhost. Los enlaces a cada publicación científica se incluyen en muchas bases de datos que se centran en las características químicas de cada sustancia.

Bases de datos cristalográficos

Las bases de datos cristalográficos almacenan datos de difracción de estructuras cristalinas con rayos-X. Algunos ejemplos de estas bases son Protein Data Bank and Cambridge Structural Database.

Bases de datos de espectros de RMN

Las bases de datos de espectros de RMN relacionan estructuras químicas con datos de RMN. Estas bases de datos incluyen a veces otras características como datos de espectroscopía infrarroja de transformada de Fourier y de espectros de masas.

Base de datos de reacciones

La mayoría de las bases de datos químicas almacenan información sobre moléculas estables pero en las bases de datos de reacciones también se recogen compuestos intermedios y moléculas inestables de corta vida. estas bases contienen información sobre productos, eductos y mecanismos de reacción.

Bases de datos termofísicos y termodinámicos

Los datos termofísicos más importantes se refieren a

Bases de datos de representación de estructuras químicas

Hay dos tecnicas principales para representar estructuras químicas en bases de datos digitales:

  • Como tablas de conexión / matrices de adyacencia / listas con información adicional sobre enlaces (ejes) y los átomos entre ellos (nodos). Por ejemplo:
    MDL Molfile, Protein Data Bank, Chemical Markup Language
  • Como una notación de cuerdas lineales basada en distintos algoritmos de búsqueda. Por ejemplo:
    SMILES/SMARTS, SLN, Wiswesser Line Notation, International Chemical Identifier (InChI)

Estos enfoques se han mejorado para permitir la representación de diferencias estereoquímicas y especies químicas con carga eléctrica así como tipos especiales de enlace comolos que aparecen en compuestos organometálicos. La principal vantaja de una representación informática es la posibilidad del almacenamiento elevado y las búsquedas flexibles y rápidas.

Búsqueda

Por subestructuras

Los químicos pueden buscar en bases de datos usando partes de estructuras, partes de sus nombres según la IUPAC y también basándoseen limitaciones de sus propiedades. Las bases de datos químicas son particularmente diferentes de las bases de datos de propósito general en su soporte a la búsqueda por subestructuras. Esta clase de búsqueda se consigue buscando isomorfismo de subestructuras (a veces también llamado monomorfismo) que es una aplicación muy estudiada de la teoría de grafos. Los algoritmos de búsqueda requieren mucha potencia de computación[1] ). Se consigue mejor eficacia en la búsqueda con el mecanismo de amortización de tiempo, es decir, algunas tareas de búsqueda son guardadas para así usar información preprocesada por el ordenador. Buscando los fragmentos presentes en una búsqueda de estructura es posible eliminar las comparaciones con moléculas que no poseen los fragmentos presentes en la estructura de búsqueda. Esta eliminacion se llama screening o rastreo (no confundir con los procedimientos de screening usados en el descubrimiento de fármacos).[2]

Por conformación

Las búsquedas por emparejamiento con la conformación 3D de moléculas o especificando limitaciones espaciales es otra característica especialmente útil en el diseño de fármacos. Estas búsquedas consumen mucho tiempo de cálculo.[3] [4] [5] [6] [7]

Por descriptores

Todas las propiedades de las moléculas aparte de su estructura pueden clasificarse en atributos físico-químicos o farmacológicos también llamados descriptores. Por encima de eso, hay varios sistemas de nombres artificiales y más o menos estandarizados para moléculas que facilitan nombres más o menos ambiguos y sinónimos. El nombre IUPAC es habitualmente una buena elección para representar una estructura de molécula que sea inteligible a la vez para el humano y el ordenador aunque se hace pesado y difícil de manejar para moléculas grandes. Los nombres tradicionales por otra parte poseen abundantes homónimos y sinónimos y son por tanto una mala elección como clave primaria de indexación. Mientras que los descriptores físico-químicos como la masa molecular, la (carga parcial), solubilidad, etc. pueden ser directamente computados en la mayoría de los casos, los descriptores farmacológicos pueden derivarse solo indirectamente usando estadística multivariante o resultados experimentales (screening, bioensayos). Todos esos descriptores suelen almacenarse junto a la representación de la molécula por cuestiones de esfuerzo computacional.

Por semejanza química

No hya una definición simple de la semejanza molecular, sin embargo el concepto puede definirse según la aplicación y a menudo se describe como el inverso de una distancia en el espacio descriptor. Dos moléculas podrían considerarse más semejantes por ejemplo si su difereciaen masa molecular es menor que cuando se la compara con otras. Varias medidas pueden combinarse para producir una medida de la distancia multivariable. Lasmedidas de distancia se clasifican a menudo en medidas euclídeas y no euclídeas. La búsqueda de subestructuras basada en el máximo común subgrafo[8] (semejanza o medida de distancia) es también muy común. Este método también se emplea para discriminar fármacos, marcando moléculas, que comparten un subgrafo o subestructura común.[9]

Los compuestos químicos en estas bases de datos pueden ser agrupados en grupos de moleculas semejantes que comparten algunas similaridades. Existen dos enfoques de agrupamiento jerárquico y no-jerárquico que pueden aplicarse a entidades químicas con atributos múltiplos. Estos attributos o propiedades moleculares pueden determinarse empíricamente o derivarse computacionalmente. Uno de los enfoques de agrupamiento más populares es el algoritmo de Jarvis-Patrick.[10]

Sistemas de registro

Son sistemas de bases de datos que mantienen registros únicos de cada compuesto químico. Son frecuentemente usados para indexación de compuestos, sistemas de patentes y bases de datos industriales.

Los sistemas de registro fuerzan la unicidad de cada compuesto representado en la base de datos mediante el uso de representaciones únicas. Aplicando reglas de precedencia para la generación de notaciones lineales, se pueden obtener representaciones lineales únicas/'canónicas' tales como las de SMILES'. Algunos sistemas de registro como el CAS (Chemical Abstract Service) pueden usar algoritmos para generar un código hash único y consiguen el mismo objetivo.

Una diferencia clave entre un sistema de registro y una base de datos química simple es la cualidad de representar con precisión lo que es conocido, desconocido o parcialmente conocido. Por ejemplo, una base de datos química podría almacenar una molécula con una estereoquímica no especificada, mientras que un sistema de registro químico requiere que elregistrador especifique si la configuración spacial es desconocida, una mezcla específica (conocida), o un racémico. Cada una de esas posibilidades sería considerada un registro diferente en la base de datos.

Los sistemas de registro también preprocesan las moléculas para evitar considerar diferencias triviales tales como las diferencias en los iones halógenos en los compuestos.

Un ejemplo es el sistema de registro Chemical Abstracts Service[1]. See also número de registro CAS.

Herramientas

Las representaciones computacionales habitualmente se hacen transparentes para los químicos mediante el uso de diagramas gráficos de los datos. La entrada de datos también se simplifica mediante el uso de editores de estructura química. Estos editores convierten internamente los datos gráficos en representaciones computacionales.

También hay numerosos algoritmos para la interconversión delos variados formatos de representación. Una utilidad de conversión, de acceso libre, es OpenBabel. Estos algoritmos de búsqueda y conversión se implementan bien dentro del propio sistema de la base de datos o, como viene siendo ahora habitual, como componentes externos que se mantienen en sistemas de bases de datos relacionales. Tanto los sistemas basados en Oracle como en PostgreSQL hacen uso de la tecnología de cartucho que permiten tipos de datos definidos por el usuario. Estos permiten al usuario hacer peticiones en SQL con las condiciones de búsqueda química (Por ejemplo una petición para buscar registros que tengan un anillo fenilo en su estructura se representa como un diagrama lineal SMILES que podría ser

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Los algoritmos para la conversión de nombres IUPAC a representaciones de la estructura y viceversa se usan también para extraer información estructural del texto (minería de textos). Sin embargo hay dificultades debido a la existencia de múltiples dialectos de la IUPAC. Se estátrabajando para establecer un único estándar de la IUPAC (Ver International Chemical Identifier o InChI).


Véase también


Referencias

  1. S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton (2009) Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics, 1:12. DOI:10.1186/1758-2946-1-12
  2. Cummings, Maxwell D.; Maxwell, Alan C.; DesJarlais, Renee L. (2007) Processing of Small Molecule Databases for Automated Docking. Medicinal Chemistry 3(1):107-113
  3. Pearlman, R.S. and Smith, K.M., Metric Validation and the Receptor-Relevant Subspace Concept, J. Chem. Inf. Comput. Sci., 1999, 39:28-35
  4. LIN Jr-Hung ; CLARK Timothy (2005) An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. JCIM Vol. 45, no4, pp. 1010-1016
  5. Meek P. J., Liu, Z., Tian, L., Wang C. J, Welsh W. J, Zauhar, R. J (2006) Shape Signatures: speeding up computer aided drug discovery. DDT 2006 Vol (19-20):895-904
  6. Grant, J. A, Gallardo, M. A., Pickup B. T. (1996) A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. JCIC Vol 17, No. 14, pp 1653-1666
  7. Ballester, P. J. & W. G. Richards (2007) Ultrafast shape recognition for similarity search in molecular databases. Proc R Soc A, 463:1307-1321
  8. S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. DOI:10.1186/1758-2946-1-12
  9. «SMSD::Home Page».
  10. Butina, Darko (1999) Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. Chem. Inf. Comput. Sci. 39:747-750

Enlaces externos

Bases de datos y software de registro

Bases de datos de estructuras químicas

Bases de datos de nombres químicos

Obtenido de "Base de datos qu%C3%ADmica"

Wikimedia foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Mira otros diccionarios:

  • Base de datos — Saltar a navegación, búsqueda OpenOffice.org Base: sistema de gestión de bases de datos. Una base de datos o banco de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso. En este… …   Wikipedia Español

  • Química computacional — Saltar a navegación, búsqueda La química computacional es una rama de la química que utiliza computadores para ayudar a resolver problemas químicos. Utiliza los resultados de la química teórica, incorporados en algún software para calcular las… …   Wikipedia Español

  • Química teórica — Saltar a navegación, búsqueda La Química teórica incluye el uso de la física para explicar o predecir fenómenos químicos. En los últimos años, ha sido conformada principalmente de la química cuántica, por ejemplo, en la aplicación de mecánica… …   Wikipedia Español

  • base — sustantivo femenino 1. Aquello sobre lo que se apoya alguna cosa: la base de una columna. 2. (no contable) Aquello que sirve de fundamento o resulta necesario para otra cosa posterior: Se le da muy bien el inglés porque tiene una buena base. Se… …   Diccionario Salamanca de la Lengua Española

  • Base — (Del lat. basis < gr. basis.) ► sustantivo femenino 1 Parte de un objeto, o pieza independiente, que le sirve de apoyo o sobre la que se sostiene: ■ esa copa tiene muy poca base. SINÓNIMO fundamento asiento 2 Elemento más importante, que sirve …   Enciclopedia Universal

  • base — {{#}}{{LM B04865}}{{〓}} {{SynB04977}} {{[}}base{{]}} ‹ba·se› {{《}}▍ s.com.{{》}} {{<}}1{{>}} {{♂}}En baloncesto,{{♀}} jugador cuya función primordial es la de organizar el juego de su equipo: • Los bases suelen ser los jugadores más bajos del… …   Diccionario de uso del español actual con sinónimos y antónimos

  • Unión Internacional de Química Pura y Aplicada — La Unión Internacional de Química Pura y Aplicada (International Union of Pure and Applied Chemistry), IUPAC, tiene como miembros a las sociedades nacionales de química. Es la autoridad reconocida en el desarrollo de estándares para la… …   Wikipedia Español

  • Bases de datos académicas y motores de búsqueda — Anexo:Bases de datos académicas y motores de búsqueda Saltar a navegación, búsqueda Esta página contiene una lista representativa de las mayores bases de datos y motores de búsqueda útiles en un entorno académico para encontrar y acceder a… …   Wikipedia Español

  • Anexo:Bases de datos académicas y motores de búsqueda — Esta página contiene una lista representativa de las mayores bases de datos y motores de búsqueda útiles en un entorno académico para encontrar y acceder a artículos en revistas científicas, o en repositorios, archivos, y otras colecciones de… …   Wikipedia Español

  • Sistema de Datos Astrofísicos — Este artículo o sección necesita una revisión de ortografía y gramática. Puedes colaborar editándolo (lee aquí sugerencias para mejorar tu ortografía). Cuando se haya corregido, borra este aviso por favor …   Wikipedia Español

Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”