++
El gran conjunto de bases de datos que se han creado para el montaje, la anotación, el análisis y la distribución de datos biológicos y biomédicos refleja el alcance y la variedad de la investigación molecular, bioquímica, epidemiológica y clínica contemporánea. Más adelante se consideran UniProt, GenBank y la Protein Database (PDB), las cuales representan tres de las bases de datos bioinformáticas más antiguas y ampliamente utilizadas. Cada una complementa a la otra, al centrarse en un aspecto diferente de la estructura macromolecular.
++
La UniProt Knowleldgebase, UniProtKB, es patrocinada conjuntamente por el Swiss Institute of Bioinformatics y el European Bioinformatics Institute. El objetivo declarado de la UniProtKB es “proporcionar a la comunidad científica un recurso integral, de alta calidad y accesible gratuitamente de información sobre secuencia y estructural de proteínas”; está organizada en dos secciones. Swiss-Prot contiene entradas cuyas funciones asignadas, estructura de dominio, modificaciones postraduccionales, etc., se han verificado manualmente, en su mayor parte por medio de búsquedas de datos empíricos a partir de la literatura científica, y examen de comparaciones de secuencias múltiples por expertos. Por otro lado, TrEMBL contiene secuencias de proteínas empíricamente determinadas y derivadas de genoma, cuyas funciones potenciales se han asignado, o anotado, automáticamente —sólo con base en algoritmos de computadora—. Así, mientras que la TrEMBL en la actualidad incluye más de 80 millones de entradas, Swiss-Prot contiene poco más de 500 000.
++
La meta del GenBank, la base de datos de secuencia genética, de los National Institutes of Health (NIH), es recolectar y almacenar todas las secuencias de nucleótidos conocidas y sus traducciones en una forma fácil de buscar. GenBank, establecido en 1979 por Walter Goad de Los Alamos National Laboratory, en la actualidad es mantenido por el National Center for Biotechnology Information en los NIH. GenBank constituye una de las piedras angulares de la International Sequence Database Collaboration, consorcio que incluye la DNA Database of Japan y el European Molecular Biology Laboratory.
++
La Protein Database RCSB es un depositario de las estructuras tridimensionales de proteínas, los polinucleótidos y otras macromoléculas biológicas. La PDB contiene más de 95 000 estructuras tridimensionales para proteínas, así como proteínas unidas con sustratos, análogos de sustrato, inhibidores u otras proteínas. El usuario puede rotar estas estructuras libremente en el espacio tridimensional, poner de relieve aminoácidos específicos, y seleccionar a partir de diversos formatos, como llenado de espacio, listones, esqueleto, etc. (capítulos 5, 6 y el texto que sigue).
++
Aun cuando la secuencia del genoma de cualesquiera dos sujetos es 99.9% idéntica, el DNA humano contiene alrededor de 10 millones de sitios en los cuales los individuos difieren por una base de nucleótido único; estos sitios se llaman polimorfismos de un solo nucleótido (SNP). Cuando los grupos SNP localizados en el mismo cromosoma se heredan juntos en bloques, el modelo de SNP en cada bloque se llama haplotipo. Al comparar las distribuciones de haplotipos en grupos de individuos que difieren en alguna característica fisiológica, como la susceptibilidad a una enfermedad, los científicos biomédicos pueden identificar SNP que muestran vínculo con rasgos fenotipos específicos. Este proceso se puede facilitar al enfocarse en SNP marca, subgrupo de SNP en un bloque dado suficiente para proporcionar un marcador singular para un haplotipo determinado. Las regiones seleccionadas a continuación quedan sujetas a estudio más detallado para identificar las variaciones genéticas específicas que contribuyen a una enfermedad o respuesta fisiológica específica.
++
En 2002, científicos de EU, Canadá, China, Japón, Nigeria y el Reino Unido lanzaron el mapa de haplotipo International Haplotype Map (HapMap) Project, esfuerzo integral por identificar SNP relacionados con enfermedades frecuentes de humanos y respuestas diferenciales a compuestos farmacéuticos. El objetivo a largo plazo del proyecto es proporcionar un diagnóstico más temprano y más exacto de factores de riesgo genéticos potenciales que lleva a prevención mejorada y manejo más eficaz de pacientes. El conocimiento del perfil genético de un sujeto también se empleará para guiar la selección de medicamentos o vacunas seguros y más eficaces, proceso llamado farmacogenómica. Estos marcadores genéticos también proporcionarán marcas con las cuales identificar y rastrear genes específicos a medida que los científicos tratan de aprender más acerca de los procesos cruciales de la herencia y la selección genéticas.
++
La identificación de todos los elementos funcionales del genoma extenderá mucho la comprensión de los eventos moleculares que fundamentan el desarrollo, la salud y la enfermedad de humanos. Para abordar este objetivo, el National Human Genome Research Institute (NHGRI) inició el ENCODE (Encyclopedia Of DNA Elements) Project. Con sede en la University of California en Santa Cruz, ENCODE es un esfuerzo colaborativo que combina métodos de laboratorio y computacionales para identificar cada elemento funcional en el genoma humano. Investigadores del consorcio con diversos trasfondos y experiencia colaboran en la creación y evaluación de nuevas técnicas, tecnologías y estrategias de alta capacidad de procesamiento para abordar las deficiencias actuales en la capacidad para identificar elementos funcionales.
++
Hacia 2013, ENCODE había analizado 147 tipos de células humanas con el uso de diversos métodos para identificar, o glosar, la función. Éstos incluyen mapeo de sitios de metilación de DNA como un indicador putativo de control regulador, evaluación de metilación de histona local y sensibilidad a hidrólisis por desoxirribonucleasas como indicadores de actividad transcripcional (capítulo 35), y sondeo para sitios de unión a factor de transcripción usando un sistema reportero luciferasa. Con base en estos indicadores circunstanciales, se ha estimado que alrededor de 80% del genoma humano, incluso la mayor parte del DNA “basura” no codificador, es funcionalmente activo en uno o más tipos de células.
++
Entrez Gene es una base de datos mantenida por el National Center for Biotechnology Information (NCBI), proporciona información variada acerca de genes humanos individuales. La información comprende la secuencia del genoma en el gen y alrededor del mismo, la estructura del gen (fronteras de exónintrón), la secuencia de los mRNA producidos a partir del gen, y cualesquiera fenotipos relacionados con una mutación dada del gen en cuestión. Entrez Gene también lista (cuando se conoce) la función de la proteína codificada, y las repercusiones de polimorfismos de un solo nucleótido conocidos en la región codificadora.
++
db-GAP, la Database of Genotype and Phenotype, es una base de datos del NCBI que complementa a Entrez Gene. dbGAP compila los resultados de investigación sobre los enlaces entre genotipos y fenotipos específicos. Para proteger datos clínicos confidenciales, la información contenida en dbGAP está organizada en secciones de acceso abierto y de acceso controlado. El acceso a datos confidenciales exige que el usuario solicite autorización a un comité de acceso a datos.
+++
Bases de datos adicionales
++
Otras bases de datos que tratan de genética y salud humanas son OMIM, Online Mendelian Inheritance in Man, la HGMD, Human Gene Mutation Database, el Cancer Genome Atlas y GeneCards, que trata de reunir cualquier información importante acerca de un gen dado a partir de bases de datos de todo el mundo, para crear una “ficha” única y completa para cada gen.