Los investigadores han publicado una nueva colección de alta calidad de secuencias de referencia del genoma humano que recoge una diversidad sustancialmente mayor de diferentes poblaciones humanas que la disponible hasta ahora, según publican en la revista 'Nature'.
El trabajo ha sido dirigido por el Consorcio Internacional del Pangenoma Humano de Referencia, un grupo financiado por el Instituto Nacional de Investigación del Genoma Humano (NHGRI), que forma parte de los Institutos Nacionales de Salud de Estados Unidos.
El nuevo "pangenoma" de referencia incluye secuencias genómicas de 47 personas, y los investigadores persiguen el objetivo de aumentar ese número a 350 para mediados de 2024. Dado que cada persona lleva un juego de cromosomas emparejados, la referencia actual incluye 94 secuencias genómicas distintas, con el objetivo de alcanzar las 700 secuencias genómicas distintas al término del proyecto.
Un genoma es el conjunto de instrucciones de ADN que ayuda a cada ser vivo a desarrollarse y funcionar. Las secuencias genómicas difieren ligeramente de un individuo a otro. En el caso de los humanos, los genomas de dos personas cualesquiera son, por término medio, idénticos en más de un 99%. Las pequeñas diferencias contribuyen a la singularidad de cada persona y pueden aportar información sobre su salud, ayudando a diagnosticar enfermedades, predecir resultados y orientar los tratamientos médicos.
Para comprender estas diferencias genómicas, los científicos crean secuencias genómicas humanas de referencia para utilizarlas como "estándar", es decir, una amalgama digital de secuencias genómicas humanas que puede servir de comparación para alinear, ensamblar y estudiar otras secuencias genómicas humanas.
Cada persona tiene un genoma único
La secuencia original de referencia del genoma humano tiene casi 20 años y se ha actualizado periódicamente a medida que la tecnología avanza y los investigadores corrigen errores y descubren más regiones del genoma humano. Sin embargo, su representación de la diversidad de la especie humana es fundamentalmente limitada, ya que consta de genomas de sólo unas 20 personas, y la mayor parte de la secuencia de referencia procede de una sola persona.
"Cada persona tiene un genoma único, por lo que el uso de una única secuencia genómica de referencia para cada persona puede dar lugar a desigualdades en los análisis genómicos --afirma el doctor Adam Phillippy, investigador principal de la rama de Genómica Computacional y Estadística del Programa de Investigación Intramuros del NHGRI y coautor del estudio principal--. Por ejemplo, predecir una enfermedad genética podría no funcionar tan bien para alguien cuyo genoma es más diferente del genoma de referencia".
La actual secuencia de referencia del genoma humano tiene lagunas que reflejan la falta de información, especialmente en áreas que eran repetitivas y difíciles de leer. Los avances tecnológicos recientes, como la secuenciación de ADN de lectura larga, que lee tramos más largos del ADN a la vez, ayudaron a los investigadores a rellenar esas lagunas para crear la primera secuencia completa del genoma humano.
Esta secuencia completa del genoma humano, publicada el año pasado como parte del consorcio Telómero a Telómero (T2T), financiado por los NIH, se incorpora a la referencia actual del pangenoma. De hecho, muchos de los investigadores del T2T son también miembros del Consorcio de Referencia del Pangenoma Humano.
Utilizando técnicas computacionales avanzadas para alinear las distintas secuencias genómicas, los investigadores construyeron un nuevo pangenoma humano de referencia en el que cada ensamblaje del pangenoma cubre más del 99% de la secuencia prevista con una precisión superior al 99%.
100 millones de nuevas bases
También se basa en la secuencia genómica de referencia anterior, añadiendo más de 100 millones de nuevas bases, o "letras" en el ADN. Mientras que la anterior secuencia del genoma de referencia era única y lineal, el nuevo pangenoma representa muchas versiones diferentes de la secuencia del genoma humano al mismo tiempo. Esto ofrece a los investigadores una gama más amplia de opciones para utilizar el pangenoma en el análisis de otras secuencias del genoma humano.
"Utilizando el pangenoma de referencia, podemos identificar con mayor precisión las variantes genómicas de mayor tamaño, denominadas variantes estructurales --explica Mobin Asri, estudiante de doctorado de la Universidad de California en Santa Cruz y coautor del artículo--. Somos capaces de encontrar variantes que no se identificaron utilizando métodos anteriores que dependen de secuencias de referencia lineales".
Las variantes estructurales pueden implicar miles de bases. Hasta ahora, los investigadores no habían sido capaces de identificar la mayoría de las variantes estructurales que existen en cada genoma humano utilizando la secuenciación de lectura corta debido a la complejidad de las secuencias de referencia.
Las variantes estructurales pueden implicar miles de bases. Hasta ahora, los investigadores no han podido identificar la mayoría de las variantes estructurales que existen en cada genoma humano mediante secuenciación de lectura corta debido al sesgo que supone utilizar una única secuencia de referencia.
Nuevas variantes genómicas
"La referencia del pangenoma humano nos permitirá representar decenas de miles de nuevas variantes genómicas en regiones del genoma que antes eran inaccesibles --afirma Wen-Wei Liao, estudiante de doctorado en la Universidad de Yale y coautor del artículo--. Con un pangenoma de referencia, podemos acelerar la investigación clínica mejorando nuestra comprensión del vínculo entre genes y rasgos de enfermedad".
Se calcula que el coste total de apoyar el trabajo del Consorcio de Referencia del Pangenoma Humano será de unos 40 millones de dólares (unos 36 millones de euros) en cinco años, lo que incluye los esfuerzos para crear la referencia del pangenoma humano, mejorar la tecnología de secuenciación del ADN, gestionar un centro de coordinación, realizar actividades de divulgación y crear recursos para que la comunidad investigadora utilice la referencia del pangenoma.
Muchos de los individuos cuyos genomas se secuenciaron para construir la nueva referencia del pangenoma humano fueron reclutados originalmente como parte del Proyecto 1.000 Genomas, un esfuerzo colaborativo e internacional financiado en parte por los NIH cuyo objetivo era mejorar el catálogo de variantes genómicas en diversas poblaciones.
Dado que la referencia del pangenoma humano es un trabajo en curso, los investigadores del Consorcio Internacional de Referencia del Pangenoma Humano siguen añadiendo más secuencias genómicas para mejorar cada vez más la calidad de la referencia del pangenoma.
"Los investigadores básicos y los médicos que utilizan la genómica necesitan tener acceso a una secuencia de referencia que refleje la notable diversidad de la población humana. Esto ayudará a que la referencia sea útil para todas las personas, contribuyendo así a reducir las posibilidades de propagación de las disparidades sanitarias", explica el doctor Eric Green, director del NHGRI.
"Crear y mejorar una referencia del pangenoma humano se alinea con el objetivo del NHGRI de luchar por la diversidad global en todos los aspectos de la investigación genómica, que es crucial para avanzar en el conocimiento genómico e implementar la medicina genómica de una manera equitativa", prosigue.