Información

SNP en el genoma humano

SNP en el genoma humano



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Leí en línea que han encontrado alrededor de 10 millones de polimorfismos de un solo nucleótido (SNP) en individuos en el genoma humano [1]. Sin embargo, este número incluye todos los SNP que se encuentran en todas las personas que han sido muestreadas y no nos dice mucho sobre los SNP en una sola persona.

En cambio, me preguntaba cuántos SNP hay en una sola persona en promedio. Tuve problemas para encontrar evidencia confiable sobre esta pregunta.


Me preguntaba cuántos SNP hay en una sola persona en promedio

Un SNP es un polimorfismo en la población, no es algo que pueda llevar un haplotipo. Cada individuo tiene una variante dada para cualquiera de los SNP (excepto en los casos de deleción de secuencia).

Sin embargo, es posible decir cuántos SNP un individuo diploide entre sus dos haplotipos, pero dudo que esto sea lo que le interesa. La fórmula de mezcla de Ewens da expectativa y distribución bajo un modelo de alelos infinitos, población panmíctica y ausencia de selección.

Otras estadísticas que tienen sentido incluyen el número promedio de mutaciones deletéreas preindividuales o algunas otras cosas o cuántas mutaciones nuevas transmite una pareja a su descendencia… Pero preguntar cuántos SNP lleva un individuo en promedio tiene poco sentido.

Tenga en cuenta que, como dijo @Chris, al indicar 10k SNP en el genoma humano, parece subestimar el número de SNP.

EDITAR

En los comentarios, además

¿Tendría más sentido considerar un mínimo y un máximo aproximados?

La respuesta es no, no tendría más sentido. Considere la definición de SNP de wikipedia

Un polimorfismo de un solo nucleótido, a menudo abreviado como SNP (pronunciado snip; plural snips), es una variación en un solo nucleótido que ocurre en una posición específica en el genoma, donde cada variación está presente en algún grado apreciable dentro de un población [Mi énfasis]

El término población es clave aquí. El concepto de SNP (o de polimorfismo para ser más general) solo tiene sentido si puede hacer comparaciones. Un solo individuo no tiene ningún polimorfismo (a excepción del que se encuentra entre sus dos juegos de cromosomas).

Si damos un paso atrás y pensamos en diferentes especies, podría volverse más intuitivo. Piense en el número de diferencias por pares entre dos especies. No tiene ningún sentido preguntar "¿cuántas diferencias por pares hay entre una ballena azul?" Necesita decir "cuántas diferencias por pares hay entre una ballena azul y un lobo". De manera similar, no puede decir "¿Cuántos SNP hay 'entre un solo individuo'" (con la excepción nuevamente de la consideración de las diferencias entre los dos conjuntos de cromosomas), debe considerar un grupo de individuos.


Solo pude encontrar una fuente, declaró que cada genoma contiene 1 SNP cada 1000 pb. (Echa un vistazo aquí). Sin embargo, no tengo idea de si esta fuente es confiable.


Su número es demasiado bajo, el proyecto 1000 Genomes enumera aproximadamente 15 Mio SNP (consulte la referencia 1). Para averiguar cuántos SNP tienen en promedio los humanos (esto depende, por supuesto, de las poblaciones, donde esto puede diferir), a menudo se encuentra que, en promedio, 1 de cada 1000 nucleótidos se altera si se comparan dos genomas humanos (o al revés: Ellos son 99,9% idénticos).

El problema con este número es que es bastante antiguo y se remonta a una publicación de 1991 (ver referencia 2), que comparó 75.000 secuencias de nucleótidos de 49 loci. Dado que esto fue antes de que se conociera la secuencia completa del genoma humano, trataría este número con cierta precaución.

El número más reciente que encontré en esto es de la publicación del genoma humano. Ellos estiman el número un poco más bajo, alrededor de 1 en 1300 bases (ver referencia 3).

Lo que se podría hacer con los datos del Proyecto 1000 Genomas es descargar los datos de las muestras individuales, mapearlos con el genoma de referencia y ver cuántos SNP ocurren por individuo. No estoy seguro de si nadie hizo eso o si simplemente lo pasé por alto.

Según estos datos, hay entre 2,3 y 3 millones de SNP (1: 1000 o 1: 1300 respectivamente) presentes en cada genoma humano. Según el proyecto 1000 Genomes (referencia 1), la tasa de SNPs nuevos es $ 1 veces 10 ^ {- 8} $, lo que significa que hay entre 20 y 30 SNP nuevos por generación.

Referencias:

  1. Un mapa de la variación del genoma humano a partir de la secuenciación a escala poblacional
  2. Baja diversidad de nucleótidos en el hombre.
  3. Secuenciación inicial y análisis del genoma humano.

Detección de selección positiva reciente en el genoma humano a partir de la estructura del haplotipo

La capacidad de detectar la selección natural reciente en la población humana tendría profundas implicaciones para el estudio de la historia humana y para la medicina. Aquí, presentamos un marco para detectar la huella genética de la selección positiva reciente mediante el análisis de haplotipos de largo alcance en poblaciones humanas. Primero identificamos los haplotipos en un locus de interés (haplotipos centrales). Luego evaluamos la edad de cada haplotipo central por la desintegración de su asociación a los alelos a varias distancias del locus, según lo medido por la homocigosidad del haplotipo extendido (EHH). Los haplotipos centrales que tienen una EHH inusualmente alta y una frecuencia poblacional alta indican la presencia de una mutación que se destacó en el acervo genético humano más rápido de lo esperado en una evolución neutral. Aplicamos este enfoque para investigar la selección en dos genes portadores de variantes comunes implicadas en la resistencia a la malaria: G6PD 1 y ligando 2 de CD40. En ambos loci, los haplotipos centrales que llevan la mutación protectora propuesta se destacan y muestran evidencia significativa de selección. De manera más general, el método podría usarse para escanear todo el genoma en busca de evidencia de una selección positiva reciente.


SNP en el genoma humano - Biología

SNP: VARIACIONES SOBRE UN TEMA

¿No sería maravilloso si supiera exactamente qué medidas puede tomar para evitar, o incluso prevenir, la aparición de una enfermedad? ¿No sería un alivio saber que no es alérgico a los medicamentos que su médico le acaba de recetar? ¿No sería un consuelo saber que el régimen de tratamiento que está recibiendo tiene buenas posibilidades de éxito porque fue diseñado especialmente para usted? Con la cosecha reciente de más de 1 millón de SNP, los investigadores biomédicos ahora creen que estos emocionantes avances médicos no están tan lejos.

¿Qué son los SNP y cómo se encuentran?

A Polimorfismo de nucleótido simple, o SNP (pronunciado "snip") es un pequeño cambio genético, o variación, que puede ocurrir dentro de la secuencia de ADN de una persona. El código genético está especificado por los cuatro nucleótido "letras" A (adenina), C (citosina), T (timina) y G (guanina). La variación de SNP ocurre cuando un solo nucleótido, como una A, reemplaza una de las otras tres letras de nucleótidos: C, G o T.

Un ejemplo de un SNP es la alteración del segmento de ADN AAGGTTA a ATGGTTA, donde la segunda "A" en el primer fragmento se reemplaza por una "T". En promedio, los SNP ocurren en la población humana más del 1 por ciento de las veces. Debido a que solo alrededor del 3 al 5 por ciento de la secuencia de ADN de una persona codifica para la producción de proteínas, la mayoría de los SNP se encuentran fuera de las "secuencias codificantes". Los SNP que se encuentran dentro de una secuencia codificante son de particular interés para los investigadores, ya que es más probable que alteren la función biológica de una proteína. Debido a los avances tecnológicos recientes, junto con la capacidad única de estas variaciones genéticas para facilitar la identificación de genes, ha habido una oleada reciente de descubrimiento y detección de SNP.

Encontrar cambios de un solo nucleótido en el genoma humano parece una perspectiva desalentadora, pero, durante los últimos 20 años, los investigadores biomédicos han desarrollado una serie de técnicas que permiten hacer precisamente eso. Cada técnica utiliza un método diferente para comparar regiones seleccionadas de una secuencia de ADN obtenida de varios individuos que comparten un rasgo común. En cada prueba, el resultado muestra una diferencia física en las muestras de ADN solo cuando se detecta un SNP en un individuo y no en el otro.

Muchas enfermedades comunes en los seres humanos no son causadas por una variación genética dentro de un solo gen, sino que están influenciadas por interacciones complejas entre múltiples genes, así como factores ambientales y de estilo de vida. Aunque tanto los factores ambientales como los del estilo de vida aumentan enormemente la incertidumbre de desarrollar una enfermedad, actualmente es difícil medir y evaluar su efecto general en el proceso de una enfermedad. Por tanto, aquí nos referimos principalmente a personas predisposición genética, o el potencial de un individuo para desarrollar una enfermedad basada en genes y factores hereditarios.

Los factores genéticos también pueden conferir susceptibilidad o resistencia a una enfermedad y determinar la gravedad o progresión de la enfermedad. Dado que aún no conocemos todos los factores involucrados en estas intrincadas vías, los investigadores han encontrado difícil desarrollar pruebas de detección para la mayoría de las enfermedades y trastornos. Al estudiar tramos de ADN que se ha encontrado que albergan un SNP asociado con un rasgo de enfermedad, los investigadores pueden comenzar a revelar genes relevantes asociados con una enfermedad. Definir y comprender el papel de los factores genéticos en la enfermedad también permitirá a los investigadores evaluar mejor el papel factores no genéticos--como el comportamiento, la dieta, el estilo de vida y la actividad física-- tienen sobre la enfermedad.

Como los factores genéticos también afectan la respuesta de una persona a una terapia con medicamentos, Polimorfismos de ADN tales como los SNP serán útiles para ayudar a los investigadores a determinar y comprender por qué los individuos difieren en sus habilidades para absorber o eliminar ciertos medicamentos, así como para determinar por qué un individuo puede experimentar un efecto secundario adverso a un medicamento en particular. Por lo tanto, el reciente descubrimiento de los SNP promete revolucionar no solo el proceso de detección de enfermedades, sino también la práctica de la medicina preventiva y curativa.

SNP y diagnóstico de enfermedades

El material genético de cada persona contiene un patrón de SNP único que se compone de muchas variaciones genéticas diferentes. Los investigadores han descubierto que la mayoría de los SNP no son responsables de un estado de enfermedad. En cambio, sirven como marcadores biológicos para identificar una enfermedad en el mapa del genoma humano, ya que generalmente se encuentran cerca de un gen que se encuentra asociado con una determinada enfermedad. Ocasionalmente, un SNP puede causar una enfermedad y, por lo tanto, puede usarse para buscar y aislar el gen causante de la enfermedad.

Para crear una prueba genética que detectará una enfermedad en la que ya se ha identificado el gen causante de la enfermedad, los científicos recolectan muestras de sangre de un grupo de personas afectadas por la enfermedad y analizan su ADN en busca de patrones de SNP. A continuación, los investigadores comparan estos patrones con los patrones obtenidos al analizar el ADN de un grupo de personas no afectadas por la enfermedad. Este tipo de comparación, llamado "estudio de asociación, "puede detectar diferencias entre los patrones de SNP de los dos grupos, lo que indica qué patrón está más probablemente asociado con el gen causante de la enfermedad. Con el tiempo, se establecerán los perfiles de SNP que son característicos de una variedad de enfermedades. Luego, solo Será cuestión de tiempo antes de que los médicos puedan evaluar a las personas para detectar la susceptibilidad a una enfermedad simplemente analizando sus muestras de ADN para detectar patrones de SNP específicos.

SNP y desarrollo de fármacos

Como se mencionó anteriormente, los SNP también pueden estar asociados con la absorbancia y el aclaramiento de agentes terapéuticos. Actualmente, no existe una forma sencilla de determinar cómo responderá un paciente a un medicamento en particular. Un tratamiento que ha demostrado su eficacia en un paciente puede resultar ineficaz en otros. Peor aún, algunos pacientes pueden experimentar una reacción inmunológica adversa a un fármaco en particular. Hoy en día, las empresas farmacéuticas se limitan a desarrollar agentes a los que responderá el paciente "medio". Como resultado, muchos medicamentos que podrían beneficiar a un pequeño número de pacientes nunca llegan al mercado.

En el futuro, el fármaco más apropiado para un individuo podría determinarse antes del tratamiento analizando el perfil de SNP de un paciente. La capacidad de dirigir un medicamento a las personas con más probabilidades de beneficiarse, lo que se denomina "Medicina personalizada, "permitiría a las compañías farmacéuticas llevar muchos más medicamentos al mercado y permitiría a los médicos prescribir terapias individualizadas específicas para las necesidades de un paciente.

Debido a que los SNP ocurren con frecuencia en todo el genoma y tienden a ser relativamente estables genéticamente, sirven como excelentes marcadores biológicos. Los marcadores biológicos son segmentos de ADN con una ubicación física identificable que se pueden rastrear fácilmente y usar para construir un mapa cromosómico que muestre la posición de genes conocidos u otros marcadores, entre sí. Estos mapas permiten a los investigadores estudiar y localizar rasgos resultantes de la interacción de más de un gen. NCBI juega un papel importante en facilitar la identificación y catalogación de SNP a través de su creación y mantenimiento de la base de datos pública de SNP (dbSNP). La comunidad biomédica de todo el mundo puede acceder a esta poderosa herramienta genética y está destinada a estimular muchas áreas de la investigación biológica, incluida la identificación de los componentes genéticos de la enfermedad.

"Discovery Space" de NCBI que facilita la investigación de SNP

Para facilitar los esfuerzos de investigación, el dbSNP de NCBI se vincula directamente a una serie de herramientas de software diseñadas para ayudar en el análisis de SNP. Por ejemplo, cada registro SNP en la base de datos se vincula a recursos adicionales dentro del "Discovery Space" de NCBI. Los recursos incluyen GenBank, la base de datos de secuencias de los NIH, LocusLink, un punto focal para los genes y la información asociada dbSTS, el recurso del NCBI que contiene datos de secuencia y mapeo sobre puntos de referencia genómicos cortos datos de secuenciación del genoma humano y PubMed, el sistema de búsqueda y recuperación de literatura del NCBI. Los registros SNP también se vinculan a varios recursos externos aliados.

Brindar acceso público a un sitio para "compras de SNP en un solo lugar" facilita la investigación científica en una variedad de campos, que van desde la genética de poblaciones y la biología evolutiva hasta estudios a gran escala de enfermedades y asociaciones de medicamentos. La inversión a largo plazo en una investigación tan novedosa y emocionante promete no solo hacer avanzar la biología humana, sino también revolucionar la práctica de la medicina moderna.


Métodos

Fuente de datos

Datos de HapMap

Los datos de los SNP de HapMap [18] se descargan de la página web de HapMap. Según el mapa LD del cromosoma 22, ver [26], 200 SNP del cromosoma 22 de 4 poblaciones: residentes de Utah con ascendencia del norte y oeste de Europa (CEU), chinos Han en Beijing, China, (CHB), japoneses en Tokio , Japón (JPT) y Yoruba en Ibadan, Nigeria (YRI) se seleccionan al azar de una región de 3.44e7 & # x022123.5e7 kb [27], que muestra una gran diferencia de posiciones de SNP en el mapa LD en 4 poblaciones. Aquí, el mapa de LD muestra la intensidad del desequilibrio de ligamiento de los SNP. En el mapa, la curva & # x0201cflat & # x0201d significa que los SNP están en un fuerte desequilibrio de ligamiento, es decir, la recombinación rara vez ocurre entre ellos, mientras que la curva & # x0201csteep & # x0201d significa que la recombinación ocurre con frecuencia en esta parte del cromosoma. Las muestras se recolectan de CEU (30 tríos), CHB (45 individuos no emparentados), JPT (45 individuos no emparentados), YRI (30 tríos de padres e hijos adultos). Hay 90 muestras para las poblaciones de CEU e YRI, respectivamente, y 45 muestras para cada una de las poblaciones de CHB y JPT. Los datos que faltan se consideran una categoría en el cálculo.

Datos de la enfermedad de Parkinson

Los datos de los SNP de la enfermedad de Parkinson se basan en un genotipado de todo el genoma de 270 individuos con casos de enfermedad de Parkinson idiopática (caso) y 271 controles neurológicamente normales (control) descargados del Instituto Coriell de Investigación Médica (http: //www.ncbi.nlm). .nih.gov / sites / entrez? Db = gap). La genotipificación se realizó utilizando los ensayos Illumina Infinium I e Infinium II. El ensayo Illumina Infinium I evalúa 109.365 SNP únicos centrados en genes, mientras que el ensayo Infinium II evalúa 317.511 SNP de etiquetas de haplotipos basados ​​en la Fase I del Proyecto Internacional HapMap. Los ensayos Illumina Infinium I y II comparten 18.073 SNP en común. Por lo tanto, la combinación de los dos ensayos representa 408,803 SNP únicos. En el siguiente experimento, no se consideran los SNP con un & # x0003e porcentaje de falta del 1% en todas las muestras. Después de filtrar los valores faltantes, el número de SNP se redujo a 367440.

Metodología encogida

El centroide de contracción más cercano se desarrolla para manejar conjuntos de datos de microarrays numéricos. La principal diferencia entre la expresión génica y los datos de SNP es que los valores de expresión son continuos y los SNP son categóricos [28].

En este artículo, hacemos uso de la idea de contracción y aplicamos el algoritmo para datos de SNP categóricos mediante el uso de una medición de distribución de genotipos para objetos y modos categóricos en lugar de medias para grupos. Estas extensiones eliminarán la limitación numérica del método reducido más cercano y permitirán que el proceso de clasificación se utilice para tratar de manera eficiente los conjuntos de datos SNP categóricos de todo el genoma.

Dejar X& # x00133 ser el valor categórico para SNP I = 1, 2 y # x02026, pag y muestras j = 1, 2 y # x02026, norte. Existen K clases y dejar Ck ser índices de la nortek muestras en clase k. El centroide del I th SNP en clase k Se define como:


Agradecimientos

Estamos en deuda con el personal del Whitehead Institute / MIT Center for Genome Research Sequencing Center por la secuenciación de alto rendimiento y con N. Stange-Thomann por sus contribuciones a la construcción de bibliotecas. Nos gustaría agradecer a B. Blumenstiel y R. Lane por la construcción de la biblioteca y la validación de SNP, ya M. Molla, L. Friedland, J. Ireland y B. Gilman por su asistencia informática. Agradecemos las útiles discusiones con los miembros del Consorcio SNP, así como con los colegas del Whitehead / MIT Genome Center. D.A. recibió una beca posdoctoral para médicos del Instituto Médico Howard Hughes. C.R.C. cuenta con el apoyo del Fondo de Investigación del Cáncer de la Fundación Damon Runyon / Walter Winchell. Este trabajo se llevó a cabo con subvenciones de Wellcome Trust y The SNP Consortium para E.S.L.


Conexiones culturales modernas

Si bien los proyectos de genoma han proporcionado a los científicos un inventario de genes e información sobre algunos de los propósitos básicos a los que sirven, se sabe poco sobre cómo las células usan la información genética para funcionar como organismos vivos. Los investigadores aún desconocen las funciones de la mayoría de los genes, o cómo los genes y las proteínas que codifican actúan juntos y con el mundo externo.

Las secuencias de genes y la tecnología utilizada para producirlas han revolucionado al menos la forma en que se lleva a cabo la investigación en biología molecular. Antes del desarrollo de estas técnicas, los investigadores podían estudiar solo unos pocos genes o proteínas a la vez, produciendo una comprensión artificial y poco realista de la forma en que funcionan los organismos. Ahora los científicos pueden utilizar un enfoque mucho más amplio, investigando todos los genes relevantes para un proceso, tejido, órgano o tumor en particular. Un nuevo campo conocido como biología de sistemas modela las interacciones de miles de genes, proteínas y productos bioquímicos para producir los fenómenos que ocurren para dar vida a los organismos.

Un propósito primordial de la ciencia del genoma es trazar variaciones en las secuencias de ADN que pueden aumentar o reducir el riesgo de enfermedad y determinar cómo responden los individuos a infecciones, toxinas y medicamentos. Uno de los tipos más comunes de variación de secuencia es el polimorfismo de un solo nucleótido (SNP), en el que los individuos difieren en sus secuencias de ADN por una sola base (p. Ej., Tener adenina en una ubicación particular en lugar de citosina). Los investigadores estiman que el genoma humano tiene al menos 10 millones de SNP y se están generando mapas de estos sitios. En última instancia, esta variación se correlacionará con el riesgo de enfermedad y la respuesta al medio ambiente. Los científicos esperan que la construcción de un inventario de SNP individuales proporcione un atajo para identificar las regiones de ADN relacionadas con enfermedades como el cáncer, las enfermedades cardíacas, la diabetes e incluso ciertos tipos de enfermedades mentales. Un nuevo mapa de SNP también podría ayudar a determinar cómo la variación genética produce rasgos individuales y respuestas al medio ambiente.


SNP en el genoma humano - Biología

1 Departamento de Física y Astronomía, Universidad de Howard, Washington, EE. UU. 2 Centro Nacional del Genoma Humano, Universidad de Howard, Washington, EE. UU. 3 Departamento de Microbiología, Universidad de Howard, Washington, EE. UU.

Copyright y copia 2018 por autores y Scientific Research Publishing Inc.

Este trabajo tiene la licencia Creative Commons Attribution International License (CC BY 4.0).

Recibido: 3 de septiembre de 2018 Aceptado: 19 de octubre de 2018 Publicado: 22 de octubre de 2018

Como sistema vivo de información y comunicaciones, el genoma codifica patrones en polimorfismos de un solo nucleótido (SNP) que reflejan la adaptación humana que optimiza la supervivencia de la población en diferentes entornos. Este artículo modela matemáticamente fuerzas adaptativas inducidas por el medio ambiente que cuantifican cambios en la distribución de frecuencias de SNP entre poblaciones. Hacemos conexiones directas entre los métodos biofísicos (por ejemplo, minimizar la energía libre genómica) y los conceptos en genética de poblaciones. Nuestro programa informático imparcial escaneó un gran conjunto de SNP en la región del complejo principal de histocompatibilidad y señaló una dependencia de la altitud de un SNP asociado con la respuesta a la falta de oxígeno. El poder estadístico de nuestro enfoque doble ciego se demuestra en el marcado de correlaciones funcionales matemáticas de potenciales basados ​​en información SNP en múltiples poblaciones con parámetros ambientales específicos. Además, nuestro enfoque proporciona información para nuevos descubrimientos sobre la biología de variantes comunes. Este artículo demuestra el poder del modelado biofísico de la diversidad de poblaciones para comprender mejor las interacciones entre el genoma y el medio ambiente en los fenómenos biológicos.

Interacciones genoma-ambiente, adaptación genómica, correlaciones funcionales SNP

Como sistema de información dinámico y complejo, el genoma humano codifica y perpetúa los principios de la vida. La información se incorpora dentro de una plantilla principalmente fija, así como dentro de la estructura de la variación de la secuencia del genoma humano. De los aproximadamente 3 mil millones de nucleótidos del genoma humano, solo alrededor del 0,1% consisten en polimorfismos bialélicos de un solo nucleótido (SNP) distribuidos por todo el genoma [1]. Una vez que la distribución estadística de la variación alcanza la homeostasis en un entorno dado, una población humana puede describirse en términos del orden mantenido y los patrones de polimorfismos en todo el genoma. Definimos el medio ambiente no solo en términos de parámetros geofísicos, sino como la interfaz completa de la población con las influencias biológicas y evolutivas. Afirmamos que la estabilidad de la adaptación del genoma completo se refleja en las frecuencias de diversidad mantenida en estas variantes comunes (SNP) para una población en su entorno. Como sitios dinámicos en el genoma humano, los SNP a menudo están altamente correlacionados en combinaciones denominadas haplobloques cuyos haplotipos se mantienen a lo largo de generaciones con frecuencias fijas dentro de una población determinada. Se dice que tales combinaciones de SNP están en desequilibrio de ligamiento (LD). Esto refleja que ciertas combinaciones alélicas de SNP nunca aparecen dentro de la población, lo que implica que solo ciertos haplotipos son biológicamente viables y se mantienen generacionalmente. En la dinámica de la población, la viabilidad se manifiesta como una capacidad de supervivencia y una funcionalidad mantenidas. La formación de haplobloques es una propiedad emergente de la información genómica que no se puede caracterizar en ausencia de las influencias ambientales que obligan a tales transiciones de fase entre poblaciones. Por lo tanto, las unidades genómicas estadísticas dinámicamente independientes que utilizamos son haplotipos de SNP junto con alelos dentro de sitios SNP que no están en LD contiguos con ningún otro SNP. En particular, los cambios en la distribución de las respuestas alélicas y haplotípicas al medio ambiente reflejan directamente las fuerzas adaptativas en la población. La resiliencia de los seres humanos vivos como encarnaciones del genoma permite la adaptación de grupos a entornos nuevos o cambiantes. Las diferentes poblaciones humanas han surgido como consecuencia de que varios grupos migratorios pasados ​​permanecieron en entornos específicos y desarrollaron los mecanismos colectivos de afrontamiento que han permitido que los grupos funcionen eficazmente en su entorno. Consideramos que la adaptación es el proceso dinámico de modificar las expresiones del genoma para optimizar la capacidad de supervivencia de un grupo que permanece en un entorno particular. El uso de medidas de información genómica que reflejan la interacción de variaciones estadísticas debidas a los baños ambientales dentro de los cuales existen poblaciones estables motiva el desarrollo de la “genodinámica” como análoga a la “termodinámica” macrofísica [2]. Este enfoque ofrece una forma novedosa de pensar sobre la diversidad de poblaciones, a través del descubrimiento de relaciones entre el medio ambiente y la variación del genoma subyacente a la biología. En este artículo, modelamos matemáticamente las interacciones genoma-ambiente y demostramos influencias ambientales sencillas sobre variantes genómicas comunes.

2.1. Variación e información de la población

Comenzamos por desarrollar expresiones que relacionan las medidas de información genómica de grupos humanos cuyo perfil de diversidad es estable a lo largo de generaciones, con variables de estado dinámicas aditivas que dependen del ambiente que ocupa ese grupo. Las medidas informáticas más comunes en las ciencias físicas y de la comunicación están relacionadas con la entropía del sistema estadístico que se describe. Para desarrollar medidas de entropía para una población genómica, primero se deben determinar las unidades dinámicas de relevancia. Dentro de un entorno dado, las distribuciones estadísticas de ciertos conjuntos de SNP se vuelven altamente correlacionadas como unidades emergentes. Esto significa que la dinámica de la información genómica en un entorno específico es una fase emergente de expresión del genoma humano. Los entropis específicos (S) (o entropía per cápita) de una única ubicación SNP (S) que no está en desequilibrio de enlace (contiguo) tomarán la forma de una variable de estado de conjunto canónica en un baño ambiental dado por

s (S) ≡ - ∑ a = 1 2 p a (S) log 2 p a (S), (1)

donde p a (S) representa la probabilidad (frecuencia) de que el alelo a ocurra en la población. Cabe señalar que la entropía así definida es una medida adimensional del desorden sin unidades biofísicas. Asimismo, se considera que la entropía específica de un haplobloque de SNP (H) que consiste en un conjunto de SNP bialélicos fuertemente correlacionados es

s (H) ≡ - ∑ h = 1 2 norte (H) p h (H) log 2 p h (H), (2)

donde n (H) es el número de ubicaciones de SNP en el haplobloque (H), y p h (H) representa la probabilidad (frecuencia) de que el haplotipo h ocurra en la población. El límite superior de esta suma representa el número de combinaciones bialélicas matemáticamente posibles de alelos dentro del haplobloque. Se utilizaron herramientas comúnmente disponibles para construir las estructuras haploblock [3].

Dado que la entropía es una medida del desorden de una distribución, un sistema con el máximo desorden (distribución estadística igual de todas las combinaciones matemáticamente posibles) es uno de máxima entropía Smax. El contenido de información (IC) de una distribución estadística mantenida se mide por el grado de orden que tiene la distribución en relación con una completamente desordenada, es decir, la diferencia entre la entropía de una distribución completamente desordenada y la de la distribución dada IC = S máx - S [4]. Esta medida de información también es aditiva debido a la naturaleza aditiva de la entropía [5]. Por tanto, tanto la entropía como el contenido de información son variables de estado extensas cuyos valores aumentan proporcionalmente con el tamaño de la población. El contenido de información normalizado (NIC) para un haplobloque SNP dado (H) es una medida intrínseca (no aditiva) definida por

NIC (H) ≡ S máx (H) - S (H) S máx (H) = s máx (H) - s (H) s máx (H) = n (H) - s (H) n (H) , (3)

donde, como se indicó anteriormente, la entropía específica del haplobloque s (H) es solo la entropía por miembro de la población S (H) = N población s (H). Esta medida normalizada de información oscila entre 0 y 1. Esta medida adimensional permite explorar los espectros informáticos de las regiones de los genomas de los individuos así como de las poblaciones [4].

Para parametrizar mejor las influencias ambientales, solo se utilizaron los datos de la fase 3 de HapMap [6]. Estos datos incluyen poblaciones con ascendencia africana en el suroeste de EE. UU. (ASW), residentes de Utah con ascendencia del norte y oeste de Europa (CEU), chinos han en Beijing China (CHB), chinos en el área metropolitana de Denver Colorado EE. UU. (CHD), indios gujarati en Houston Texas EE. UU. (GIH), japonés en Tokio Japón (JPT), Luhya en Webuye Kenia (LWK), ascendencia mexicana en Los Ángeles California EE. UU. (MXL), Massai en Kinyawa Kenia (MKK), Toscani en Italia (TSI) y Yoruba en Ibadan Nigeria (YRI). De las poblaciones de la Fase 3, el NIC de ASW es ​​0.52, CEU es 0.76, CHB es 0.76, GIH es 0.73, JPT es 0.77, LWK es 0.59, MXL es 0.71, MKK es 0.63, TSI es 0.74 e YRI es 0.63. Cabe señalar que para las denominadas poblaciones fundadoras donde el genotipado fue más completo para la Fase I, II y III de los datos de HapMap, los valores de NIC para CEU, CHB y JPT son algo más altos (0.88) que el NIC de 0,77 para YRI.

2.2. Dinámica de la información del genoma humano

A continuación, desarrollamos escalas dimensionales y unidades que pueden cuantificar la flexibilidad y elasticidad relativas de la dinámica de la información entre varias poblaciones y regiones del genoma de la misma población, análogas a las unidades de energía aditiva en las ciencias físicas. A diferencia de las partículas fundamentales de la microfísica, las unidades vitales fundamentales no pueden mantenerse en ausencia de los entornos que las sustentan. Por tanto, la descripción menos complicada de la dinámica genómica debería desarrollar variables genómicas de energía libre FGenoma como más fundamental que las medidas energéticas ambientalmente independientes.

La energía libre genómica Fgenoma se ha desarrollado como una variable de estado que equilibra la conservación y variación de SNP y haplotipos dentro de un baño ambiental dado. Minimizar la energía libre genómica optimiza la capacidad de supervivencia de la población bajo el conjunto completo de estímulos y factores de estrés ambientales, estableciendo el equilibrio entre la conservación y la variación de alelos y rasgos en la dinámica de la distribución de la población. Un potencial ambiental dimensional Tmi (que es una variable de estado intensivo que es independiente del tamaño de la población) parametrizará la agitación intrínseca y omnipresente de la población debido a estímulos ambientales estocásticos (análogo a cómo la temperatura parametriza la agitación de unidades físicas fundamentales en un baño termal). De manera similar, los potenciales alélicos y haplotípicos dimensionales, μ a (S) y μ h (H), parametrizarán el cambio de energía libre genómica en una población a partir de la adición de un individuo del alelo a o del haplotipo h. Para un haplobloque dado (H), la energía libre genómica diferencial toma la forma

d F (H) = - S (H) d T E + ∑ h μ h (H) d N h (H), (4)

donde N h (H) representa el número de individuos de la población con haplotipo h. Esta forma ignora cualquier influencia de la población sobre el medio ambiente. La energía libre genómica total es una suma de todos los haplobloques SNP y SNP no ligados dados por

F genome = ∑ H F ( H ) + ∑ S F ( S ) . (5)

As is the case in thermodynamics, the additive allelic potentials μ h ( H ) are expected to scale relative to the environmental potential Tmi, and allelic or haplotypic potential differences should directly reflect in the ratio of the frequencies of occurrence of those dynamic units within the population. We assert that such properties are encompassed in the functional form

μ h 2 ( H ) − μ h 1 ( H ) T E = − log 2 p h 2 ( H ) p h 1 ( H ) (6)

Defining a single human Genomic Energy Unit ( μ ˜ ≡ 1 G E U ) to be the allelic energy necessary to induce maximal variation within a single non-linked

bi-allelic SNP location ( p a 1 = 1 2 = p a 2 ), the potential of the haplotype h or allele

a in an environmental bath characterized by the environmental potential Tmi that bathes the whole genome can be expressed as

μ h ( H ) = ( μ ˜ − T E ) n ( H ) − T E log 2 p h ( H ) μ a ( S ) = ( μ ˜ − T E ) − T E log 2 p a ( S ) . (7)

If only one allele is present at a SNP location for a given population, the allelic potential of that allele is defined to be at the fixing potential μreparado for that environment μ a 1 ( S ) = μ f i x i n g ≡ ( μ ˜ − T E ) .

We will assume that the population is homeostatic (or at least quasi-homeostatic, which means that any changes occurring in the population distribution requires many generations to become significant). Population homeostasis is equivalent to the Hardy-Weinberg condition used in population biology that the statistical distribution is independent of any sub-divisions of the population data, including those associated with differing generations or ages. Our population stability condition will require that the genomic free energy be a (stable) minimum under changes in the population within the local environment when the population is in homeostasis with its environment, i.e.,

( ∂ F Genome ∂ N Population ) = 0 . By substituting the forms of the allelic potentials μ h ( H ) and

μ a ( S ) expressed in terms of the probabilities in Equation (7) into the population stability condition and summing over all haploblocks and SNPs, an explicit expression of the environmental potential can be obtained:

T E = μ ˜ n S N P s n S N P s − s Genome = μ ˜ N I C Genome . (8)

This inversely relates the environmental potential to the intrinsic normalized information content characterizing the variation of the whole genome of the population, demonstrating that the whole genome is uniformly bathed in this particular environmental parameter. The population stability condition can be expressed in terms of the population averaged haplotype and allelic potentials. We refer to the average haplotype potential within a SNP haploblock ∑ h μ h ( H ) p h ( H ) = 〈 μ ( H ) 〉 as the block potential for haploblock (H), and the average allelic potential at a non-linked SNP location ∑ a μ a ( S ) p a ( S ) = 〈 μ ( S ) 〉 as the SNP potential for location (S). The population stability condition then requires that the sum of all block and SNP potentials for a given population vanishes:

( ∂ F Genome ∂ N Population ) = 0 ⇒ ∑ H 〈 μ ( H ) 〉 + ∑ S 〈 μ ( S ) 〉 = 0 . (9)

This condition demonstrates that balance is established between diversity and conservation in a population to optimize its survivability within the given environment. One should note that the environmental potential Tmi, the block potentials 〈 μ ( H ) 〉 and the SNP potentials 〈 μ ( S ) 〉 can only be constructed for a population. In addition, the individual allelic potentials μ h ( H ) and μ a ( S ) characterize an overall allelic potential for each individual in the population,

μ individual = ∑ H μ h ( H ) + ∑ S μ a ( S ) , (10)

where the set of SNP haplotypes h and alleles a are unique to the individual. An individual’s overall allelic potential is not a universal parameter, but rather depends strongly upon the environment.

To illustrate population dependent spectra of genomic block potentials, the genomic free energies of blocks in the major histocompatibility complex (MHC) region on chromosome 6 are displayed for a few founder populations using phase I, II, and III data from HapMap in Figure 1.

The MHC region encodes genes for the human immune response. This region of the genome is particularly relevant in host response to environmental stressors and is known to display straightforward biological correlations with environmental parameters. The emergent differences in the haploblock structure of the populations are immediately apparent. The block binding potential (which parameterizes the stability of an emergent haploblock) will be defined as the difference in the block potential from the sum of the individual SNP potentials that make up that block if they were not in linkage disequilibrium (LD). The corresponding spectra of binding potentials (per SNP) are demonstrated in Figure 2.

Those SNPs in haploblocks with more negative binding potential per SNP have enhanced biologic favorability for maintaining their correlated statistics throughout generations of the populations in the given environments. SNPs in haploblocks with nearly zero binding potential per SNP are nearly independent, indicative of the environmental transition point of the emergent genomic phase. Stated precisely, an emergent genomic phase indicated by the formation of a haploblock of statistically correlated SNPs on the genome of a population in homeostasis with a particular environment results in a non-vanishing binding potential for the SNPs in that haploblock. The strength of the binding block

Figura 1 . Block potentials for MHC region on Chromosome 6 as a function of location: (a) represents the block potentials for the Han Chinese in Beijing China (b) represents the MHC region block potentials for the Japanese in Tokyo Japan (c) represents the MHC region block potentials for the Yoruba in Ibadan Nigeria. Average values are demonstrated as the horizontal dashed lines. Regions of lower potential are indicative of a greater degree of conservation, and stronger binding of the correlated SNPs.

Figura 2 . Binding block potential per SNP for the MHC region on Chromosome 6: (a) represents the binding block potentials for the MHC region for the Han Chinese in Beijing China (b) represents the binding block potentials for the MHC region for the Japanese in Tokyo Japan (c) represents the binding block potentials for the MHC region for the Yoruba in Ibadan Nigeria.

potential per SNP indicates the degree to which the SNP variation must be correlated in order to maintain a biologically viable population.

2.3. Distributive Genodynamics

The formulation of the information dynamics of the human genome in terms of genomic free energies directly results in well-defined forms for the SNP potentials for SNPs that are not in LD and for block potentials for correlated SNPs that are in LD. Since the SNP haploblock structure has an emergent form that differs between populations, meaningfully defined distributed potentials will reflect the biology underlying the participation of individual SNPs in the informatics architecture of its correlation with other SNPs in the haploblock. We will next develop distributed SNP potentials μ S ( H ) within a haploblock (H) such that they satisfy the following conditions:

If the SNP is occupied by an allele that is fixed in the given population, then its distributed SNP potential is the fixing potential μreparado

The sum of the distributed SNP potentials should be the same as the block potential μ ( H ) , i.e. 〈 μ ( H ) 〉 = ∑ S = 1 n ( H ) μ S ( H )

The block potential should be linearly distributed amongst the constituent SNPs in accordance with occurrences of the SNP alleles.

The first bullet insures that if the SNP is not variant within the population, its genomic energy is not modified from that of a SNP that is not in LD, and the second bullet requires that the distributed potentials should reconstruct the block potential in an additive way. The third bullet represents a simple mechanism for relating the distributed potentials to the degree of variation in the SNP. The mathematical form that satisfies these conditions is given by

μ S ( H ) ≡ μ fixed + [ 〈 μ ( H ) 〉 − n ( H ) μ fixed ] ( p ¯ S ∑ S ′ p ¯ S ′ ) , (11)

where p ¯ S = 1 − p S is the minor allele frequency of the SNP labeled (S). Using this form, the distribution of the haploblock potential to any constituent SNP is proportionate to the occurrence of the minor allele in the population in a manner that increases the SNP’s genomic free energy as the SNP has higher variation (i.e., becomes less conserved).

The degree of stability of the participation of the SNP in the biology of the emergent haploblock can be quantified in terms of its binding potential defined by

ε binding ( S ) ≡ μ S ( H ) − 〈 μ ( S ) 〉 , (12)

where 〈 μ ( S ) 〉 would be the SNP potential of the genomic variant were it not in LD. As defined, this metric of SNP binding within the haploblock is always negative, reflecting the increased genomic conservation inherent in LD.

We can furthermore assign allelic measures from the distributed SNP potentials in a manner that constructs the SNP potentials as population averages of derived distributed allelic potentials μ a S ( H ) , i.e., μ S ( H ) = ∑ a S p a S ( H ) μ a S ( H ) . The most straightforward form that uniformly assigns the distributed SNP potential within a haploblock, and maintains the expected correlation that increased genomic potential reflects increased variation, results by simply adjusting the non-linked allelic potentials using the SNP binding potential, i.e.,

μ a S ( H ) ≡ μ a S ( S ) + ε binding ( S ) . (13)

It should be noted that all distributed potentials are only defined at the population level and cannot be ascribed to individuals. Only the emergent haplotype potentials μ h ( H ) can be ascribed to individuals within the population. However, since distributed potentials are defined for the population as a whole, they can bequite useful for parameterizing the environmental influences upon that population. Distributed potentials are particularly useful for describing the adaptation of the population to stimuli and stressors with known biological correspondence to particular alleles or SNPs. The description of genomic variants using distributed potentials inherently includes any presently unknown whole genome response to specific stressors.

Once genomic free energy measures have been developed for individual alleles and genomic regions, environmentally induced adaptive forces can be characterized using gradients of those additive measures down the slope of environmental parameters. For a given allele a on the genome that is biologically connected to a definable environmental parameter λ (such as UV light, lactose in diet, prevalence of malarial plasmodia, etc.), we define the environmentally induced adaptive force on that allele by

with analogously defined adaptive forces on potentials characterizing SNPs, haploblocks, haplotypes, genes, and even perhaps whole chromosomes. Such an expression is only meaningful if there is a functional relationship between the biology of the genomic unit and the particular environmental parameter λ. In such cases, positive adaptive forces drive the conservation of the given genomic unit down the slope of the genomic potential. Increased survivability might drive the genomic unit towards more diversity, or more conservation, depending on the nature of the environmental influence upon the homeostatic population. Quantifying such forces inherently involves comparisons between differing environments.

To explore environmental impacts on adaptation, we will confine our investigation to phase III data of HapMap, since this represents the broadest set of populations with somewhat uniform genotyping. We have chosen to exclude ASW, CEU, CHD, GIH and MXL from our parameterization of adaptive forces, since these populations do not reside in their geographical origin. In this paper, the genomic potentials of the set of SNPs in the MHC region on chromosome 6 were chosen to conduct a double-blind exploration for possible correlations with three particularly straightforward environmental parameters: annual exposure to UV-B radiation, altitude above sea level, and exposure to malarial vectors. In order to simplify the analysis of any results, the set of all SNPs in this region that are not in LD for most of the populations were pre-selected out for the computational search. The algorithm examines whether the genomic potentials for the SNPs and alleles can be fitted to simple functional forms (curves) singly dependent on a given environmental parameter. If the root-mean-squared (RMS) deviation of the data points from the curves, as compared to the maximum variation of the data, falls within 10%, the SNP is flagged by the program, and adaptive forces are calculated for the curves.

The averaged ancestral annual UV-B radiation exposure used was expressed in units of Joules per square meter (UV radiance) as estimated from the following cited source [7] . In these units, estimates of annual UV radiance for the CHB population averaged 2180 (ranging from 1500 to 2600), for the JPT population averaged 2400 (ranging from 2300-2500), for the LWK population averaged 5764 (ranging from 5450 to 6500), for the MKK population averaged 5624 (ranging from 5000 to 6125), for the TSI population averaged 1507 (ranging from 950 to 2500), and for the YRI population averaged 5129 (ranging from 3500 to 6300). The altitude values used are averaged estimates of elevations of populated regions for ancestral homelands in units of meters using data from [8] . In units of meters, estimates of population elevation for the CHB population averaged 22 (ranging from 3 to 48), for the JPT population averaged 107 (ranging from 5 to 287), for the LWK population averaged 1711 (ranging from 1203 to 2486), for the MKK population averaged 1507 (ranging from 712 to 2383), for the TSI population averaged 74 (ranging from 1.3 to 143), and for the YRI population averaged 211 (ranging from 12 to 337). The parasite data were based upon the Plasmodium falciparum parasite rate (PfPR), used by the World Health Organization [9] . We expect that all of the examined populations had higher malarial exposure in ancestry than at present. In particular, the TSI population likely had significantly higher malarial exposure in ancestry than in present time, since relatively recent developments have significantly reduced the prevalence of the insects and treatment of the disease. In units of parasite reproductive rate, estimates of PfPR for the CHB population averaged 0.01 (ranging from 0 to 0.05), for the JPT populations averaged 0.0002 (ranging from 0 to 0.001), for the LWK population averaged 12 (ranging from 2 to 35), for the MKK population averaged 8 (ranging from 1 to 25), for the TSI population averaged 0.8 (ranging from 0 to 5), and for the YRI population averaged 70 (ranging from 20 to 95).

In the following plots, if there is a best fit curve plotted with the points, then the data was flagged by the computer program. Blue points represent populations with the flagged SNP not in linkage disequilibrium. The thickness of the curves in the plots represents the degree of correlation of the data with the fitting curve, with bolder curves indicating stronger correlations.

Our program flagged functional dependencies on altitude of phase III HapMap data for the SNP rs1109771 in the MHC region for the populations CHB, LWK, MKK, TSI and YRI. The curves are plotted in Figure 3.

The relative RMS deviation for the SNP potential was 0.03, for the G allelic potential was 0.008, and for the A allelic potential was 0.001. A significant adaptive force of about +1.5 GEUs/kilometer at lower altitudes on allele A towards increased conservation is apparent. At higher altitudes, significant variation is maintained, as indicated by the SNP potential remaining very near the maximum value of 1 GEU (maximal variation). This implies that the G allele continues a significant presence in the population in order to optimize its survivability in the higher altitudes available in the HapMap data.

Over the course of human history, adaptation to challenging environments has necessitated modulation of biological pathways at the genomic level to combat the toxic effects present in said environments. High altitude is an excellent example of how humans have adapted to an environmental stressor (e.g., low

Figura 3 . SNP rs1109771 in MHC region on Chromosome 6. The horizontal axis labeled by the environmental parameter λ is altitude in units of kilometers. The vertical axis gives the SNP (μ_rs1109771) and allelic (μ_G, μ_A) potentials in genomic energy units (GEUs): (a) illustrates the functional correlation of SNP rs1109771 with altitude in the Chinese, Kenyan, Tuscan and Yoruban populations (b) and (c) illustrate the allelic correlations (G and A respectively) with altitude in the aforementioned populations.

oxygen content). The body’s response to chronic exposure to alveolar hypoxia is to hyperventilate, thereby increasing resting heart rate and stimulating the production of red blood cells to maintain the oxygen content of arterial blood at or above sea level values [10] . Moreover, an insufficient supply of oxygen prompts the formation of new vessels from the walls of existing ones, i.e. angiogenic sprouting [11] . Growth factors and chemokines are secreted from hypoxic tissues, stimulating endothelial cells to break away from vessel walls. These angiogenic factors then coordinate sprouting, branching, and new lumenized network formation until the oxygen content rises and normoxia can be re-established [12] . The Notch signaling pathway plays a key role in shaping the formation and remodeling of the vascular network under hypoxic conditions [11] . This pathway is an evolutionarily conserved intracellular signaling pathway that was originally identified in Drosophila. Notch has four transmembrane receptors, with Notch 1 and Notch 4 being expressed by endothelial cells [13] [14] [15] . It has been shown that targeted deletion of Notch 4 in mice results in the deregulation of arterial and venous specification of endothelial cells as well as the deformation of arteries and veins [16] [17] . In addition, overexpression of the intracellular domain of Notch 4 in endothelial cells results in a β1 integrin-mediated increase in adhesion to collagen resulting in cells that show a reduced sprouting response to vascular endothelial growth factor both in vitro and in vivo [18] . Thus, it appears that Notch signaling promotes cellular responses in endothelial cells that help to alleviate the harmful effects of hypoxia in the human body. Consequently, population differences in allelic frequencies in this pathway could effectively provide an adaptive advantage for survival in response to this environmental stressor.

As a demonstration of the potential guidance offered by this formulation towards future discovery in the biology of whole genome adaptation, our program flagged functional dependencies on plasmodium parasite load from HapMap data for rs430620 in the MHC region for the populations CHB, LWK, MKK, TSI and YRI. The curves plotted in Figure 4 represent a strong flag for parasite dependency of a SNP in the intervening sequence of the genome with no known association to any gene. The relative RMS deviation for the SNP potential was 0.007, for the G allelic potential was 0.02, and for the A allelic potential was 0.008. A significant adaptive force of about +3 GEUs/unit PfPR for initial parasite loads on allele A towards increased conservation is apparent. The A allele has very low occurrence within populations with no parasite load, and the SNP approaches fixation towards allele G. Once again, for higher parasite loads, significant variation is maintained, as indicated by the SNP potential approaching the maximum of 1 GEU, indicative of the importance of maintaining a significant occurrence of the G allele in the population. The possibility of an association of the A allele with increased survivability under an environmental stressor that parallels this parasite load is intriguing. Furthermore, this correlation exemplifies how genodynamics can be utilized in the discovery of genomic variants with previously unknown clear functional dependencies on simple environmental factors, thereby motivating other researchers to contextualize these functional dependencies relative to their own laboratory/clinical findings.

We have demonstrated the utility of associating genomic free energy measures with environmental influences on whole genome adaptation. Double-blind smooth mathematical functions flagged relationships between altitude and the allelic energies of a SNP associated with oxygen deprivation. From these functional relationships, genomic energy gradients quantify adaptive forces in a manner analogous to corresponding concepts in the physical sciences. Our formulation of genomic information dynamics optimizes the survivability of a population in a given environment. Specifically, whole genome SNP distributions represent an environmentally influenced balance between genome sequence variation and conservation. Furthermore, double-blind smooth mathematical

Figure 4 . rs430620 in MHC region on Chromosome 6. The horizontal axis labeled by the environmental parameter λ is plasmodium parasite load in units of Plasmodium falciparum parasite rate. The vertical axis gives the SNP (μ_rs430620) and allelic (μ_G, μ_A) potentials in genomic energy units (GEUs): (a) illustrates the functional correlation of SNP rs430620 with PfPR in the Chinese, Kenyan, Tuscan and Yoruban populations (b) and (c) illustrate the allelic correlations (G and A respectively) with PfPR in the aforementioned populations.

functions flagged relationships between parasite load and the allelic energies of a SNP with no known association to a gene. This provides an intriguing opportunity and direction for future discovery of the biology associated with this SNP.

Moreover, population diversity in genome-wide common variants, such as SNPs that are non-randomly embedded in the human genome, represent a “quintessential experiment of nature” in whole genome adaptation to environmental stimuli and stressors associated with population diversity in health outcomes. SNPs associated with common diseases not only reveal mechanisms underlying the complex biology of common diseases, but also the “genomic cost” to populations in whole genome adaptation to environmental stimuli and stressors. By parameterizing the information dynamics of SNPs in HapMap populations, we developed a mathematical model of environmentally induced adaptive forces as drivers of population health and diversity in health outcomes. Our model provides new lenses through which SNP data can be explored to solve problems in population-based patterns of genome variation in common complex diseases which we submit is significant in clinical translation.

The authors would like to acknowledge the continuing support of the National Human Genome Center, and the Computational Physics Laboratory, at Howard University. This research was supported in part by NIH Grant NCRR 2 G12 RR003048 from the RCMI Program, Division of Research Infrastructure. The authors hereby certify that they have no affiliations with or involvement in any organization or entity with any financial interest or non-financial interest in the subject matter or materials discussed in this manuscript.

The authors declare no conflicts of interest regarding the publication of this paper.


SNPs in the Human Genome - Biology

The HEK293 (Human Embryonic Kidney 293) cell line is one of the most frequently used cell lines in cell biology, second only to HeLa cells. Moreover, they are used for biopharmaceutical production and are very popular hosts for small-scale protein production and for viral vector propagation.

Decades of 293 and 293-derivative cell cultivation have led to progressively different genome structure and sequence alterations. Knowledge of the genome sequence of 293 cells and of the SNPs and CNVs amongst the different lines is not only important to understand basic 293 biology and the genomic changes associated with cell culture and clone selection, but is also especially relevant in the light of mammalian cell genetic engineering.

This web tool provides for easy browsing through the sequence- and average copy-number level variations of six different HEK293 cell lines, and have included links that invoke the Integrative Genome Browser (Broad Institute) for inspection of the underlying data.


Información del autor

Afiliaciones

Colon Cancer Genetics Group, Division of Oncology, University of Edinburgh, Western General Hospital, Crewe Road, Edinburgh, EH4 2XU, UK

James GD Prendergast & Malcolm G Dunlop

MRC Human Genetics Unit, Western General Hospital, Crewe Road, Edinburgh, EH4 2XU, UK

Nick Gilbert, Wendy A Bickmore & Colin AM Semple

Public Health Sciences, Department of Community Health Sciences, University of Edinburgh, Edinburgh, UK

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Autor correspondiente


Discusión

In recent years, SNPs in miRNA target sites have been widely studied to be associated with diseases from hereditary diseases to different cancers (review in [Sethupathy and Collins, 2008 ]). And SNPs in miRNA genes were reported to involve in the alteration of miRNA processing [Duan et al., 2007 Harnprasopwat et al., 2010 ], thyroid cancer [Jazdzewski et al., 2009 ], gastric cancer risk [Peng et al., 2009 ], ulcerative colitis [Okubo et al., 2011 ], squamous cell carcinoma [Liu et al., 2010 ], and nonsyndromic progressive hearing loss [Mencia et al., 2009 ]. Thus, identifying functional miRNA-related SNPs are of interest for diseases and complex trait studies. However, the effects on miRNA biogenesis and target selection of SNPs in miRNA genes have not been studied extensively. In the first step of this study, we identified the miRNA-related SNPs and summarized their features. Then, we focused on the prediction of potential effects on miRNA biogenesis and target binding by SNPs in miRNA genes through both prediction and experimental validation. Finally, we compiled all the data into the miRNASNP, a free online database. Considering the wide regulation of miRNA and widely existed SNP, our identified functional miRNA-related SNPs will be a useful resource to mine SNP-associated disease or phenotype in population.

Promising SNPs in Human miRNA Precursors

Since miRNA functions as a top regulator involved in a wide range of regulation, SNPs in miRNA genes may affect miRNA function by influencing the miRNA biogenesis process or target interactions, thus cause serious consequences. In this study, we identified 757 SNPs in human miRNA genes, and further examined the HapMap data for these SNPs. Although lots of SNPs lack frequency information in HapMap, we still found that 69 of them were sampled in HapMap and 40 of them with relatively high MAF (q ≥ 0.1) in at least one population. In the Result section, we inferred the effects on maturation of the SNPs in pre-miRNAs by summarizing published examples. According to our speculated rules, eight of the 40 SNPs (rs11614913, rs13299349, rs13447640, rs6971711, rs11844707, rs72246410, rs4822739, and rs17797090) locate in stem regions with ΔΔG > 2 kcal/mol, which may decrease the MIR production. Another seven SNPs (rs2910164, rs2292832, rs10505168, rs5997893, rs12780876, rs10934682, and rs2043556) locate in stem regions with ΔΔG <–2 kcal/mol, which may increase the MIR production. Theoretically, these SNPs would greatly change the production of the mature miRNAs, thus may contribute to genetic difference among different population. However, an SNP in the pre-miRNA with relatively low MAF may also cause serious consequences in individuals once it occurs. For example, two SNPs (+13 G > A) and (+14 C > A) in miR-96 seed region were observed in a Spanish family with autosomal dominant progressive high-frequency hearing loss due to impaired maturation and disturbed target sites [Mencia et al., 2009 ].

Since the seed region of an miRNA is the most important feature for its target binding [Bartel, 2009 ], SNPs in miRNA seed region will influence the miRNA target binding and selection directly. Here, we identified 50 SNPs in the seed regions of 41 human miRNA genes and predicted their target gain and loss effects for these SNPs (Fig. 2 and miRNASNP website). Our predicted results indicate that SNPs in miRNA seed regions would cause nearly half targets loss and gain on average. In our dataset, five miRNAs with SNP in seed region (miR-124, miR-125-5, miR-1302, miR-379, and miR-499-3p) are conserved in mammalias (chimpanzee, mouse, rat, and dog). We extracted their conserved targets and performed KEGG pathway and Gene Ontology enrichment analyses. Results show that miRNA-mediated function will be changed greatly after SNP variants. For example, the conserved targets of wild miR-124 show significant enrichment in terms “regulation of apoptosis,” “intracellular membrane-bounded organelle,” and “regulation of cellular biosynthetic process,” but no enrichment for the conserved targets of its variant (Benjamini corrected PAG valor & lt 0.05). Of them, miR-124 and miR-125a-5p have experimentally validated targets in TarBase [Sethupathy et al., 2006 ] and miR2Disease [Jiang et al., 2009 ], we found 135 validated targets would loss for miR-124 and one validated target would loss for miR-125a-5p once the SNP allele changes.

Notable, the SNP rs12220909 in miR-4293, which is the only one SNP located in seed region and sampled in HapMap with q > 0.1. We further analyzed the MAF of rs12220909 in HapMap populations and found the frequencies of the allele C are 0 in both Utah residents with Northern and Western European ancestry from the CEPH collection (CEU) and Yoruba populations, 0.034 in Japanese, and 0.211 in Han Chinese. Chinese has a significant higher C genotype (χ 2 test, PAG & lt 0,01). The ΔΔG affected by rs12220909 is −0.5 kcal/mol, which means the SNP type is slightly more stable than wild type and it may increase the mature miRNA expression. Since it locates in the seed region, our target gene gain and loss prediction indicated that miR-4293 would loss 1,735 target genes and only gain 199 target genes after G→C substitution. Gene Ontology and KEGG analyses show that lost target genes significantly enrich in the term of “ion binding,” “plasma membrane part,” and “small GTPase regulator activity” (Benjamini corrected PAG < 0.05), while the gained target genes by SNP variant do not show significant enrichment in any categories. Although, no studies reported the function of this miRNA currently, it is interesting to study its function and associated phenotype.

Besides seed region, other residues in mature miRNA sequence were suggested to play a modest role in target recognition [Bartel, 2009 Grimson et al., 2007 ]. After computational prediction for miRNA target gain and loss, we further performed experiments to validate the effects on target binding by SNPs in seed region and mature region. We selected 11 miRNA target pairs for three target genes, which are ATP6V0E1, BCL2, y SEMA3F (Table 3). Among these miRNA-target pairs, two (miR-34a/BCL2 and miR-124/ATP6V0E1) have been validated by others [Wang et al., 2009 Wang and Wang, 2006 ] and we also confirmed both of them. In our experimental results, five of the eight SNPs in seed regions were proved to dysregulate their targets. Three SNPs in mature sequences other than seed regions all have slight influences on their target binding, even an indel SNP. These results support the conclusion that residues in seed region play key roles and other residues in mature sequence have modest effects on miRNA target binding [Bartel, 2009 ].

It is worthy of note that in this study, we proved the target gain by SNP rs2620381 in miR-627 seed region by experiments. In wild type of miR-627, it can not bind the 3′UTR of ATP6V0E1, while the SNP-type miR-627 gained the ability to target the ATP6V0E1 3′UTR and repressed its expression dramatically in our luciferase experiments. To our best knowledge, this is the first experimentally validated example for target gain affected by a SNP in an miRNA. It provides a new mechanism for miRNA dysregulation in different individuals. Our results show that SNPs in an miRNA gene, especially in the seed region, will alter the target profile of the miRNA by losing original targets and gaining new targets. These SNPs in miRNA seed regions and their target gain and loss information will be a potential useful clue to study the miRNA function and find the SNP-associated disease or phenotype.

Promising SNPs in 3′UTRs of Human Protein Coding Genes

In contrast to the SNPs in miRNA genes, there are more reports that studied the effect of SNPs in 3′UTRs. Loss of a potential miRNA target site may increase the protein expression, while gain of a functional miRNA target site will repress the protein expression, thus affect physiological function and clinical phenotype. Here, using our pipeline, we identified tens of thousands of SNPs locating in potential miRNA target sites and some of them show high MAF, high MAF difference between populations, or positive selection pressure during evolution. Those SNPs will be important candidates for causal variants of human disease. Currently, genome-wide association studies have uncovered many SNPs associated with traits and diseases. The NHGRI GWAS catalogue (http://www.genome.gov/gwastudies, accessed by 2010-12-16) described 1,227 unique SNPs associated with one or more traits (PAG < 5 × 10 −8 ) [Hindorff et al., 2009 ]. Among these SNPs, six are in our 3′UTR dataset and three are present in our target loss and gain dataset. They are rs1036819 associated with longevity, rs28927680 associated with triglycerides, and rs1042725 associated with height. The original papers also mentioned that these SNPs in 3′UTR may be involved in the traits by miRNA-mediated regulation but without detail miRNA information. Utilizing our database miRNASNP, users can find the detail information about miRNA and its target gain and loss. For example, when users search rs28927680 in miRNASNP, it will show the SNP locates in the potential target sites of six miRNAs (hsa-miR-1323, hsa-miR-548a-3p, hsa-miR-548e, hsa-miR-548f, hsa-miR-548o, and hsa-miR-548t) in 3′UTR of gene BUD13. SNP rs28927680 is reported to be associated with blood low-density lipoprotein cholesterol, high-density lipoprotein cholesterol, or triglycerides in human [Kathiresan et al., 2008 ], hence the SNP-associated miRNA and target site information may shed light on further experiments.

There are more than 1,000 experimentally validated miRNA-target pairs in miR2Disease and Tarbase databases. Based on these data and miRNA-related SNPs in our miRNASNP database, we identified 31 SNPs in 3′UTRs with the abilities to disturb experimental validated miRNA-target pairs. Three of them (rs5186, rs12720208, and rs56109847) have been experimental confirmed to make dysregulate their corresponding targets and associated with diseases. Sethupathy et al. demonstrated that the SNP (rs5186) in the AGTR1 3′UTR mediates allele-specific targeting of miR-155 to AGTR1, thereby modulating AGTR1 protein levels [Sethupathy et al., 2007 ]. SNP rs12720208 was proved to mediate allele-specific in vitro targeting of miR-433 to the FGF20 3′UTR and confers risk for Parkinson disease [Wang et al., 2008 ]. Kapeller et al. identified rs62625044 (now merged into rs56109847) in the 3′UTR of HTR3E, which could mediate allele-specific miR-510 targeting. This was associated with diarrhea-predominant irritable bowel syndrome (IBS-D) in females from the United Kingdom and was also confirmed in a German cohort by replication study [Kapeller et al., 2008 ]. Besides the three validated SNPs, the rest will be attractive SNPs in human miRNA target sites for future studies.


Ver el vídeo: Lo que todos deberían saber del Genoma Humano. JaverianaX on edX. Course About Video (Agosto 2022).