Información

¿Pueden las interacciones gen-gen resultar en expresión génica?

¿Pueden las interacciones gen-gen resultar en expresión génica?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy construyendo un proyecto sobre la inferencia de redes reguladoras de genes utilizando algoritmos ARACNE y PCA-CMI, y la entrada a estos algoritmos se toma del desafío DREAM3.

El formato de los datos de entrada se muestra en la imagen.

Ahora, de acuerdo con lo que estudié, una matriz de expresión genética tiene sus filas que representan genes, las columnas representan muestras como tejidos o condiciones experimentales y los números en cada célula se refieren al nivel de expresión de un gen en particular en la muestra en particular.

Y esa expresión genética es el proceso en el que la información de un gen se sintetiza para obtener productos genéticos. El proceso de expresión génica es que se somete a un proceso de transcripción en el que un factor de transcripción se adhiere al gen y luego da como resultado la formación del producto génico.

Pero los datos de entrada aparentemente muestran interacciones gen-gen.

Como resultado de esto, estoy extremadamente confundido.

Cualquier tipo de ayuda será muy apreciada. Gracias.


No sé nada de tus algoritmos. Pero intentaré explicarle el formato de los datos que se le proporcionaron. No conozco su experiencia en biología, así que asumiré que no es su campo de especialización y haré algunas simplificaciones del tema.

¿Qué es la expresión genética?
Para comprender qué es una expresión genética, debe comprender qué es un gen:

Un gen es una secuencia en el ADN (compuesta por 4 bases A, T, C y G) que puede ser transcrita por una proteína, en su contexto diremos que siempre comienza con un codón de inicio (un codón es un triplete de ADN bases) y se detiene con un codón de terminación. Suele tener unas mil bases de largo. La transcripción le dará un ARN, y ese ARN se puede traducir (observe la diferencia con la transcripción) en una proteína completamente nueva.

Ahora, la expresión genética es una medida de la cantidad de ARN del gen que está buscando. En una célula puede tener alrededor de 10000-100000 copias de ese ARN; el recuento sin procesar no es realmente estable, ya que puede extraer dos o tres celdas y cambiará su "expresión". La mayoría de las veces normalizamos el recuento por el recuento de un grupo de genes conocidos llamados genes de mantenimiento. La particularidad de estos genes es que su expresión es bastante estable.

Las cifras que tiene son una relación entre las copias de ARN de su gen de interés y las copias de ARN de un gen estable (en términos de expresión).

¿Qué significan G1 (- / -) y wt?

Por lo general, cuando nosotros (biólogos) llamamos a una muestrapesosignificatipo salvaje, en otras palabras, un individuo normal. G1 (- / -) significa que esta muestra es de un individuo con el gen G1 inactivo (podría obtenerse mediante modificación genética).

¿Qué es una interacción gen-gen?
Primero, un ejemplo de interacción: imaginemos un gen que codifica un potenciador (refuerzo) de la transcripción. la presencia de este gen permite que otro gen se exprese en la célula, si este gen no está presente o no se transcribe, el otro gen tampoco se expresará.

¿Cómo podemos ver la interacción allí?

Veamos la línea uno, el control (individuo normal). Vemos que G4 (columna) está casi inexpresado (0.07). En condiciones normales, este gen no se expresa. Ahora veamos el mutante G1 (- / -) y G6 (- / -), vemos que la expresión de G4 está aumentando (0.37; 0.23) en comparación con el control (wt). Podemos suponer que G1 y G6 actúan como inhibidores del gen G4.


La respuesta corta es sí, por supuesto que hay interacciones gen-gen. No estoy seguro de cuál sería el objetivo del experimento si no lo hubiera.


Gene2vec: representación distribuida de genes basada en la coexpresión

La descripción funcional existente de los genes es categórica, discreta y, en su mayoría, a través de un proceso manual. En este trabajo, exploramos la idea de incrustación de genes, representación distribuida de genes, en el espíritu de incrustación de palabras.

Resultados

A partir de una forma pura basada en datos, entrenamos una representación vectorial de 200 dimensiones de todos los genes humanos, utilizando patrones de coexpresión de genes en 984 conjuntos de datos de las bases de datos GEO. Estos vectores capturan la relación funcional de los genes en términos de recuperación de vías conocidas: el producto interno promedio (similitud) de los genes dentro de una vía es 1,52 veces mayor que el de los genes aleatorios. Usando t-SNE, produjimos un mapa de coexpresión de genes que muestra concentraciones locales de genes específicos de tejido. También ilustramos la utilidad de los vectores de genes incrustados, cargados de información rica sobre patrones de coexpresión de genes, en tareas como la predicción de la interacción gen-gen.

Conclusiones

Propusimos un método de aprendizaje automático que utiliza la coexpresión de genes en todo el transcriptoma para generar una representación distribuida de genes. Además, demostramos la utilidad de nuestra distribución al predecir la interacción gen-gen basada únicamente en los nombres de los genes. La representación distribuida de genes podría ser útil para más aplicaciones bioinformáticas.


Uso del aprendizaje automático para medir la relación entre genes: un modelo de múltiples funciones

Medir la relación condicional entre un par de genes es una técnica fundamental y sigue siendo un desafío significativo en biología computacional. Dicha relación puede evaluarse mediante similitudes de expresión génica mientras se sufren altas tasas de falsos descubrimientos. Mientras tanto, otros tipos de características, por ejemplo, las similitudes basadas en el conocimiento previo, solo son viables para medir la relación global. En este artículo, proponemos un nuevo modelo de aprendizaje automático, denominado Relación de características múltiples (MFR), para medir con precisión la relación condicional entre un par de genes mediante la incorporación de similitudes de expresión con similitudes basadas en conocimientos previos en un criterio de evaluación. La MFR se utiliza para predecir las interacciones gen-gen extraídas de las bases de datos COXPRESdb, KEGG, HPRD y TRRUST mediante la validación cruzada de 10 veces y la verificación de la prueba, y para identificar las interacciones gen-gen recopiladas de las bases de datos GeneFriends y DIP para su verificación adicional. Los resultados muestran que MFR logra los valores más altos de área bajo la curva (AUC) para identificar interacciones gen-gen en los conjuntos de datos de desarrollo, prueba y DIP. Específicamente, obtiene una mejora del 1,1% en promedio de precisión para detectar pares de genes con similitudes de expresión alta y similitudes basadas en conocimiento previo en todos los conjuntos de datos, en comparación con otros modelos lineales y métodos de análisis de coexpresión. En cuanto a la construcción de redes de genes del cáncer y la predicción de la función de los genes, MFR también obtiene los resultados con más significados biológicos y mayor precisión de predicción promedio que otros modelos y métodos comparados. Se puede acceder a un sitio web del modelo MFR y conjuntos de datos relevantes en http://bmbl.sdstate.edu/MFR.

Declaracion de conflicto de interes

Los autores declaran no tener conflictos de intereses.

Cifras

Flujo de trabajo del modelo MFR. Cinco…

Flujo de trabajo del modelo MFR. Hay cinco pasos en el flujo de trabajo, que incluyen ( I…

Estructura del modelo MFR.…

Estructura del modelo MFR. El modelo se basa en SVM y utiliza ...

( A ) ROC de nueve modelos o métodos para identificar interacciones gen-gen ...

ROC de nueve modelos o métodos para identificar interacciones gen-gen en el (…

Se predice que las vías metabólicas ...

Se predice que las vías metabólicas están directamente influenciadas por el aumento de glutamina y glutamato ...

Número de vías metabólicas previstas ...

Número de vías metabólicas que se predice que están directamente influenciadas por el aumento de glutamina y ...

Porcentajes de emparejamiento L0 y L1 ...

Porcentajes de genes seleccionados que coinciden con L0 y L1 en los nueve genes metabólicos de KEGG ...


Resultados y discusión

La integración de nuevos genes en redes GGI es un proceso evolutivo gradual.

Un desafío técnico para examinar el papel de los nuevos genes en la evolución de las redes de genes es detectar redes GGI confiables en su distribución global. Teniendo en cuenta el crecimiento técnico actual y la evaluación de métodos y datos que revelan GGI, construimos y analizamos tres tipos diferentes de datos en un intento de identificar redes GGI robustas (ver Métodos): las interacciones proteína-proteína humana (hPPI), el gen humano co- redes de expresión (hGC) y las interacciones proteína-proteína de ratón (mPPI).

La segunda línea de datos que usamos para investigar la correlación entre la evolución de nuevos genes, como investigamos extensamente anteriormente, y la evolución de las redes GGI como lo revelan las tres bases de datos diferentes anteriores son los tiempos de divergencia de vertebrados mejor resueltos, respaldados por la paleontología, la evolución del organismo. análisis y evolución molecular, y el árbol filogenético de vertebrados resuelto de manera más confiable durante décadas de extensos estudios sobre especies de vertebrados [2, 13]. Estos datos proporcionaron estimaciones excelentes para las edades de los nuevos genes, incluidos los generados por la duplicación basada en el ADN, la duplicación basada en el ARN y de novo origen durante la evolución de los vertebrados en el linaje hacia los humanos y el ratón, como identificamos previamente en la comparación comparativa del genoma.

En primer lugar, investigamos la correlación entre las edades de los genes y sus características topológicas en las redes GGI descritas en las cuatro bases de datos que construimos. Sorprendentemente, todos estos tipos de datos de la red GGI revelaron tasas y patrones muy similares de nuevos genes integrados en las redes. Por lo tanto, nos centraremos en humanos para la presentación y discusión de los resultados mientras presentamos los hallazgos relevantes en el genoma del ratón.

Primero analizamos la red de interacciones proteína-proteína humana (hPPI) mediante la explotación y modificación de un conjunto de datos de interacciones de proteínas experimentales integradoras [14] (con el umbral de puntuación de confianza de 0,68, ver Métodos). La red PPI humana reconstruida reveló una estructura topológica aproximadamente libre de escala [15] con un exponente de grado de 1,49 que define una distribución de conectividad (o grados) según la ley de potencias (Archivo adicional 1: Figura S1 y Archivo adicional 2: Tabla S1) . Luego etiquetamos el gen (equivalente a su proteína codificada) con la edad de cada nodo en la red PPI, determinada por un índice de edad para los genes que se originaron en cada período de evolución a lo largo de la filogenia bien resuelta de los vertebrados (Fig.1a yb ), que fueron recuperados de una base de datos ampliamente utilizada [2, 13] (Ver Métodos). El análisis en la red PPI anterior indicó una correlación significativa y fuerte (prueba de regresión polinomial, R 2 = 0.8834, Fig.2a) entre las edades de los genes y su conectividad (o grado, es decir, el número de socios que interactúan) en la red PPI, revelando un proceso evolutivo gradual en el que se integran nuevos genes en la red PPI, que se hizo eco el procedimiento evolutivo de nuevas estructuras de genes [16]. Este hallazgo sugiere que a lo largo de la evolución de los vertebrados hubo un proceso rápido y no robusto, inesperado para el pensamiento convencional, en el que se integraron nuevos genes en las redes GGI. Durante este proceso de 370 millones de años (MY, rama 1-12, Fig. 1a) que examinamos, observamos que 5.710 nuevos genes se integraron en las redes GGI. Además, este proceso mostró un patrón evolutivamente significativo: los nuevos genes comenzaron, a una edad temprana, a integrarse en redes para formar ramas nuevas y menos conectadas, sin embargo, con el transcurso del tiempo evolutivo, a medida que los genes envejecen, adquirieron más interacciones. Enlaces.

Diagrama esquemático para mostrar la integración en red de nuevos genes que se originan en diversas ramas filogenéticas hacia humanos. a Árbol filogenético de vertebrados hacia humanos junto con ramas y tiempos de divergencia en millones de años desde el presente (myr). También se enumeró el número de genes que se originan en cada rama filogenética. B Un sub-gráfico de la red PPI humana para mostrar la incorporación de nuevos genes de diferentes épocas de origen.

Patrones topológicos de la red GGI de genes humanos relacionados con sus tiempos de divergencia. a Distribución de la conectividad de la red PPI (número de interacciones) para genes de diferentes ramas filogenéticas. B Distribución de genes de diferentes ramas filogenéticas de otra conectividad de red PPI reconstruida con un umbral más estricto. C Distribución de la intermediación promedio (basada en log10) dentro de cada grupo de genes en la red PPI. D Distribución de la conectividad de red GC (coexpresión de genes) para genes de diferentes ramas filogenéticas. Las barras de error muestran el error estándar de la media para cada grupo de genes, y la línea discontinua indica la correlación de regresión polinomial entre las centralidades de la red (es decir, la conectividad, la intermediación) de los genes y sus tiempos de divergencia. Los números cerca de cada punto de datos son asignaciones de ramas filogenéticas para cada grupo de genes. El tiempo de divergencia de cada grupo de edad de genes se asignó como el punto de tiempo medio para cada rama y la rama más antigua (rama 0) se establece arbitrariamente como 500 myr

Para evitar el posible sesgo creado por el umbral de puntuación de confianza elegido para la reconstrucción de la red PPI humana, volvimos a analizar una nueva red PPI humana utilizando un límite más estricto (con una puntuación de confianza mínima de 0,77, consulte Métodos y archivo adicional 2: Tabla S1) y encontramos el mismo patrón evolutivo (prueba de regresión polinomial, R 2 = 0,7909, figura 2b). La conclusión basada en la conectividad está respaldada por el análisis de otro parámetro estadístico que describe las centralidades de la red de genes, es decir, la intermediación, que midió la importancia de un nodo que conecta todos los demás nodos (prueba de regresión polinomial, R 2 = 0,9021, figura 2c). Con base en la red de PPI humana reconstruida a partir de un recurso de curación manual experimental diferente (consulte Métodos y archivo adicional 3: Figura S2A), es decir, Base de datos de referencia de proteínas humanas (HPRD) [17], se llegó a la misma conclusión que se describió anteriormente (Archivo adicional 3: Figura S2B).

Para un análisis más riguroso de los tipos de datos de GGI independientes, analizamos otra red de GGI humana denominada red de coexpresión génica (hGC) (consulte Métodos y archivo adicional 3: Figura S2C y D), lo que refleja las correlaciones de los perfiles de expresión génica en una serie de tejidos humanos [18]. El mapeo de las posiciones topológicas de nuevos genes en humanos en la red GC reveló una correlación similar entre las edades y la conectividad de los genes (prueba de regresión polinomial, R 2 = 0.6527, Fig. 2d), revelando la misma tendencia evolutiva de nuevos genes que comienzan con baja conectividad y evolucionan para convertirse en centros altamente conectados. Además, también exploramos los patrones evolutivos de la red PPI humana basada en otro conjunto de datos de la edad de los genes [19] (Archivo adicional 4: Figura S3A), que estimó las edades de los genes en el genoma humano basándose en una distribución filogenética independiente y de larga distancia. Se mostró un mismo patrón evolutivo de nuevos genes (archivo adicional 4: Figura S3B), y se demostró además que nuestra conclusión era independiente de los conjuntos de datos de datación por edad genética. Por lo tanto, diferentes datos de GGI, es decir, datos de PPI y GC, y diferentes datos de datación de genes, todos apoyaron las mismas conclusiones que se informaron anteriormente.

Además, aplicamos un protocolo similar para el análisis de las redes GGI de ratón reconstruidas a partir de datos de ratón PPI (mPPI), mediante la integración de la mayoría de los conjuntos de datos de interacción experimental en línea disponibles (archivo adicional 5: Tabla S2). El análisis integrativo de la información sobre la edad del gen del ratón [13] (archivo adicional 6: Figura S4A) y los datos topológicos de PPI (archivo adicional 6: Figura S4B) conducen a la misma conclusión (prueba de regresión polinomial, R 2 = 0,6232, archivo adicional 6: Figura S4C) determinado por los análisis de la red GGI humana. Estos datos sugieren que una integración gradual de nuevos genes en las redes GGI es un proceso evolutivo compartido en los linajes de primates y roedores de mamíferos.

Dada la observación de que la adquisición de interacciones genéticas es un procedimiento gradual dependiente del tiempo, investigamos más a fondo si este proceso se produjo a un ritmo constante. Nuestro resultado mostró que los nuevos genes podrían establecer socios de enlace a una tasa alta (interacciones adquiridas por millón de años) en la etapa inicial de su origen. Después de eso, la tasa disminuyó drásticamente y finalmente se estabilizó (Fig. 3a yb), lo que sugiere que la adquisición de roles biológicos de nuevos genes es un proceso rápido durante la evolución temprana, pero a medida que los genes envejecen, el espectro de funciones se diversifica a un ritmo tasa mucho más baja. Aprovechando la alta cobertura de los datos de PPI humanos (archivo adicional 2: Tabla S1), posteriormente nos enfocamos en el análisis de los patrones de evolución tanto topológicos como funcionales de nuevos genes basados ​​en nuestra primera red PPI humana construida.

Tasa promedio de socios de enlace en evolución (interacciones / myr) para genes de diferentes ramas filogenéticas basadas en la red PPI humana (a) y la red PPI del ratón (B). La línea discontinua indica la correlación de regresión de potencia entre las tasas de evolución de las interacciones de los genes y sus tiempos de divergencia. Los números cerca de cada punto de datos son asignaciones de ramas filogenéticas para cada grupo de genes. El tiempo de divergencia de cada grupo de edad de genes se asigna como el punto de tiempo medio para cada rama. Y la rama más antigua (rama 0) se establece arbitrariamente como 500 myr

Para visualizar mejor el proceso de integración, mapeamos los genes en las redes GGI de mamíferos en función de su conectividad, donde los genes altamente conectados formaban el núcleo de la red PPI humana y los genes con baja conectividad se ubicaban en la periferia de la red (Fig.4) , que reveló una clara correlación entre la edad de los genes y la ubicación en las redes GGI de mamíferos. Sorprendentemente, se descubrió que una pequeña fracción de genes jóvenes evolucionó hacia el núcleo de la red, mientras que la mayoría de los genes de origen reciente, especialmente los genes específicos de primates (rama 8-12, figura 1a), se encuentran en las regiones exteriores de la red. . A medida que aumenta la edad de los genes, tienden a aparecer con mayor frecuencia en el núcleo de la red más densamente conectado.

Ubicaciones de genes en la red PPI en relación con sus tiempos de divergencia. Las ubicaciones de la red de genes se clasifican en cinco capas distintas según el rango de centralidades de grado. Específicamente, los genes que tienen el 20% superior de centralidades de grado se asignan al núcleo de la red (genes con muy alta conectividad) y aquellos con el 20% inferior de centralidades de grado en la periferia de la red (genes con muy baja conectividad). La misma regla se aplica para la asignación de las tres capas de red del medio. El eje x muestra las ramas filogenéticas para cada grupo de genes, y el eje y indica la categorización de genes de acuerdo con las especificaciones anteriores, y el eje z muestra el porcentaje de genes dentro de cada grupo de edad ubicado en las categorías correspondientes.

Los nuevos genes adquieren gradualmente funciones pleiotrópicas y funciones esenciales

Como la mayoría de las características biológicas surgen de las complejas interacciones entre los numerosos componentes de la célula [4], la integración de nuevos genes en la red GGI podría indicar la aparición de nuevas funciones para estos nuevos genes. Además, la evolución gradual de más interacciones en las redes GGI podría señalar el proceso de nuevos genes que adquieren funciones pleiotrópicas. Esta hipótesis podría ser confirmada indirectamente por la fuerte correlación de la conectividad de los genes y sus tiempos de divergencia (Fig.2a) y una fuerte correlación lineal entre la conectividad de los genes y sus amplitudes de expresión a ambos niveles de expresión de ARN (prueba de correlación lineal de Pearson, R 2 = 0,9384, Fig.5a) y nivel de expresión de proteínas (prueba de correlación lineal de Pearson, R 2 = 0,9457, figura 5b). Por lo tanto, podría sugerir que los nuevos genes evolucionan gradualmente patrones de expresión más amplios y, por lo tanto, adquieren funciones pleiotrópicas, a medida que evolucionan gradualmente a más socios de enlace (Fig.2a), y los genes con más socios de enlace tienden a tener patrones de expresión más amplios (Fig.5a yb). .

Amplitud de expresión de genes con respecto a su conectividad de red PPI y tiempos de divergencia. a Número medio de tejidos con expresión de genes con varias conectividad de red PPI según los datos del nivel de expresión de RNA-seq. B Número medio de tejidos con expresión de genes con varias conectividad de red PPI según los datos del nivel de expresión de proteínas. Las barras de error muestran el error estándar de la media para cada grupo de genes, y la línea continua indica la correlación de regresión lineal entre la conectividad de red de los genes y sus amplitudes de expresión. C Número medio de tejidos con expresión de genes de diferentes ramas filogenéticas según los datos del nivel de expresión de RNA-seq. D Número medio de tejidos con expresión de genes de diferentes ramas filogenéticas según los datos del nivel de expresión de proteínas. La línea discontinua indica la correlación de regresión polinomial entre los tiempos de divergencia de los genes y sus amplitudes de expresión. La asignación de rama está etiquetada cerca de cada punto de datos. La asignación de edad para cada rama sigue la Fig.1

Para verificar esta hipótesis de manera directa, calculamos y comparamos los patrones de expresión tisular de genes a lo largo de diferentes ramas filogenéticas. Nuestros resultados mostraron que los genes evolucionaron gradualmente patrones de expresión tisular más amplios a nivel de expresión de ARNm a partir de datos de ARN-seq [20] (prueba de correlación de regresión polinomial, R 2 = 0,96538, Fig. 5c), que indica la adquisición de funciones pleiotrópicas más fuertes. Uno podría disentir del papel del ARNm como ejecutante de funciones biológicas, nuestro análisis sobre los datos de perfiles de expresión de proteínas [20] llegó a la misma conclusión (prueba de regresión polinomial, R 2 = 80038, figura 5d). De acuerdo con el proceso de integración topológica en red de nuevos genes (Figs. 2a y 4), nuestros resultados mostraron un proceso gradual para que nuevos genes evolucionen roles de función pleiotrópica, reflejados por los patrones de expresión tisular. Estos hallazgos también sugieren limitaciones funcionales en los nuevos genes que se originan [21], ya que generalmente se muestran con patrones de expresión muy estrechos y específicos [22], como la expresión testicular [23].

Una característica crítica de las redes sin escala es la existencia de nodos concentradores o nodos altamente conectados [24]. Los nodos centrales son componentes esenciales en varias redes [25] y están sujetos a fuerzas evolutivas concentradas que dan forma a las estructuras de la red para dar lugar a funciones esenciales [3, 26]. Para explorar la contribución de nuevos genes en la remodelación de la red GGI, investigamos las distribuciones porcentuales de los genes centrales (con grados de interacción no menores de 6) que se originan en diferentes ramas filogenéticas en la red PPI humana. Los datos revelaron una fuerte correlación entre las edades de los genes y las fracciones de los genes centrales (prueba de correlación de regresión polinomial, R 2 = 0,8016, figura 6a). En particular, encontramos una alta proporción de genes hub (16%) que surgen en la rama específica humana originada más recientemente (Rama 12, Fig.1a), y este número aumentó gradualmente con la edad de los genes, alcanzando un máximo de alrededor del 53% para la genes originarios más tempranos (rama 0, genes que surgen antes de la división de los vertebrados, Fig. 1a). Este fenómeno indica el proceso gradual de nuevos genes que evolucionan para convertirse en centros de redes y remodelan las redes de interacción de genes originales.

Fracción de genes topológica y funcionalmente esenciales para grupos de genes de diferentes tiempos de divergencia. a Fracción de genes hub en la red PPI dentro de grupos de genes de diferentes tiempos de divergencia. Los genes concentradores se definen como genes con conectividad de red superior al nivel medio (grado de interacción & gt = 6). La asignación de rama está etiquetada cerca de cada punto de datos. La asignación de edad para cada rama sigue la Fig. 1. La línea discontinua indica la correlación de regresión polinomial entre los tiempos de divergencia de los genes y las fracciones de los genes hub. B Fracción de genes esenciales en lo que respecta a la conectividad de su red PPI. La línea continua indica la correlación de regresión lineal entre la conectividad de la red PPI de genes y las fracciones de genes esenciales dentro de cada grupo de genes. C Fracción de genes esenciales en la red PPI dentro de grupos de genes de diferentes tiempos de divergencia. La línea discontinua indica la correlación de regresión polinomial entre los tiempos de divergencia de genes y las fracciones de genes esenciales.

Se ha informado de que existe una relación entre las características topológicas de los genes y las funciones biológicas [26, 27]. Más específicamente, los genes con alta conectividad de red tienden a ser funcionalmente esenciales [26] (Fig. 6b). Dada la observación anterior de que los nuevos genes evolucionan gradualmente muchas interacciones para convertirse en centros de red, es razonable inferir que la adquisición de esencialidad funcional para nuevos genes en genomas humanos puede seguir un proceso evolutivo escalonado. A través de la meticulosa recopilación y análisis de fuentes de datos de esencialidad de genes humanos (archivo adicional 7: Tabla S3, ver Métodos), exploramos la relación entre la esencialidad de genes y el tiempo de origen (Fig. 6c). Fue inesperado que una proporción de genes recién originados, especialmente genes que surgieron después de la rama 6 (hace aproximadamente 80 millones de años), hayan desarrollado funciones esenciales, aunque más genes que se originan en períodos más antiguos son funcionalmente esenciales, y la fracción de genes esenciales aumenta con el transcurso del tiempo evolutivo. Junto con las observaciones antes mencionadas de la topología de la red, nuestro análisis demostró una clara tendencia de que los nuevos genes humanos evolucionan gradualmente para ser topológicamente centrales y funcionalmente esenciales, y adquieren la capacidad de remodelar las redes GGI.

Se descubre que los genes centrales específicos para humanos tienen funciones potenciales de desarrollo cerebral

El notable desarrollo del cerebro en especies de linaje de primates, especialmente en humanos, es un sello distintivo decisivo que las diferencia de otros organismos [28]. Estudios recientes han reportado roles importantes de nuevos genes en la evolución de rasgos importantes relacionados con el cerebro humano. Por ejemplo, se detectó que un exceso de genes jóvenes (es decir, específicos de primates) en el genoma humano son reclutados en el desarrollo temprano del cerebro humano [2] funciones de fortalecimiento potencial de la conexión neorónica cerebral por SRGAP2 [29, 30] el funciones de la piel y el cerebro por CHRFAM7A [31, 32]. Además, investigamos la correlación de los genes jóvenes en humanos que tienen evidencia de funcionamiento en el desarrollo del cerebro con sus estructuras topológicas en las redes GGI.

A través del análisis integrador de los datos del patrón de expresión cerebral de estos genes jóvenes [2] y sus características topológicas de red basadas en datos de la red de PPI humanos, no encontramos sesgos significativos en los porcentajes de genes hub (con grados mínimos de interacción de 6) entre tres diferentes categorías de expresión cerebral de genes jóvenes (prueba exacta de Fisher, feto frente a adulto: PAG valor = 0,435, adulto frente a imparcial: PAG valor = 0,3323, figura 7). En otras palabras, los genes jóvenes con conectividad de red diversa contribuyen igualmente durante las etapas tempranas y tardías del desarrollo del cerebro humano.

Comparación de topologías de red PPI para genes jóvenes con diversos patrones de expresión cerebral. Esta figura muestra la distribución porcentual de genes concentradores jóvenes y genes no concentradores jóvenes dentro de diferentes categorías de patrones de expresión cerebral. La diferencia de significación estadística se calculó mediante la prueba exacta de Fisher

Más curiosamente, se encontraron cuatro genes centrales específicos de linaje humano (los genes que se originaron solo en el linaje humano desde su divergencia y, por lo tanto, existen solo en el genoma humano) con evidencia clara de expresión en el cerebro humano (Archivo adicional 8: Tabla S4). Como no había una pista directa en la literatura sobre sus funciones en el desarrollo cerebral de estos cuatro genes, llevamos a cabo un estudio de 'culpabilidad por conexión' para investigar la evidencia reportada sobre los roles en la función cerebral de sus socios de enlace directo mediante la curación manual de los primeros estudios. (Archivo adicional 9: Tabla S5). Por ejemplo, se informó que CCT4, una subunidad de chaperonina que contiene TCP1, está involucrada en el desarrollo de un trastorno de disfunción cerebral, la enfermedad de Alzheimer [33], y también se demostró que CCT4 (ID de gen: 10575) es un socio de interacción directa de uno de los genes concentradores jóvenes - FAM86B2 (identificación del gen: 653333, Fig. 8). En conjunto, encontramos que el 62,5% (10 de 16) y el 53,3% (8 de 15) de los socios de enlace de la primera capa para dos de los cuatro genes centrales, que estaban sesgados en el cerebro del feto, estaban involucrados en el desarrollo del cerebro. (Fig.8 y archivo adicional 9: Tabla S5). Mientras que para los otros dos genes hub no sesgados, se demostró que el 24,4% (10 de 41) y el 50% (3 de 6) funcionan en el desarrollo del cerebro en la literatura anterior (Fig. 8 y archivo adicional 9: Tabla S5). Como los genes con funciones similares tienden a estar dentro del mismo grupo de redes [34], esta evidencia sugiere que estos cuatro genes centrales específicos de linaje humano también podrían estar con funciones asociadas en el desarrollo del cerebro humano.

Genes concentradores específicos de linaje humano y sus socios de enlace de primer nivel. Esta figura ilustra dos genes concentradores específicos del linaje humano sesgados en el cerebro del feto (arriba) y dos genes concentradores específicos del linaje humano no sesgados (abajo) y sus socios de interacción directa de la red PPI humana. Se marcan los genes sesgados en el cerebro del feto (azul), el cerebro de un adulto (rojo) y los no sesgados (naranja) entre el feto y el cerebro de un adulto. En la literatura anterior se ha informado que los genes (en círculos cuadrados) delineados en el rectángulo punteado verde tienen algunas funciones relacionadas con el desarrollo del cerebro

Múltiples mecanismos impulsan la evolución de la red GGI humana

La propiedad más importante de las redes complejas, incluidas las redes biológicas, es la distribución de grados de la ley de potencias [24] (Archivo adicional 1: Figura S1), o la denominada característica sin escala. Siguiendo el modelo clásico de Barabasi-Albert (BA) [35], este modelo de apego preferencial también se aplicó para tener en cuenta la característica libre de escala de las redes biológicas [36], que afirma que los nuevos genes originarios tienden a interactuar con nodos bien conectados . Sin embargo, el mayor desafío para este modelo son las características distintivas de las redes biológicas: la duplicación como fuente dominante de la evolución de la red [37]. Por lo tanto, se propuso otro modelo biológicamente motivado llamado modelo de duplicación-divergencia [38, 39], que explica tanto la duplicación de genes como la subsiguiente pérdida de interacciones heredadas. Sin embargo, la adquisición de nuevos enlaces, excepto las interacciones heredadas, no se consideró en este modelo.

Para abordar este problema desde un aspecto evolutivo, definimos genes específicos de primates (rama 8-12 como se muestra en la Fig. 1a) como genes jóvenes y genes que se originaron antes de este período de tiempo como genes viejos. Entre estos genes jóvenes, el 95% de ellos se crearon a partir de mecanismos basados ​​en la duplicación (ya sea de duplicación a nivel de ADN o duplicación a nivel de ARN) (archivo adicional 10: Figura S5), que está en línea con el argumento clásico de que la duplicación es la fuente dominante de evolución [37]. En consecuencia, estos genes jóvenes heredaron en promedio un 27% de los socios de enlace de sus genes parentales (Fig. 9a), que es estadísticamente mayor (18 veces) que el de los pares de genes aleatorios (Fig. 9b). Este hallazgo indicó la herencia de parejas que interactúan de nuevos genes de sus copias parentales [5]. Exploramos aún más el patrón de los genes jóvenes para establecer nuevos socios de enlace, eliminando esas interacciones compartidas con sus genes parentales. A diferencia del patrón en levaduras [10], encontramos que los genes jóvenes tienden a preferir como nuevos patrones de enlace los genes con altas centralidades topológicas (pruebas de Chi-cuadrado, Grado: PAG value & lt2.2e-16 Intermediación: PAG valor & lt2.2e-16, Fig. 10a) y edad avanzada (prueba exacta de Fisher, PAG value = 0.001247, Fig. 10b), iluminando un proceso de enriquecimiento enriquecedor [35] para que nuevos genes desarrollen nuevos vínculos. Por lo tanto, nuestros resultados indican la relevancia biológica del modelo de duplicación-divergencia, y también muestran el apego preferencial para adquirir nuevos enlaces para nuevos genes de origen. Este hallazgo proporcionó datos empíricos y una nueva perspectiva para el desarrollo de nuevos modelos evolutivos de redes biológicas en el futuro.

Herencia de socios de enlace para genes jóvenes basados ​​en la duplicación (genes específicos de primates). a El estado de herencia para pares de genes duplicados "reales" en el contexto de las redes PPI. B El estado de herencia para pares de genes aleatorios en el contexto de redes PPI. Los números dentro de los círculos muestran la conectividad de red PPI promedio para los genes de los padres o los genes de los niños, y los porcentajes indican las fracciones de los socios de enlace comunes compartidos por los genes de los padres y los genes de los niños.

Apego preferencial a nuevos socios de enlace de genes jóvenes (genes específicos de primates) después de eliminar las interacciones compartidas con sus genes parentales. a Preferencia en las centralidades de la red (Grado y Intermediación) para los nuevos socios interactuantes de los genes jóvenes. Las centralidades se clasifican y dividen en tres niveles: alto, moderado y bajo, cada uno con el mismo número de genes. B Preferencia de los genes jóvenes por los tiempos de divergencia de nuevos socios vinculantes. El número antes de la línea inclinada indica el número "real" de socios vinculantes, mientras que el número que sigue es una expectativa aleatoria.

En el presente estudio, informamos de un proceso de integración gradual de nuevos genes en redes GGI ancestrales (Fig. 2). Una pregunta intrigante es qué mecanismos subyacen a la evolución de estas nuevas redes integradas de genes, o por qué los nuevos genes son generalmente menos centrales en estas redes GGI. Basándonos en estos datos, en primer lugar, propusimos que la nueva evolución de la red impulsada por genes en humanos es un proceso limitado por mutaciones debido al pequeño tamaño efectivo de la población [40]: ya que es un proceso dependiente del tiempo para que los nuevos genes se adapten a el genoma y las redes GGI mediante el establecimiento de nuevos socios de enlace.

Además, se encontró que los nuevos genes originarios eran particularmente más cortos en la longitud de la proteína (archivo adicional 11: Figura S6A) [10] y, en consecuencia, solo podían proporcionar una superficie de interacción limitada para posibles socios interactuantes [41]. Desde el punto de vista de la evolución, los genes evolucionan gradualmente a una longitud de proteína más larga para obtener más interacciones, a medida que envejecen, y de hecho desempeñan un papel como un factor mecanicista no dominante. Sin embargo, encontramos que la longitud más corta de la proteína no fue un factor importante para determinar los vínculos, ya que observamos los mismos patrones para los conjuntos de datos de longitudes de proteínas controladas (archivo adicional 11: Figura S6B). Además, también se encontró que los genes nuevos se expresan en menos tejidos (Fig.5c yd) y niveles de expresión más bajos (Archivo adicional 11: Figura S6C), mientras que genes con patrones de expresión más amplios (Fig.5a yb) y niveles de expresión más altos (Archivo adicional 11: Figura S6D) tienden a tener más interacciones. Mecánicamente, las limitaciones tanto en la amplitud de expresión (Fig.5c yd) como en los niveles de expresión (archivo adicional 11: Figura S6C) de los nuevos genes que surgen solo podrían permitirles conectarse con genes expresados ​​en los mismos tejidos con un espacio de unión limitado, lo que obstaculizarlos aún más para que se conviertan en nodos de la red altamente conectados. Sin embargo, después de ser normalizados por nivel de expresión y amplitud, encontramos que dados los mismos niveles de expresión y amplitud, los genes antiguos todavía evolucionaron significativamente más enlaces que los genes jóvenes (archivo adicional 11: Figura S6E y F). Además, según el análisis anterior (Fig. 10), los genes más antiguos altamente conectados proporcionan a los nuevos genes más opciones para desarrollar nuevas vías hacia funciones ventajosas. Por lo tanto, llegamos a la conclusión de que, además de los elementos mecanicistas como las longitudes de las proteínas y los niveles de expresión que pueden desempeñar un papel mecanicista limitado, el tiempo evolutivo con la preferencia de ricos a ricos de nuevos socios de enlace ha contribuido significativamente a la aparición de la evolución observada. patrones de redes GGI que son impactados por fuerzas evolutivas de selección natural y mutación.

A pesar de la restricción general sobre nuevos genes para adquirir socios de enlace (Fig. 2), todavía encontramos una fracción de genes nuevos, especialmente genes jóvenes (genes específicos de primates, rama 8-12, Fig. 1a), que pueden evolucionar rápidamente en interacciones y aplastar contra el núcleo de la red (Fig. 4). Es tentador preguntarse qué "efecto de aptitud" [42] facilita la rápida adquisición de socios de enlace para estos nuevos genes. Para abordar este problema, exploramos las características de la secuencia de proteínas de esos genes concentradores jóvenes (con grados de interacción mínimos de 6) y genes no concentradores jóvenes. A pesar de que los genes concentradores jóvenes tienen una longitud de proteína ligeramente más corta, se encontró que tenían mayores proporciones de regiones desordenadas intrínsecas y de baja complejidad que los genes no concentradores jóvenes (Archivo adicional 12: Tabla S6). Las regiones de baja complejidad y desorden estructural crean más flexibilidad y adaptabilidad para unir socios distintos [41, 43]. Por lo tanto, estas características intrínsecas beneficiosas otorgan a estos genes una alta afinidad para adquirir rápidamente nuevas interacciones, convirtiéndose así en centros de red.


Materiales y métodos

Las medidas de cepas, genotipos y expresión génica fueron las de la ref. 7. Fusionamos marcadores adyacentes altamente correlacionados, para obtener un total de 526 marcadores (25). Para nuestro análisis normalizamos la media de los datos de expresión de 0 y la varianza 1. Para las etapas 1 y 2 de nuestro algoritmo, solo usamos datos de los 1.733 genes que mostraron una variación significativa (SD & gt0.25) en su nivel de expresión. Las categorías GO de www.yeastgenome.org con genes & gt5 se utilizaron para la evaluación de la función biológica.Los sitios de unión de factores de transcripción putativos se obtuvieron de http://fraenkel.mit.edu/yeast_map_2006.

Algoritmo GOLPH.

GOLPH es un procedimiento de varios pasos para identificar enlaces multilocus y pares de loci que interactúan. Describimos brevemente el algoritmo, difiriendo la explicación detallada a Texto SI. Dos características clave en GOLPH permiten la capacidad de identificar múltiples enlaces de locus. Primero, GOLPH permite la identificación de interacciones específicas de alelos en las que los QTL secundarios son específicos para el alelo en el locus primario. Esto contrasta con un QTL secundario que contribuye independientemente del alelo en el locus primario. Nuestro modelo se puede escribir como expresión y ∼ línea de base + hacha + αpor + (1 - α)cZ, α = 1 para X = POR y α = 0 por X = RM, donde X es el locus primario, y Y y Z son 2 loci secundarios.

En segundo lugar está el uso de la modularidad: en lugar de buscar QTL que interactúan en cada gen de forma independiente, agrupamos los genes en módulos basados ​​en los puntos críticos identificados para cada uno. Este paso aumenta en gran medida el número de enlaces detectados y reduce los artefactos de medición y el ruido.

Nivel 1.

La primera etapa de nuestro análisis aplica el análisis genético clásico (2, 28) para buscar la vinculación de los rasgos de expresión génica con un locus primario. Para cada gen y marcador, usamos un Welch t prueba estadística (29) y prueba de permutación con un límite estricto para evaluar la significancia del vínculo, con límites de 0,05 para el t prueba PAG valor y 10 −5 para la prueba de permutación. Debido a que es probable que los genes ligados a un marcador también tengan señales de ligamiento en marcadores vecinos, fusionamos picos pequeños con picos proximales más grandes en puntos calientes cromosómicos. Después de la fusión de picos, identificamos 44 puntos calientes de locus que se vinculan con al menos 5 genes para la etapa 2.

Etapa 2.

Para cada uno de los 44 módulos identificados en la etapa 1 y cada gen que se une a estos, dividimos los segregantes sobre la base de la herencia (ya sea por BY o RM) en el locus primario y analizamos de manera similar cada subgrupo en busca de loci secundarios adicionales. Este proceso se llevó a cabo de forma independiente para el alelo BY o RM en el locus primario. Los loci secundarios se consideran significativos si los t prueba PAG & lt0.05 y PAG & lt10 −4. Cada enlace secundario detectado define un iQTL representado como un árbol de decisión. El árbol resultante puede tener divisiones secundarias en el lado BY (derecho), el lado RM (izquierdo) o en ambos. Debido a que los loci cercanos se vinculan con conjuntos de genes superpuestos, fusionamos módulos iQTL similares (ver Texto SI). Después de eliminar los módulos que tienen genes & lt5, obtuvimos 91 módulos iQTL.

Etapa 3.

Como se discutió anteriormente, GOLPH usa la modularidad de la expresión génica para ganar potencia adicional. Sembramos nuestra búsqueda con el iQTL detectado mediante el uso de criterios muy estrictos en la etapa 2, asegurando que los loci seleccionados probablemente ejerzan una influencia reguladora causal en las transcripciones de genes. Repasamos los árboles de regulación uno por uno y evaluamos los 4.338 genes de nuestro conjunto para ese módulo. Cada árbol implica 2 pruebas independientes, dependiendo de la estructura del árbol. Para cada módulo, generamos una distribución de PAG valores sobre los 4.338 genes de forma independiente para cada una de las 2 pruebas anteriores. Se asigna un gen al módulo utilizando una tasa de descubrimiento falso (FDR) de todo el genoma del 1% (30) para ambas pruebas. Por lo tanto, nuestro umbral se adapta al número de genes y la fuerza de la señal de enlace para cada locus, por lo que un gran número de señales débiles que apuntan al mismo locus aumentan la importancia.

Anotación del módulo.

Para anotar biológicamente los módulos resultantes, calculamos el enriquecimiento hipergeométrico de todos los módulos frente a todas las anotaciones y realizamos una corrección FDR para múltiples hipótesis independientes. Consideramos valores de PAGcorregido & lt 0,005 para ser significativo.

Información adicional.

Para la visualización y el análisis interactivos de todos los módulos iQTL construidos, hemos generado un archivo formateado para su visualización con nuestra herramienta interactiva de análisis GENATOMY. *


La variabilidad de RE revela miles de dominios cis-reguladores

Para estudiar la coordinación de las ER, medimos sistemáticamente la correlación interindividual entre los picos de cromatina ubicados dentro de una ventana deslizante que abarca 250 picos. Esto reveló una correlación generalizada que decae rápidamente con la distancia, varía ligeramente entre pares de ensayo y muestra una mayor especificidad del tipo de célula en un rango largo (Fig. 1A y Fig. S10). Es importante destacar que esta correlación no es específica de estos datos porque también la observamos en un conjunto de datos independiente para neutrófilos del proyecto Blueprint (24) (fig. S11), con un grado de concordancia relativamente bueno (fig. S12). La correlación forma dominios bien delimitados que llamamos dominios cis-reguladores (CRD) (Fig. 1B) (19). Producimos un conjunto de llamadas de CRD en todo el genoma utilizando un algoritmo basado en agrupamiento jerárquico que agrupa de forma iterativa los picos de cromatina en CRD sobre la base de sus niveles de correlación (23). Este reagrupa el 40,9% (norte = 111.005) y 16,6% (norte = 45.062) de los picos de cromatina dentro de 12.583 y 10.442 CRD en LCL y fibroblastos, respectivamente.

(A) Mapa de todo el genoma de las correlaciones interindividuales cuadradas entre picos de cromatina cercanos (tonos de azul). Los cromosomas más grandes (chr) se dividen en varias filas. (B) Vista ampliada del área encuadrada en (A), una región que abarca 2000 picos de cromatina en el cromosoma 4. La correlación interindividual (tonos de azul) se da en el contexto de contactos Hi-C (escalados entre 0 y 1 tonos de rojo). Las llamadas CRD se muestran con triángulos negros, y las ubicaciones genómicas de TAD y CRD en la región se muestran con intervalos rojos y azules, respectivamente. Mbp, megapares de bases.

En el caso de los LCL, los CRD capturan la actividad coordinada en 13.872 (57,7%) y 55.059 (40,5%) de los supuestos promotores y potenciadores una vez que los picos de cromatina se colapsan en RE no superpuestos (fig. S13A). En promedio, un CRD contiene 5,6 RE, pero esto varía sustancialmente (44,6% con 2 RE y 14,2% con & gt10 RE fig. S13B). Como resultado, los CRD nos ayudan a estudiar la coordinación potenciador-promotor (fig. S14A): un promotor, en promedio, se coordina con 7,8 potenciadores [mediana (md) = 4, desviación estándar (sd) = 11,5], mientras que un potenciador con 1.9 promotores (md = 1, sd = 2.1 fig. S14B) está en línea con estimaciones previas (25). Sólo el 46,2% de los promotores se coordinan con su potenciador más cercano (fig. S14C), lo que confirma que los potenciadores no deben asignarse a los promotores basándose únicamente en la proximidad. Además, los potenciadores tienden a ubicarse en uno u otro lado de los promotores, como sugiere el enriquecimiento de los promotores en los límites de CRD (fig. S14D).

El análisis de los efectos específicos de alelos (ASE) en los picos de cromatina revela que la coordinación entre los RE se produce de una manera específica de haplotipo (17, 23). De hecho, encontramos que los distintos ER tienden a exhibir una coordinación de actividad haplotípica cuando pertenecen a los mismos CRD (fig. S15). Esto muestra que la coordinación entre las ER descubiertas a nivel de población ocurre en cis y se observa a nivel individual usando ASE. El mapeo de los CRD utilizando datos de población depende, por naturaleza, del tamaño de la muestra. Por lo tanto, submuestreamos los datos de LCL en grupos de 50 individuos para evaluar nuestro poder de descubrimiento y encontramos que 317 muestras de LCL proporcionan un poder razonable: la saturación se alcanza en términos del número de CRD descubiertos, mientras que más muestras delimitarían mejor su contenido de pico de cromatina (fig. S16).

En general, la correlación interindividual entre los picos de cromatina es capaz de revelar la actividad coordinada de una gran fracción de ER en el genoma, una coordinación que ocurre dentro de miles de CRD y define la forma en que los efectos genéticos afectan el panorama cis-regulador de los genes.


Resultados

Los resultados de nuestro estudio son consistentes con la predicción de que las especies más distantes son más divergentes en sus patrones de expresión génica. La expresión génica se correlacionó positivamente para todos los pares de especies, a menudo de manera bastante fuerte (tenga en cuenta que todas las medidas de GES fueron & gt0, Fig. 1). Sin embargo, la magnitud de estas correlaciones positivas tendió a disminuir a medida que aumentaba la PD entre los pares de especies (P1, Fig.1a, ρ = −0 · 27, PAG = 0 · 02). Aunque estábamos interesados ​​principalmente en la expresión génica entre especies cuando interactuaban, las especies también pueden diferir intrínsecamente en la expresión génica (es decir, en monocultivos), o pueden diferir en la forma en que regulan hacia arriba o hacia abajo la expresión génica en bicultura en relación con el monocultivo (estimado como el pliegue de registro cambia en TPM, 'logFC'). Por lo tanto, también probamos cómo la PD se relacionaba con la GES de especies cultivadas en monocultivo y con la GES de logFC. Observamos la misma tendencia general entre PD y GES, independientemente de si miramos el GES a través de monocultivos de pares de especies (Fig. 1b, ρ = −0 · 35, PAG = 0 · 07), el GES del logFC de especies cultivadas como biculturales (ρ = −0 · 28, PAG = 0 · 01), o la similitud de expresión de solo los genes candidatos en bicultura (ρ = −0 · 21, PAG = 0 · 07) o monocultivo (ρ = −0 · 18, PAG = 0 · 36). Este conjunto de análisis indica que, independientemente de las condiciones en las que se midió la expresión génica, o de la estimación particular de la expresión génica que se utilizó, las especies más distantes tenían mayores diferencias en sus patrones de expresión génica que las especies más estrechamente relacionadas.

Contrariamente a nuestra segunda predicción, cuando las especies eran más similares en la expresión génica (valores más altos de GES), la competencia entre ellas era más débil (paneles superiores de la Fig.2) y para otras especies, las interacciones facilitadoras se volvieron más comunes (paneles inferiores de la Fig.2) . El aumento de GES se asoció con una disminución en los coeficientes de interacción estimados a partir de los modelos Lotka-Volterra ajustados a la dinámica de la población (correlación de rango de Spearman de GES y αij por: C. acicularis Figura 2a, ρ = −0 · 72, PAG & lt 0 · 01, T. mínimo Figura 2b, ρ = −0 · 49, PAG = 0·04, Selenastrum capricornutum Figura 2c, ρ = −0 · 45, PAG = 0 · 05, y S. punctulatum Figura 2d, ρ = −0 · 79, PAG & lt 0 · 01, no se muestran las correlaciones no significativas). Esta tendencia también fue apoyada cuando investigamos la GES a través del transcriptoma para especies cultivadas por separado en monocultivo, o cuando investigamos la GES de genes candidatos en bicultura o en monocultivo (Tabla 1). Esto nuevamente indica que, independientemente de si consideramos una gran parte del transcriptoma o solo un conjunto de genes que se presume que son importantes en las interacciones de las especies, e independientemente de si investigamos la expresión génica en bicultura o en monocultivo, las especies con patrones de genes más similares la expresión tendía a mostrar una competencia más débil y, en algunos casos, una facilitación. En total, 13 de las 14 correlaciones significativas entre GES y la fuerza de interacción fueron negativas, lo que es significativamente mayor de lo esperado por casualidad (χ 2 = 10 · 29, PAG & lt 0 · 01).

Correlación especie / expresión genética Todos los genes en bicultura Todos los genes en monocultivo Genes candidatos en bicultura Genes candidatos en monocultivos
Chlorella sorokiniana 0·11 −0·25 −0 · 47a a La correlación es significativa en PAG ≤ 0·05.
−0 · 52a a La correlación es significativa en PAG ≤ 0·05.
Closteriopsis acicularis −0 · 72a a La correlación es significativa en PAG ≤ 0·05.
−0 · 76a a La correlación es significativa en PAG ≤ 0·05.
0·21 0·37
Cosmarium turpinii 0·23 0·16 0·42 0 · 59a a La correlación es significativa en PAG ≤ 0·05.
Pandorina charkowiensis −0·27 −0·14 −0 · 44a a La correlación es significativa en PAG ≤ 0·05.
−0·29
Scenedesmus acuminatus −0·26 −0 · 45a a La correlación es significativa en PAG ≤ 0·05.
−0·35 −0 · 69a a La correlación es significativa en PAG ≤ 0·05.
Selenastrum capricornutum −0 · 45a a La correlación es significativa en PAG ≤ 0·05.
0·009 0·22 −0·15
Staurastrum punctulatum −0 · 72a a La correlación es significativa en PAG ≤ 0·05.
−0·31 −0·009 −0 · 38b B La correlación es significativa con 0 · 05 & lt PAG & lt 0 · 1.
Mínimo de tetraedro −0 · 49a a La correlación es significativa en PAG ≤ 0·05.
−0 · 41b B La correlación es significativa con 0 · 05 & lt PAG & lt 0 · 1.
−0 · 55a a La correlación es significativa en PAG ≤ 0·05.
0·07
  • a La correlación es significativa en PAG ≤ 0·05.
  • B La correlación es significativa con 0 · 05 & lt PAG & lt 0 · 1.

Contrariamente a nuestra tercera predicción, encontramos que GES también se asoció con una mayor probabilidad de coexistencia entre pares de especies. Esto se ilustra en la Fig.3, que muestra pares de especies en las que una o ambas especies tenían un coeficiente de interacción negativo (puntos rojos), lo que indica que al menos una especie se benefició de la presencia de otra especie (es decir, facilitación). La similitud de expresión génica fue un predictor significativo tanto de la probabilidad de interacciones positivas entre especies (β = 9 · 60, PAG = 0 · 005), así como la probabilidad de convivencia (β = 9 · 36, PAG = 0·006).

En lugar de estar codificado por la similitud en los niveles de expresión a través de múltiples genes, es posible que la fuerza de la interacción esté determinada por la expresión de genes individuales funcionalmente importantes. De hecho, cuando investigamos si los niveles de expresión de cada gen candidato en particular estaban correlacionados con las fortalezas de interacción de cada especie individual a través de biculturas, encontramos que casi todas las familias de genes candidatos estaban correlacionadas negativamente con la magnitud de los coeficientes de interacción de al menos uno de las ocho especies (Cuadro 2). De las 32 correlaciones significativas entre la expresión génica y la fuerza de interacción de las especies, 30 fueron negativas, lo que es significativamente mayor de lo esperado por el azar (Tabla 2, χ 2 = 24 · 5, PAG & lt 0 · 0001). Este resultado indica que la expresión de genes candidatos tendió a asociarse negativamente con las fortalezas de interacción de especies en general, lo que indica una competencia más débil y una facilitación más frecuente. Cuando consideramos las correlaciones entre la expresión de familias de genes candidatos y RDIs para especies individuales (Tabla S2), 52 de 56 correlaciones significativas y marginalmente no significativas fueron positivas (χ 2 = 41 · 14, PAG & lt 0 · 01), lo que indica de nuevo que la similitud de la expresión del gen candidato se asoció generalmente con una competencia más débil y una facilitación más frecuente. Descubrimos que los niveles de expresión de todas las familias de genes candidatos, excepto la nitrito reductasa y la cobalamina, eran predictores significativos de RD.I a través de especies y combinaciones de especies (Fig. 4, Tabla S2). Tanto la frecuencia de ceder en exceso (RDI & gt 1) y la frecuencia de la facilitación (αij & lt 0) aumentó a medida que aumentaron los niveles de expresión de las familias de genes candidatos (dos columnas más a la izquierda en la Fig. 4).

Gen / familia de genes Clorella Closteriopsis Cosmarium Pandorina Scenedesmus Selenastrum Staurastrum Tetraedro
1. Anhidrasa carbónica −0·21 −0·12 −0·08 −0·16 0·25 −0 · 71a a Significativo en PAG ≤ 0·05.
N / A 0·14
2. Glutamato semialdehído amina transferasa N / A −0·21 0·11 N / A −0 · 72a a Significativo en PAG ≤ 0·05.
−0 · 51a a Significativo en PAG ≤ 0·05.
0·003 −0·12
3. Permeasa de hierro 0·28 0·26 N / A −0·23 −0 · 46a a Significativo en PAG ≤ 0·05.
−0·58 N / A 0·17
4. Complejo de recolección de luz AB 0 · 59a a Significativo en PAG ≤ 0·05.
0·01 0·02 −0·10 −0·36 −0·28 −0 · 66a a Significativo en PAG ≤ 0·05.
0·06
5. Proteína reguladora de la asimilación de nitrógeno 0·18 0·25 N / A N / A −0·21 N / A N / A 0·13
6. Nitrato reductasa 0·15 0·19 0·24 −0·30 −0·74 −0 · 52a a Significativo en PAG ≤ 0·05.
−0 · 46a a Significativo en PAG ≤ 0·05.
−0·06
7. Transportador de nitratos −0 · 63a a Significativo en PAG ≤ 0·05.
0·24 0·23 0·12 0·15 −0 · 45a a Significativo en PAG ≤ 0·05.
−0 · 50a a Significativo en PAG ≤ 0·05.
0·39
8. Nitrito reductasa 0·19 N / A 0·35 −0 · 560a a Significativo en PAG ≤ 0·05.
N / A −0 · 50a a Significativo en PAG ≤ 0·05.
−0 · 53a a Significativo en PAG ≤ 0·05.
−0·37
9. Transportador de nitrito 0·01 0·05 0·26 −0·16 0·04 −0 · 51a a Significativo en PAG ≤ 0·05.
N / A 0·16
10. Proteína reguladora de nitrógeno −0·01 0·24 0·22 −0·14 −0·19 −0 · 42b B La correlación es marginalmente no significativa con 0 · 05 & lt PAG & lt 0 · 1.
−0·01 0·04
11. Transportador de fosfato −0·11 0·06 0·17 −0·15 −0 · 47a a Significativo en PAG ≤ 0·05.
−0 · 53a a Significativo en PAG ≤ 0·05.
−0·05 0·13
12. Biotina, vitamina B7 0·23 0·09 0·20 −0·21 0·01 −0 · 65a a Significativo en PAG ≤ 0·05.
0·08 0·21
13. Cobalamina, vitamina B12 0·01 −0·21 0·08 −0 · 38b B La correlación es marginalmente no significativa con 0 · 05 & lt PAG & lt 0 · 1.
−0 · 77a a Significativo en PAG ≤ 0·05.
−0 · 60a a Significativo en PAG ≤ 0·05.
−0 · 46a a Significativo en PAG ≤ 0·05.
−0·00
14. Tiamina, vitamina B1 0·08 0·14 0·12 −0·20 −0 · 80a a Significativo en PAG ≤ 0·05.
−0 · 57a a Significativo en PAG ≤ 0·05.
−0 · 43b B La correlación es marginalmente no significativa con 0 · 05 & lt PAG & lt 0 · 1.
−0·10
15. Glucosa 0·30 0·11 0·19 −0·22 −0 · 47a a Significativo en PAG ≤ 0·05.
−0 · 45b B La correlación es marginalmente no significativa con 0 · 05 & lt PAG & lt 0 · 1.
−0·25 0·18
16. Manosa −0 · 63a a Significativo en PAG ≤ 0·05.
0·22 0·12 N / A −0 · 48a a Significativo en PAG ≤ 0·05.
−0 · 68a a Significativo en PAG ≤ 0·05.
−0·20 0·16
17. Sucinar 0 · 41b B La correlación es marginalmente no significativa con 0 · 05 & lt PAG & lt 0 · 1.
0·10 0·14 −0·33 0·23 −0·28 0·02 −0·10
  • a Significativo en PAG ≤ 0·05.
  • B La correlación es marginalmente no significativa con 0 · 05 & lt PAG & lt 0 · 1.

Finalmente, para identificar otros genes potenciales y familias de genes que pueden correlacionarse con las fortalezas de interacción de las especies, buscamos genes cuyos patrones de expresión estuvieran regulados diferencialmente en especies que experimentan diferentes tipos de interacciones.Hicimos referencia a estas familias de genes reguladas de manera diferente contra la base de datos de anotaciones GO y encontramos 28 anotaciones GO de procesos moleculares (nivel 3). La mayoría de estas funciones génicas fueron reguladas diferencialmente de la misma manera (tanto hacia arriba como hacia abajo) independientemente de si la especie experimentó competencia o facilitación, o si experimentó un rendimiento excesivo o insuficiente (Fig. S3, los pros y los contras son negros y encendidos). el mismo lado de la línea cero). Esto sugiere que la mayoría de los genes expresados ​​diferencialmente no fueron regulados de manera contrastante de una manera diferente en especies que experimentan diferentes tipos de interacciones de especies, es decir, competencia o facilitación. Sin embargo, seis de las 28 anotaciones de función molecular fueron reguladas al alza cuando las especies experimentaron competencia y rendimiento insuficiente, pero fueron reguladas a la baja cuando las especies experimentaron facilitación y rendimiento excesivo, o viceversa (las anotaciones están en negrita en la leyenda de la Fig. S3, y se indican por signos rojos más y menos en lados opuestos de la línea cero). Debido a que estas anotaciones GO se regularon de manera contrastante entre las especies que experimentan diferentes tipos de interacciones, estas funciones genéticas pueden estar involucradas en la determinación de la fuerza de interacción de las especies. Las especies que experimentan facilitación y exceso de rendimiento tienden a regular al alza las funciones génicas generalmente asociadas con la transcripción (por ejemplo, moléculas de unión de ADN / ARN) y el metabolismo energético (Fig. S3, anotación GO # 17, # 26 y # 27). Más específicamente, las anotaciones para estos términos GO, utilizando el portal AmiGO2 (amigo.geneontology.org) y restringiendo los resultados de búsqueda solo a los derivados de Viridiplantae y con evidencia experimental de función genética, incluyeron ribulosa-1,5-bisfosfato carboxilasa / oxigenasa, una enzima clave en el ciclo de Calvin, así como piruvato deshidrogenasa quinasa y succinato-CoA ligasa, enzimas involucradas en la producción de Acetil-CoA y el ciclo del ácido cítrico. Por el contrario, las especies que experimentan competencia y rendimiento insuficiente tienden a regular al alza genes asociados con el transporte molecular, tanto dentro de la célula como a través de las membranas celulares (Fig. S3, anotación GO # 7, # 21 y # 22). Por ejemplo, los términos GO 0022857 y 0022892 (Fig. S3, # 21 y # 22) identificados como altamente abundantes en cultivos que experimentan interacciones ecológicas negativas (competencia o densidad de bajo rendimiento) contenían anotaciones a nitrato, amonio, azúcar, silicio, magnesio y otros transportadores de metales.


Fondo

El análisis integrador de datos multiómicos para encontrar biomarcadores o características de las vías altamente asociadas con el cáncer ha recibido una atención considerable [1, 2, 3, 4, 5, 6]. Teniendo en cuenta la rica información contenida en los datos multiómicos, muchos estudios han investigado las interrelaciones entre múltiples datos meta-dimensionales para mejorar la interpretación y el análisis biológicos [7,8,9,10,11,12]. Para comprender la interacción entre diferentes tipos de características genómicas se requieren modelos y análisis más sofisticados. En particular, las relaciones causales entre los datos de expresión génica y la metilación del ADN se han estudiado ampliamente [13, 14, 15, 16]. Para el análisis conjunto de la expresión génica y los datos de metilación en el cáncer, la información de vías y subtipos ha resultado especialmente útil [17, 18, 19]. En este estudio, abordamos el problema del análisis integrado impulsado por vías de la expresión génica y los datos de metilación en el cáncer.

Para combinar la información de la vía en el análisis genómico y la predicción del cáncer, se han propuesto varios métodos para inferir la actividad de la vía [20, 21, 22, 23, 24]. Por ejemplo, la media y la mediana de los valores de expresión de los genes miembros de la vía se pueden utilizar para una clasificación precisa del cáncer [24]. En [20], el método de inferencia de la actividad de la vía de los genes que responden a la condición (los genes miembros de la vía cuya expresión combinada muestra un poder discriminativo óptimo para el fenotipo de la enfermedad) se ha propuesto para incorporar información de la vía en la clasificación precisa de la enfermedad. Los enfoques de inferencia de la actividad de la ruta que utilizan inferencia probabilística se han utilizado para combinar múltiples tipos de datos ómicos y una mejor clasificación del cáncer [21, 22, 23]. Sin embargo, esos métodos existentes basados ​​en vías simplemente toman las vías como el conjunto de genes y han ignorado la importancia topológica de los genes centrales en la red de vías que pueden estar altamente asociados con enfermedades. En este sentido, Liu, et al. propuso un método de inferencia de la vía basada en la caminata aleatoria dirigida (DRW) para identificar los genes y vías topológicamente importantes ponderando los genes en la red de vías [25]. Debido a que este método DRW original tenía como objetivo un solo perfil de datos de expresión génica, los enfoques recientes se han centrado en la integración de múltiples tipos de datos, por ejemplo, datos de expresión génica y metabolitos [26]. Se realizó una caminata aleatoria dirigida en un gráfico de metabolitos genéticos (DRW-GM) guiada por la información de la vía, e identificó genes diferenciales importantes y vías de riesgo en el cáncer de próstata.

En este estudio, proponemos un enfoque basado en DRW en un gráfico integrado gen-gen especialmente redefinido para la expresión génica y los datos de metilación con el fin de extraer importantes vías y características genéticas para la predicción de supervivencia. Primero construimos un gráfico gen-gen integrado agregando bordes entre la expresión génica y las características de metilación, así como los bordes dentro de cada perfil. Al construir el gráfico integrado gen-gen, consideramos dos enfoques: uno que agrega bordes bidireccionales entre las características de expresión y metilación del mismo gen que tiene ambos perfiles, y otro que considera solo las interacciones anti-correlacionadas entre la expresión y la metilación. datos. Para los bordes dentro de cada perfil, adoptamos el gráfico de interacción basado en la ruta del estudio anterior [25]. Luego se realiza DRW, que produce los valores de peso de las características de expresión y metilación. Los pesos iniciales de los nodos de expresión génica se miden mediante DESeq2 [27], que es un método para el análisis diferencial de la expresión génica en los datos de recuento de ensayos de secuenciación de alto rendimiento. Los nodos de la característica de metilación se ponderan inicialmente mediante el uso de una t-prueba entre dos fenotipos. Al utilizar la salida del DRW, se calcula un perfil de actividad de la ruta. En resumen, el DRW integrador (iDRW) en un gráfico definido sobre las características de metilación y expresión génica transforma el perfil combinado de datos de metilación y expresión génica en un perfil de vía única. Para extraer aún más características importantes de la ruta, aplicamos un autoencoder (DA) de eliminación de ruido [28] a la matriz del perfil de la ruta. La DA ha demostrado ser eficaz para seleccionar características robustas contra el ruido de entrada y extraer vías o genes más específicos relacionados con el cáncer [29, 30, 31]. Las características resultantes se validan en una tarea de predicción de supervivencia de pacientes con cáncer de mama. Las vías topológicamente significativas y los genes miembros de la vía también se identifican y analizan. El proceso general del enfoque propuesto se ilustra en la Fig.1.

Descripción general del método de predicción de supervivencia basado en la vía integradora propuesto

Las características de la vía seleccionadas con nuestro esquema se basan en la expresión génica y las características de metilación, así como en las interacciones entre los dos. Estas características de la ruta extraídas son efectivas para mejorar el rendimiento de la predicción en comparación con el perfil basado en genes u otros métodos impulsados ​​por la ruta. También revelamos que el método iDRW con un codificador automático de eliminación de ruido selecciona vías o genes más específicos del cáncer en comparación con los seleccionados directamente por el método iDRW.


Discusión

El IMC es un rasgo muy complejo causado por la interacción pobremente caracterizada entre factores genéticos y ambientales con estimaciones superiores de heredabilidad que alcanzan el 70% 2. Comprender cómo las señales de todo el genoma con tamaños de efecto pequeños contribuyen al IMC a nivel molecular ha demostrado ser difícil. Delinear los mecanismos biológicos subyacentes de estas señales es crucial para comprender mejor el desarrollo de la obesidad y sus trastornos cardiometabólicos concomitantes. En este estudio, realizamos el promotor Capture Hi-C (pCHi-C) en adipocitos blancos humanos primarios (HWA) para identificar genes expresados ​​en tejido adiposo correlacionados con el IMC que están bajo regulación genética en cis por variantes que interactúan físicamente con los promotores de genes. A través de nuestro método de integración de GWAS, cis-Los análisis de eQTL, las interacciones cromosómicas y la replicación sólida de los datos de GTEx y TwinsUK, pudimos identificar 42 genes candidatos para futuras investigaciones sobre la obesidad.

En ausencia de información de DHS de adipocitos, utilizamos datos de DHS de todos los tejidos en el proyecto ENCODE y Roadmap Epigenomics para etiquetar las regiones de cromatina abiertas dentro de las interacciones cromosómicas de los adipocitos 8. A pesar de este compromiso metodológico, nuestros resultados demuestran que las variantes en estas regiones explican una parte significativa (4,6%) de la heredabilidad de cis–Expresión regulada en tejido adiposo subcutáneo humano. Aunque el porcentaje total de variantes dentro de la intersección de las regiones de cromatina abiertas y los sitios de bucle cromosómico de los adipocitos es pequeño (0,23%), el enriquecimiento implica que estos SNP son funcionalmente relevantes para la biología de los adipocitos y la regulación génica en cis.

El enriquecimiento de los motivos de unión de TF para CEBPB y PPARG en las interacciones cromosómicas que se encuentran en los adipocitos pero no en las células CD34 + confirma que los circuitos reguladores identificados aquí son relevantes para la biología adiposa. Se ha demostrado previamente que estos dos TF ocupan sitios reguladores compartidos. Además de ser una proteína de unión potenciadora, que está en concordancia con su presencia en los sitios de interacción cromosómica, se ha demostrado que CEBPB precede a la unión de PPARG en muchos sitios reguladores 25, lo que sugiere que CEBPB prepara las regiones reguladoras para la unión del patrón adiposo regulador PPARG.

Uno de nuestros bucles cis-Las variantes de eQTL son un proxy LD ajustado (r 2 = 0,98) para un GWAS SNP líder de IMC regional (rs16951275) 2. Las técnicas típicas de mapeo fino como las marcas de histonas superpuestas, las exploraciones de motivos de factores de transcripción o las búsquedas de eQTL no revelan necesariamente el mecanismo a través del cual podría funcionar un SNP. Refinamos la señal GWAS de 64 a 16 LD SNP dentro de un PosteriorIII fragmento que interactúa con el MAP2K5 promotor superponiendo cis-eQTL, el mapa de interacción promotor-potenciador y la correlación expresión-IMC. El candidato principal, rs4776984, aumentó la unión a la proteína nuclear HWA de una manera específica de alelo en nuestro experimento EMSA y se encuentra dentro de las marcas de histonas represoras H3K27me3 y H3K9me3 en los datos de núcleos adiposos ENCODE. Estudios recientes han sugerido que los elementos represores funcionan a través de interacciones en bucle de manera similar a los elementos potenciadores 6,26, lo que se alinearía bien con la correlación negativa entre la expresión de MAP2K5 y nivel de IMC.

La región en el MAP2K5 el locus, que exhibe un aumento de unión para el alelo alternativo para rs4776984, contiene motivos predichos para la proteína de interacción de bucle, CTCF y otros TF (Tabla complementaria 8). No encontramos evidencia de unión de CTCF en rs4776984 en nuestros experimentos EMSA de unión a proteínas y superdesplazamiento. Sin embargo, un experimento de superdesplazamiento puede permanecer negativo incluso en presencia de unión TF verdadera si se requiere un complejo en lugar de un solo TF para la unión TF 20. Además, utilizando el análisis DeepSEA, confirmamos el potencial de unión diferencial de TF en el sitio variante rs4776984 entre todos los bucles posibles cis-eQTL en el MAP2K5 lugar. Es de destacar que, dado que DeepSEA identificó múltiples TF como ligantes potenciales del sitio rs4776984 de una manera específica de alelo, se justifican los estudios futuros que prueben un conjunto más grande de TF para identificar el TF real que se une a este sitio. Postulamos que la unión de TF en este sitio de interacción conduciría a un mecanismo de bucle represivo, en este caso alterando MAP2K5 expresión en adipocitos.

MAP2K5 es un miembro de la cascada de señalización de la cinasa MAP ERK5, y la importancia de la señalización ERK5 en el tejido adiposo se demostró previamente en Erk5 ratones knock-out, que exhiben un aumento de la adiposidad 27. Esto sugiere que los cambios en la señalización de ERK5 en los adipocitos podrían ser relevantes para la obesidad humana. MAP2K5 es un activador fuerte y específico de ERK5 en la cascada de señalización de la cinasa MAP ERK5 28, lo que respalda el estudio adicional de MAP2K5 en relación con el aumento de la adiposidad.

El intrónico ORMDL3 La variante de GWAS rs8076131 está asociada con el colesterol unido a lipoproteínas de alta densidad (HDL-C) 15 y es la única cis-eQTL SNP en el PosteriorIII fragmento que interactúa con el ORMDL3 promotor en nuestros datos de pCHi-C de adipocitos. ORMDL3 es un regulador negativo de la síntesis de esfingolípidos que se producen en respuesta a la obesidad y rasgos metabólicos relacionados, como la inflamación y la resistencia a la insulina 21,22, y que interfieren con importantes vías de señalización asociadas con estos rasgos 22. Corroborando esto, mostramos que ORMDL3 expresión está correlacionada negativamente con el IMC, y la cis-eQTL y la variante de riesgo rs8076131 disminuye ORMDL3 expresión, potencialmente a través de un cambio en la interacción cromosómica entre el potenciador y el promotor de ORMDL3, como se ha demostrado anteriormente para este sitio potenciador 29.

Encontramos que el metabolito GWAS SNP, rs3784671, es un bucle cis-Variante de eQTL asociada con los niveles de expresión del LACTB gene. Aunque esta variante es una cis-eQTL para LACTB tanto en nuestro estudio como en la cohorte adiposa GTEx, se encuentra dentro del promotor de la APH1B gen, para el cual no es un cis-eQTL en nuestro estudio. A través de la superposición de tejido adiposo cis-eQTL datos y adipocitos pCHi-C datos, establecimos que rs3784671 no actúa a través del adyacente APH1B gen y filtrado el 35 cis-Variantes de eQTL para LACTB hasta una única variante, rs3784671. Esta variante se asocia negativamente con los niveles de succinilcarnitina, un metabolito correlacionado positivamente con el IMC en dos cohortes independientes, KORA y TwinsUK, anteriormente 23. La succinilcarnitina es una molécula en la vía del metabolismo del butanoato. El butanoato ha sido implicado en antiinflamatorios, protección contra la obesidad y aumento de los niveles de leptina 30. Además, como la variante de succinilcarnitina GWAS rs3784671 es un eQTL para LACTB, asociado con un aumento en LACTB expresión, postulamos que LACTB la expresión aumenta la succinilcarnitina. Esto está de acuerdo con un estudio en ratones que muestra que el metabolismo del butanoato se reduce en Lactb ratones transgénicos 24. En particular, el soporte para LACTB como gen causal de la obesidad se deriva de estudios funcionales que utilizan la sobreexpresión transgénica de Lactb en ratones, lo que resulta en un aumento en la relación masa grasa / masa magra 24,31. Aunque la función de LACTB en el tejido adiposo no ha sido completamente aclarada, estos estudios sugieren que una reducción en LACTB función y, a su vez, un aumento en el metabolismo del butanoato y la disminución de los niveles de succinilcarnitina son beneficiosos para el tratamiento de la obesidad. Sin embargo, se requieren más estudios moleculares a nivel de proteínas para determinar la función de ORMDL3 y LACTB en relación con la obesidad.

Identificamos un proxy LD perfecto para un metabolito GWAS SNP que se encuentra dentro de un PosteriorIII fragmento que regula la ACADS gen e interactúa con su promotor. ACADS es una proteína mitocondrial que cataliza el primer paso de la vía de beta-oxidación de ácidos grasos. La función mitocondrial adecuada es imprescindible para la función adiposa y la homeostasis energética. Además de los conjuntos de datos de ARN adiposo-seq de METSIM y TwinsUK utilizados en nuestro estudio, un estudio anterior identificó ACADS cuando se busca sistemáticamente genes sobreexpresados ​​e insuficientemente expresados ​​en tejido adiposo obeso versus magro 32. Además, los 3 conjuntos de datos muestran una correlación negativa consistente entre ACADS expresión e IMC, en apoyo de su función mitocondrial bien establecida. El interactuando cis-eQTL y GWAS SNP, rs12310161, se encuentran dentro de las marcas de histonas potenciadoras en los núcleos adiposos y en la línea de células hepáticas HepG2, y el alelo alternativo presenta un efecto positivo sobre la expresión génica, en línea con un alelo protector. Curiosamente, esta variante se encuentra dentro de un pico de ChIP-seq del factor de transcripción del dominio 4 de TEA (TEAD4) en las células HepG2. TEAD4 La expresión está regulada por el receptor alfa activado por proliferador de peroxisomas (PPARα) 33, el principal regulador de la beta-oxidación de las vías de los ácidos grasos en el hígado y el tejido adiposo marrón. En conjunto, estos resultados sugieren que la interacción cis-eQTL y el metabolito GWAS SNP, rs12310161, funcionan dentro de un potenciador para aumentar ACADS expresión y beta-oxidación de ácidos grasos mitocondriales en el tejido adiposo.

Como los experimentos de pCHi-C se realizaron en HWA primario, podemos centrarnos en las interacciones cromosómicas físicas directamente en los adipocitos humanos entre todos los tipos de células presentes en el tejido adiposo. Los adipocitos realizan funciones adiposas centrales, incluidas la lipogénesis y la lipólisis. Investigación adicional de los genes adiposos, que están bajo cis La regulación genética a través del bucle cromosómico a los promotores y se correlaciona con el IMC, es probable que proporcione información muy necesaria sobre los procesos celulares que contribuyen a la obesidad. Nuestros datos proporcionan 38 nuevos genes candidatos, incluidos algunos genes funcionalmente relevantes conocidos para la adiposidad, como LPIN1 34 y AKR1C3 35, que hasta ahora no han sido destacados por GWAS para el IMC o los rasgos metabólicos relacionados con la obesidad. Postulamos que la identificación de algunos de estos 38 candidatos como genes GWAS de obesidad puede requerir estudios de GWA mucho más amplios, mientras que otros pueden representar genes que responden a la obesidad en el tejido adiposo humano. Nuestro análisis del bucle cis-eQTL para otros rasgos de GWAS correlacionados con el IMC, como metabolitos y lípidos séricos, llevaron a la identificación de tres genes GWAS metabólicos adicionales relacionados con la obesidad. Reconocemos que el cerebro y otros tejidos probablemente explican algunas de las señales de BMI GWAS y que las variantes de GWAS pueden actuar a través de otros mecanismos, como trans regulación y empalme alternativo, que ameritan investigación futura. Aunque los cuatro bucles cis-Las variantes de eQTL identificadas en los loci GWAS en nuestro estudio representan los SNP de la etiqueta GWAS (como es el caso en el ORMDL3 y LACTB loci) o están en LD perfecto o casi perfecto con el GWAS SNP (r 2 = 1.0 en el ACADS locus y r 2 = 0,98 en el MAP2K5 locus), reconocemos que las variantes de bucle pueden no ser siempre las más fuertes cis-eQTL SNP en estos loci y, por lo tanto, se necesita un mapeo fino adicional para dilucidar completamente todas las funciones reguladoras cis-Variantes de eQTL.

El estudio actual utiliza la integración de datos genómicos y funcionales de varios niveles para mejorar la comprensión de las señales moleculares de todo el genoma que subyacen a la obesidad. Las señales de GWAS a menudo se encuentran dentro de regiones reguladoras no codificantes del genoma, y ​​los genes afectados a menudo no están claros. De manera similar, la estructura de LD local con frecuencia dificulta la identificación y caracterización funcional del SNP de eQTL real aunque se conozca el gen diana de eQTL.A través de la integración de datos genómicos multicapa en un tipo de célula y tejido humano funcionalmente relevante y la replicación en las cohortes GTEx y TwinsUK, mostramos que las DHS dentro de las regiones cromosómicas que interactúan están enriquecidas por motivos de TF específicos de tejido y explican una proporción significativa de la heredabilidad de la expresión génica en cis. Además, identificamos LACTB, ACADS, ORMDL3, y MAP2K5 como genes relacionados con la obesidad en humanos y proporcionan un conjunto de 38 genes candidatos no GWAS para estudios futuros sobre obesidad.


Validez biológica de la red genética basada en la relevancia de la interacción gen-gen

En los últimos años, las redes de genes se han convertido en una de las herramientas más útiles para modelar procesos biológicos. Se han desarrollado muchos algoritmos de redes de genes de inferencia como técnicas para extraer conocimiento de los datos de expresión génica. Asegurar la confiabilidad de las relaciones de genes inferidas es una tarea crucial en cualquier estudio para demostrar que los algoritmos utilizados son precisos. Normalmente, este proceso de validación se puede realizar utilizando conocimientos biológicos previos. Las vías metabólicas almacenadas en KEGG son una de las fuentes de conocimiento más utilizadas para analizar las relaciones entre genes. Este artículo presenta una nueva metodología, GeneNetVal, para evaluar la validez biológica de las redes de genes en función de la relevancia de las interacciones gen-gen almacenadas en las vías metabólicas de KEGG. Por lo tanto, se propone una conversión completa de la vía KEGG en una red de asociación de genes y una nueva distancia de coincidencia basada en la relevancia de la interacción gen-gen. El rendimiento de GeneNetVal se estableció con tres experimentos diferentes. En primer lugar, nuestra propuesta se prueba en un análisis ROC comparativo. En segundo lugar, se presenta un estudio de aleatoriedad para mostrar el comportamiento de GeneNetVal cuando aumenta el ruido en la red de entrada. Finalmente, se muestra la capacidad de GeneNetVal para detectar la funcionalidad biológica de la red.

1. Antecedentes

El proceso de modelado que ocurre en los organismos vivos es uno de los principales objetivos de la bioinformática [1–4]. Las redes de genes (GN) se han convertido en uno de los enfoques más importantes para descubrir qué relaciones gen-gen están involucradas en un proceso biológico específico.

Una GN se puede representar como un gráfico en el que los genes, proteínas y / o metabolitos se representan como nodos y sus relaciones como bordes [1].

Es importante tener en cuenta que las GN pueden variar sustancialmente según la arquitectura del modelo utilizada para inferir la red. Estos modelos se pueden clasificar en cuatro enfoques principales según Hecker et al. [1]: correlación [5, 6], lógica [7-9], basada en ecuaciones diferenciales y redes bayesianas [10, 11]. Estos enfoques se han utilizado ampliamente en bioinformática. Por ejemplo, Rangel et al. [12] utilizaron modelos lineales para inferir la activación de células T a partir de datos de expresión génica temporal, o Faith et al. [13] correlación adaptada y redes bayesianas para desarrollar un método para inferir las interacciones reguladoras de Escherichia coli.

Una vez que se ha generado un modelo, es muy importante asegurar la confiabilidad del algoritmo para demostrar su eficacia. La calidad de los algoritmos puede medirse aplicando los denominados datos sintéticos [14] y / o utilizando conocimientos biológicos previos [15]. Los enfoques de datos sintéticos se pueden utilizar para analizar el rendimiento del algoritmo de inferencia GN, mientras que un estudio de validez biológica está respaldado por datos reales.

Los métodos de datos sintéticos producen un conjunto de datos artificiales de acuerdo con una red previamente conocida. Los valores de la expresión génica simulada se almacenan en un conjunto de datos y se utilizan como entrada para el algoritmo de inferencia GN. Finalmente, se prueba el rendimiento del algoritmo comparando ambos GN. Actualmente, este proceso se puede realizar utilizando diferentes herramientas como GeneNetWeaver [16] o SynTReN [17].

Aunque este enfoque se usa comúnmente para comparar algoritmos de inferencia, no puede reproducir completamente las características internas de los procesos biológicos reales. Este inconveniente hace que no sean aptos para la validación de los modelos inferidos, desde un punto de vista biológico.

Para abordar este problema, se ha propuesto la comparación con el conocimiento biológico previo [18, 19]. Actualmente, hay una serie de diferentes repositorios biológicos disponibles donde la enciclopedia de genes y genomas de Kioto (KEGG) es uno de los más utilizados para analizar las relaciones entre genes [20, 21]. Las vías metabólicas de KEGG contienen conocimientos sobre diferentes procesos biológicos. Estas vías se representan como un gráfico donde los nodos representan genes, enzimas o compuestos (es decir, carbohidratos, lípidos y aminoácidos) y los bordes codifican relaciones, reacciones o interacciones entre los nodos. Las rutas contenidas en la base de datos KEGG representan el conocimiento real de la interacción molecular y las redes de reacción para el metabolismo, el procesamiento de la información genética, el procesamiento de la información ambiental, los procesos celulares y las enfermedades humanas. Proporcionan información estructurada útil para la validación de redes de genes. Por ejemplo, C. Li y H. Li [15] utilizaron vías de transcripción de KEGG para realizar un análisis de red de los datos de microarrays de glioblastoma, o Ko et al. [22] probó un nuevo enfoque de red bayesiana utilizando relaciones gen-gen almacenadas en KEGG. En esta línea, propusimos un marco de validación GN basado en una comparación directa entre una red de genes y vías KEGG [23].

Los enfoques antes mencionados, en lo sucesivo denominados el uso clásico de KEGG, presentan tres deficiencias principales: (a) no se utiliza toda la información biológica, (b) solo se consideran las relaciones fuertes gen-gen, y (c) el conocimiento biológico actual no es completo.

Las relaciones gen-gen solo suelen considerarse mediante enfoques de validación de GN basados ​​en rutas metabólicas. Por lo tanto, se ignora toda la otra información biológica proporcionada por las vías, como las relaciones gen-compuesto o compuesto-compuesto (ver Tabla 1). Por ejemplo, Wei y Li [24] sólo utilizaron interacciones gen-gen humano almacenadas en las vías de KEGG al realizar estudios de simulación, excluyendo las relaciones gen-compuesto y compuesto-compuesto. O Zhou y Wong [25] utilizaron la relación entre pares de genes KEGG (principalmente PPrel y ECrel) para estudiar conjuntos de datos de interacción proteína-proteína.

Además, los enfoques actuales de validación de GN no son del todo precisos, ya que solo consideran las relaciones fuertes entre genes (interacciones directas gen-gen), dejando a un lado las relaciones más débiles [4].

Además, el uso de conocimientos biológicos previos podría presentar otra carencia importante, las limitaciones actuales de las bases de datos biológicas. Como describen Dougherty y Shmulevich [2], el conocimiento biológico tiene algunas limitaciones intrínsecas en el sentido de que dependen inherentemente de la naturaleza del conocimiento científico. Otros dependen del estado actual de los conocimientos, incluida la tecnología. Los métodos de validación actuales utilizan estas bases de datos biológicas para clasificar las relaciones inferidas como verdaderos o falsos positivos. Debido al problema intrínseco de las bases de datos biológicas, no es posible argumentar que estos falsos positivos sean en realidad causados ​​por una mala predicción de los métodos de inferencia o por un conocimiento incompleto.

Este artículo propone una nueva metodología, GeneNetVal, para analizar la validez biológica de una red de genes utilizando la información biológica almacenada en KEGG ponderando las relaciones gen-gen. GeneNetVal utiliza diferentes tipos de relaciones contenidas en las vías de KEGG (gen-gen, gen-compuesto y compuesto-compuesto), llevando a cabo una conversión exhaustiva y completa de una vía en una red de genes. La red obtenida se utilizará como estándar de oro en comparación con la red de entrada. Además, se propone una distancia de coincidencia novedosa. Esta medida, basada en la relevancia de la interacción gen-gen, tiene en cuenta el concepto de relaciones débiles entre un par de genes para presentar un conjunto de índices no deterministas con diferentes niveles de precisión. Por lo tanto, no aceptamos ni rechazamos categóricamente una relación gen-gen, sino que se asigna un valor ponderado de acuerdo con la distancia de esos genes en la vía. A través de estos valores generamos una nueva medida de validez de la red de genes y mitigamos el problema del conocimiento biológico incompleto.

2. Métodos

En esta sección se presentará la metodología GeneNetVal y también los métodos utilizados para realizar los experimentos. Estos métodos se utilizarán en la sección de Resultados y Discusión.

2.1. Metodología GeneNetVal

Como ya se dijo, la metodología de dos pasos propuesta, GeneNetVal, se basa en las vías metabólicas de KEGG y se resume en la Figura 1. En el primer paso, se lleva a cabo una conversión completa de una vía metabólica en una red de asociación de genes. En el segundo paso, se determina la validez biológica de una GN. Para hacer esto, se utiliza una distancia de coincidencia novedosa entre redes.


Una representación esquemática de la metodología GeneNetVal. En el primer paso, la información del organismo se extrae de la base de datos de KEGG. Cada una de las METRO las vías metabólicas se procesan para obtener METRO redes de genes. En el segundo paso, METRO Se llevan a cabo evaluaciones de la red de entrada. Tenga en cuenta que los resultados presentados se obtuvieron aplicando nuestro enfoque en el nivel 1.
2.1.1. Paso uno: de las vías metabólicas a las redes de asociación de genes

La base de datos de KEGG almacena conocimiento sobre muchos organismos diferentes, pero solo necesitamos la información perteneciente a la red para ser analizada. Por lo tanto, solo se consideran las vías metabólicas de KEGG para el mismo organismo de la red de entrada. Esto se representa en la Figura 1, donde todas las vías del organismo

Estas vías se convierten en redes de asociación de genes donde se utilizan todos los tipos de relaciones de vías (ver Tabla 1), incluidos gen-gen (PPrel, ECrel y GErel), gen-compuesto (PCrel) y compuesto-compuesto.

Como se dijo anteriormente, una vía metabólica está compuesta por diferentes tipos de nodos (genes u otros compuestos) mientras que los genes solo se usan en redes de genes. Esta diferencia muestra que la comparación directa entre ellos no es confiable en base a la información que contiene diferentes elementos. Esta diferencia se supera aumentando el nivel de abstracción de las vías. Concretamente, cada vía se convierte en una red de asociación de genes, el nivel más alto de abstracción para la reconstrucción de procesos reguladores de genes como lo describen Martínez-Ballesteros et al. [30]. Este proceso de conversión se representa en la Figura 2 y se explica a continuación.


El ejemplo de conversión más simple. En el primer subpaso, se eliminan los nodos compuestos y la dirección de los bordes de la relación. En el segundo subpaso, se establecen nuevas relaciones de asociación.

En primer lugar, se eliminan todos los nodos compuestos presentados en la vía. Sin embargo, los nodos de genes se conservan junto con sus relaciones de influencia (bordes no directos), ya sean PPrel, ECrel o GErel. Las relaciones PCrel, compuesto-compuesto y otras se procesan de forma diferente.

Los nodos compuestos ubicados entre dos genes transportan información de un gen a otro. Actúan como un puente entre los genes, por lo que estos dos nodos genéticos deberían estar relacionados. En base a esto, después de eliminar los nodos compuestos, se crearán nuevas relaciones gen-gen no dirigidas. Estas relaciones se establecen entre cada par de genes que se asociaron previamente con el mismo nodo compuesto.

La figura 2 muestra el proceso de conversión de "Camino M" (Figura 1) a una red genética en detalle. Por ejemplo, genes

están asociados con un nodo compuesto en la vía pero no existe una relación directa entre ellos. Sin embargo, la información perteneciente a esta influencia indirecta gen-gen debe tenerse en cuenta para que se cree una nueva relación de influencia entre genes. Del mismo modo, se genera una relación entre genes

La conversión que se presenta en la Figura 2 es un ejemplo simple, las vías a menudo son más complejas. En una vía, es probable que varios genes estén relacionados con el mismo nodo compuesto, o los compuestos químicos son transferidos por dos o más genes / enzimas. Estos dos casos deben considerarse para realizar una conversión exhaustiva. En el primer tipo, múltiples genes interactúan de alguna manera con el mismo compuesto (sustrato de una reacción química, producto, etc.). Esta información biológica se conserva creando nuevas relaciones (ver Figura 3 (a)). En el segundo grupo, los genes responsables de la transferencia de los compuestos deberían estar relacionados en la nueva GN, ya que en realidad interactúan con los compuestos químicos de forma simultánea. Por lo tanto, se incluyen nuevas relaciones entre estos genes (ver Figura 3 (b)).


donde tres genes están conectados al mismo compuesto. En el proceso de conversión a una red de genes, se crean nuevas relaciones entre estos genes. (b) muestra un fragmento de la

2.1.2. Segundo paso: validez biológica

En el segundo paso, las vías metabólicas se utilizan como conocimiento biológico para evaluar la red de entrada. Por lo general, la literatura aplica una metodología de puntuación [1, 27, 29] para evaluar un modelo inferido utilizando conocimientos previos, ya sean datos sintéticos o biológicos. Basados ​​en esta idea y en la noción de las relaciones fuertes y débiles en las GN [4], los autores han desarrollado una medida novedosa para evaluar la validez de una red de entrada que se basa en la relevancia de las interacciones gen-gen almacenadas en KEGG. .

representan los nodos de los gráficos y representan los bordes (relaciones gen-gen). La validez del gráfico de entrada (), según la información biológica de la vía

representado en el gráfico, se mide como la diferencia entre ambos gráficos a cierto nivel de distancia.

Definición 1 (Nivel). Sea una gráfica y dos nodos

. El nivel de la relación entre se calcula como el número de bordes entre nodos y en.

Por ejemplo, en la Figura 4, la relación entre los nodos y en tiene un nivel de

porque hay dos bordes entre estos nodos.


Un ejemplo de la comparación utilizando el nivel 1 y el nivel 2. Ejemplos de aciertos1 y golpea2 son presentados. Los nodos violetas y sus relaciones se podan para esta evaluación específica porque no pertenecen a la vía metabólica.

Definición 2 (Golpea en el nivel l

)). El número de bordes donde el nivel entre los nodos conectados directamente es

se puede encontrar en la Figura 4, donde el borde entre genes y representa el y el borde entre y es. Obviamente, cuanto mayor es la distancia entre nodos, menor es la relevancia de la relación evaluada. Por lo tanto, la nueva distancia de coincidencia proporciona dos índices ponderados a través de la comparación con el nivel seleccionado.

Definición 3. Aciertos acumulados a nivel

, se puede definir como la suma ponderada de los bordes inferidos correctamente a nivel de según la información presentada en. Considerar

donde denota la suma de los bordes que se infirieron correctamente ponderados por su relevancia en la red con la distancia (nivel).

La Figura 4 presenta un ejemplo de cálculo de y.

Definición 4. Fallos acumulados a nivel,

, se puede definir como el número de bordes inferidos incorrectos a nivel en

es el número de aristas en. Por lo tanto, denota el número de bordes que no se infirieron correctamente en la red con la distancia (nivel).

La figura 4 muestra un ejemplo de cálculo de

y . A nivel, el gráfico presenta un fallo acumulativo debido a los genes y, que están conectados directamente y tienen una distancia de pulg. Como la interacción entre y es débil (impacto de nivel), el valor del nivel de falla acumulativo es

. En consecuencia, se puede definir la medida de validez.

Definición 5. La validez (medida GeneNetVal) del gráfico según el nivel,

, se define como la proporción de bordes inferidos correctamente al nivel en. Considerar

Esta medida oscila entre y, donde es el valor de validez más bajo y el más alto. La medida de validez estima la razón de corrección de con respecto a.

La validez biológica se obtiene como la proporción de predicción positiva según los aciertos y fracasos acumulados. Esta es la principal medida que obtiene nuestra metodología para calificar la calidad de una GN.

2.2. Estudio ROC

En la sección Resultados se presentará un análisis de las características operativas del receptor (ROC). El objetivo de este estudio es comparar el desempeño de diferentes enfoques de validez de redes de genes, evaluando redes reales contra redes aleatorias (sin sentido biológico). Las tres redes que se utilizarán en el experimento, intentan abarcar la regulación de una gran cantidad de procesos funcionales en levaduras. Por lo tanto, hemos asumido que estas redes contienen un significado biológico de cada proceso funcional descrito en las vías de KEGG (son redes funcionalmente complejas).

Por tanto, la evaluación de estas redes debe producir resultados de validez relevantes para cada una de las vías consideradas. Por el contrario, la validez biológica de las redes aleatorias debería dar malos resultados porque, de hecho, no deberían contener un significado biológico.

Un umbral de validez (T) se ha utilizado para decidir si la red de entrada tiene información relevante para cada vía seleccionada. T denota el valor mínimo de validez para que una red con una ruta específica se considere valor válido. Para generar la curva ROC para cada experimento, hemos utilizado diferentes T valores (de a). Se obtiene una matriz de confusión para cada iteración. Si el valor de validez obtenido para una vía excede el T valor, la red de entrada se clasifica como positiva (verdadero positivo o falso positivo, dependiendo de si la red de entrada es una red real o una red aleatoria). Si el valor obtenido es menor, la red de entrada se describe como negativa (verdadero negativo o falso negativo). Con esta idea, para cada iteración se calculan los índices para la matriz de confusión.

Por lo tanto, es posible calcular matrices de confusión y valores de tasas de verdaderos positivos (TPR) y tasas de falsos positivos (FPR) para dibujar la curva.

La Figura 5 proporciona un ejemplo de juguete que muestra todo el proceso (solo para una red aleatoria). Ofrece una comparación entre los resultados obtenidos por una red real y los resultados obtenidos por una red aleatoria. Con los valores de validez obtenidos para ambas redes (Figura 5 (a)), se generaron diferentes matrices de confusión según diferentes umbrales, solo umbrales en este ejemplo (Figura 5 (b)). Así, para cada iteración es posible obtener los valores de TPR y FPR (Figura 5 (c)). Con estos valores, finalmente se representa la curva ROC (Figura 5 (d)).


Representación de un juguete de ejemplo para el estudio ROC realizado. (a) representa el proceso GeneNetVal, donde se obtienen los valores de validez para ambas redes. En (b) se obtienen las matrices de confusión. Los valores de TPR y FPR se presentan en (c). Finalmente, la curva ROC se representa en (d).

Es importante señalar que los resultados presentados en la Figura 6 son valores promedio para una muestra de redes aleatorias.


(Cualquiera
(b) Sin incrustaciones
(c) Aleatorio
(d) Sin incrustaciones
(e) Aleatorio
(f) Sin incrustaciones
(Cualquiera
(b) Sin incrustaciones
(c) Aleatorio
(d) Sin incrustaciones
(e) Aleatorio
(f) Sin incrustaciones Análisis ROC de nuestra metodología utilizando algunas redes de levaduras. Para este análisis se utilizaron dos topologías diferentes: topología puramente aleatoria y sin escala.
2.3.Selección de la descripción funcional con GeneNetVal

La funcionalidad específica de la red de entrada podría estudiarse de acuerdo con el almacenamiento de información del proceso biológico en una ruta KEGG específica. Una vía metabólica representa un modelo de un proceso biológico particular. Diferentes conjuntos de genes están involucrados en diferentes vías. Esto debe tenerse en cuenta si se realiza una evaluación funcional de la red de entrada. Si una vía contiene un conjunto de genes, este conjunto se anota en la función biológica de la vía. Por tanto, cualquier información de la red de entrada que no pertenezca al proceso biológico específico no se tendrá en cuenta para esta validación. Tenga en cuenta que estas relaciones no deben considerarse un fracaso porque en realidad no hay información para clasificar la validez de las interacciones de los genes en la red de entrada que no están presentes en las vías metabólicas.

Este proceso de poda, que se describe en el algoritmo 1, implica eliminar cualquier borde de la red de entrada si los genes correspondientes no están presentes en la ruta específica. La red de entrada sufrirá una poda diferente para cada vía. A través de esta poda, la red de entrada se puede evaluar de forma independiente para cada proceso. Un ejemplo de esta poda se muestra en la Figura 4 donde se eliminan los bordes morados para la comparación con la ruta.

Después de la poda, las comparaciones con cada vía mostrarán la medida de validez. La funcionalidad descrita por la vía con el valor más alto de (medida GeneNetVal) será la funcionalidad que mejor se adapte a la red de entrada. Un valor alto significa que la red de entrada describe total o parcialmente la funcionalidad que describe esa vía metabólica en particular.

Se han realizado diferentes comparaciones en la Figura 1, donde el valor más alto fue generado por la red de genes extraída de “

También es posible que la red de entrada contenga información sobre más de un proceso biológico específico. Alternativamente, los procesos biológicos suelen estar interrelacionados (por ejemplo, el ciclo celular y la meiosis). Un ejemplo de esta situación en la Figura 1 podría ser la comparación entre la red de genes de “” y la red de entrada. En ese caso, se podrían considerar los valores más altos de la medida de validez, para determinar qué procesos se describen mejor.

3. Resultados y discusión

El desempeño de nuestra propuesta fue probado a través de tres experimentos usando diferentes tipos de redes. En primer lugar, se comparó nuestra propuesta con el uso clásico de KEGG. Se llevó a cabo un análisis ROC de diferentes niveles de distancia de GeneNetVal y medida de precisión. El comportamiento del método propuesto con diferente nivel de ruido se prueba en el segundo experimento. Finalmente, la capacidad de GeneNetVal para detectar la funcionalidad biológica codificada en una red de entrada se analiza en el tercer experimento.

3.1. Análisis ROC

El análisis ROC se realizó para mostrar la mejora lograda por nuestro enfoque sobre aquellos que solo consideran las relaciones directas gen-gen [24, 25], junto con su robustez frente a información sin significado biológico (ver Sección 2.2).

El análisis ROC se ha utilizado ampliamente en la literatura [31, 32] porque es capaz de puntuar el rendimiento de los clasificadores y rankeadores como una compensación entre una tasa de verdaderos positivos y una tasa de falsos positivos. Además, se presenta el área bajo la curva ROC (AUC), ya que proporciona información sobre el nivel de aleatoriedad del enfoque.

Para este estudio se utilizaron tres redes de genes de levadura complejas y contrastantes con diferentes tipos de relaciones de genes. Batada et al. Utilizaron una red de interacción proteína-proteína. [33] en el análisis de proteínas altamente conectadas en una red (hubs). La red resultante de seleccionar las interacciones proteína-proteína y proteína-ADN de la base de datos del genoma de Saccharomyces (SGD) [34] proporciona un acceso a la completa Saccharomyces cerevisiae (levadura) secuencia genómica. Y, finalmente, la red fue presentada por Lee et al. [35] (YeastNet v.2) que combina proteína-proteína, proteína-ADN, coexpresión, conservación filogenética e información bibliográfica.

Para cada red de entrada explicada anteriormente, se consideraron dos topologías diferentes de redes aleatorias: aleatoria pura y sin escala. Esta última topología se utiliza ya que las redes biológicas suelen seguirla [36, 37].

El tamaño de la muestra para cada red de entrada y topología se calculó con un intervalo de confianza del 95% para una población infinita de redes [38]. Por lo tanto, se utilizó un tamaño de muestra de 385 redes aleatorias. Las redes puramente aleatorias se diseñaron para tener el mismo tamaño de nodo y borde que la red de entrada, pero las relaciones gen-gen se generaron aleatoriamente. Las redes sin escala se generaron utilizando la biblioteca de código abierto JGraphT, con los mismos nodos también. Para utilizar la información almacenada en KEGG, extrajimos los archivos KGML de las rutas de la levadura utilizando la API de KEGG.

Los resultados del análisis se representan en la Figura 6, donde cada fila representa el estudio de una red de entrada diferente. La columna de la izquierda en la figura representa el estudio de la topología aleatoria pura y la de la derecha muestra la topología sin escala. Cada gráfico contiene cinco líneas que codifican el comportamiento de GeneNetVal considerando los niveles de distancia de uno a cuatro y la medida de precisión [30, 39] para el uso clásico de KEGG. En total, se llevaron a cabo más de 11000 evaluaciones (3 redes de entrada × 2 topologías × 5 medidas / niveles × 385 redes).

Las curvas ROC muestran que los resultados de las tres redes siguen un patrón similar para ambas topologías. Llama la atención la distancia entre el punto (1, 1) y el de arriba. FPR es 1 para un umbral igual a cero (consulte la Sección 2.2 para obtener más detalles) pero representa un valor muy bajo para el siguiente punto de control (umbral = 0,01). Esto podría deberse al hecho de que el uso de KEGG como estándar de oro es muy eficaz para detectar interacciones sin significado biológico.

Para algunos niveles, las líneas no comienzan en el punto (0, 0) (Figuras 6 (b) y 6 (d)). Esto se debe a que algunas vías de KEGG no contienen muchas interacciones (por ejemplo, la vía solo contiene), por lo que una red aleatoria podría contener esas relaciones genéticas a un cierto nivel de distancia.

En cuanto a los valores obtenidos para el área bajo la curva (AUC), es importante señalar que cuanto mayor es el número de tipos de relaciones consideradas en la red, mejor se desempeña la metodología. Los mejores resultados se obtienen con la red de Lee [35], que combina cuatro tipos diferentes de relaciones. El segundo mejor resultado se genera usando SGD, mientras que la red de Batada presenta el peor resultado. Esto tiene sentido ya que las vías de KEGG recopilan datos biológicos de varias fuentes de contraste.

Comparando el uso clásico de KEGG con el nivel 1 de nuestra propuesta, que solo difiere en cómo se maneja la información de las vías, es posible argumentar que la conversión propuesta produce una mejora significativa en el AUC. El nivel 1 produce mejores resultados en todos los casos. Por ejemplo, el valor AUC de 0,88 se incrementa a 0,92 en SGD para topología sin escala (Figura 6 (d)). Además, es posible mejorar el AUC aumentando el nivel de distancia en la comparación. El mejor resultado se muestra en el nivel 2, mientras que los niveles 3 y 4 funcionan peor que los niveles 1 y 2.

Los resultados presentados muestran que GeneNetVal es capaz de detectar relaciones genéticas con y sin significado biológico. Además, la metodología presenta una mejora significativa en comparación con el enfoque clásico (precisión) para todos los niveles estudiados. En particular, el mejor rendimiento se obtiene en el nivel 2 para todos los experimentos.

Finalmente, a pesar de que las bases de datos biológicas son fuentes de información cruciales para evaluar los resultados obtenidos en cualquier estudio, tienen algunas limitaciones. Estas limitaciones son intrínsecas a todas ellas, en el sentido de que dependen inherentemente de la naturaleza del conocimiento científico, otras son contingentes, dependiendo del estado actual del conocimiento, incluida la tecnología [2, 40]. Dichas limitaciones pueden incluir etiquetas incorrectas de eventos o entidades, direcciones incorrectas en las relaciones, ausencia de asociaciones y otras ambigüedades. En consecuencia, el desempeño de métodos previos basados ​​en el conocimiento podría verse afectado por estas limitaciones, incluido nuestro enfoque. En particular, GeneNetVal podría verse afectado por etiquetas incorrectas de eventos o entidades y también por la ausencia de asociación en las vías metabólicas en términos de mala clasificación de relaciones (acierto o fallo incorrectos). A pesar de este hecho, vale la pena mencionar que los enfoques clásicos también se ven afectados por los problemas presentados anteriormente. En este sentido, GeneNetVal presenta un desempeño más robusto que los enfoques clásicos, ya que el uso de relaciones indirectas mitiga estos problemas. Esta afirmación está respaldada por los resultados presentados en este análisis ROC, donde GeneNetVal se desempeña mejor que el enfoque clásico a pesar de que se utilizan las mismas bases de datos (que contienen las mismas carencias) en ambos métodos.

3.2. Estudio de aleatoriedad

A pesar de que en la sección de análisis ROC se demostró que GeneNetVal distingue mejor las redes reales de las redes aleatorias que un enfoque clásico extraído de la literatura, en esta sección se mostrará el comportamiento de la metodología a la inclusión progresiva de ruido.

Concretamente, hemos realizado el estudio para todas las redes de levaduras que se presentaron previamente en el trabajo (redes Batada, Lee y SGD). Estas redes de entrada cambiaron aumentando la aleatoriedad en sus relaciones genéticas. Por lo tanto, en un proceso de bucle compuesto por 10 iteraciones, las relaciones aleatorias agregadas a las redes se incrementaron en un 10% en cada iteración. De la misma forma se eliminó un 10% de las relaciones originales. Para evitar sesgos, esto se hizo 385 veces (tamaño de la muestra con un intervalo de confianza del 95% asumiendo una población infinita de redes aleatorias) [38]. Por tanto, se analizaron 15360 (385 redes × 10 iteraciones × 4 redes originales) diferentes redes aleatorias.

De acuerdo con los resultados presentados en la sección de análisis ROC, en este experimento se consideró el nivel de valor de validez 2. Como patrón oro, hemos utilizado la vía (ciclo celular de la levadura) ya que es una de las vías más estudiadas de la levadura [41-43]. Los promedios de los resultados se resumen en la Figura 7.


Resultados del estudio de aleatoriedad de GeneNetVal utilizando el nivel 2. Para este estudio, hemos utilizado diferentes redes de levadura versus vía sce04111.

La Figura 7 presenta la evolución de los valores de validez para las redes de levaduras. Se puede observar que los diferentes valores de validez siguen un comportamiento similar. Este comportamiento verifica que la pérdida de información relevante en las redes es progresiva y aumenta a medida que aumenta la aleatoriedad en ellas. Estos resultados muestran que nuestro método es capaz de detectar la pérdida de información a medida que aumenta la aleatoriedad en las redes.

3.3. Un estudio funcional: redes de ciclo celular de levadura

En esta sección se utilizan algunas redes de levaduras bien conocidas para demostrar la utilidad de nuestro enfoque mediante la detección de una funcionalidad biológica específica como se describió en la Sección 2.3. Estas redes se produjeron mediante la aplicación de diferentes enfoques de inferencia de redes de genes al mismo microarray de ciclo celular de levadura de series de tiempo [44]. Concretamente, las redes se generaron aplicando los enfoques de la red presentados por Nariai et al. [26], que se obtiene a través de un algoritmo basado en Bayesiano Bulashevska y Eils [28] que es otro algoritmo basado en Bayesiano Ponzoni et al. [29] cuyo algoritmo denominado GRNCORP se basa en una optimización combinatoria y finalmente la red presentada por Gallo et al. [27] (llamado GRNCORP2) que es una mejora del rendimiento de GRNCORP.

Para este estudio, toda la información almacenada en KEGG se ha reunido en una única red compleja. Esta red global (red global KEGG, KGN) se genera de acuerdo con el conocimiento recopilado en cada red de asociación de genes generada a partir de Saccharomyces cerevisiae caminos. El objetivo de KGN es realizar una evaluación global de las diferentes redes para decidir si las redes contienen conocimiento biológico o no. En concreto, la evaluación se ha realizado con el nivel 2, según los resultados obtenidos en el apartado de análisis ROC. Para comparar las redes de genes, solo se han considerado las relaciones entre los genes contenidos en la red de entrada y KGN. No es posible establecer la calidad de esas interacciones, porque KEGG no contiene información para determinar si las interacciones gen-gen son biológicamente relevantes o no.

En la Tabla 2, se muestran las filas de KGN, los resultados de la evaluación global. Cabe mencionar que dos de las cuatro redes obtienen mejores resultados de validez con el KGN por la inclusión de un mayor número de relaciones indirectas ().