Repositorio UVigo

Evaluation of phylogenomic methods for species tree estimation

Investigo Repository

Evaluation of phylogenomic methods for species tree estimation

Mallo Adan, Diego
 
DATE : 2017-08-11
UNIVERSAL IDENTIFIER : http://hdl.handle.net/11093/822
UNESCO SUBJECT : 2409.03 Genética de Poblaciones ; 1203.26 Simulación
DOCUMENT TYPE : doctoralThesis

ABSTRACT :

The evolutionary relationships among organisms and molecules are usually depicted as phylogenetic trees. In the last decade, a new technological jump in sequencing technologies (next–generation sequencing, NGS) has resulted in an unprecedented amount of data, transforming “phylogenetics” into “phylogenomics”. That is, we have moved from the use of a few genes to the analysis of hundreds/thousands of genes or even complete genomes. One of the main findings of phylogenomics has been a surprisingly high level of incongruence between trees estimated from different genomic regions. There are several potential reasons for this disagreement. It may be only apparent, due to reconstruction artifacts; or real, as gene trees can have a different history than the species tree in which they are embedded. Because of this, it is really necessary to develop new methods that take into account the evolutionary processes that generate this disparity, mainly incomplete lineage sorting, gene duplication and lost, and horizontal transfer. Indeed, several methods have already been proposed, but some ... [+]
The evolutionary relationships among organisms and molecules are usually depicted as phylogenetic trees. In the last decade, a new technological jump in sequencing technologies (next–generation sequencing, NGS) has resulted in an unprecedented amount of data, transforming “phylogenetics” into “phylogenomics”. That is, we have moved from the use of a few genes to the analysis of hundreds/thousands of genes or even complete genomes. One of the main findings of phylogenomics has been a surprisingly high level of incongruence between trees estimated from different genomic regions. There are several potential reasons for this disagreement. It may be only apparent, due to reconstruction artifacts; or real, as gene trees can have a different history than the species tree in which they are embedded. Because of this, it is really necessary to develop new methods that take into account the evolutionary processes that generate this disparity, mainly incomplete lineage sorting, gene duplication and lost, and horizontal transfer. Indeed, several methods have already been proposed, but some of them make naive assumptions about the process of evolution, and/or are computationally prohibitive. Most importantly, their relative performance has not been thoroughly evaluated. In this thesis we will compare different methods for species tree estimation at the phylogenomic level using extensive computer simulations and real data sets. We are interested to understand which methods work best under which circumstances, so users can choose the best method for their data. We aim to characterize not only their accuracy –how often they recover the true species tree–, but also their robustness –the effect of violation of assumptions or model misspecification–, efficiency –how much data they need–, and computational speed. In addition, we will gather real phylogenomic data sets with thousands of genes from public databases to compare the different methods but also to obtain evolutionary information regarding the Tree of Life (ToL). In particular, the phylogenetic relationships among the main eukaryote lineages have not been solved yet, and in fact their classification has been continuously changing from the classical four kingdoms to the actual 4–8 supergroups. Most phylogenomic studies of the Eukaryote ToL have adopted the supermatrix approach, equating the resulting gene tree with the species tree. Therefore, it will be very interesting to test in this context the different species trees methods and their ability to analyze data from very divergent groups. [-]
 
As relacións evolutivas entre organismos e moléculas son habitualmente descritas mediante árbores filoxenéticas. Na última década un novo salto tecnolóxico nas técnicas de secuenciación (secuenciación masiva ou de nova xeración, “NGS”) xerou unha cantidade de datos sen precedentes, transformando a filoxenética en filoxenómica. É dicir, pasouse de utilizar uns poucos xenes ó análise de centos, miles ou incluso xenomas enteiros. Un dos achados máis importantes da filoxenómica foi a presenza dun importante nivel de incongruencia entre árbores estimadas a partir de distintas rexións xenómicas. Hai varias razóns potenciais que explican esta incoherencia. Esta pode ser soamente aparente, e dicir, un artefacto da inferencia filoxenética; ou real, debida a que as árbores de xenes posúen diferentes historias evolutivas ca da árbore de especies na que están embebidas. Polo tanto, é realmente necesario desenvolver novos métodos que teñan en conta os procesos evolutivos que xeran dita incongruencia, sendo estes principalmente a coalescencia profunda, a duplicación e perda e a transferencia ... [+]
As relacións evolutivas entre organismos e moléculas son habitualmente descritas mediante árbores filoxenéticas. Na última década un novo salto tecnolóxico nas técnicas de secuenciación (secuenciación masiva ou de nova xeración, “NGS”) xerou unha cantidade de datos sen precedentes, transformando a filoxenética en filoxenómica. É dicir, pasouse de utilizar uns poucos xenes ó análise de centos, miles ou incluso xenomas enteiros. Un dos achados máis importantes da filoxenómica foi a presenza dun importante nivel de incongruencia entre árbores estimadas a partir de distintas rexións xenómicas. Hai varias razóns potenciais que explican esta incoherencia. Esta pode ser soamente aparente, e dicir, un artefacto da inferencia filoxenética; ou real, debida a que as árbores de xenes posúen diferentes historias evolutivas ca da árbore de especies na que están embebidas. Polo tanto, é realmente necesario desenvolver novos métodos que teñan en conta os procesos evolutivos que xeran dita incongruencia, sendo estes principalmente a coalescencia profunda, a duplicación e perda e a transferencia horizontal. Actualmente xa se desenvolveron varios métodos, pero moitos deles baséanse en asuncións do proceso evolutivo demasiado sinxelas e/ou son computacionalmente prohibitivos. De feito, o seu rendemento non foi avaliado de xeito exhaustivo a día de hoxe. Nesta tese imos comparar diferentes métodos para a estimación de árbores de especies a nivel filoxenómico, usando simulacións por ordenador e datos reais. Deste xeito, pretendemos entender que métodos traballan mellor baixo que circunstancias, para que así os usuarios podan elixir o mellor método para cada problema concreto. A fin de lograr este obxectivo, pretendemos caracterizar non soamente a exactitude –frecuencia de obtención da verdadeira árbore de especies–, senón tamén a robustez –resposta á violación das asuncións do método ou do modelo evolutivo–, eficiencia –cantidade de datos necesarios– e rendemento dende o punto de vista informático. Ademais, utilizaremos datos filoxenómicos reais, reunidos a partir de bases de datos públicas, para avaliar os diferentes métodos e intentar obter nova información evolutiva no contexto da Árbore da vida (“ToL”). Particularmente, as relacións filoxenéticas entre os eucariotas non foron resoltas ata o de agora, e de feito a súa clasificación foi cambiando con frecuencia dende os catro reinos clásicos ata os actuais 4-8 supergrupos. A maioría dos estudios actuais que intentan obter a árbore da vida dos eucariotas adoptaron unha estratexia de supermatriz, asumindo polo tanto a equivalencia entre árbores de xenes e árbores de especies. Polo tanto, este grupo sería moi interesante e axeitado para avaliar os métodos de obtención de árbores de especies e a súa capacidade para resolver problemas con grupos moi diverxentes. [-]
 
Las relaciones evolutivas entre organismos y moléculas son habitualmente descritas mediante árboles filogenéticos. En la última década, un nuevo salto tecnológico en las técnicas de secuenciación (secuenciación masiva o de nueva generación, “NGS”) ha generado una cantidad de datos sin precedentes, transformando la filogenética en filogenómica. Es decir, hemos pasado de utilizar unos pocos genes al análisis de cientos, miles o incluso genomas completos. Uno de los descubrimientos más importantes de la filogenómica ha sido la presencia de un importante nivel de incongruencia entre árboles estimados a partir de diferentes regiones genómicas. Hay varias razones potenciales que explican esta incoherencia. Ésta puede ser aparente, es decir, un artefacto de la inferencia filogenética; o real, debida a que los árboles de genes poseen diferentes historias evolutivas que el árbol de especies en el que están embebidos. Por lo tanto, es realmente necesario desarrollar nuevos métodos que tengan en cuenta los procesos evolutivos que generan dicha incongruencia, principalmente la coalescencia ... [+]
Las relaciones evolutivas entre organismos y moléculas son habitualmente descritas mediante árboles filogenéticos. En la última década, un nuevo salto tecnológico en las técnicas de secuenciación (secuenciación masiva o de nueva generación, “NGS”) ha generado una cantidad de datos sin precedentes, transformando la filogenética en filogenómica. Es decir, hemos pasado de utilizar unos pocos genes al análisis de cientos, miles o incluso genomas completos. Uno de los descubrimientos más importantes de la filogenómica ha sido la presencia de un importante nivel de incongruencia entre árboles estimados a partir de diferentes regiones genómicas. Hay varias razones potenciales que explican esta incoherencia. Ésta puede ser aparente, es decir, un artefacto de la inferencia filogenética; o real, debida a que los árboles de genes poseen diferentes historias evolutivas que el árbol de especies en el que están embebidos. Por lo tanto, es realmente necesario desarrollar nuevos métodos que tengan en cuenta los procesos evolutivos que generan dicha incongruencia, principalmente la coalescencia profunda, la duplicación y pérdida de genes y la transferencia horizontal. Actualmente han sido desarrollados varios métodos, pero muchos de ellos se basan en asunciones demasiado sencillas a cerca del proceso evolutivo, y/o son computacionalmente prohibitivos. De hecho, su rendimiento no ha sido todavía evaluado de manera exhaustiva. En esta tesis vamos a comparar diferentes métodos para la estimación de árboles de especies a nivel filogenómico, usando simulaciones por ordenador y datos reales. De esta manera, pretendemos entender qué métodos trabajan mejor bajo qué circunstancias, para que así los usuarios puedan elegir el mejor método para cada problema concreto. Para lograr este objetivo, pretendemos caracterizar no solamente la exactitud –frecuencia de obtención del verdadero árbol de especies–, si no también la robustez –respuesta a la violación de las asunciones del método o del modelo evolutivo–, eficiencia –cantidad de datos necesarios– y rendimiento desde el punto de vista informático. Además, utilizaremos datos filogenómicos reales, reunidos a partir de bases de datos públicas, para evaluar los diferentes métodos e intentar obtener nueva información evolutiva en el contexto del Árbol de la Vida (“ToL”). Particularmente, las relaciones filogenéticas entre los eucariotas no han sido todavía resueltas, y de hecho su clasificación ha cambiando con frecuencia, desde los cuatro reinos clásicos hasta los actuales 4-8 supergrupos. La mayoría de los estudios actuales que intentan obtener el árbol de la vida de los eucariotas han adoptado una estrategia de supermatriz, asumiendo por lo tanto la equivalencia de los árboles de genes con los de especies. Por lo tanto, este grupo será muy interesante y apropiado de cara a evaluar los métodos de obtención de árboles de especies y su capacidad para resolver problemas con grupos muy divergentes. [-]

Show full item record



Files in this item

Attribution-NonCommercial-ShareAlike 3.0 Spain Except where otherwise noted, this item's license is described as Attribution-NonCommercial-ShareAlike 3.0 Spain
2013 Universidade de Vigo, Todos los derechos reservados
Calidad So9001