Development and evaluation of statistical methods to infer selection from genomic time series | Développement et évaluation de méthodes statistiques d'inférence de la sélection à partir de données génomiques temporelles.
2020
Paris, Cyriel | Génétique Physiologie et Systèmes d'Elevage (GenPhySE) ; Ecole Nationale Vétérinaire de Toulouse (ENVT) ; Institut National Polytechnique (Toulouse) (Toulouse INP) ; Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National Polytechnique (Toulouse) (Toulouse INP) ; Université de Toulouse (UT)-Université de Toulouse (UT)-École nationale supérieure agronomique de Toulouse (ENSAT) ; Institut National Polytechnique (Toulouse) (Toulouse INP) ; Université de Toulouse (UT)-Université de Toulouse (UT)-Ecole d'Ingénieurs de Purpan (INP - PURPAN) ; Institut National Polytechnique (Toulouse) (Toulouse INP) ; Université de Toulouse (UT)-Université de Toulouse (UT)-Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE) | Institut National Polytechnique de Toulouse - INPT | Simon Boitard | Bertrand Servin
Английский. Because the genetic diversity of a population is shaped by its evolutionary history, it can be used to infer some aspects of this history, for instance it can lead to detect the genomic regions under selection. Inference about past selection is generally based on genomic data from contemporary individuals and looks for specific patterns of genetic diversity in these data.With the recent advances of sequencing technologies, collecting genomic samples at several dates in the same population has also become possible. Such temporal data provide direct access to the past evolution of genetic diversity, which can be exploited for selection inference. However, taking advantage of this information requires to develop new methods dedicated to the analysis of genomic time series. This question is commonly tackled by the use of a hidden Markov model (HMM), which allows to exploit allele frequency evolution while accounting for the sampling noise associated to observed allele frequencies. However, one key question in this context is how to model the stochastic evolution of allele frequencies. While the Wright-Fisher model with selection is a natural choice, computing the likelihood of an observed trajectory under this model is computationally prohibitive. Therefore, several approximations of this process have been proposed, based either on the resolution of a differential equation (the diffusion equation) or on the use of usual parametric distributions whose moments match those of the Wright-Fisher. During this PhD, I first studied a method based on an elegant analytical resolution of the diffusion equation, but this method was found very difficult to use in practice due to high computational costs and numerical instability issues. Next, I compared several parametric distributions, including the Beta with Spikes distribution. Intially proposed for neutral models, this distribution was considered for the study of selection by Tataru et al. (2017). The originality of this model is to account for fixation probabilities, that is for the probability that one allele gets fixed or lost during evolution. I included this distribution into a HMM framework and showed that it was a good approximation of the Wright-Fisher process, which lead to accurate selection inference. Finally, I demonstrated the feasability and the interest of this approach by analyzing three real time series with high density genomic data, which lead to the detection of several genomic regions under selection. I also analyzed these data using standard methods based on a single present time sample and found quite different signals. This outlines the complementarity of time series and present time approaches, which can be combined for a better global understanding of evolutionary history.
Показать больше [+] Меньше [-]Французский. L’histoire évolutive d’une population a un grand impact sur sa diversité génétique. L’étude de cette diversité permet notamment de déterminer les régions du génome sous sélection. Historiquement, les méthodes permettant de faire de l’inférence sur la sélection s’appuient sur des échantillons d’individus contemporains et repèrent des motifs spécifiques de diversité génétique pour déterminer les régions sous sélection. Or, les avancées récentes des techniques de séquençage rendent possible l’obtention d’échantillons d’ADN de plusieurs individus d’une même population répartis à plusieurs instants dans le temps. Disposer de telles données permet de capturer directement l’évolution génétique de la population au cours du temps, information qui peut être exploitée pour estimer l’intensité de la sélection. Cependant, ce type de données ne peut se traiter avec les mêmes méthodes que les données contemporaines. Il est donc nécessaire de proposer des méthodes spécifiques permettant l’exploitation de données génomiques temporelles. Une approche classique répondant à cette problématique adoptée dans la littérature est le modèle de chaîne de Markov cachée, exploitant l’évolution de la fréquence allélique et prenant en compte le bruit d’observation de cette évolution découlant de l’échantillonnage. Le choix crucial dans ce modèle est la façon de définir comment évolue la fréquence allélique au cours du temps. Un modèle de référence incluant un paramètre de sélection est le modèle de Wright-Fisher. Cependant, le calcul de la vraisemblance des échantillons dans le cadre de ce modèle est numériquement très coûteux. Pour résoudre ce problème, plusieurs auteurs utilisent des modèles approximant le Wright-Fisher, déterminés soit en résolvant une équation différentielle (équation de diffusion) soit en ayant recours à une distribution paramétrique usuelle ayant les mêmes moments que le processus de Wright-Fisher. Dans ces travaux de thèse, je me suis intéressé tout d’abord à une méthode élégante de résolution de l’équation de diffusion mais elle s’est avérée inutilisable en pratique en raison de temps de calculs élevés et de problèmes d’instabilité numérique. J’ai étudié ensuite plusieurs distributions paramétriques, dont le modèle Beta with spikes proposé d’abord sous neutralité (sans sélection) puis sous sélection par Tataru, Simonsen, Bataillon, and Hobolth (2017). Contrairement à la plupart des autres modèles, il permet de rendre compte des évênements de fixation, c’est à dire de la disparition d’un allèle dans la population. J’ai utilisé ce modèle au sein d’une chaîne de Markov cachée et j’ai pu montrer qu’il était une bonne approximation du modèle de référence de Wright-Fisher, qui permettait une bonne inférence de la sélection. Enfin j’ai démontré l’applicabilité et l’utilité de cette approche sur trois jeux de données génomiques temporelles denses, proposant dans les trois cas des régions génomiques sous sélection à l’aide de ma méthode. Ces jeux de données ont aussi été analysés à l’aide de méthodes classiques et ont révélé que l’approche temporelle permettait de détecter de nouvelles régions et constitue donc une approche complémentaire à l’analyse de données contemporaines.
Показать больше [+] Меньше [-]Ключевые слова АГРОВОК
Библиографическая информация
Эту запись предоставил Institut national de la recherche agronomique