Application of imputed sequence-level genotypes to genomic analyses in German Warmblood horses
2025
Reich, Paula | Tetens, Jens Prof. Dr. | Tetens, Jens Prof. Dr. | Thaller, Georg Prof. Dr. | Brockmann, Gudrun A. Prof. Dr.
This thesis was supported by the H. Wilhelm Schaumann Stiftung.
Показать больше [+] Меньше [-]Der Einsatz von Gesamtgenom-Sequenz (Whole Genome Sequence, WGS)-Daten in genomischen Anwendungen ist den üblicherweise verwendeten Genotypdaten von Einzelnukleotid-Polymorphismus (Single Nucleotide Polymorphism, SNP)-Chips potenziell überlegen, doch ihre Erzeugung in großem Maßstab ist kostspielig. Eine kostengünstige Alternative zur Gewinnung von Daten auf Sequenzebene, insbesondere für eine große Anzahl von Individuen, ist die Anwendung der Genotyp-Imputation, d.h. die Vorhersage von Genotypen, die nicht direkt in einer Studienkohorte bestimmt wurden. Durch die Erhöhung der Markerdichte kann dieses Verfahren die Leistungsfähigkeit von genomischen Analysen verbessern, sofern die Genauigkeit der Imputation ausreichend hoch ist. Für Pferde sind nur wenige Informationen zur Genotyp-Imputation vorhanden und die Verfügbarkeit von genomischen Daten im Allgemeinen und WGS-Daten im Besonderen ist begrenzt. Das Ziel dieser Dissertation war es daher, die Genotyp-Imputation in deutschen Warmblutpferden, einer großen Pferdepopulation von weltweiter Bedeutung, zu implementieren und die resultierenden Sequenzdaten für verschiedene genomische Anwendungen zu nutzen. Dabei sollte ihre Eignung für diese Analysen untersucht und Varianten identifiziert werden, die mit ausgewählten Phänotypen von Interesse assoziiert oder für diese kausal sind. Zunächst wurden anhand öffentlich verfügbarer WGS-Daten von 317 Pferden verschiedener Rassen ein Mapping und Variant Calling durchgeführt, um ein Referenzpanel für die Genotyp-Imputation in Pferden zu erstellen. Dieses wurde anschließend dazu verwendet, den Effekt diverser Einflussfaktoren auf die Genauigkeit der Imputation zu untersuchen, um auf dieser Grundlage eine optimale Strategie für die Genotyp-Imputation in Warmblutpferden zu entwickeln. Dabei konnte nachgewiesen werden, dass die Imputationsgenauigkeit von der Größe und Zusammensetzung des Referenzpanels, der Markerdichte des zur Genotypisierung verwendeten SNP-Chips, der Allelfrequenz der imputierten Marker und der verwendeten Imputationssoftware beeinflusst wird. Die auf der Grundlage dieser Ergebnisse entwickelte angepasste Strategie, die zu einer genomweiten Imputationsgenauigkeit von 0,66 führte, wurde zur Imputation einer Kohorte von 4972 deutschen Warmblutpferden von mittlerer SNP-Dichte auf Sequenzebene herangezogen. Der resultierende Datensatz wurde anschließend zur Identifizierung von Genomregionen verwendet, die mit dem Exterieur der Pferde assoziiert waren, welches ein wichtiges Selektionskriterium in der Pferdezucht darstellt und ein Beispiel für komplexe Merkmale bei Pferden ist. Mittels genomweiter Assoziationsstudien (GWAS) konnten für verschiedene Exterieurmerkmale neue quantitative Merkmals-Loci (Quantitative Trait Loci, QTL) identifiziert werden. Darüber hinaus wurden für alle untersuchten Merkmale Heritabilitäten und genetische Korrelationen geschätzt. Eine GWAS für die Widerristhöhe, welche als Referenzmerkmal zur Validierung des imputierten Datensatzes und der Methodik diente, bestätigte einen bereits zuvor beschriebenen QTL auf Chromosom 3 nahe der Gene LCORL und NCAPG. Die anschließende Feinkartierung der Region ermöglichte die Identifizierung möglicher Kausalvarianten, darunter eine Nonsense-Mutation innerhalb der kodierenden Sequenz von LCORL. Derselbe QTL war ebenfalls mit einer Reihe anderer Exterieurmerkmale assoziiert, die untereinander zudem hohe genetische Korrelationen innerhalb der QTL-Region zeigten, was insgesamt auf eine hohe Relevanz dieses QTL für die Ausprägung des Exterieurs von Pferden hindeutet. Der imputierte Datensatz wurde außerdem zur Identifizierung embryonal letaler Mutation verwendet, welche durch das Screening genomischer Daten auf Haplotypen oder Varianten ohne Homozygote ermittelt werden können. Während die geringe Anzahl sequenzierter Pferde im Referenzpanel die Entdeckung von Varianten mit vorhergesagtem hohem oder moderatem Effekt und gleichzeitig signifikantem Mangel an Homozygoten nicht zuließ, ermöglichte die deutlich größere Stichprobengröße der imputierten Warmblutpferde die Identifizierung von 72 solcher Mutationen. Ihre weitere Charakterisierung ließ jedoch Zweifel an ihrer potenziellen Letalität aufkommen und machte deutlich, dass bei der Verwendung imputierter Daten für diese Anwendung größte Vorsicht geboten ist. Letztendlich stellten sich die vielversprechendsten Kandidatenmutationen als Artefakte der Variant-Calling-Pipeline heraus, die aufgrund der Ergebnisse der Genotyp-Imputation als vermeintlich signifikant im Sinne eines Mangels an Homozygoten eingestuft wurden. Zusammenfassend lässt sich festhalten, dass die Verwendung imputierter Sequenzdaten für GWAS sowie die Feinkartierung von Exterieurmerkmalen und insbesondere der Widerristhöhe als Beispiele für komplexe Merkmale bei Pferden erfolgreich war, während sie sich für die Identifizierung embryonal letaler Varianten anhand eines Mangels an Homozygoten als weniger effizient erwies. Der Effekt der Genotyp-Imputation und das damit verbundene Risiko von Imputationsfehlern lassen sich jedoch nicht ohne weiteres von anderen Faktoren wie der Stichprobengröße trennen, die bekanntermaßen ebenfalls die Leistungsfähigkeit von genomischen Analysen beeinflussen. Nichtsdestotrotz stellt die Genotyp-Imputation eine kosteneffiziente Methode dar, um die Anzahl der Individuen mit Daten auf Sequenzebene zu erhöhen, die in verschiedenen genomischen Anwendungen eingesetzt werden können. Dies ist insbesondere bei einer Spezies wie dem Pferd relevant, bei der die Verfügbarkeit echter WGS-Daten vergleichsweise begrenzt ist.
Показать больше [+] Меньше [-]The use of whole-genome sequence (WGS) data in genomic applications is potentially superior to the commonly used genotype data from single nucleotide polymorphism (SNP) arrays, but their generation on a large scale is expensive. An affordable alternative to obtain sequence-level data for large numbers of individuals is to apply genotype imputation, which is the prediction of genotypes not directly assayed in a study sample. By increasing the marker density, imputation can improve the performance of genomic analyses, provided that its accuracy is sufficiently high. In horses, information on genotype imputation is rather scarce and the availability of genomic data in general and WGS data in particular is limited. Therefore, the aim of this thesis was to implement genotype imputation in German Warmblood horses, a large horse population of global importance, and to apply the resulting imputed sequence-level data to various genomic applications in order to investigate their suitability for such analyses and to identify variants associated with or causal for selected phenotypes of interest. First of all, mapping and variant calling were performed on publicly available WGS data from 317 horses of diverse breeds to establish a reference panel for genotype imputation in horses, which was then used to investigate the effect of several factors on the accuracy of imputation in order to develop an optimal strategy for genotype imputation in warmblood horses. Imputation accuracy was found to be influenced by the size and composition of the reference panel, the marker density of the genotyping array, the minor allele frequency of the imputed markers and the software used for imputation. Based on these findings, an adapted strategy, which resulted in a genome-wide imputation accuracy of 0.66, was developed and used to impute a cohort of 4972 German Warmblood horses from medium SNP density to sequence level. The resulting dataset was used to discover genomic regions associated with equine conformation, which is an important selection criterion in horse breeding and an example of complex traits in horses. Applying genome-wide association studies (GWAS), novel quantitative trait loci (QTL) were detected for various conformation traits. Furthermore, heritabilities and genetic correlations were estimated for all investigated traits. A GWAS for withers height, which served as a reference trait to validate the imputed dataset and methodology, confirmed a previously reported QTL on chromosome 3 near the LCORL and NCAPG genes. Subsequent fine-mapping of the region enabled the identification of candidate causal variants, including a nonsense mutation within the coding sequence of LCORL. The same QTL was also associated with several other conformation traits, and high genetic correlations were observed between these traits for the QTL region, indicating its high relevance for the manifestation of equine conformation in general. The imputed dataset was further used to detect embryonic lethal mutations, which can be identified by screening genomic data for haplotypes or variants without homozygotes. While the small number of sequenced horses in the reference panel did not allow for the discovery of high- or moderate-impact variants with a significant absence or reduction of homozygotes, the increased sample size of the imputed warmblood horses facilitated the identification of 72 such mutations. However, their further characterisation raised doubts about their potential lethality and highlighted that great caution should be taken when using imputed data for this application. Eventually, the most promising candidate mutations turned out to be artefacts from the variant calling pipeline, which were classified as putatively significant in terms of the absence of homozygotes based on the results of genotype imputation. In conclusion, the application of imputed sequence-level data was successful for GWAS and fine-mapping of equine conformation traits and in particular withers height as examples of complex traits in horses, but was less efficient for the identification of embryonic lethal variants based on a deficiency of homozygous individuals. However, the effect of genotype imputation and the associated risk of imputation errors are not easily separated from other factors that affect the performance of genomic analyses, such as sample size. Nevertheless, if handled with care, genotype imputation is a cost-effective means to increase the number of individuals with sequence-level data to be used in genomic applications, especially in a species such as the horse where the availability of real WGS data is comparatively limited.
Показать больше [+] Меньше [-]2025-02-27
Показать больше [+] Меньше [-]Ключевые слова АГРОВОК
Библиографическая информация
Эту запись предоставил Georg-August-Universität Göttingen