PL: Wykorzystanie metody głębokiego uczenia w analizie sekwencji genomu zwierząt hodowlanych | EN: The application of deep learning methods in the analysis of livestock genomes
2025
Krzysztof Kotlarz | supervisor: Joanna Szyda | supervisor: Przemyslaw Biecek
abstractPL: Głębokie uczenie (DL) to rozwijająca się dziedzina sztucznej inteligencji (AI), która w ostatnich latach zyskała na znaczeniu w wielu obszarach nauki. Początkowo algorytmy DL były wykorzystywane głównie do rozpoznawania obrazów, ale od tego czasu ich zastosowanie rozszerzyło się na inne dziedziny, w tym genomikę. Mimo to, w genomice zwierząt hodowlanych, wykorzystanie DL jest wciąż rzadkie. Sekwencjonowanie następnej generacji (NGS), w szczególności sekwencjonowanie całego genomu (WGS), dostarcza ogromnej ilości informacji genetycznych, umożliwiając badanie zmienności DNA na dużą skalę. Ze względu na wysoką zawartość informacyjną, WGS można wykorzystać do identyfikacji korelacji między zmiennością genetyczną a cechami fenotypowymi. Celem niniejszej rozprawy doktorskiej jest wprowadzenie algorytmów DL do genomiki zwierząt gospodarskich, ze szczególnym uwzględnieniem wykorzystania informacji WGS. Rozprawa doktorska składa się z czterech badań, które obejmują zastosowanie tych algorytmów do różnych aspektów analizy genomu. Pierwszy projekt koncentruje się na klasyfikacji polimorfizmów pojedynczego nukleotydu (SNP) uzyskanych z sekwencji DNA całych genomów, przy użyciu technologii WGS oraz mikromacierzy oligonukleotydowych. Celem jest rozróżnienie prawidłowo zidentyfikowanych SNP od błędnych. Algorytm klasyfikacyjny wskaże cechy DNA, które mają największy wpływ na klasyfikację SNP. Drugi projekt dotyczy klasyfikacji krów jako odporne lub podatne na zapalenie wymienia na podstawie SNP zidentyfikowanych w sekwencjach DNA 52 krów rasy polskiej holsztyńsko-fryzyjskiej. Algorytm klasyfikacyjny wskaże SNP mające największy wpływ na odporność na zapalenie wymienia. Trzeci projekt rozwija pierwszy, wykorzystując sieci neuronowe typu autoencoder (AE) do klasyfikacji SNP. Autoencoder, dzięki swojej zdolności do odtwarzania danych wejściowych, może wykrywać anomalie, takie jak nieprawidłowo wykryte SNP, w nowych zbiorach danych. Czwarty projekt koncentruje się na wyborze SNP z danych WGS przy użyciu nowych algorytmów opartych na agregacji rang. Wybrane SNP są wykorzystane do klasyfikacji ras bydła w oparciu o dane z projektu "1000 Bull Genomes", obejmujące 1825 osobników. Algorytm klasyfikacji wskaże SNP charakterystyczne dla poszczególnych ras. Podsumowując, opracowane algorytmy klasyfikacji mogą być również zastosowane do innych struktur danych opartych na WGS. Praca dostarcza nie tylko wyników biologicznych związanych z genomiką zwierząt hodowlanych, ale także metod i towarzyszących im algorytmów, które mogą być stosowane w innych badaniach opartych na genomach, nie tylko w odniesieniu do danych dotyczących zwierząt hodowlanych.
Show more [+] Less [-]abstractEN: Deep Learning (DL) is a rapidly developing field of Artificial Intelligence (AI) that has gained significant importance in various areas of science in recent years. Initially, DL algorithms have been used primarily for image recognition, but their application has since expanded to other fields, including genomics. However, in livestock genomics, the use of DL remains rare. Next-Generation Sequencing (NGS), particularly Whole-Genome Sequencing (WGS), provides a great amount of genetic information, enabling the study of DNA variation on a large scale. Due to their high informational content, WGS can be used to identify correlations between genetic variation and phenotypic traits. The purpose of this doctoral dissertation is to introduce DL algorithms into livestock genomics, with a particular focus on the use of WGS information. The dissertation is composed of four studies that involve applying these algorithms to different aspects of genome analysis. The first project focusses on the classification of Single Nucleotide Polymorphisms (SNPs) obtained from whole-genome DNA sequences using both WGS technology and oligonucleotide microarrays. The goal is to differentiate correctly identified SNPs from incorrect ones. The classification algorithm identifies the DNA features that have the greatest impact on the classification of SNPs. The second project involves classifying cows as resistant or susceptible to mastitis based on SNPs identified in the DNA sequences of 52 Polish Holstein- Friesian cows. The classification algorithm highlights the SNPs with the most significant influence on mastitis resistance. The third project expands on the first by using autoencoder (AE) neural networks for SNP classification. Due to its ability to reconstruct input data, the autoencoder can be used to detect anomalies, such as erroneous SNPs, in new data sets. The fourth project focusses on the selection of SNP from WGS data using novel algorithms based on rank aggregation. The selected features are used for individuals classification to breeds, utilising data from the "1000 Bull Genomes" project, which includes 1,825 individuals. The classification algorithm identifies the characteristic SNPs of specific breeds. In summary, the developed classification algorithms can also be applied in other data structures based on WGS. The dissertation provides not only biological results related to livestock genomics, but also methods and accompanying software tools that can be applied in other genome-based studies, not necessarily to livestock data.
Show more [+] Less [-]status: finished
Show more [+] Less [-]collation: 113
Show more [+] Less [-]AGROVOC Keywords
Bibliographic information
This bibliographic record has been provided by Wrocław University of Environmental and Life Sciences