PL: Uczenie maszynowe w detekcji polimorfizmów zmienności liczby kopii | EN: Machine learning in copy number variation detection
2022
Bartosz Lewandowski | supervisor: Magdalena Frąszczak
abstractPL: Wykrywanie polimorfizmów zmienności liczby kopii (ang. Copy Number Variation, CNV) jest ciągle ciężkim zadaniem i aktualnie stosowane programy do ich wykrywania nie uzyskują idealnych wyników. Szczególnie w przypadku danych o słabej jakości. Polepszenie wyników poprzez zwiększenie pokrycia, czy wykonanie reakcji łańcuchowej polimerazy (ang. Polymerase Chain Reaction, PCR) wiąże się z większymi kosztami. Rozwój uczenia maszynowego daje coraz większe możliwości w coraz to krótszym czasie. Celem pracy było wykorzystanie algorytmów uczenia maszynowego do wykrycia duplikacji, oraz delecji w genomie. Zbudowane w pracy modele uczone są na danych prawdziwych, oraz symulowanych o krótkich odczytach z oznaczonymi CNV przez program Pindel i CNVNator. Dzięki zastosowaniu odpowiednich zmiennych, oraz dobrej optymalizacji kodu modele dostarczają dobre wyniki w stosunkowo krótkim czasie. Dużym plusem zbudowanego oprogramowania jest możliwość stosowania go zarówno do danych o krótkich odczytach (ang. short-read) jak i danych z długimi odczytami (ang. long-read).
Afficher plus [+] Moins [-]abstractEN: Detecting Copy Number Variation (CNV) polymorphisms is still a tough task, and the currently used programs to detect them do not get perfect results. This is especially true for poor quality data. Improving the results by increasing coverage or performing Polymerase Chain Reaction (PCR) comes at a higher cost. Developments in machine learning are providing more and more possibilities in a shorter time. The aim of this study was to use machine learning algorithms to detect duplications and deletions in the genome. The models built in the paper are trained on short read simulated data, and short read real data with labeled CNVs by Pindel and CNVNator. Thanks to the use of appropriate features, and good code optimization, the models provide good results in a relatively short time. A big plus of the developed software is that it can be applied to both short-read as well as long-read data.
Afficher plus [+] Moins [-]status: finished
Afficher plus [+] Moins [-]Mots clés AGROVOC
Informations bibliographiques
Cette notice bibliographique a été fournie par Wrocław University of Environmental and Life Sciences
Découvrez la collection de ce fournisseur de données dans AGRIS