PL: Wykorzystanie technik uczenia maszynowego do analizy profili transkryptonicznych komórek nowotworowych | EN: The usage of machine learning techniques in analysis of transcriptomic profiles of tumor cells
2023
Oleksandr Khoroshevskyi | supervisor: Łukasz Łaczmański
abstractPL: Uczenie maszynowe jest nowoczesnym i coraz powszechniej używanym narzędziem w naukach biomedycznych. Zawdzięcza to swojej skuteczności w analizie dużych zbiorów danych oraz zdolności do identyfikacji klas i złożonych wzorców. W związku z powyższym w niniejszej pracy podjęto próbę opracowania modelu opartego o techniki uczenia maszynowego do klasyfikacji stadiów raka piersi na podstawie danych transkryptomicznych pobranych od pacjentów. Praca jest oparta na danych ekspresyjnych pochodzących z portalu NCI Genomic Data Commons w liczbie 1185 próbek. W pracy wykorzystano nowoczesne metody wstępnego przetwarzania danych, takie jak analiza składowych głównych, technika UMAP, metody zbalansowania klas i wybór statystycznie istotnych cech. Analiza danych została przeprowadzona przy użyciu nadzorowanego uczenia maszynowego, w tym sieci neuronowych, drzew decyzyjnych, maszyny wektorów nośnych i klasyfikatora bayesowskiego. Dane ekspresji genów są heterogeniczne i trudne do analizy, a analizowany zbiór danych cechuje się wielowymiarowością i małą liczbą próbek. Końcowe wnioski wskazują, że mimo wielokrotnych prób, nie udało się uzyskać precyzyjnego modelu do klasyfikacji, co mogło być spowodowane różnymi czynnikami, opisanymi w końcowej części pracy.
اظهر المزيد [+] اقل [-]abstractEN: Machine learning is a modern and rapidly advancing technique in biomedical sciences. It is becoming more popular due to its effectiveness in analyzing large datasets and abilities to learn complex biological patterns. In this study, I attempted to develop a machine learning model for automatic classification of breast cancer stages. Classification models were learned on transcriptomic data obtained from breast cancer patients. Current analyses are based on expression data from 1185 samples from the NCI Genomic Data Commons portal. Before model training, the data was preprocessed using popular techniques, such as Principal Component Analysis, Uniform Manifold Approximation and Projection, selection of statistically significant features, oversampling techniques and normalization. Data analysis was performed using supervised machine learning algorithms, including neural networks, decision trees, support vector machines, and Bayesian classifiers. The dataset used in this study is characterized by high dimensionality and a small number of samples. These results indicate that a precise classification model could not be obtained despite multiple attempts, which may be due to various factors described in the final part of the study.
اظهر المزيد [+] اقل [-]status: finished
اظهر المزيد [+] اقل [-]الكلمات المفتاحية الخاصة بالمكنز الزراعي (أجروفوك)
المعلومات البيبليوغرافية
تم تزويد هذا السجل من قبل Wrocław University of Environmental and Life Sciences