PL: Wykorzystanie narzędzi uczenia maszynowego do analizy profili transkrypcyjnych dla raka nerki w skali TNM | EN: The use of machine learning tools to analyze the transcriptional profile of kidney cancer on the TNM scale
2022
Jarosław Wełeszczuk | supervisor: Łukasz Łaczmański
abstractPL: Poniższa praca miała na celu sprawdzenie, czy modele uczenia maszynowego są zdolne do predykcji stopnia zaawansowania gruczolaka i gruczolakoraka nerki w skali TNM na podstawie danych zawierających ekspresję genów w postaci liczby zliczeń. Zbiór danych uzyskano z repozytorium strony National Cancer Institute. W związku z wysokim niezbalansowaniem liczb wystąpień obserwacji, wypróbowano metodę ADASYN dla skali M w celu ich wyrównania. Ostatecznie zbiór danych zawierał łącznie prawie trzy tysiące obserwacji. Podczas modelowania wykorzystano siedem następujących algorytmów uczenia maszynowego: drzewo decyzyjne, las drzew decyzyjnych, algorytm k-tych najbliższych sąsiadów, wzmocnienie gradientowe, ekstremalne wzmocnienie gradientowe oraz sieć neuronową. Modele były oceniane wedle metryki f1-score, a ich skuteczność została sprawdzona za pomocą stratyfikowanego sprawdzianu krzyżowego z pięcioma złożeniami. Zabiegi dotyczące procesu uczenia, doboru hiperparametrów oraz weryfikacji skuteczności stworzonych modeli zostały przeprowadzone w środowisku Python. Model drzewa decyzyjnego, oparty na uzyskanych za pomocą metody ADASYN danych, osiągnął prawie czterokrotnie wyższy wynik w stosunku do oryginalnych. Dokonał tego na podstawie informacji z jednego genu. W związku z niską wiarygodnością tych wyników uzyskanych na danych ADASYN, postanowiono usunąć je z dalszych rozważań. Wyniki uzyskane podczas walidacji zdolności do predykcji modeli różnią się w zależności od składowej skali TNM. Najlepsze wydajności, osiągane przez modele dla skal T, N oraz M, były równe kolejno: 48.1%, 52.3% i 23.3%. Powyższa analiza dowiodła, że stworzone modele uczenia maszynowego, oparte o dane pochodzące z profilowania transkryptomicznego, nie potrafią dokonać skutecznej predykcji stopnia zaawansowania nowotworu gruczolaka i gruczolakoraka nerki w skali TNM. W związku z tym, nie mogą zostać zastosowane jako modele diagnostyczne. Możliwe, że rozszerzenie zbioru danych o nowe obserwacje oraz wyrównanie liczby wystąpień między klasami pozwoli na stworzenie bardziej wydajnych modeli.
اظهر المزيد [+] اقل [-]abstractEN: This study investigates whether machine learning models are capable of predicting the severity of renal adenoma and adenocarcinoma on the TNM scale based on gene expression data. The dataset was obtained from the National Cancer Institute website repository. Due to high imbalance in the number of observations, the ADASYN method was performed for the M scale dataset, in order to even their occurrence. Ultimately, the dataset contained a total of nearly three thousand observations. The following seven machine learning algorithms were used during modeling: decision tree, random decision forest, k-nearest neighbors algorithm, gradient boosting, extreme gradient boosting and neural network. Models were assessed according to the f1-score metric. Their effectiveness was examined using a stratified cross-validation with five folds. Steps related to the learning process, selection of hyperparameters and verification of the effectiveness of the created models were carried out in the Python envir
اظهر المزيد [+] اقل [-]status: finished
اظهر المزيد [+] اقل [-]الكلمات المفتاحية الخاصة بالمكنز الزراعي (أجروفوك)
المعلومات البيبليوغرافية
تم تزويد هذا السجل من قبل Wrocław University of Environmental and Life Sciences