PL: Predykcja aktywności pIC50 inhibitorów białek ludzkich z wykorzystaniem algorytmów uczenia maszynowego i sieci neuronowych | EN: Prediction of pIC50 activity of human protein inhibitors using machine learning algorithms and neural networks
2023
Kamil Pytlak | supervisor: Tomasz Suchocki
abstractPL: Modelowanie QSAR (ang. ,,Quantitative Structure-Activity Relationship'') stanowi kluczowe podejście w procesie odkrywania nowych leków, umożliwiające przewidywanie aktywności biologicznej nowych związków chemicznych. W niniejszej pracy skupiono się na wielkoskalowej predykcji wartości pIC50 inhibitorów białek ludzkich poprzez zastosowanie algorytmów uczenia maszynowego określanych jako ,,state-of-the-art'' i sieci neuronowych typu MLP. W modelowaniu wykorzystano zestaw 208. deskryptorów molekularnych obliczonych za pomocą biblioteki RDKit w języku Python oraz 2048-wymiarowe ,,fingerprints'' typów Morgan, Topological, Atom i 166-wymiarowe MACCS. Przeprowadzono kompleksową analizę obejmującą łącznie 493 różne białka ludzkie, wykorzystując dane o wartościach pIC50 i SMILES molekuł pozyskanych z bazy danych ChEMBL. Przeprowadzona analiza eksploracyjna, w tym zastosowanie t-SNE, pozwoliła na identyfikację grup białek na podstawie ich profilów deskryptorów molekularnych. Badanie wykazało, że rodzina enzymatyczna stanowi istotny czynnik wpływający na aktywność farmakologiczną. Dodatkowo zaobserwowano, że podobieństwa w profilach deskryptorów molekularnych między białkami tej samej rodziny sugerują możliwość wykorzystania wiedzy uzyskanej z jednej rodziny enzymatycznej do przewidywania aktywności farmakologicznej dla innych białek tej samej rodziny lub pokrewnych rodzin. W ramach pracy skonstruowano 509 efektywnych modeli uczenia maszynowego do przewidywania pIC50 dla 242. białek ludzkich. Spośród tych modeli, szczególnie skuteczne okazały się modele oparte na XGBoost, LightGBM oraz metodzie lasów losowych. Po dokładnej selekcji najlepszych modeli dla każdego białka, wyniki wskazały na wyższą wydajność modeli XGBoost i LightGBM, mimo niewielkiej liczby modeli opartych na sieciach neuronowych. Mimo że typ Morgan osiągał subtelnie lepsze wyniki w porównaniu z typem Topological, nie zaobserwowano statystycznie istotnych różnic pomiędzy średnimi RMSE dla deskryptorów molekularnych, jak i typami ,,fingerprints'', co sugeruje ich porównywalną skuteczność w modelowaniu QSAR. Finalnie, najlepsze modele predykcyjne zostały zintegrowane jako usługa chmurowa w postaci aplikacji internetowej ,,DrugHunter''. To innowacyjne podejście umożliwia zbiorczą predykcję aktywności biologicznej dla inhibitorów wielu ludzkich białek, opierając się na deskryptorach molekularnych oraz ,,fingerprints'' typu Morgan, stanowiąc cenny instrument dla badaczy i naukowców w identyfikacji potencjalnych celów terapeutycznych oraz analizie struktur chemicznych.
Показать больше [+] Меньше [-]abstractEN: QSAR (Quantitative Structure-Activity Relationship) modeling is a critical tool in drug discovery for estimating the biological activity of novel compounds. This paper concentrates on predicting the pIC50 values of inhibitors of human proteins on a large scale using state-of-the-art machine learning algorithms and MLP-type neural networks. The study employed 208 molecular descriptors generated with the RDKit Python library, along with 2048-dimensional fingerprints of Morgan, Topological, and Atom types, and 166-dimensional MACCS types. A thorough investigation of 493 distinct human proteins was carried out using molecule SMILES data and pIC50 data that were obtained from the ChEMBL database. Utilizing t-SNE for exploratory analysis, protein clusters were identified based on molecular descriptors. The study indicates that the enzyme family makes a meaningful contribution to pharmacological activity. Moreover, the research demonstrates that molecular descriptor profiles similarities between proteins within the same family may allow for applying gained knowledge from one enzyme family to predict pharmacological activity for related families or other proteins within the same family. The study generated 509 machine learning models for predicting pIC50 for 242 human proteins. Among these models, the XGBoost, LightGBM, and random forest techniques showed exceptional performance. After carefully selecting the most suitable models for each protein, our findings indicate that the XGBoost and LightGBM models performed the best, despite the limited number of neural network models developed. Although the Morgan type had a slight advantage over the Topological type, there were no statistically significant differences found in the RMSE averages for molecular descriptors and fingerprint types, indicating their comparable performance in QSAR modeling. The best-performing predictive models have been integrated as a cloud service and are now available as a web application called "DrugHunter". This innovative approach allows for the collective prediction of the biological activity of inhibitors of multiple human proteins using molecular descriptors and Morgan-type fingerprints. It provides a valuable tool for researchers and scientists to identify potential therapeutic targets and analyze chemical structures.
Показать больше [+] Меньше [-]status: finished
Показать больше [+] Меньше [-]