Computational Pipeline for Analyses of Genome-Wide Nascent Transcription from PRO-seq Data
2023
Aktay, Serhat
Celler har en rad olika sätt att försvara sig mot stress för att överleva, främst genom att reglera transkriptionen av gener. En metod för att undersöka hur cellens transkription förändras vid cellulär stress är precision run-on sequencing (PRO-seq). PRO-seq utnyttjar biotinkopplade nukleotider som förhindrar RNA polymeras från att inkorporera fler nukloetider efter den biotinkopplade. De olika RNA fragmenten med biotinkopplad nukleotid kan sedan separeras från all annan RNA i cellen och sedan sekvenseras. Målet med detta examensarbete är att förenkla analysen av sekvenserad PRO-seq data genom att utveckla en dataanalys-pipeline som gör denna typ av analys mer tillgänglig. Denna pipeline består av fem shell skript och tre R skript som skapar ett genomindex, laddar ned eller läser in experimentdata, anpassar data till genomet och producerar .bed och .bigWig filer för vidare analys. Genom att använda polymerasprofilen av nysyntetiserat RNA kan programmet vidare kartlägga funktionella genomregioner och analysera förändringen av genuttryck. I detta arbete användes data från värmechockade Homo sapiens, Canis lupis familiaris, Mus musculus, och Drosophila melanogaster celler. Denna analys ger en metod att studera genlängd, kartlägga funktionella genomregioner, kvantifiera mängden transkriberande RNA polymeras samt identifiera tidigare oidentifierade gener och genetiska förstärkare. Analysen visade att nyttjande av dubbelriktad transkription för att studera cellstress fungerar något bättre i däggdjur än insekter samt att gener som kodar för olika chaperoner var upreglerade i samtliga organismer. Denna pipeline är ett användarvänligt och standardiserat verktyg som hanterar storskaligt data och automatiserar analysen.
Afficher plus [+] Moins [-]Cells utilise various stress responses that are rapidly activated to avoid cell death under adverse conditions. Tracking gene transcription offers insight into the immediate changes in the cell, and one method to study the process of nascent transcription is precision run-on sequencing (PRO-seq). In PRO-seq, biotin-labeled nucleotides are added to halt the transcription as the RNA polymerase cannot continue transcription after incorporating biotin-labeled nucleotide to the nascent RNA. The biotin-labeled nascent RNAs are then isolated from the myriad of RNAs in the cell and sequenced. Simplifying the analysis of sequenced data and making the analysis more available for a larger group of scientist is needed, and therefore the aim of this thesis is to build a computational pipeline to analyse PRO-seq data. The pipeline consists of five shell and three R scripts that create a reference genome index for alignment, load experimental data, align the data to the reference genome, and output .bed and .bigWig files for further analysis. Using the profile of nascent transcription, the pipeline then identifies functional genomic regions and outputs gene expression activity based on engaged polymerase counts. The data used in this study are from heat shock cells from Homo sapiens, Canis lupis familiaris, Mus musculus, and Drosophila melanogaster. This analysis strategy provides a method to visualise gene lengths, map functional genomic regions, count engaged RNA polymerase and identify unannotated genes and enhancers. The analysis showed that the use of bidirectional transcription to study cell stress is more useful in mammals than in insects and that genes encoding chaperone machineries were induced in all organisms upon heat shock. The pipeline developed in this Masters Thesis offers a standardised and user-friendly method to study PRO-seq data and simplifies the analysis for laboratories with less experience in data analysis, additionally it is a tool to handle and automate processing of large amounts of data from distinct organisms. The computational pipeline outputs profiles of engaged RNA polymerases genome-wide, maps functional genomic regions, and counts transcriptional activity of genes and enhancers.
Afficher plus [+] Moins [-]Mots clés AGROVOC
Informations bibliographiques
Cette notice bibliographique a été fournie par Royal Institute of Technology
Découvrez la collection de ce fournisseur de données dans AGRIS