Evaluación de metodologías y herramientas basadas en datos de proteínas para la anotación de genomas vegetales | Benchmark of the protein evidence plant genome annotation-based methodologies and tools | Avaluació de metodologies i eines basades en dades de proteïnes per anotar genomes vegetals
2025
Olcina Prieto, Juan José | Forment Millet, José Javier | Bombarely Gomez, Aureliano | Instituto Universitario Mixto de Biología Molecular y Celular de Plantas | Departamento de Biotecnología | Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural
[ES] El aumento de la información en el campo de la genética ha propiciado durante años la necesidad de desarrollar programas capaces de asimilar todos estos datos y generar una anotación de calidad. De entre los diferentes software disponibles, en este proyecto se evalúan GeMoMa, que se apoya en evidencia de proteínas pertenecientes a especies cercanas; y BRAKER2, que une la evidencia experimental de secuencias de proteínas con métodos ab initio (AUGUSTUS). Además, se estudia el empleo del programa Earl Grey con el fin de enmascarar las regiones genómicas con elementos repetitivos y analizar su composición. Con estos objetivos en mente, se ha preparado un grupo de 20 genomas de diferente tamaño y distancia filogenética que serán analizados a partir de varias especies de referencia en tres o cuatro ocasiones. Las dos primeras especies de referencia utilizadas son de alta y media calidad, mientras que las dos últimas son elegidas tal que tengan una relación filogenética variable. Para evaluar la calidad, fiabilidad y adecuación al conocimiento actual de las anotaciones obtenidas se emplea el programa conocido como GAQET2. El análisis de elementos repetitivos indica que existe una correlación positiva del tamaño del genoma tanto con la cantidad de elementos repetitivos como de retrotransposones. Los resultados de GAQET2 muestran varias diferencias clave entre GeMoMa y BRAKER2. GeMoMa es un programa más rápido, que genera datos más consistentes y completos. Sin embargo, en general la cantidad de genes encontrados es menor, tratándose en su gran mayoría de secuencias ya conocidas. Además, GeMoMa parece ser más sensible a la calidad de la anotación de referencia y a la distancia filogenética de esta. Al contrario, BRAKER2 tarda un mayor tiempo de computación y determina la posición de una mayor cantidad de genes, siendo algunos de estos potencialmente nuevos hallazgos. En adición, es mucho menos sensible al efecto de la distancia filogenética y la calidad de la anotación de referencia.
Afficher plus [+] Moins [-][EN] The increase of information in the field of genetics has, for years, driven the need to develop programs that can assimilate all this data and generate high quality annotation. Among the different software available, in this project are evaluated GeMoMa, which relies on protein evidence from closely related species; and BRAKER2, which combines experimental evidence from protein sequences with ab initio methods (AUGUSTUS). Moreover, it is studied the use of Earl Grey to mask genomic regions with repetitive elements and analyze its composition. With these goals in mind, it has been prepared a group of 20 genomes of different size and phylogenetic distance that are analyzed with a variety of reference species three or four times. The two first reference species are of high and medium quality, whereas the two last are chosen to have variable phylogenetic relationships. To evaluate the quality, reliability and adequacy to current knowledge of the annotations, it is run the program known as GAQET2. The analysis of repetitive elements indicates the existence of a positive correlation between the size of the genome and both the number of repetitive elements and retrotransposons. The results from GAQET2 reveal several key differences between GeMoMa and BRAKER2. GeMoMa is a faster program that generates more complete and consistent data. However, the number of genes found is lower, being the majority already known sequencies. Moreover, GeMoMa seems to be more sensitive to the quality of the reference annotation and its phylogenetic distance. In contrast, BRAKER2 takes more time to process and locate the position of a bigger number of genes, being some of them potential new discoveries. In addition, it is a lot less sensitive to the effect of phylogenetic distance and the quality of the reference annotation.
Afficher plus [+] Moins [-]Olcina Prieto, JJ. (2025). Evaluación de metodologías y herramientas basadas en datos de proteínas para la anotación de genomas vegetales. https://riunet.upv.es/handle/10251/224701
Afficher plus [+] Moins [-]Mots clés AGROVOC
Informations bibliographiques
Cette notice bibliographique a été fournie par Universitat Politècnica de València
Découvrez la collection de ce fournisseur de données dans AGRIS