Valores atípicos en los datos, ¿cómo identificarlos y manejarlos? | Outliers in data sets, how identify and handling them?
2019
Leneidy Pérez Pelea
西班牙语; 卡斯蒂利亚语. En el análisis de datos experimentales, es frecuente encontrar variables biológicas con distribución no normal, en las cuales no se cumplen también, otras de las premisas planteadas en los métodos estadísticos tradicionales. En ocasiones, la falta de normalidad puede atribuirse a la presencia de uno o más valores atípicos (outliers) en los datos, los cuales se desvían mucho del resto de los valores y caen fuera del patrón general de distribución de la variable. Varios autores han propuesto diferentes definiciones para estos valores y han desarrollado métodos muy variados para identificarlos y manejarlos. Los métodos más empleados están basados en análisis de distancia, agrupamientos, varianza, ángulos entre vectores y densidad en la vecindad de las observaciones. También varían en depencia de si los valores atípicos están presentes en experimentos que analizan una o múltiples variables. Existe una gran controversia en la literatura en relación con la eliminación de los valores atípicos. Se ha planteado que se debe conocer su causa y la influencia que pueden tener en los resultados de los experimentos, antes de tomar la decisión de eliminarlos o incluirlos en el análisis, porque cambian las inferencias que se obtienen y, en ocasiones, su eliminación puede conducir a la pérdida de una información importante. En el presente artículo se hace una revisión de las principales causas que pueden provocar la aparición de estos valores atípicos, y algunos de los métodos que se han propuesto para identificarlos y manejarlos. Citación: Pérez Pelea, L. 2019. Valores atípicos en los datos, ¿cómo identificarlos y manejarlos? Revista Jard. Bot. Nac. Univ. Habana 40: 99-107. Recibido: mayo 2019. Aceptado: noviembre 2019. Publicado online: 31 de diciembre de 2019. Editor encargado: José Angel García-Beltrán.
显示更多 [+] 显示较少 [-]英语. In experimental data analysis it is frequently found no normal biological variables, in which other assumptions of traditional statistics methods are violated. Sometimes, no normally is due to the presence of one or more outlier values, which are far away the other values and fall out the general patron of the variable distribution. Different definitions for this values were proposed by various authors, who also have developed a variety of methods to identify and handle outliers. The most employ methods are based on distance, clustering, variance, angle between vectors and density in the neighborhood of the observations. These methods are also different when there are one or more variables in the experiment. There are a great controversy on the literature related with the elimination of outliers. The cause of outlier and its influence on the results of experiments should be known before taking the decision of its elimination, because the outliers change the inferences of the experiment, and sometimes, its elimination can lead up to the loss of important information. In the present paper, it was made a revision about the main causes of outliers and some proposed methods to identify and handle them. Citación: Pérez Pelea, L. 2019. Outliers in data sets, how identify and handling them? Revista Jard. Bot. Nac. Univ. Habana 40: 99-107. Accepted: November 2019. Received: May 2019. Online: 31 December 2019. Editor: José Angel García-Beltrán.
显示更多 [+] 显示较少 [-]