-
Introducción
Incluso los científicos de datos y estadísticos más experimentados pueden cometer errores y tener conceptos erróneos en su trabajo. Conocer estos errores comunes puede ayudarnos a evitarlos y mejorar nuestro análisis de datos y conclusiones.
En este artículo se explican 12 de los errores y malentendidos más frecuentes en el campo de la ciencia de datos y la estadística. Ser conscientes de ellos y entenderlos bien, nos permitirá hacer un mejor trabajo analizando e interpretando datos.
-
Los errores más comunes
2.1 Correlación y causalidad
Confundir correlación con causalidad es un error clásico. Recuerda, la correlación no implica causalidad. El hecho de que dos variables estén correlacionadas, no significa necesariamente que una cause a la otra. Pueden existir factores subyacentes que expliquen la correlación.
2.2 Sesgo de supervivencia
Considerar solo los temas «sobrevivientes» puede llevar a creencias demasiado optimistas o conclusiones incorrectas. Al estudiar solo aquellos que sobreviven a un proceso o suceso, podemos pasar por alto información importante sobre aquellos que no sobreviven.
2.3 Paradoja de Simpson
Una tendencia en diferentes grupos puede desaparecer o revertirse cuando se combinan los grupos. Por ejemplo, ver una correlación positiva entre dos variables en diferentes subgrupos, pero una correlación negativa al combinar los subgrupos.
2.4 Variables de confusión
Pasar por alto el efecto de una tercera variable puede crear percepciones engañosas de relaciones entre otras dos variables. Una variable de confusión, si no se tiene en cuenta, puede llevar a conclusiones equivocadas.
2.5 Sesgo de selección
Extraer conclusiones a partir de muestras no aleatorias puede producir resultados engañosos. Siempre hay que apuntar a obtener muestras representativas de la población que queremos estudiar.
2.6 Interpretación errónea de probabilidades condicionales
Es común el malentendimiento de probabilidades condicionales, como resultados de pruebas médicas. Debemos ser conscientes de ello y comprender bien su significado.
2.7 Regresión a la media
Malinterpretar este fenómeno puede llevar a suposiciones incorrectas sobre relaciones causales entre variables. Cuando un valor extremo regresa a la media con el tiempo, puede parecer una relación causal cuando no lo es.
2.8 Mal uso de promedios
Depender solo de la media en datos sesgados puede ser engañoso. También debemos considerar la mediana o la moda en datos no simétricos. La media puede no representar bien el centro de datos asimétricos.
2.9 Tamaños de muestra pequeños
Sacar conclusiones generales a partir de muestras pequeñas puede conducir a hallazgos poco fiables y generalizaciones excesivas. Los tamaños de muestra siempre deben ser lo suficientemente grandes para el propósito del estudio.
2.10 Minería excesiva de datos
Probar numerosas hipótesis aumenta la probabilidad de encontrar al menos un resultado significativo pero posiblemente espurio. Una minería excesiva de los datos aumenta el riesgo de encontrar correlaciones y relaciones puramente por azar.
Debemos ser siempre críticos cuando evaluamos información estadística y aplicar nuestro conocimiento para evitar estos errores comunes. Prestar atención a estos 12 puntos nos ayudará a mejorar nuestro análisis y toma de decisiones.
-
Conclusión
Incluso los profesionales más experimentados pueden caer en trampas y cometer errores en el análisis de datos. Conocer estos 12 errores y sesgos comunes, explicados en detalle en este artículo, nos permitirá estar más atentos para evitarlos.
Aplicar este conocimiento críticamente nos ayudará a realizar mejores análisis de datos, llegar a conclusiones más válidas y tomar mejores decisiones basadas en evidencias. Ser conscientes de estos errores potenciales es una parte importante del continuo aprendizaje y mejora como científicos de datos.
Comentarios