Importancia de la limpieza de datos Generalmente es una de las partes que más tiempo nos va a llevar al hacer algún tipo de análisis. Para hacer un análisis debemos hacer una interpretación, pero para eso tenemos que poder leerlo de una manera sencilla para nosotros mismos o para un software, por lo que tenemos que estandarizar el formato.

Ejemplo: Si utilizamos texto en nuestras Bases de Datos, debemos poner atención en que todas las palabras estén en minúsculas y que no incluyan caracteres especiales, porque en algunas ocasiones puede tener problemas el software que utilicemos para tratar de entender estos caracteres y nos puede arrojar errores.

GIGO/RIRO

GIGO ➡️ Garbage In, Garbage Out

RIRO ➡️ Rubbish In, Rubbish Out

Entre mejor realicemos la limpieza de datos mejor información nos va a arrojar de resultado.

Preparación

Es la parte en donde vamos a dar la forma y vamos a estandarizar para dejar en buenas condiciones la información y lista para el siguiente paso.

Software para limpieza de Datos: Excel, Python con las librerías de Pandas y Numpy

Recursos: Guide To Data Cleaning