Primera etapa del proceso de BI. Cuando recolectamos datos la información a analizar puede ser muy diversa, pueden ser formatos de tipo cadena de texto, números, booleanos, gráficas, etc. Las bases de datos publicas son de dominio general, las puedes encontrar en internet y las puedes usar para tus proyectos o incluso trabajo. Las BD privadas son normalmente generadas desde la misma empresa y contienen información sensible que no debe ser divulgada.

Información estructurada: Por ejemplo si vienen los datos ya organizados en una tabla.

Información no estructurada: Puede ser el análisis de un texto, ya que al venir escrito en uno o más párrafos no tiene una estructura que la vuelva fácil para analizar y requiere de mayor esfuerzo.

Existen distintos tipos de archivos: .csv .xlsx .py

Y distintos tipos de fuentes: Demográficas del gobierno, sectores públicos como el educativos, sector salud, etc.

Recursos adicionales: Big data in 5 minutes