Diversidad de fuentes.
Como norma, nos enfrentamos a un entorno en el que la información relevante para la empresa se encuentra diseminada por infinidad de fuentes, unas veces estructurada y preparada para ser analizada, en otras ocasiones estructurada, pero con deficiencias en su calidad que no la hacen apta para ser utilizada o podemos tener fuentes de datos con información que no está estructurada y que deberá someterse a un proceso previo para poder ser utilizada.
Datos estructurados
Como hemos anunciado en el párrafo anterior, las fuentes de datos estructuradas son aquellas que organizan la información de manera ordenada y predecible, facilitando su procesamiento y análisis.
Estas fuentes pueden ser bases de datos del ERP o de cualquier otra aplicación que se utilice, hojas de cálculo, archivos CSV, entre otros, donde los datos se almacenan en filas y columnas claramente definidas.
Por ejemplo, una base de datos de clientes tendrá en cada línea la información relativa a ese cliente.
En resumen, las fuentes de datos estructuradas nos permiten almacenar, procesar y analizar información de manera eficiente y sistemática.
En ocasiones estas fuentes pueden contener datos que por la forma en la que se han introducido, o porque hay diferentes personas introduciendo datos, no son homogéneos, tienen faltas ortográficas, errores semánticos, nombres distintos para el mismo proceso, o se han introducido cifras en letras, lo que nos impide utilizarlos sin antes revisarlos y arreglarlos.
Para mejorar la calidad del dato y eliminar errores tenemos herramientas como las apps, que nos permiten definir los tipos de datos de cada campo, o definir un formato, o restringir los valores a unos pocos valores de una lista, consiguiendo que la información se introduzca ya con unos requisitos que reducen drásticamente los errores, y la dejan preparada para ser analizada.
Datos no estructurados
Como datos no estructurados se conocen aquellos datos que no están organizados en una estructura o un modelo diseñado. Estos datos suelen estar categorizados como cualitativos. Los datos no estructurados son los tipos de datos más abundantes, y una vez analizados, pueden usarse para decisiones comerciales, entre muchos otros usos.
Los datos no estructurados suelen estar almacenados en su formato original, por lo que es necesario utilizar diferentes herramientas para poder convertir estos datos en información procesable.
Aunque suele ser más difícil trabajar con ellos, a diferencia de los datos estructurados, suelen contener información más detallada y completa que no está disponible en los datos estructurados.
Como resultado, muchas organizaciones están invirtiendo en tecnologías como machine learning (ML) y procesamiento de lenguaje natural (NLP), o ChatGPT, para analizar mejor y obtener información a partir de los datos no estructurados.
Por ejemplo, la api de ChatGPT nos permite por un coste reducido poder analizar documentos en pdf y extractar la información relevante para contabilizar facturas en el ERP o grabar los pedidos de clientes de forma automatizada. Por lo que es una opción muy interesante para pequeñas y medianas empresas.
Los datos no estructurados existen en formato de texto, imagen, audio o video. Ejemplos de datos de texto serían los correos electrónicos, mensajes de texto, facturas, registros. Ejemplos de datos en imágenes serían resonancias magnéticas, radiografías y tomografías.