Las fuentes de datos. La auditoría del dato
Diversidad de fuentes.
Como norma, nos enfrentamos a un entorno en el que la información relevante para la empresa se encuentra diseminada por infinidad de fuentes, unas veces estructurada y preparada para ser analizada, en otras ocasiones estructurada, pero con deficiencias en su calidad que no la hacen apta para ser utilizada o podemos tener fuentes de datos con información que no está estructurada y que deberá someterse a un proceso previo para poder ser utilizada.
Datos estructurados
Como hemos anunciado en el párrafo anterior, las fuentes de datos estructuradas son aquellas que organizan la información de manera ordenada y predecible, facilitando su procesamiento y análisis.
Estas fuentes pueden ser bases de datos del ERP o de cualquier otra aplicación que se utilice, hojas de cálculo, archivos CSV, entre otros, donde los datos se almacenan en filas y columnas claramente definidas.
Por ejemplo, una base de datos de clientes tendrá en cada línea la información relativa a ese cliente.
En resumen, las fuentes de datos estructuradas nos permiten almacenar, procesar y analizar información de manera eficiente y sistemática.
En ocasiones estas fuentes pueden contener datos que por la forma en la que se han introducido, o porque hay diferentes personas introduciendo datos, no son homogéneos, tienen faltas ortográficas, errores semánticos, nombres distintos para el mismo proceso, o se han introducido cifras en letras, lo que nos impide utilizarlos sin antes revisarlos y arreglarlos.
Para mejorar la calidad del dato y eliminar errores tenemos herramientas como las apps, que nos permiten definir los tipos de datos de cada campo, o definir un formato, o restringir los valores a unos pocos valores de una lista, consiguiendo que la información se introduzca ya con unos requisitos que reducen drásticamente los errores, y la dejan preparada para ser analizada.
Datos no estructurados
Como datos no estructurados se conocen aquellos datos que no están organizados en una estructura o un modelo diseñado. Estos datos suelen estar categorizados como cualitativos. Los datos no estructurados son los tipos de datos más abundantes, y una vez analizados, pueden usarse para decisiones comerciales, entre muchos otros usos.
Los datos no estructurados suelen estar almacenados en su formato original, por lo que es necesario utilizar diferentes herramientas para poder convertir estos datos en información procesable.
Aunque suele ser más difícil trabajar con ellos, a diferencia de los datos estructurados, suelen contener información más detallada y completa que no está disponible en los datos estructurados.
Como resultado, muchas organizaciones están invirtiendo en tecnologías como machine learning (ML) y procesamiento de lenguaje natural (NLP), o ChatGPT, para analizar mejor y obtener información a partir de los datos no estructurados.
Por ejemplo, la api de ChatGPT nos permite por un coste reducido poder analizar documentos en pdf y extractar la información relevante para contabilizar facturas en el ERP o grabar los pedidos de clientes de forma automatizada. Por lo que es una opción muy interesante para pequeñas y medianas empresas.
Los datos no estructurados existen en formato de texto, imagen, audio o video. Ejemplos de datos de texto serían los correos electrónicos, mensajes de texto, facturas, registros. Ejemplos de datos en imágenes serían resonancias magnéticas, radiografías y tomografías.
- Publicado en Gestión
Power Automate
Power Automate, antes llamado Microsoft Flow, es una plataforma de automatización y flujo de trabajo basada en la nube que permite a los usuarios:
- Automatizar tareas repetitivas. Nos permite crear flujos de trabajo para automatizar acciones, entre las que podemos citar como ejemplos, el enviar correos electrónicos, actualizar hojas de cálculo, o crear tareas entre otras.
- Integrar aplicaciones y servicios, disponemos de una amplia variedad de conectores que permiten conectar diferentes aplicaciones o servicios.
- Optimizar procesos empresariales, nos permite diseñar flujos que simplifican y agilizan algunos procesos, como por ejemplo los comerciales.
- Conectar a diversas fuentes de datos.
A continuación, tenemos algunos de los ejemplos de uso de Power Automate;
- Puede automatizar la entrada de datos desde diversas fuentes (como hojas de cálculo de Excel, bases de datos o formularios web) y procesarlos según reglas específicas. Esto elimina errores humanos y mejora la eficiencia, al asegurarnos que los datos se recogen conforme se necesitan.
- Flujos de trabajo y aprobaciones, automatiza la aprobación de presupuestos anuales, presentaciones de ventas y otros procesos. Ahorra tiempo y aumenta la productividad del equipo.
- Monitoreo de almacenamiento en la nube, Power Automate puede supervisar archivos y carpetas en almacenamiento en la nube, alertando sobre cambios específicos. Esto garantiza una atención oportuna a documentos críticos.
- Automatización de gastos, aprobación automatizada de gastos y reembolsos, agilizando el proceso y reduciendo la carga administrativa.
- Automatización del proceso de envío de formularios a departamentos de la empresa, por ejemplo, automatizar el flujo de formularios de recursos humanos, como solicitudes de vacaciones o actualizaciones de información personal.
- Procesamiento de documentos con OCR, Power Automate puede extraer datos de documentos escaneados o imágenes utilizando reconocimiento óptico de caracteres (OCR).
- Cumplimiento normativo, automatiza la recopilación y seguimiento de datos para cumplir con regulaciones y políticas internas.
- Optimización de procesos no estándar, permite personalizar flujos de trabajo para situaciones específicas que no se ajustan a procesos estándar.
- Automatización en toda la organización, implementa flujos automatizados en diferentes departamentos y equipos para mejorar la colaboración y la eficiencia
- Publicado en Gestión
Data Lake
Un Data Lake o Lago de Datos es un sistema de almacenamiento que permite guardar grandes cantidades de datos estructurados y no estructurados en su estado natural, sin necesidad de convertirlos o procesarlos previamente. Esta definición flexible y amplia hace que los lagos de datos sean ideales para almacenar volúmenes masivos de información de diferentes fuentes y formatos.
Tanto Data Lake como Dataverse son servicios de Microsoft, pero con enfoques distintos:
Dataverse
- Como ya hemos comentado, está diseñado para trabajar con cualquier tipo de datos, datos relacionales o no relacionales, archivos, imágenes o de búsqueda.
- No requiere o necesita muy poco código para su configuración, lo que permite ser usado por profesionales que necesitan guardar y analizar datos o por desarrolladores profesionales.
- Se integra con los servicios en la nube de Microsoft como Azure, Dynamics 365 y Microsoft 365, además de conectores en Power Automate y Azure Logic Apps.
- Al estar construido sobre Azure, es globalmente disponible, escalable y seguro.
- Incluye un Data Lake administrado para análisis avanzados y aprendizaje automático.
Data Lake
- Almacena datos de cualquier tipo, incluyendo datos sin procesar, lo que lo hace ideal para grandes volúmenes de datos.
- No transforma los datos, los almacena tal y como vienen.
- Es una solución de almacenamiento que permite procesar datos bajo demanda y escalar instantáneamente. Se puede utilizar como destino de los datos de Dataverse antes de utilizarse en otros servicios o aplicaciones.
En resumen, Dataverse es ideal para ser usado como base de datos de aplicaciones y análisis estructurados, mientras que un Data Lake es más versátil y escalable para grandes volúmenes de datos sin procesar.
Se puede ampliar lo que aquí se ha comentado en,
https://learn.microsoft.com/en-us/power-apps/maker/data-platform/why-dataverse-overview.
https://learn.microsoft.com/en-us/power-apps/maker/data-platform/export-to-data-lake.
https://azure.microsoft.com/en-us/resources/cloud-computing-dictionary/what-is-a-data-lake/.
https://learn.microsoft.com/en-us/power-query/dataflows/understanding-differences-between-analytical-standard-dataflows.
- Publicado en Gestión