Data Lakehouse: Más allá del Data Warehouses

Un data lake es un repositorio de almacenamiento que contienen una gran cantidad de datos en bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana para almacenar los datos.

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un conjunto de etiquetas de metadatos extendidas. Cuando se presenta una cuestión de negocios que debe ser resuelta, podemos solicitarle al data lake los datos que estén relacionados con esa cuestión. Una vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una respuesta.

El data lake se asocia a menudo con el almacenamiento de objetos orientado a Hadoop. En este escenario, los datos de una organización se cargan primero en la plataforma Hadoop y, a continuación, se aplican las herramientas de análisis y de minería de datos a los datos que residen en los nodos clúster de Hadoop.

Al igual que con big data, el término data lake a veces se desacredita diciendo que es una simple etiqueta de marketing para un producto que soporta Hadoop. Cada vez más, sin embargo, el término está siendo aceptado como una forma de describir cualquier gran conjunto de datos en el que el esquema y los requisitos de datos no se definen hasta que los datos se consultan.

Actualmente muchas de las grandes compañías tienen uno o varios Data Lakes y uno o varios Data Warehouses. Probablemente la mayoría también separe los casos de uso en casos de IA (Inteligencia Artificial) o Data Science de los casos de BI, lo más común es que para los primeros se usen los Data Lakes y para los segundos se usen los Datawarehouses.

Hasta hace unos años, esto era lo normal, puesto que el grado de madurez de las
tecnologías no permitía que el grado de las sinergias entre los dos mundos fuera grande. Desafortunadamente en la todavía los mundos BI y Big Data siguen separados
principalmente porque la manera de contestar las preguntas del negocio son diferentes:

   ● BI: Las preguntas son conocidas por lo que modelamos los datos para obtener                   respuestas a esas preguntas.
   ● Big Data: No sabemos las preguntas por lo que analizamos los datos buscando               esa pepita de oro.

Afortunadamente la industria se mueve a modelos más holísticos, concretamente, las
arquitecturas de datos se están uniendo en plataformas que pueden extraer lo mejor los dos mundos favoreciendo las sinergias entre BI y Big Data.

     La idea de un Data Lakehouse es la siguiente:
● ¿Se podría crear un Datawarehouse sobre un sistema de almacenamiento
distribuido barato, sin perder el rendimiento del sistema y que siga cubriendo los
casos de uso más enterprise?

La respuesta es: Sí. Y es que en esencia un Data Lakehouse es un Datawarehouse que
tiene como almacenamiento de datos un Data Lake, la idea es simple, pero esconde una gran complejidad técnica que muchas compañías han sabido trasladar a la realidad: Databricks, Snowflake, Microsoft…

Las características fundamentales de un Data Lakehouse son:
● Soporte ACID
● Gestión de los esquemas y los metadatos
● Conectividad con herramientas BI
● Almacenamiento desacoplado del procesamiento
● Formatos de almacenamiento Open Source(parquet)
● Soporte para datos estructurados y no estructurados
● Soporte para diferentes casos de uso: Machine learning, reporting/dashboarding,
    ETL
● Capacidad de gesitonar datos en real-time/streaming

Lakehouse es un nuevo paradigma que simplifica radicalmente la infraestructura de datos empresariales y acelera la innovación en una era en la que Machine Learning está listo para revolucionar todas las industrias, especialmente mezclando todo tipo de datos internos, externos, estructurados y no estructurados.

Un data lake es capaz de proporcionar datos a la organización para una gran variedad de procesos analiticos diferentes:

● Descubrimiento y exploración de datos
● Análisis ad hoc simple
● Análisis complejo para toma de decisiones
● Informes
● Análisis en tiempo realPero, ¿Cuáles son los beneficios de un data lake?

El principal beneficio de un data lake es la centralización de fuentes de contenido dispares. Una vez reunidas (de sus “silos de información”), estas fuentes pueden ser combinadas y procesadas utilizando big data, búsquedas y análisis que de otro modo hubieran sido imposibles.

Las fuentes de contenido dispares a menudo contienen información confidencial que
requerirá la implementación de las medidas de seguridad apropiadas en el data lake.
Las medidas de seguridad en el data lake pueden ser asignadas de manera que se otorga acceso a cierta información a los usuarios del data lake que no tienen acceso a la fuente de contenido original.

Estos usuarios tienen derecho a la información, pero no pueden acceder a ella en su fuente por alguna razón. Es posible que algunos usuarios no necesiten trabajar con los datos en el origen del contenido original, sino consumir los datos resultantes de los procesos incorporados a dichos orígenes. Puede haber un límite de licencias para el origen de contenido original que impide que algunos usuarios obtengan sus propias credenciales.

En algunos casos, la fuente de contenido original se ha bloqueado, está obsoleta o se desactivará en breve, sin embargo, su contenido sigue siendo valioso para los usuarios del data lake.

Una vez que el contenido está en el data lake, puede normalizarse y enriquecerse.

Esto puede incluir extracción de metadatos, conversión de formatos, aumento, extracción de entidades, reticulación, agregación, des-normalización o indexación.

Los datos se preparan “según sea necesario”, lo que reduce los costos de preparación
sobre el procesamiento inicial tal como sería requerido por los data warehouses. Una
estructura de big data permite escalar este procesamiento para incluir los conjuntos de
datos más grandes posibles.

Los usuarios, de diferentes departamentos, potencialmente dispersos por todo el mundo, pueden tener acceso flexible a un data lake y a su contenido desde cualquier lugar. Esto aumenta la reutilización del contenido y ayuda a la organización a recopilar más fácilmente los datos necesarios para impulsar las decisiones empresariales.

La información es poder, y un data lake pone la información de toda la empresa en manos de muchos más empleados para hacer a la organización un todo más inteligente, más ágil y más innovadora.

A continuación, destacaremos cinco elementos diferenciadores clave de un data lake y
cómo contrastan con el enfoque del data warehouse.

● Una Data Lake conserva todos los datos
● Un Data Lake soporta todos los tipos de datos
● Un Data Lakes soporta a todos los usuarios
● Los Data Lakes se adaptan fácilmente a los cambios
● Los Data Lakes proporcionan una visión más rápida

¡Saca todo el partido de tus datos!

Después de lo que hemos visto, ¿estás ya listo para construir un data lake?

Veamos primero una lista de lo que necesitas para asegurarte de que lo estás haciendo de una manera controlada pero flexible.

Al iniciar un proyecto de data lake, es necesario tener una alineación muy fuerte con el negocio. Después de todo, el data lake necesita proporcionar el valor que el negocio no está recibiendo de su data warehouse.

Esto puede hacerse resolviendo “paint points” o creando nuevos flujos de ingresos netos que pueden ofrecer los distintos equipos de negocio. Ser capaz de definir y articular este valor desde un punto de vista empresarial y convencer a socios a unirse en este viaje es muy importante para su éxito.

Las instituciones financieras están ahorrando y monitorizando los datos transaccionales y otras señales relacionadas con el fin de enriquecer las técnicas de detección de fraude, mantenerse al día con las regulaciones globales cambiantes y aumentar la confianza del consumidor en la seguridad de sus servicios.

La oportunidad de aprovechar los datos nunca ha sido mayor que con la tecnología de big data.

Los data lakes por sí solos son sólo medios para un fin. Para lograr el objetivo final de proporcionar conocimientos empresariales, se necesita inteligencia de máquina impulsada por servicios de metadatos universales.

Los servicios de metadatos universales catalogan los metadatos adjuntos a los datos, tanto dentro como fuera de Hadoop, y también capturan los tags proporcionados por el usuario sobre el contexto empresarial de los datos.

Los conocimientos empresariales fluyen desde un data lake inerte a través del valor añadido derivado de la catalogación tanto de la calidad como del estado de los datos dentro del data lake. Y también de las capacidades colaborativas de preparación de datos de autoservicio aplicadas a esos datos.

Por lo tanto, el Data Lake Inteligente permite que big data sin procesar sean
sistemáticamente transformados en conjuntos de datos aptos para el propósito y para una variedad de consumidores de datos.

Con esta implementación, las organizaciones pueden convertir rápida y repetidamente big data en activos de información confiables que aporten un valor comercial sostenible.

Se debe establecer un Data Lake Inteligente como parte de la estrategia de gestión de información hoy para convertir rápida y repetidamente más big data en valor de negocio sin aumentar el riesgo.