Menú Cerrar

Overview of Data Lakes

Table of Contents

Definición de Big Data

Big Data es un término amplio para describir conjuntos de datos tan grandes o complejos que las herramientas y soluciones tradicionales son inadecuadas para procesar y realizar análisis. Las características de Big Data: las cuatro V

Volumen

Las soluciones deben funcionar de manera eficiente en sistemas distribuidos y deben poder ampliarse fácilmente para adaptarse a los aumentos de tráfico.

  • Volúmenes de datos extremadamente grandes.
  • Los datos aumentan a un ritmo rápido.
  • Terabytes de datos >> Petabytes de datos

Variedad

Las soluciones deben ser lo suficientemente sofisticadas para administrar todos los diferentes tipos de datos y, al mismo tiempo, proporcionar un análisis preciso.

  • Diversos conjuntos de datos, múltiples fuentes.
  • La mayoría de las fuentes están en la nube.
  • Los sistemas “heredados” todavía están presentes.
  • Varias formas de datos: estructurados, semiestructurados y no estructurados.

Velocidad

Las soluciones deben poder administrar esta velocidad de manera eficiente, y los sistemas de procesamiento deben poder devolver resultados en un período de tiempo aceptable.

  • Mayor velocidad de usuarios, dispositivos, aplicaciones.
  • 75 mil millones de dispositivos conectados para 2020.
  • MB / s es normal, GB / s es común.
  • Un millón de transacciones por segundo.
  • En tiempo real, por lotes.

Veracidad

Los datos deben permanecer consolidados, limpios, consistentes y actualizados para tomar las decisiones correctas.

  • Fiabilidad de los datos.
  • Diferencias inherentes en todos los datos recopilados.
  • Datos inconsistentes, a veces inexactos, que varían.

La evolución del análisis de datos

Descriptivo Por qué sucedió “X”. El análisis descriptivo utiliza técnicas de agregación y minería de datos para proporcionar información sobre el pasado y proporcionar respuestas.
Profético ¿Cuál es la probabilidad de que suceda “X”? El análisis predictivo utiliza tecnologías de predicción y modelado estadístico para comprender lo que podría suceder en el futuro.
Preceptivo ¿Qué hacer si sucede “X”? Este tipo de análisis utiliza algoritmos de optimización y simulación para evaluar los posibles resultados y responder “¿Qué se debe hacer?”

¿Por qué todas las empresas necesitan una estrategia de datos?

Hay más datos de los que la gente piensa:

  • Los datos crecen> 10 veces cada 5 años.
  • La plataforma de datos debe vivir 15 años

Hay más consumidores que acceden a los datos:

  • Científicos de datos, ingeniero de datos, gerente de productos de datos, visualizador de datos, usuarios comerciales, analistas, aplicaciones, desarrolladores.

Y más requisitos para hacer que los datos estén disponibles:

  • Seguro, en tiempo real, flexible, escalable.

_
Fuente: IDC, DataAge 20216: The Evolution of Data to Life-Critical No se centre en Big Data, concéntrese en los datos que son grandes. Abril de 2017

Datos estratégicos

"El recurso más valioso del mundo ya no es el petróleo, sino los datos".

Fuente: The Economist, 2017

Los datos como activo estratégico

  • Recopilar y conservar todos los datos.
  • Convierta los datos en conocimientos.
  • Poner los datos a disposición de los usuarios y clientes previstos.
  • Crear nuevos productos y servicios.
  • Invierta en tecnologías de procesamiento de datos.

Los datos como diferenciador.

Las organizaciones que generan valor comercial con éxito a partir de sus datos superan a sus pares.

Fueron capaces de:

  • Identificar oportunidades y actuar sobre ellas.
  • Atraer y retener clientes.
  • Impulsar la productividad.
  • Mantenga los dispositivos de forma proactiva.
  • Toma decisiones informadas.

(Aberdeen: búsqueda de información sobre el Data Lake actual, Michael Lock, vicepresidente senior de análisis e inteligencia empresarial)

¿Qué son los datos oscuros?

Viaje a una arquitectura de datos moderna

Lagos de datos
en AWS

Modernización del almacén de datos

Análisis en tiempo real con transmisión de datos

Dato de gobernanza

Aprendizaje automático

En Morris & Opazo lo ayudamos a innovar y obtener valor de los datos que son:

Nuestros clientes suelen necesitar ayuda técnica y estratégica para migrar cargas de trabajo locales a la nube de AWS. Ellos:

Creciendo exponencialmente

De nuevas fuentes

Cada vez más diverso

Usado por muchas personas

Analizado por muchas aplicaciones

  • Aree abrumado por el crecimiento exponencial de los datos.

  • Necesita orientación y hojas de ruta para almacenar y administrar datos.

  • Necesita consejos y soluciones que le ayuden a extraer y visualizar información valiosa sobre los datos.

Para ayudar a nuestros clientes a tener éxito, Morris & Opazo:

  • Involucrarnos con un enfoque de arriba hacia abajo.

  • Se convierte en un aliado estratégico.

  • Se enfoca en crear soluciones

Desafíos de los almacenes de datos locales

  • Costo de escalabilidad.
  • Ciclos de implementación prolongados y altas tasas de fallas.
  • No adaptarse a las nuevas tecnologías
  • Formatos de datos patentados.
  • Problemas de gobernanza y control.
  • Costo de mantenimiento

Áreas principales con impacto negativo en las estrategias de análisis de datos

Costo
37%
Demasiadas fuentes de datos dispares
35%
Colaboración limitada entre TI, analistas y / o línea de negocio
33%
Cumplir con los requisitos de seguridad, gobernanza y cumplimiento
32%
Falta de las habilidades necesarias para administrar adecuadamente los conjuntos de datos y derivar valor de entonces
35%

Objetivos principales para el uso de un Data Lake

Mejorar la escalabilidad
39%
Fusionar datos estructurados y no estructurados
32%
Mejore los tiempos de desarrollo de aplicaciones
28%
Mejore el intercambio de datos y la colaboración
27%
Analice los datos en su lugar
24%

Fuente: Enterprise Strategy Group

¿Qué es un Data Lake?

Repositorio centralizado que permite almacenar:

  • Cualquier dato
  • A cualquier escala
  • A bajo costo

¿Qué NO es un Data Lake?

  • No es una base de datos (OLTP).
  • No es un almacén de datos (OLAP).
  • No es un producto.
  • No es propiedad de nadie.
  • No es Hadoop.
  • No reemplaza a otro almacenamiento de datos.

Data Lakes en comparación con los almacenes de datos

CaracterísticasData WarehouseData Lake
DatosRelacional de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocioNo relacional y relacional de dispositivos IoT, sitios web, aplicaciones móviles, redes sociales y aplicaciones corporativas
EsquemaDiseñado antes de la implementación de DW (esquema en escritura)Escrito en el momento del análisis (esquema en lectura)
Precio / RendimientoResultados de consultas más rápidos con almacenamiento de mayor costo Resultados de consultas más rápidos con almacenamiento de bajo costo
Calidad de los datosDatos altamente curados que sirven como la versión central de la verdadCualquier dato que pueda o no ser curado (es decir, datos sin procesar)
UsuariosAnalistas comerciales Científicos de datos, desarrolladores de datos y analistas comerciales (utilizando datos seleccionados)
AnálisisInformes por lotes, BI y visualizaciones Aprendizaje automático, análisis predictivo, descubrimiento de datos y creación de perfiles

Temperatura de datos

Características de acceso a datos

CalienteCalienteFrío
VolumeMB – GBGB – TBPB
Tamaño del artículoB – KBKB – MBKB – TB
Elemento Tamañomssecmin, hrs
DurabilidadBaja – AltaAltaMuy Alta
Tasa de solicitudMuy altaAltaBaja
Costo / GB$$-$$-¢¢

El enfoque del Data Lake

The Data Lake Approach - E - What is a Data Lake - Morris Opazo Chile Peru EEU_Latinoamerica_graph

Desafíos en la gestión de datos.

Los clientes tienen el desafío de::

  • Recopile una variedad de tipos de datos que se acumulan a diferentes velocidades.
  • Recopile datos de numerosas fuentes, acumulándolos a diferentes velocidades
  • Almacene cantidades masivas de datos sin quedarse sin espacio.
  • Limpiar y aumentar la calidad de los datos que se analizarán.

¿Pueden automatizar estos pasos?

Canal de análisis

Principio básico de Data Lake

Separar su almacenamiento y computación le permite escalar cada componente según sea necesario

Concepto de Data Lake

  • Todos los datos en un solo lugar, una única fuente de verdad.
  • Almacena en formato nativo.
  • Maneja datos estructurados y no estructurados.
  • Apoya la ingestión y el consumo rápidos.
  • Esquema al leer.
  • Diseñado para almacenamiento de bajo costo.
  • Soporta reglas de protección y seguridad.
  • Almacenamiento de objetos en la nube.
  • Almacene todo ahora para que pueda extraer información más tarde.

Beneficios clave de Data Lake

Rendimiento

Fácil recopilación de datos

Alta disponibilidad y durabilidad

Eficiencia de costo

Procesamiento flexible

Seguridad y cumplimiento

Escalabilidad

Consistencia fuerte

El valor de un Data Lake

La capacidad de aprovechar más datos, de más fuentes, en menos tiempo, y capacitar a los usuarios para que colaboren y analicen datos de diferentes maneras conduce a una toma de decisiones mejor y más rápida. Los ejemplos en los que Data Lakes tienen valor agregado incluyen:

Interacciones mejoradas con el cliente

Un Data Lake puede combinar datos de clientes de una plataforma CRM con análisis de redes sociales, una plataforma de marketing que incluye historial de compras y tickets de incidentes para permitir que la empresa comprenda la cohorte de clientes más rentable, la causa de la pérdida de clientes y las promociones o recompensas. que aumentará la lealtad.

Mejorar las opciones de innovación en I + D

Un Data Lake puede ayudar a sus equipos de I + D a probar sus hipótesis, refinar suposiciones y evaluar los resultados, como elegir los materiales correctos en el diseño de su producto para obtener un rendimiento más rápido, realizar investigaciones genómicas que conduzcan a una medicación más eficaz o comprender la disposición de los clientes a pagar por diferentes atributos.

Incrementar la eficiencia operativa

El Internet de las cosas (IoT) presenta más formas de recopilar datos sobre procesos como la fabricación, con datos en tiempo real que provienen de dispositivos conectados a Internet. Un Data Lake facilita el almacenamiento y la ejecución de análisis de datos de IoT generados por máquinas para descubrir formas de reducir los costos operativos y aumentar la calidad.

Patrón de consumo

Arquitectura de referencia de Data Lake

Principios de arquitectura

  • Construya sistemas desacoplados:
    datos -> almacenar -> procesar -> almacenar -> analizar -> conocimientos
  • Utilice la herramienta adecuada para el trabajo:
    Estructuras de datos, latencia, rendimiento, patrones de acceso.
  • Aproveche los servicios administrados y sin servidor:
    Gestión escalable / elástica, disponible, confiable, segura, baja o nula.
  • Utilice patrones de diseño centrados en registros:
    Registros inmutables (Data Lake), vistas materializadas
  • Económico:
    Big Data = / Grandes costos
  • Habilitar aplicaciones AI / ML

Consultas al Data Lake

Almacenamiento de objetos

Definición del catálogo de datos

Motor de consulta

Gestión de metadatos

Clasificación de metadatos

Linaje

Descubrimiento

Buscando

Dato de gobernanza

  • Hay más personas que nunca trabajando con datos.
  • A las empresas les preocupa: la privacidad de los datos, la seguridad de los datos.

Data Lakes y Analytics en AWS

Servicios de AWS Analytics

CategoríaCasos de usoAWS Service
AnalíticaAnalítica interactiva
Procesamiento de Big Data
Almacenamiento de datos
Analítica en tiempo real
Analítica operativa
Paneles y visualizaciones
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Kinesis
Amazon Elasticsearch Service
Amazon Quicksight
Movimiento de datosMovimiento de datos en tiempo realAmazon Managed Streaming for Apache Kafka (MSK)
Amazon Kinesis Data Streams
Amazon Kinesis Data Firehose
Amazon Kinesis Data Analytics
Amazon Kinesis Video Streams
AWS Glue
Data LakeAlmacenamiento de objetos
Copia de seguridad y archivo
Catálogo de datos
Datos de terceros
Amazon S3
AWS Lake Formation
Amazon S3 Glacier
AWS Backup
AWS Glue
AWS Lake Formation
AWS Data Exchange
Analítica predictiva y aprendizaje automático Frameworks e interfaces
Servicios de plataforma
AWS Deep Learning AMIs
Amazon SageMaker

Prácticas recomendadas para la gestión de datos en la nube

Catalogue sus datos, evite que el Data Lake se convierta en un pantano

Aproveche la inteligencia artificial / aprendizaje automático para mejorar la productividad de todos los usuarios de la plataforma

Cura y depura los datos para aumentar la confianza

Integre el desarrollo de la canalización de datos en su flujo de CI / CD / DevOps

Potencia la colaboración para que el Data Lake sea el lago de todos

Asegúrese de aplicar políticas de seguridad y gobernanza de datos para proteger los datos confidenciales

Ecosistema de servicios para Big Data