Overview of Data Lakes
Table of Contents
Definición de Big Data
Volumen
Las soluciones deben funcionar de manera eficiente en sistemas distribuidos y deben poder ampliarse fácilmente para adaptarse a los aumentos de tráfico.
- Volúmenes de datos extremadamente grandes.
- Los datos aumentan a un ritmo rápido.
- Terabytes de datos >> Petabytes de datos
Variedad
Las soluciones deben ser lo suficientemente sofisticadas para administrar todos los diferentes tipos de datos y, al mismo tiempo, proporcionar un análisis preciso.
- Diversos conjuntos de datos, múltiples fuentes.
- La mayoría de las fuentes están en la nube.
- Los sistemas “heredados” todavía están presentes.
- Varias formas de datos: estructurados, semiestructurados y no estructurados.
Velocidad
Las soluciones deben poder administrar esta velocidad de manera eficiente, y los sistemas de procesamiento deben poder devolver resultados en un período de tiempo aceptable.
- Mayor velocidad de usuarios, dispositivos, aplicaciones.
- 75 mil millones de dispositivos conectados para 2020.
- MB / s es normal, GB / s es común.
- Un millón de transacciones por segundo.
- En tiempo real, por lotes.
Veracidad
Los datos deben permanecer consolidados, limpios, consistentes y actualizados para tomar las decisiones correctas.
- Fiabilidad de los datos.
- Diferencias inherentes en todos los datos recopilados.
- Datos inconsistentes, a veces inexactos, que varían.
La evolución del análisis de datos
¿Por qué todas las empresas necesitan una estrategia de datos?
Hay más datos de los que la gente piensa:
- Los datos crecen> 10 veces cada 5 años.
- La plataforma de datos debe vivir 15 años
Hay más consumidores que acceden a los datos:
Científicos de datos, ingeniero de datos, gerente de productos de datos, visualizador de datos, usuarios comerciales, analistas, aplicaciones, desarrolladores.
Y más requisitos para hacer que los datos estén disponibles:
- Seguro, en tiempo real, flexible, escalable.
_
Fuente: IDC, DataAge 20216: The Evolution of Data to Life-Critical No se centre en Big Data, concéntrese en los datos que son grandes. Abril de 2017
Datos estratégicos
"El recurso más valioso del mundo ya no es el petróleo, sino los datos".
Fuente: The Economist, 2017
Los datos como activo estratégico
- Recopilar y conservar todos los datos.
- Convierta los datos en conocimientos.
- Poner los datos a disposición de los usuarios y clientes previstos.
- Crear nuevos productos y servicios.
- Invierta en tecnologías de procesamiento de datos.
Los datos como diferenciador.
Las organizaciones que generan valor comercial con éxito a partir de sus datos superan a sus pares.
Fueron capaces de:
- Identificar oportunidades y actuar sobre ellas.
- Atraer y retener clientes.
- Impulsar la productividad.
- Mantenga los dispositivos de forma proactiva.
- Toma decisiones informadas.
(Aberdeen: búsqueda de información sobre el Data Lake actual, Michael Lock, vicepresidente senior de análisis e inteligencia empresarial)
¿Qué son los datos oscuros?
Source: Datumize / Factor Daily
En esta era de iluminación impulsada por la tecnología, los datos son nuestra moneda competitiva.
La información en bruto, enterrada en los volúmenes alucinantes generados por los sistemas transaccionales … son conocimientos operativos, estratégicos y de clientes críticos que, una vez esclarecidos por el análisis, pueden validar o aclarar suposiciones, informar la toma de decisiones y ayudar a trazar nuevos caminos hacia el futuro.
Tracie Kambies, Nitin Mittal, Paul Roma, Sandeep Kumar Sharma Tendencias tecnológicas 2017, de https://www2.deloitte.com/content/dam/Deloitte/au/Documents/technology/deloitte-au-technology-dark-analytics-061017.pdf
Riesgo regulatorio:
Fuga o pérdida de información confidencial o información de identificación personal (PII)
Riesgo de propiedad intelectual:
- No proteger la propiedad intelectual
- Riesgo de oportunidad:
- Oportunidades perdidas de mejora
Viaje a una arquitectura de datos moderna
Lagos de datos
en AWS
Modernización del almacén de datos
Análisis en tiempo real con transmisión de datos
Dato de gobernanza
Aprendizaje automático
En Morris & Opazo lo ayudamos a innovar y obtener valor de los datos que son:
Nuestros clientes suelen necesitar ayuda técnica y estratégica para migrar cargas de trabajo locales a la nube de AWS. Ellos:
Creciendo exponencialmente
De nuevas fuentes
Cada vez más diverso
Usado por muchas personas
Analizado por muchas aplicaciones
Aree abrumado por el crecimiento exponencial de los datos.
Necesita orientación y hojas de ruta para almacenar y administrar datos.
Necesita consejos y soluciones que le ayuden a extraer y visualizar información valiosa sobre los datos.
Para ayudar a nuestros clientes a tener éxito, Morris & Opazo:
Involucrarnos con un enfoque de arriba hacia abajo.
Se convierte en un aliado estratégico.
Se enfoca en crear soluciones
Desafíos de los almacenes de datos locales
- Costo de escalabilidad.
- Ciclos de implementación prolongados y altas tasas de fallas.
- No adaptarse a las nuevas tecnologías
- Formatos de datos patentados.
- Problemas de gobernanza y control.
- Costo de mantenimiento
Áreas principales con impacto negativo en las estrategias de análisis de datos
Objetivos principales para el uso de un Data Lake
Fuente: Enterprise Strategy Group
¿Qué es un Data Lake?
Repositorio centralizado que permite almacenar:
- Cualquier dato
- A cualquier escala
- A bajo costo
¿Qué NO es un Data Lake?
- No es una base de datos (OLTP).
- No es un almacén de datos (OLAP).
- No es un producto.
- No es propiedad de nadie.
- No es Hadoop.
- No reemplaza a otro almacenamiento de datos.
Data Lakes en comparación con los almacenes de datos
Características | Data Warehouse | Data Lake |
---|---|---|
Datos | Relacional de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio | No relacional y relacional de dispositivos IoT, sitios web, aplicaciones móviles, redes sociales y aplicaciones corporativas |
Esquema | Diseñado antes de la implementación de DW (esquema en escritura) | Escrito en el momento del análisis (esquema en lectura) |
Precio / Rendimiento | Resultados de consultas más rápidos con almacenamiento de mayor costo | Resultados de consultas más rápidos con almacenamiento de bajo costo |
Calidad de los datos | Datos altamente curados que sirven como la versión central de la verdad | Cualquier dato que pueda o no ser curado (es decir, datos sin procesar) |
Usuarios | Analistas comerciales | Científicos de datos, desarrolladores de datos y analistas comerciales (utilizando datos seleccionados) |
Análisis | Informes por lotes, BI y visualizaciones | Aprendizaje automático, análisis predictivo, descubrimiento de datos y creación de perfiles |
Temperatura de datos
Características de acceso a datos
Caliente | Caliente | Frío | |
---|---|---|---|
Volume | MB – GB | GB – TB | PB |
Tamaño del artículo | B – KB | KB – MB | KB – TB |
Elemento Tamaño | ms | sec | min, hrs |
Durabilidad | Baja – Alta | Alta | Muy Alta |
Tasa de solicitud | Muy alta | Alta | Baja |
Costo / GB | $$-$ | $-¢¢ | ¢ |
El enfoque del Data Lake
- Dispositivos
- Social
- Web
- Aplicaciones
- Video
- Sensor
- Base de datos
- Clickstream
- Búsqueda empresarial
- Consultas rápidas interactivas
- Informes / Tablero
- Aprendizaje automático
- Análisis ad-hoc
Desafíos en la gestión de datos.
Los clientes tienen el desafío de::
- Recopile una variedad de tipos de datos que se acumulan a diferentes velocidades.
- Recopile datos de numerosas fuentes, acumulándolos a diferentes velocidades
- Almacene cantidades masivas de datos sin quedarse sin espacio.
- Limpiar y aumentar la calidad de los datos que se analizarán.
¿Pueden automatizar estos pasos?
Canal de análisis
Principio básico de Data Lake
Separar su almacenamiento y computación le permite escalar cada componente según sea necesario
Concepto de Data Lake
- Todos los datos en un solo lugar, una única fuente de verdad.
- Almacena en formato nativo.
- Maneja datos estructurados y no estructurados.
- Apoya la ingestión y el consumo rápidos.
- Esquema al leer.
- Diseñado para almacenamiento de bajo costo.
- Soporta reglas de protección y seguridad.
- Almacenamiento de objetos en la nube.
- Almacene todo ahora para que pueda extraer información más tarde.
Beneficios clave de Data Lake
Rendimiento
Fácil recopilación de datos
Alta disponibilidad y durabilidad
Eficiencia de costo
Procesamiento flexible
Seguridad y cumplimiento
Escalabilidad
Consistencia fuerte
El valor de un Data Lake
La capacidad de aprovechar más datos, de más fuentes, en menos tiempo, y capacitar a los usuarios para que colaboren y analicen datos de diferentes maneras conduce a una toma de decisiones mejor y más rápida. Los ejemplos en los que Data Lakes tienen valor agregado incluyen:
Interacciones mejoradas con el cliente
Un Data Lake puede combinar datos de clientes de una plataforma CRM con análisis de redes sociales, una plataforma de marketing que incluye historial de compras y tickets de incidentes para permitir que la empresa comprenda la cohorte de clientes más rentable, la causa de la pérdida de clientes y las promociones o recompensas. que aumentará la lealtad.
Mejorar las opciones de innovación en I + D
Un Data Lake puede ayudar a sus equipos de I + D a probar sus hipótesis, refinar suposiciones y evaluar los resultados, como elegir los materiales correctos en el diseño de su producto para obtener un rendimiento más rápido, realizar investigaciones genómicas que conduzcan a una medicación más eficaz o comprender la disposición de los clientes a pagar por diferentes atributos.
Incrementar la eficiencia operativa
El Internet de las cosas (IoT) presenta más formas de recopilar datos sobre procesos como la fabricación, con datos en tiempo real que provienen de dispositivos conectados a Internet. Un Data Lake facilita el almacenamiento y la ejecución de análisis de datos de IoT generados por máquinas para descubrir formas de reducir los costos operativos y aumentar la calidad.
Patrón de consumo
Arquitectura de referencia de Data Lake
Principios de arquitectura
- Construya sistemas desacoplados:
datos -> almacenar -> procesar -> almacenar -> analizar -> conocimientos - Utilice la herramienta adecuada para el trabajo:
Estructuras de datos, latencia, rendimiento, patrones de acceso. - Aproveche los servicios administrados y sin servidor:
Gestión escalable / elástica, disponible, confiable, segura, baja o nula.
- Utilice patrones de diseño centrados en registros:
Registros inmutables (Data Lake), vistas materializadas - Económico:
Big Data = / Grandes costos - Habilitar aplicaciones AI / ML
Consultas al Data Lake
Almacenamiento de objetos
Definición del catálogo de datos
Motor de consulta
Gestión de metadatos
Clasificación de metadatos
Linaje
Descubrimiento
Buscando
Dato de gobernanza
- Hay más personas que nunca trabajando con datos.
- A las empresas les preocupa: la privacidad de los datos, la seguridad de los datos.
Data Lakes y Analytics en AWS
Servicios de AWS Analytics
Categoría | Casos de uso | AWS Service |
---|---|---|
Analítica | Analítica interactiva Procesamiento de Big Data Almacenamiento de datos Analítica en tiempo real Analítica operativa Paneles y visualizaciones | Amazon Athena Amazon EMR Amazon Redshift Amazon Kinesis Amazon Elasticsearch Service Amazon Quicksight |
Movimiento de datos | Movimiento de datos en tiempo real | Amazon Managed Streaming for Apache Kafka (MSK) Amazon Kinesis Data Streams Amazon Kinesis Data Firehose Amazon Kinesis Data Analytics Amazon Kinesis Video Streams AWS Glue |
Data Lake | Almacenamiento de objetos Copia de seguridad y archivo Catálogo de datos Datos de terceros | Amazon S3 AWS Lake Formation Amazon S3 Glacier AWS Backup AWS Glue AWS Lake Formation AWS Data Exchange |
Analítica predictiva y aprendizaje automático | Frameworks e interfaces Servicios de plataforma | AWS Deep Learning AMIs Amazon SageMaker |
Prácticas recomendadas para la gestión de datos en la nube
Catalogue sus datos, evite que el Data Lake se convierta en un pantano
Aproveche la inteligencia artificial / aprendizaje automático para mejorar la productividad de todos los usuarios de la plataforma
Cura y depura los datos para aumentar la confianza
Integre el desarrollo de la canalización de datos en su flujo de CI / CD / DevOps
Potencia la colaboración para que el Data Lake sea el lago de todos
Asegúrese de aplicar políticas de seguridad y gobernanza de datos para proteger los datos confidenciales