La fuente de datos primaria del Data Lake es el servicio de Amazon S3. En Amazon S3 se almacenan los diferentes archivos planos generados por los Data Extractors.
Amazon Redshift es el repositorio de los datos transformados del Data Lake. Amazon Redshift recibe información desde las transformaciones del script ETL en EMR y desde Amazon S3.
El Data Lake permite hacer uso de clústers EMR para realizar análisis predictivo de los datos almacenados en el servicio Amazon S3.
Amazon Athena permite realizar consultas interactivas en el Data Lake.
Con Amazon SageMaker, Rimac puede crear, entrenar y ejecutar sus modelos de Machine Learning.
Para facilitar la carga de datos hacia el Data Lake y proveer un sistema seguro de transferencia de datos de fácil uso e implementación, AWS Storage Gateway provee un punto único de acceso a la estructura del Data Lake en S3, que permite el copiado de archivos hacia el Data Lake.