Describir el nuevo paradigma tecnológico basado en almacenamiento y procesamiento distribuido para trabajar con grandes cantidades de datos. Usar las tecnologías que soporta este nuevo paradigma.
Se priorizarán a las personas que hayan cursado las especialidades formativas de Fundamentos de Data Management y Fundamentos de Visual Analytics o acrediten conocimientos equivalentes.
Antes del inicio del curso se realizará un prueba para comprobar que se tienen los conocimientos necesarios para realizar el curso curso.
1. Principios básicos del nuevo paradigma: ¿Big Data?
1.1. Fundamentos arquitectónicos: Descripción de los principales componentes de una arquitectura Big Data en términos de un ecosistema Hadoop
1.2. Conceptos básicos.
1.2.1. Fórmulas existentes para analizar las diferentes casuísticas de Big Data
1.2.2. Gestión y procesamiento distribuido de los datos
1.2.3. Gestión y procesamiento de los datos en memoria
1.2.4. Principales arquitecturas de referencia
1.3. Nuevos modelos de datos
1.4. Otros Gestores de Datos en torno al nuevo paradigma NoSQL:
1.4.1. Clave de valor
1.4.2. Orientado a documentos
1.4.3. Almacenes de familias de columnas
1.4.4. Basadas en grafos
1.4.5. Otras
1.5. Arquitecturas de Referencia
2. Big Data desde la perspectiva del Ecosistema Hadoop
2.1. Visión integral (End-to-End) del marco de trabajo Business Intelligence (Big Data). Vinculación con soluciones globales tipo SAP, Oracle, Amazon, etc.
2.2. Modelado de Datos sobre el ecosistema Hadoop
2.2.1. Opciones de almacenamiento de datos en ecosistema Hadoop
2.2.2. Diseño de HDFS
2.2.3. Diseño de datos en entornos Hbase
2.2.4. Diseño de datos en entornos Kudu o BD similar
2.2.5. Gestión de Metadatos en Entornos Hadoop
2.3. Procesado de Datos sobre el ecosistema Hadoop
2.3.1. Consideraciones previas sobre Ingesta de Datos
2.3.2. Opciones para hacer Ingesta de datos en Hadoop: Sqoop, Nif o StreamSet, Flume, Kafka, HDFS, etc.
2.3.3. Opciones para hacer Extracción de datos de entornos Hadoop: Sqoop, SQL
2.4. Movimiento de Datos sobre el ecosistema Hadoop
2.4.1. Spark
2.4.2. Hive u otro motor SQL de análisis
2.4.3. Impala u otro motor SQL de análisis interactivo de ecosistemas Hadoop
2.4.4. Análisis de patrones de tratamiento de datos en entornos Hadoop
2.4.4.1. Borrado de registros duplicados usando la clave primaria
2.4.4.2. Análisis de datos basado en técnicas de windowing
2.4.4.3 Análisis de datos basado en técnicas de series de tiempo
2.5. Arquitecturas Batch sobre el ecosistema Hadoop
2.6. Arquitecturas Real Time sobre el ecosistema Hadoop
2.7. Casos de uso
2.7.1. Ejemplo de caso de uso alrededor de Detección de Fraude
2.7.2. Ejemplo de caso de uso alrededor de análisis de clickstreaming
2.7.3. Ejemplo de caso de uso de Hadoop para Data Warehousing
Fechas: del 1 de julio al 26 de julio de 2019
Horario: de lunes a viernes 16:30 a 21:00
Horas: 90
Centro de Referencia Nacional en Sistemas Informáticos y Telemática (Think Tic)
Avda Zaragoza 21
26003 - Logroño
Coordinador: Elena Jiménez Díaz
Teléfono: 941 291935
E-mail: informacion.thinktic@larioja.org