Fundamentos del paradigma Big Data y su construcción desde la perspectiva del ecosistema Hadoop

THINKTIC

Del 1 julio al 26 julio de 2019

Objetivos

Describir el nuevo paradigma tecnológico basado en almacenamiento y procesamiento distribuido para trabajar con grandes cantidades de datos. Usar las tecnologías que soporta este nuevo paradigma.

Requisitos del alumno

Títulación prioritaria: Grado Superior de Formación Profesional o equivalente
Es recomendable que el aspirante al curso maneje Linux y bases de datos relacionales a nivel básico y saber programar, al menos, en un lenguaje de programación.
Conocimientos de inglés de nivel B1 o superior.

Se priorizarán a las personas que hayan cursado las especialidades formativas de Fundamentos de Data Management y Fundamentos de Visual Analytics o acrediten conocimientos equivalentes.

Antes del inicio del curso se realizará un prueba para comprobar que se tienen los conocimientos necesarios para realizar el curso curso.

Programa

1. Principios básicos del nuevo paradigma: ¿Big Data?

1.1. Fundamentos arquitectónicos: Descripción de los principales componentes de una arquitectura Big Data en términos de un ecosistema Hadoop

1.2. Conceptos básicos.

1.2.1. Fórmulas existentes para analizar las diferentes casuísticas de Big Data

1.2.2. Gestión y procesamiento distribuido de los datos

1.2.3. Gestión y procesamiento de los datos en memoria

1.2.4. Principales arquitecturas de referencia

1.3. Nuevos modelos de datos

1.4. Otros Gestores de Datos en torno al nuevo paradigma NoSQL:

1.4.1. Clave de valor

1.4.2. Orientado a documentos

1.4.3. Almacenes de familias de columnas

1.4.4. Basadas en grafos

1.4.5. Otras

1.5. Arquitecturas de Referencia

2. Big Data desde la perspectiva del Ecosistema Hadoop

2.1. Visión integral (End-to-End) del marco de trabajo Business Intelligence (Big Data). Vinculación con soluciones globales tipo SAP, Oracle, Amazon, etc.

2.2. Modelado de Datos sobre el ecosistema Hadoop

2.2.1. Opciones de almacenamiento de datos en ecosistema Hadoop

2.2.2. Diseño de HDFS

2.2.3. Diseño de datos en entornos Hbase

2.2.4. Diseño de datos en entornos Kudu o BD similar

2.2.5. Gestión de Metadatos en Entornos Hadoop

2.3. Procesado de Datos sobre el ecosistema Hadoop

2.3.1. Consideraciones previas sobre Ingesta de Datos

2.3.2. Opciones para hacer Ingesta de datos en Hadoop: Sqoop, Nif o StreamSet, Flume, Kafka, HDFS, etc.

2.3.3. Opciones para hacer Extracción de datos de entornos Hadoop: Sqoop, SQL

2.4. Movimiento de Datos sobre el ecosistema Hadoop

2.4.1. Spark

2.4.2. Hive u otro motor SQL de análisis

2.4.3. Impala u otro motor SQL de análisis interactivo de ecosistemas Hadoop

2.4.4. Análisis de patrones de tratamiento de datos en entornos Hadoop

2.4.4.1. Borrado de registros duplicados usando la clave primaria

2.4.4.2. Análisis de datos basado en técnicas de windowing

2.4.4.3 Análisis de datos basado en técnicas de series de tiempo

2.5. Arquitecturas Batch sobre el ecosistema Hadoop

2.6. Arquitecturas Real Time sobre el ecosistema Hadoop

2.7. Casos de uso

2.7.1. Ejemplo de caso de uso alrededor de Detección de Fraude

2.7.2. Ejemplo de caso de uso alrededor de análisis de clickstreaming

2.7.3. Ejemplo de caso de uso de Hadoop para Data Warehousing

Fechas y horario

Fechas: del 1 de julio al 26 de julio de 2019

Horario: de lunes a viernes 16:30 a 21:00

Horas: 90

Lugar de impartición

Centro de Referencia Nacional en Sistemas Informáticos y Telemática (Think Tic)

Avda Zaragoza 21

26003 - Logroño

Coordinador: Elena Jiménez Díaz

Teléfono: 941 291935

E-mail: informacion.thinktic@larioja.org

Inscripciones

Inscripción

Portal del Gobierno de La Rioja

THINKTIC