Consiste básicamente en extraer de las distintas bases de datos de la organización, aquella información relevante, para la toma de decisiones de negocio.
Análisis de grandes volúmenes de datos no estrucrados
Hadoop
Hive / Pig
Map Reduce: Java Nativo / Python / Perl / R/Hadoop StreamingPerl
Extreacción en tiempo real de datos desde logs o eventos: Flume
ETL: Extración desde bases de datos relacionales hacia Hadoop: Sqoop
Algoritmos de Machine Learning: Mahout
BI, Cubos, OLAP, tablas dinámicas, Pivot
Infraestructura: Cluster Hadoop on premise, Amazon Web Services, Elastic Map Reduce