¿Cuál es la diferencia entre el examen Couderas CCA-175 y CCD-410? Mantén la curiosidad y sigue aprendiendo

No tengo idea sobre el CCD 410 pero sí puedo decir que el CCD-410 es reemplazado por CCP-Data Engineer.

Cloudera Certified Associate (CCA)

Los exámenes de CCA evalúan las habilidades fundamentales y establecen las bases para que un candidato logre el dominio en el programa CCP

¿Dónde puedo esperar una admisión cuando mi puntaje de GATE 2015 en CSE sea 538? ¿Cuáles son las posibilidades en los IIT?
Algunos estudiantes prefieren escribir un artículo en lugar de tomar una prueba. Otros estudiantes prefieren tomar una prueba en lugar de escribir un documento. ¿Qué opción prefieres y por qué?
¿Por qué las empresas comienzan su proceso de contratación con una prueba de aptitud?
¿Debería unirme a un poco de Coaching en la clase 10 si era un estudiante brillante hasta la clase 8 pero mis calificaciones no fueron buenas en la clase 9?
¿Todos son seleccionados en el Allen Career Institute Kota, independientemente de sus calificaciones en los exámenes de ingreso?

Cloudera Certified Professional (CCP)

Las certificaciones basadas en el desempeño más exigentes de la industria, CCP evalúa y reconoce el dominio de un candidato de las habilidades técnicas más buscadas por los empleadores.

Primero debe borrar el CCA como lo es para el nivel fundacional, mientras que CCP es para el nivel profesional más alto.

CCA Spark y Hadoop Developer (CCA175)

La persona que está limpiando el desarrollador de CCA Spark y Hadoop ha demostrado sus habilidades básicas para ingerir, transformar y procesar datos utilizando Apache Spark y las herramientas principales de Cloudera Enterprise. Los detalles básicos para aparecer CCA 175 son:

Número de preguntas : 8–12 tareas basadas en el rendimiento (prácticas) en el clúster de Cloudera Enterprise
Límite de tiempo : 120 minutos
Puntuación de aprobación : 70%
Precio : USD $ 295

Cada pregunta de CCA requiere que resuelvas un escenario particular. En algunos casos, se puede utilizar una herramienta como Impala o Hive y en otros casos, se requiere la codificación. Con el fin de acelerar el tiempo de desarrollo de las preguntas de Spark, a menudo se proporciona una plantilla que contiene un esqueleto de la solución y le pide al candidato que complete las líneas faltantes del código funcional. Esta plantilla está escrita en Scala o Python.

No es obligatorio utilizar la plantilla y puede resolver el escenario utilizando un lenguaje de programación. Sin embargo, debe tener en cuenta que codificar todos los problemas desde cero puede llevar más tiempo del que se asigna para el examen.

Su examen se califica inmediatamente después de la presentación y se le envía un informe de puntaje por correo electrónico el mismo día de su examen. Su informe de calificación muestra el número de problema para cada problema que intentó y una calificación sobre ese problema. Si aprueba el examen, recibirá un segundo correo electrónico a los pocos días de su examen con su certificado digital como PDF, su número de licencia, una actualización de perfil de LinkedIn y un enlace para descargar sus logotipos de CCA para usar en sus redes sociales. Perfiles de medios.

Ahora, háganos saber el conjunto de habilidades requerido para obtener la certificación CCA 175.

Habilidades requeridas:

Ingesta de datos

Las habilidades para transferir datos entre sistemas externos y su clúster. Esto incluye lo siguiente:

Importe datos de una base de datos MySQL a HDFS usando Sqoop
Exportar datos a una base de datos MySQL desde HDFS usando Sqoop
Cambie el delimitador y el formato de archivo de los datos durante la importación con Sqoop
Ingreso de datos en tiempo real y casi en tiempo real a HDFS
Procese la transmisión de datos a medida que se cargan en el clúster
Cargue datos dentro y fuera de HDFS usando los comandos del sistema de archivos Hadoop

Transformación, escenario y tienda.

La habilidad para convertir un conjunto de valores de datos, que se almacena en HDFS en nuevos valores de datos o en un nuevo formato de datos y los escribe en HDFS.

Cargue datos RDD desde HDFS para usar en aplicaciones Spark
Escribe los resultados de un RDD de nuevo en HDFS usando Spark
Lee y escribe archivos en una variedad de formatos de archivo
Realizar procesos estándar de extracción, transformación, carga (ETL) en los datos.

Análisis de los datos

Utilice Spark SQL para interactuar con el metastore programáticamente en sus aplicaciones. Genere informes utilizando consultas contra datos cargados.

Utilice las tablas de metástasis como una fuente de entrada o un sumidero de salida para las aplicaciones Spark
Comprender los fundamentos de la consulta de conjuntos de datos en Spark.
Filtrar datos utilizando Spark
Escribir consultas que calculen estadísticas agregadas.
Unir conjuntos de datos dispares utilizando Spark
Producir datos clasificados o clasificados

Avancemos y veamos la segunda certificación de Cloudera, es decir, CCA Data Analyst.

Ingeniero de Datos CCP

Habilidades requeridas

Ingesta de datos

Las habilidades para transferir datos entre sistemas externos y su clúster. Esto incluye lo siguiente:

Importe y exporte datos entre un RDBMS externo y su grupo, incluida la capacidad de importar subconjuntos específicos, cambiar el delimitador y el formato de archivo de los datos importados durante la ingesta, y alterar el patrón o los privilegios de acceso a los datos.
Ingrese datos en tiempo real y casi en tiempo real (NRT) a HDFS, incluida la capacidad de distribuir a múltiples fuentes de datos y convertir los datos al ingerirlos de un formato a otro.
Cargue datos dentro y fuera de HDFS usando los comandos del Sistema de archivos Hadoop (FS).

Transformar, escenario, tienda

Convierta un conjunto de valores de datos en un formato dado almacenado en HDFS en nuevos valores de datos y / o un nuevo formato de datos y escríbalos en HDFS o Hive / HCatalog. Esto incluye las siguientes habilidades:

Convertir datos de un formato de archivo a otro
Escribe tus datos con compresión
Convierta datos de un conjunto de valores a otro (p. Ej., Lat / Long a Dirección Postal usando una biblioteca externa)
Cambiar el formato de datos de los valores en un conjunto de datos.
Purgar registros erróneos de un conjunto de datos, por ejemplo, valores nulos
Deduplicación y fusión de datos.
Desnormalizar datos de múltiples conjuntos de datos dispares
Evoluciona un esquema de avro o parquet
Particione un conjunto de datos existente de acuerdo con una o más claves de partición
Ajuste los datos para un rendimiento de consulta óptimo

Análisis de los datos

Filtrar, ordenar, unir, agregar y / o transformar uno o más conjuntos de datos en un formato dado almacenado en HDFS para producir un resultado específico. Todas estas tareas pueden incluir la lectura de Parquet, Avro, JSON, texto delimitado y texto en lenguaje natural. Las consultas incluirán tipos de datos complejos (por ejemplo, matriz, mapa, estructura), la implementación de bibliotecas externas, datos particionados, datos comprimidos y requieren el uso de metadatos de Hive / HCatalog.

Escribe una consulta para agregar múltiples filas de datos
Escriba una consulta para calcular estadísticas agregadas (p. Ej., Promedio o suma)
Escribe una consulta para filtrar los datos.
Escribe una consulta que produzca datos clasificados o ordenados.
Escribe una consulta que une varios conjuntos de datos.
Lea y / o cree una tabla Hive o HCatalog a partir de datos existentes en HDFS

Flujo de trabajo

La capacidad de crear y ejecutar diversos trabajos y acciones que mueven datos hacia un mayor valor y uso en un sistema. Esto incluye las siguientes habilidades:

Cree y ejecute un flujo de trabajo lineal con acciones que incluyen trabajos de Hadoop, trabajos de Hive, trabajos de Pig, acciones personalizadas, etc.
Cree y ejecute un flujo de trabajo de bifurcación con acciones que incluyen trabajos de Hadoop, trabajos de Hive, trabajos de Pig, acción personalizada, etc.
Organice un flujo de trabajo para que se ejecute regularmente en momentos predefinidos, incluidos los flujos de trabajo que tienen dependencias de datos.

Le sugiero que visite este blog de Certificación Hadoop para comprenderlo en detalle. También puedes pasar por este video:

Para la preparación, le sugiero que lea esta lista de reproducción del video tutorial de Hadoop , así como la serie de blogs Tutorial de Hadoop . Su aprendizaje debe estar alineado con Big Data Certifications .

Debería leer primero el conjunto de videos y videos de Big Data y Hadoop para comprender qué es Big Data y cómo Hadoop apareció en escena. Entonces debe comprender cómo funciona la arquitectura de Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto le ayudará a comprender los aspectos prácticos en detalle.

Más adelante, realice una inmersión profunda en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Por lo tanto, aprenderá cómo crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es Big Data?

Big Data es un término usado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, curar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo en el que las diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Es bueno tener acceso a big data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre ideas en los datos y saque provecho de ellos.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia y falta de datos de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NombreNodo

Es el demonio maestro que mantiene.

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que se producen en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, el NameNode lo grabará inmediatamente en el EditLog. Regularmente recibe un informe de Heartbeat y de bloque de todos los DataNodes en el clúster para asegurar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos de acuerdo con las decisiones tomadas por NameNode.

Para el procesamiento, utilizamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Administra los recursos y programa las aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. También realiza un seguimiento del estado del nodo y la gestión de registro. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica de procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno de Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y clasificar. Mientras tanto, reduce los agregados de funciones y resume el resultado producido por la función map.El resultado generado por la función Map es un par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede pasar por este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego puede ir a través de este blog de Hadoop Ecosystem para aprender Hadoop Ecosystem en detalle.

También puede ver este video tutorial de Hadoop Ecosystem.

Cerdo

PIG tiene dos partes: Pig Latin , the language y the pig runtime, para el entorno de ejecución. Puedes entenderlo mejor como Java y JVM. Es compatible con la lengua latina de cerdo .

Como todo el mundo no pertenece desde un fondo de programación. Entonces, Apache PIG los alivia. Usted podría ser curioso saber cómo?

Bueno, les contaré un dato interesante:

10 linea de cerdo latino = aprox. 200 líneas de código Java de Map-Reduce

Pero no se sorprenda cuando digo que en el extremo posterior del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como una caja negra). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesando y analizando grandes conjuntos de datos.

Colmena

Facebook creó HIVE para las personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza la lectura, escritura y administración de grandes conjuntos de datos en un entorno distribuido mediante una interfaz similar a la de SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar a SQL. La colmena es altamente escalable. Como, puede servir tanto para propósitos, es decir, procesamiento de grandes conjuntos de datos (es decir, procesamiento de consultas por lotes) como procesamiento en tiempo real (es decir, procesamiento de consultas interactivo). Hive se convierte internamente en programas de MapReduce.

Es compatible con todos los tipos de datos primitivos de SQL. Puede usar funciones predefinidas o escribir funciones personalizadas definidas por el usuario (UDF) también para satisfacer sus necesidades específicas.

Puede almacenar datos en HBase en función de sus necesidades.

HBase

HBase es una base de datos distribuida de fuente abierta, no relacional. En otras palabras, es una base de datos NoSQL. Es compatible con todo tipo de datos y, por eso, es capaz de manejar cualquier cosa dentro de un ecosistema de Hadoop. Se basa en el modelo BigTable de Google, que es un sistema de almacenamiento distribuido diseñado para hacer frente a grandes conjuntos de datos.

El HBase fue diseñado para ejecutarse sobre HDFS y proporciona capacidades similares a BigTable. Nos brinda una forma tolerante de fallas de almacenar datos dispersos, que es común en la mayoría de los casos de uso de Big Data. El HBase está escrito en Java, mientras que las aplicaciones HBase se pueden escribir en REST, Avro y Thrift API.

Para una mejor comprensión, tomemos un ejemplo. Tiene miles de millones de correos electrónicos de clientes y necesita averiguar la cantidad de clientes que han utilizado la palabra queja en sus correos electrónicos. La solicitud debe procesarse rápidamente (es decir, en tiempo real). Entonces, aquí estamos manejando un gran conjunto de datos mientras recuperamos una pequeña cantidad de datos. Para resolver este tipo de problemas, se diseñó HBase.

Puede revisar esta lista de reproducción de videos del tutorial de Hadoop , así como la serie de blogs del Tutorial de Hadoop .

exámenes y pruebas