¿Por qué no puedo instalar Hadoop en mi computadora portátil? Mantén la curiosidad y sigue aprendiendo

¿Sabía que puede instalar fácilmente un clúster Hadoop de un solo nodo simple en su PC o computadora portátil con Windows? Normalmente, Hadoop se ejecuta en computadoras Unix. Sin embargo, gracias a la moderna tecnología de virtualización, puede ejecutar una versión completa de Hadoop dentro de un servidor virtual de Linux en su computadora personal, de forma gratuita. Esta instalación es ideal para aprender y explorar cómo usar Hadoop. En este tutorial, le enseñaré cómo instalar y ejecutar la versión de Hortonworks Sandbox de Hadoop en su computadora con Windows.

Paso 1: Instalar VMware Player

Si aún no tiene VMware ejecutándose en su computadora, deberá instalar VMware Player v5 o superior en su computadora con Windows. Este software es gratuito para uso personal. Descubrí que la instalación de VMware Player v5 en mi computadora con Windows 7 de 64 bits es confiable y no causa problemas. VMware Player también se puede instalar en una computadora con Linux. Si tiene una Mac, deberá comprar e instalar el software VMware Fusion en su lugar.

Descargue e instale “VMware Player para Windows de 32 y 64 bits”. Me tomó 4 minutos descargar el archivo del instalador VMware-player-5.0.1-894247.exe y 2 minutos para instalar el software en mi computadora con Windows 7, sin necesidad de reiniciar. VMware Player requiere 150 MB de espacio libre en disco. Vaya a su Menú de Inicio de Windows e inicie VMware Player (puede omitir la actualización a VMware Workstation).

Consulte las instrucciones detalladas paso a paso sobre la instalación de VMware Player si necesita detalles adicionales.

Paso 2: instalar Hortonworks Hadoop Sandbox

Descargue el área de pruebas de Hortonworks Hadoop para VMware. Las versiones de VMware Fusion y VMware Workstation son compatibles con el VMware Player que acabas de instalar en el Paso 1. Tardó 1 hora y 47 minutos en descargar el Vmware de 2 GB “Hortonworks + Sandbox + 1.2 + 1-21-2012-1 +. ova ”desde el directorio Hortonworks Amazon S3.

Mientras espera a que se descargue el archivo VMware OVA, puede ver el video de información general que se encuentra debajo de la caja de arena de Hortonworks (8 minutos y 35 segundos) y leer las instrucciones de instalación de la caja de arena.

Paso 3: Ejecutar Hadoop!

Dentro de la aplicación VMware Player que instaló y comenzó a ejecutar en el Paso 1, vaya al menú del Reproductor y seleccione “Archivo / Abrir …”, o elija “Abrir una máquina virtual” en la pantalla de bienvenida. Localice el directorio donde descargó la imagen de VMware Hortonworks sandbox “Hortonworks + Sandbox + 1.2 + 1-21-2012-1 + vmware.ova” y seleccione el archivo OVA para abrir. Se le pedirá el nombre de la nueva instancia del servidor virtual y dónde debe guardar el archivo de imagen de la instancia en la máquina con Windows VMware para aceptar los valores predeterminados. La nueva máquina virtual puede tardar unos minutos en importarse. Para su información, su computadora con Windows es el sistema host, mientras que el sistema CentOS de Linux de 64 bits, incluido de forma gratuita con el Hortonworks Sandbox, es el sistema de invitado virtual desde el punto de vista de VMware.

Ahora está listo para hacer clic en “Reproducir máquina virtual” para comenzar a ejecutar su nueva instancia de sandbox.

Su sistema Linux invitado se iniciará ahora, junto con todo el software necesario para que Hadoop se ejecute, incluido un servidor web. La belleza de usar un servidor virtual es que 1) no necesita tener otra computadora física debajo de su escritorio junto con los cables de red y alimentación, el monitor y otros accesorios asociados para experimentar con Hadoop, 2) puede instalarlo en su computadora portátil y ejecute Hadoop allí sin necesidad de conectarse a la red, y 3) su servidor virtual independiente no estropeará nada de lo que tenga en su computadora con Windows principal, y se puede desinstalar fácilmente cuando ya no sea necesario.

Una vez que todo se inicie, verá instrucciones sobre cómo acceder a la zona de pruebas de Hortonworks. Busque la URL con la dirección IP como http://192.168.40.128 en la siguiente captura de pantalla. Tenga en cuenta que su dirección IP puede ser diferente a la mía.

En un navegador web como Firefox o Chrome, vaya a la dirección IP de la URL de Sandbox. Debería ver una pantalla de bienvenida de Hortonworks Sandbox con opciones para ver algunos videos de información general, para iniciar el tutorial o saltar directamente al sandbox. Ya que estamos ansiosos por ejecutar Hadoop, vamos directamente a la tercera opción: haga clic en el botón verde de Inicio debajo de “Usar el Sandbox”.

Ahora verá el entorno basado en la web de HUE para el sandbox. Por defecto comenzarás en la pantalla de la cera de abejas. Hagamos clic en “Mis consultas” y luego en el nombre de consulta “Muestra: salario más alto (copia)”.

Luego verá la consulta de Hive de muestra en el Editor de consultas. Si ha usado bases de datos relacionales anteriormente, notará que la consulta de Hive es muy similar al SQL estándar. El otro método para consultar Hadoop sería a través de Pig, que es más bien un método de construcción de consultas Hadoop que Hive, pero requerirá una curva de aprendizaje un poco más pronunciada que Hive para aquellos que ya están familiarizados con SQL. Sigamos con Hive para esta carrera inicial. Haga clic en el botón Ejecutar para comenzar a ejecutar la consulta de Hive.

Ahora su consulta comenzará a ejecutarse por un minuto más o menos. El entorno HUE actualizará la salida del registro en la pantalla para que pueda ver el progreso y los mensajes de error. Este es un buen momento para alejarse de la computadora y hacer algo saludable mientras se ejecuta su consulta de “Big Data”.

Después de unos minutos, los resultados de la consulta se mostrarán en la pantalla.

¡Felicidades! Ahora ha instalado Hadoop y ejecutó con éxito su primera consulta de Hive. ¡Estás en camino de convertirte en mago en Hadoop!

Como paso siguiente, puede continuar siguiendo el tutorial paso a paso de la pantalla de bienvenida de Hortonworks Sandbox para obtener más práctica con Hive y Pig para el procesamiento de datos en Hadoop.

Para más información

Míralo aquí: Inicio rápido – Prueba Drive MapR en una máquina virtual

Asesoramiento académico y educativoCiencia de datosPregunta personalQuora