¿Qué debo estudiar o aprender si quiero ser analista de datos para una compañía de software como Quora, Zynga, Airbnb, etc.?

Soy un analista autodidacta que ha trabajado en varios roles analíticos, y actualmente estoy en un rol en Zynga en el que el análisis de datos es una parte crítica de mi toma de decisiones diaria.

Hace dos años, escribí un artículo sobre cómo alguien debería enseñarse habilidades de inteligencia empresarial. Es anticuado, de opinión, (y largo), pero las secciones de Excel y SQL siguen siendo relevantes hoy:

http://john.marsland.org/blog/bu…

Si desea aprender cómo ser un analista de datos, siga los siguientes pasos
1. Master Microsoft Excel
2. Aprende SQL básico
3. Aprender desarrollo web básico
4. Sumérgete en una concentración.

Así es como debes empezar:

1. Master Microsoft Excel
En primer lugar, dominar Microsoft Excel. Excel es la herramienta de negocios más versátil y común para el análisis de datos. Si bien muchos analistas de datos pasan a otras herramientas y rutas específicas funcionales (extracción de datos, visualización, aplicaciones estadísticas, etc.), casi todas las rutas comienzan y probablemente todavía usan Excel.

  • Comience por aprender los componentes y conceptos básicos de navegación (libros de trabajo, hojas de trabajo, barra de fórmulas, cinta). Aprenda un par de fórmulas básicas (if, vlookup, text, date) y luego pase a las fórmulas más poderosas (sumproduct, getpivotdata, match / index).
  • Cuando comience a sentirse más cómodo, comience a dominar los atajos de teclado. Comience por aprender a navegar dentro de un libro de trabajo / entre libros de trabajo. Luego aprenda los métodos abreviados para formatear, insertar cuadros / tablas, ocultar / mostrar / agrupar columnas / filas. Nota sesgada: si es posible, debe aprender Excel utilizando un sistema operativo Windows. La versión de Mac OS está limitada por el diseño y no te permite aprender los atajos tradicionales, lo que te ralentizará considerablemente. Sabe que ha aprendido suficientes métodos abreviados cuando puede realizar el 80% de las tareas que necesita utilizando solo el teclado en lugar del mouse.
  • Conozca el método Data-> Pivot-> Presentation para diseñar plantillas escalables de Excel. Este artículo tiene una buena introducción:
    http://www.databison.com/index.p…
  • Aprenda cómo construir diferentes modelos / presentaciones para diferentes aplicaciones de análisis. Construye un modelo para tu equipo de Fantasty Sports. Descargue un estado financiero e intente predecir los ingresos del próximo trimestre. Descargue datos del Censo de EE. UU. (Http://www.census.gov/main/www/a…) y obtenga más información sobre el perfil demográfico de EE. UU.
  • Excel es bueno en la mayoría de las tareas analíticas como una herramienta generalista, pero no es excelente en ninguna tarea. Sin embargo, concentrarse en Excel lo expondrá a varios conceptos analíticos que luego podrá dominar en otras aplicaciones.
  • Si tiene preguntas, mire los videos o publíquelos en los foros de MrExcel. Es el Quora / Stackexchange para Excel

2. Aprende SQL básico
Excel le permite dividir y dividir datos, pero se supone que tiene los datos disponibles. A medida que se convierte en un analista más experimentado, encontrará que la mejor manera de obtener datos es extraerlos directamente de la fuente, y eso a menudo requiere obtener datos de una Base de datos relacional que probablemente admita alguna deriva de SQL.

Debes dominar el SQL siguiente. Aquí hay una guía general.

  • Compre un libro, encuentre un buen tutorial web (Pruebe W3Schools por un tutorial ligero http://www.w3schools.com/sql/sql… o Big Data University por uno más complejo: http://bigdatauniversity.com), o Pídale a un amigo analista que le muestre lo básico durante una hora. Mostré a un amigo la semana pasada, lo recogerás rápidamente.
  • Omita todo lo relacionado con las tablas y vaya directamente a aprender cómo extraer datos. Aprende las 6 palabras clave reservadas más grandes:

    SELECCIONAR
    DESDE
    DÓNDE
    AGRUPAR POR
    TENIENDO
    ORDEN POR

  • A continuación, aprenda cómo unirse a otras tablas. Conoce la diferencia entre una unión interna y una externa.
  • Luego haga una inmersión profunda y aprenda los conceptos detrás de las bases de datos relacionales. Debe saber por qué las bases de datos tienen identificaciones / claves, la diferencia entre un hecho y una dimensión, por qué los índices son útiles y, al menos, recordó haber leído sobre las formas normales 1ª / 2ª / 3ª
  • Si le gusta el diseño, obtenga una copia del kit de herramientas de almacén de datos de Kimball http://www.amazon.com/The-Data-W…. Gran descripción general del modelado dimensional con énfasis en diferentes verticales. Luego brisa a través de Kimball el kit de herramientas ETL después.
  • Graduarse para aprender a crear tablas e índices temporales. Luego, cree una vista y continúe para descubrir cómo crear, insertar y actualizar tablas.
  • Si realmente tiene hambre, descargue una copia de MySQL Community Server, configure un servidor de base de datos para usted mismo y comience.

3. Aprender desarrollo web básico
Esto puede parecer una bola extraña para el # 3, pero es el siguiente paso natural y una ventaja (o requisito) adicional, especialmente si desea trabajar en compañías de Internet para consumidores. Saber leer, o al menos familiarizarse vagamente con tecnologías / lenguajes / conceptos web comunes, como HTML y Javascript, le permitirá convertirse en un mejor analista en un mundo que cada vez está más basado en la web. Consigue un blog de wordpress, y ensucia un poco con él. Agregue un poco de seguimiento de Google Analytics a él. Obtenga información sobre el seguimiento de píxeles, etiquetas del lado del servidor y obtenga v post.

4. Sumérgete en una concentración.
Si usted clava el # 1 y el # 2 y se expone al # 3, habrá aprendido los fundamentos de un analista de datos básicos.

Hay un montón de caminos para elegir una vez que haya clavado los conceptos básicos. Cada uno de estos tiene su propio conjunto de tecnologías, herramientas y carreras. Algunos resaltados a continuación

– Colección + Almacenamiento . El enfoque está en los métodos óptimos para recopilar, almacenar y hacer que los datos sean accesibles para varias aplicaciones. Podría significar aprender unix, servidores web y expresiones regulares para los archivos de registro de minería. Podría significar aprender a diseñar un esquema en estrella, crear una base de datos NoSQL, así como determinar la solución óptima para insertar, actualizar, eliminar y extraer datos.
– Analítica . Enfoque aquí es aprender cómo cortar mejor los datos de los dados. Podría significar aprender Excel VBA para la automatización. Podría significar elegir una herramienta para una mejor visualización (Tableua) de datos o análisis estadístico (R, SPSS, SAS).
– Presentación. El foco está en la presentación de datos. Cuadros de mandos, informes, alertas, tablas de datos: lo que sea. Puede aprender a usar herramientas creadas para el análisis visual (como Tableua), concentrarse en desarrollar infografías pegadizas, usar una herramienta SaaS existente para la distribución de imágenes, o sumergirse en la programación y crear su propio conjunto de imágenes usando jquery / google charts api Como escribió Anon User, los libros de Edward Tufte son una manera fantástica de exponerse ligeramente a esta concentración.
– Programación. SQL es un lenguaje declarativo: usted le dice al motor de consultas lo que quiere y el motor se da cuenta del resto. La mayoría de los otros lenguajes de programación son lenguajes de procedimiento, usted les dice cómo obtener lo que quiere. Esto último es mucho más difícil de aprender, pero en algún momento, es posible que desee hacer algo más que simplemente escribir código SQL para influir en sus análisis, ya sea para aplicaciones de análisis de back-end o front-end. Si no tienes experiencia en programación formal, toma una clase. Si conoces algunos conceptos básicos o simplemente puedes hacer un friki con lo mejor de ellos, prueba tu suerte en uno de los lenguajes de programación más comúnmente disponibles. Aquí hay algunos a considerar
– Excel VBA. Viejo, pero si solo quiere automatizar las hojas de cálculo, no hay una manera de comenzar de menor fricción.
– PHP. Muerto simple. Toneladas de ejemplos. Utilizado en toda la web.
– Python. En segundo lugar a PHP. Hermoso. Cada vez es más común para las secuencias de comandos, aunque los marcos web son menos comunes que PHP
– Javascript. Un montón de ejemplos, y genial si quieres hacer visualizaciones front-end.
Matemáticas / Estadística. Encontrar patrones en los datos se basa al menos en una comprensión rudimentaria de las estadísticas. Convertirse en un experto en datos, desarrollar sofisticadas heurísticas de previsión / negociación de acciones / ofertas requerirá mucho más. Si está interesado en este componente, intente con R (o SAS / SPSS) para comenzar.
– Empresa. Hay muchas compañías que han ganado los mejores dólares vendiendo soluciones de informes empresariales de pleno derecho. Cognos, Business Objects, Microstrategy e Hyperion son algunos. Puede tener una carrera bien pagada que domine estas herramientas y la consultoría para las empresas que las necesitan. Estas herramientas cubren todas las partes del espectro de analistas de datos, pero cada vez son menos comunes en el análisis de datos de Internet de los consumidores porque son gastos y requieren equipos para mantenerlas.

Por último, a medida que se convierte en un analista más experimentado, no ignore el componente “negocio”. La inteligencia de negocios no es un problema técnico. Es un problema de socialización de datos. ¿Cómo se obtiene la información correcta para los tomadores de decisiones (humanos o máquinas) correctos en el momento adecuado para afectar el resultado deseado? Los piratas informáticos agregan valor a un negocio al dar a conocer información que se convierte en resultados comerciales, y cuanto mejor esté expuesto a un negocio en particular, más poder tendrá para afectar el producto final.

Cuando estaba en el equipo de análisis de Airbnb (2011-2012), buscamos lo siguiente:

1. Diseño / metodología de la investigación.
– Capacidad para configurar experimentos correctamente, con especial atención a los grupos de control y las variables de confusión.
– Conocimiento de técnicas y conceptos básicos de estadística (regresiones, pruebas, significados, etc.)
– Capacidad de profundizar en problemas abiertos y encontrar tendencias en grandes conjuntos de datos.
– Comprensión de todas las advertencias y complicaciones de la investigación sin atascarse en ellas que lleva meses obtener resultados.

2. Herramientas para manipular datos (capacidad de programación, sql, herramientas de estadísticas, etc.)
– Python, Ruby, u otro lenguaje de programación similar
– R, STATA, SAS o algún otro lenguaje de programación estadística para analizar datos
– SQL o lenguaje de consulta / manipulación similar, comprensión de uniones bastante complejas, consultas anidadas, etc.
– Excel puede ser útil, pero los detalles pueden aprenderse según sea necesario (personalmente, no creo que haya usado una tabla dinámica en mi trabajo porque uso otras herramientas para combinar datos)
– Hive, Hadoop, etc. son realmente útiles, aunque no son esenciales para ser contratados (pero significarían mucho más que un conocimiento detallado de Excel, que yo asumiría que cualquier persona inteligente podría recoger cuando sea necesario)

3. Capacidad para interpretar y resumir los resultados de manera amplia para audiencias técnicas y no técnicas.

4. Cualquier otra habilidad especial, como visualización de datos, aprendizaje automático, técnicas estadísticas avanzadas, etc.

En ClassDojo, nos encontramos en una etapa anterior, y los datos están en JSON en lugar de en SQL, por lo que cada vez es más necesario que todos programen. Dedico el 90% de mi tiempo a poner los datos en su lugar en Python antes de poder realizar cualquier análisis o visualización real (en Python o R).

Edición: para una respuesta mucho más completa, puedes ver este currículo que escribí usando materiales gratuitos en línea:
Ruta de aprendizaje del análisis de datos por Claudia Gold | Regla de cálculo

Analytics es un vasto campo. En un extremo, se superpone con las estadísticas y las matemáticas superiores. En el otro, se combina perfectamente con la programación y el desarrollo de software. Para más detalles puedes visitar: http://jigsawacademy.net/Beginne

He dividido la sección en las siguientes categorías:

1. libros

2. Blogs

3. sitios web

4. Videos de YouTube

Libros

1.1 Fundamentos de Analítica y Estadística Empresarial:

1.1.a Técnicas de minería de datos por Michael Berry y Gordon Linoff
Este es un excelente libro sobre algunas de las técnicas analíticas más utilizadas. Comienza con la definición de la minería de datos en el contexto empresarial actual y luego resume algunas de las mejores prácticas en la minería de datos.

1.1.b Libro de cocina de minería de datos por Olivia Parr Rud
Este libro proporciona una comprensión detallada de la metodología analítica. Enumera varias prácticas recomendadas que cualquier buen analista juraría.

1.1.c Compitiendo en Analytics por Thomas Davenport
Esta es una adición muy necesaria a la literatura de análisis. Este libro no trata con ecuaciones estadísticas o algoritmos complejos. El libro, en cambio, describe cómo algunas de las compañías líderes en el mundo están utilizando el análisis para superar a su competencia.

1.1.d Statistics for Management por Richard Levin y David Rubin
Esta es una gran guía para las estadísticas utilizadas en el campo de la analítica.

1.2 Libros sobre herramientas analíticas.

1.2.a Pequeño libro SAS de Lora Delwiche
Un muy buen libro para aprender SAS. El libro es fácil de leer ya que está compuesto de artículos de dos páginas.

1.2.b Programación SAS por ejemplo por Ron Cody
Si eres un principiante en SAS, encontrarás este libro útil. El libro es simple y fácil de leer con muchos ejemplos de la industria para una mejor comprensión .

1.3.c Manipulación de datos en R por Phil Spector
Este libro delgado ofrece una introducción sólida a muchas de las funciones y paquetes más útiles para importar, manipular y procesar datos en R.

1.3.d Análisis de datos usando SQL y Excel por Gordon Linoff
Un buen libro sobre cómo se pueden aprovechar herramientas como SQL y Excel para extraer información comercial útil de bases de datos relacionales.

2. Blogs

2.1.a Blog de minería de datos http://www.dataminingblog.com/ : este blog de Sandro Saitta, un ciudadano suizo, cubre temas de investigación, aplicaciones recientes, eventos importantes, entrevistas con actores líderes, tendencias actuales y reseñas de libros en el campo. de la analítica.

2.1.b Blog de capacitación sobre analíticas: http://analyticstraining.com/ Este blog es de http://www.jigsawacademy.com/, fundado por ex alumnos de IIM-Bangalore, que ofrece capacitación en analítica en línea y tiene algunas actualizaciones realmente interesantes en la analítica. campo.

2.1.c Blog de los mineros de datos http://blog.data-miners.com/ – Un lugar para leer sobre temas de interés para los mineros de datos, hacer preguntas a los expertos en minería de datos en Data Miners, Inc., y discutir los libros. de Gordon Linoff y Michael Berry.

2.1.d Flowing Data – http://flowingdata.com/ – FlowingData es el sitio de visualización y estadísticas que muestra diferentes aplicaciones de análisis de datos. El blog está escrito por Nathan Yau, un candidato a doctorado en UCLA.

2.1.e. Abbott Analytics – http: //abbottanalytics.blogspot… . – El blog de análisis Abbot trata sobre “Consejos, trucos y comentarios en minería de datos y análisis predictivo, incluido el preprocesamiento de datos, la visualización, el modelado y la implementación de modelos”

3. sitios web

3.1 Kdnuggetshttp://www.kdnuggets.com – Establecido en 1997, este sitio web es un recurso integral para todo lo relacionado con la minería de datos y el análisis.

3.2 Analyticbridgehttp://www.analyticbridge.com – Se describe a sí misma como la red social para profesionales de análisis. Este es un sitio maravilloso para conectarse y conectarse en red dentro de la industria analítica. También es útil mantenerse actualizado sobre las últimas noticias y eventos en el campo.

3.3 Jigsaw Academy: http://www.jigsawacademy.com/&nbsp ; Proporciona capacitación sobre las últimas herramientas y técnicas en el campo de la analítica con una plataforma en línea única a través de una combinación de aula virtual y laboratorio virtual.

4. Videos de YouTube

Cómo funciona: Analytics: –
Una breve historia de la inteligencia:
¿Qué puede hacer Business Analytics por usted? http://youtu.be/uP89kaDU40c

RevolutionAnalytics: este canal tiene muchos videos interesantes sobre análisis de big data usando el software de código abierto R