¿Con qué debería comenzar alguien que quiera estudiar ciencia de datos desde cero?

Aquí está la hoja de trucos para convertirse en un científico de datos a través de sus propios esfuerzos:

  1. Comprender los datos : los datos son inútiles y pueden (y deberían) ser engañosos sin el contexto. Los datos necesitan una historia para contar una historia. Los datos son como un color que necesita una superficie para probar incluso su existencia, como el color rojo, por ejemplo, no puede probar su existencia sin una superficie, vemos un coche rojo o una bufanda roja, una corbata roja, zapatos rojos o algo rojo. de manera similar, los datos deben estar asociados con su entorno, contexto, métodos, formas y todo el ciclo de vida en el que nace, se genera, se utiliza, se modifica, se ejecuta y se termina. Todavía tengo que encontrar un “científico de datos” que pueda hablarme sobre los “datos” sin mencionar tecnologías como Hadoop, NoSQL, Tableau u otros proveedores sofisticados y palabras de moda. Necesitas tener una relación íntima con tus datos; Necesitas saberlo al revés. Preguntarle a alguien más sobre anomalías en “su” información es igual a preguntarle a su esposa cómo queda embarazada. Una de las ventajas que teníamos para nuestra relación con la ONU y el software para asegurar que las escuelas formen bombardeos es nuestro control sobre los datos subyacentes, mientras que el mundo habla de ello utilizando gráficos y cifras estadísticas, somos los que estamos en casa quienes lo experimentamos Vívelo en nuestra vida diaria, la importancia, los detalles y la apreciación de estos datos que no podemos encontrar en ningún otro lugar. Estamos haciendo lo mismo con nuestros otros proyectos y clientes.
  2. Comprenda al científico de datos : desafortunadamente, una de las palabras más confundidas y mal utilizadas en las ciencias de datos es el “científico de datos” en sí. Alguien lo relaciona con un oráculo místico que lo sabría todo bajo el sol, mientras que otros lo reducirían a expertos en estadística, ya que pocos están familiarizados con Hadoop y NoSQL, y para otros es alguien que puede realizar pruebas A / B y puede use tantos términos matemáticos y estadísticos que serían difíciles de entender en las reuniones ejecutivas. Para algunos, se trata de paneles de visualización y para otros es un proceso ETL sin fin. Para mí, un Data Scientist es alguien que entiende menos acerca de la ciencia que los que la crean y poco menos acerca de los datos que los que la generan, pero sabe exactamente cómo funcionan juntos estos dos. Un buen científico de datos es el que sabe lo que está disponible “fuera de la caja” y con quién necesita conectarse, contratar o las tecnologías que necesita implementar para realizar el trabajo, uno que puede vincular los objetivos comerciales con los mercados de datos. y quién puede simplemente conectar los puntos de ganancias empresariales a comportamientos humanos y de generación de datos a dólares gastados.
  3. Mira estos 13 videos de Ted
  1. Escuche los podcasts semanales de Parcialmente Derivado en Ciencias de Datos y explore su página de Recursos
  2. La introducción a la ciencia de datos y computación de la Universidad de Washington para el análisis de datos será un buen comienzo
  3. Echa un vistazo a Measure for America para comprender cómo los datos pueden marcar la diferencia.
  4. Lea el libro gratuito – Guía de campo de ciencias de datos
  5. Siga religiosamente esta infografía sobre cómo convertirse en un científico de datos.
  6. Lee este blog para dominar tus habilidades estadísticas
  7. Lee esta maravillosa introducción práctica a las ciencias de datos de Zipfian Academy
  8. Intenta completar este programa de maestría en ciencia de datos de código abierto
  9. Realice este curso de aprendizaje automático en Coursera con el co-fundador Andrew Ng de Coursera.
  10. De todos modos, complete esta Especialización en Data Science en Coursera, los nueve cursos y la piedra angular.
  11. Si carece de experiencia en informática o quiere dedicarse a la parte de programación de las ciencias de datos, intente completar esta Especialización en minería de datos de Coursera
  12. Opcional: depende de la industria con la que le guste trabajar, es posible que desee ver estos cursos / enlaces específicos de la industria sobre ciencias de la información, análisis de salud – introducción y especialización, educación, optimización del rendimiento e investigación académica general
  13. Para comprender el lado de la implementación de las aplicaciones de ciencia de datos, esta especialización en computación en la nube de los servicios web de Coursera y Youtube Amazon y las capacitaciones gratuitas son obligatorias.
  14. Realice estos cursos de segundo a ninguno sobre conjuntos de datos masivos de minería y minería de procesos.
  15. Este enlace te llevará a los 27 mejores libros de minería de datos gratis
  16. Trate de leer Data Science Central una vez al día, artículos como este pueden ahorrarle mucho tiempo y discusión en las entrevistas.
  17. Intenta competir en tantas competiciones de datos como puedas
  18. Para poner una cereza en el pastel, estos cursos basados ​​en estadísticas lo ayudarán a diferenciarse de todos los demás solicitantes: estadísticas inferenciales, estadísticas descriptivas, análisis y estadísticas de datos, estadísticas de unidad de pasión y sentido de los datos.
  19. Siga lo siguiente en Twitter para Predictive Analytics: @DataScienceCtrl , @analyticbridge, @mgualtieri, @doug_laney, @Hypatia_LeslieA, @hyounpark y @anilbatra
  20. Siga lo siguiente en Twitter para Big Data y Data Sciences: Vincent Granvill, Alistair Croll, Alex Popescu, @rethinkdb, Amy Heineike, Anthony Goldbloom, Ben Lorica, @oreillymedia, Bill Hewitt, Carla Gentry CSPO, David Smith, David Feinleib , Derrick Harris, DJ Patil, Doug Laney – Edd Dumbill, Eric Kavanagh, Fern Halper, Gil Press, Hilary Mason, Jake Porway, James Gingerich, James Kobielus, Jeff Hammerbacher, Jeff Kelly, Jim Harris, Justin Lovell, Kevin Weil, Krish Krishnan, Manish Bhatt, Merv Adrian, Michael Driscoll, Monica Rogati, Neil Raden, Paul Philp, Peter Skomoroch, Philip (Flip) Kromer, Philip Russom, Paul Zikopoulos, Russell Jurney, Sid Probstein, Stewart Townsend, Todd Lipcon, Troy Sadkowsky, William McKnight, Yves Mulkers

    [ref] Respuesta original: cómo convertirse en un científico de datos: por su cuenta

Data Scientist es el trabajo más sexy del siglo XXI. No es muy fácil convertirse en un gran científico de datos, tienes que trabajar duro para lograrlo.

Si desea convertirse en un buen científico de datos, primero aprenda qué es la ciencia de datos en profundidad. Puede consultar conjuntos de blogs, libros y también puede aprender de Quora.

Puedes referir las respuestas de Quora. Hay muchas preguntas en Quora relacionadas con la ciencia de datos y cómo convertirse en un científico de datos.

Puedes consultar los siguientes libros para aprender Data Science.

Los mejores libros para la ciencia de datos:

Este libro está escrito por Jared P. Lander. Es un libro decente que cubre todos los aspectos de la ciencia de datos, como la visualización de datos, la manipulación de datos, el modelado predictivo, pero no con tanta profundidad. Se puede entender, ya que cubre una gran cantidad de temas y omite detalles de cada uno.

Este libro está escrito por Trevor Hastie, Robert Tibshirani y Jerome Friedman. Esta es la siguiente parte de ‘Introducción al aprendizaje estadístico’. Se compone de temas más avanzados. Este libro es el más adecuado para personas familiarizadas con los conceptos básicos del aprendizaje automático.

Ahora, después de aprender Data Science, comience con las habilidades y responsabilidades necesarias para convertirse en Data Scientist.

Así que veamos las habilidades más valiosas para aprender para un científico de datos.

Conocimiento profundo de la codificación Python. Es el lenguaje más común incluyendo Perl, Ruby, etc.

Conocimiento de sonido de SAS / R

Es necesario que el científico de datos pueda trabajar con datos no estructurados. Ya sea que venga de videos, redes sociales etc.

Habilidad de sonido en la codificación de bases de datos SQL.

Data Scientist debe tener una buena comprensión de varias funciones analíticas. Por ejemplo, rango, mediana, etc.

El conocimiento profundo del aprendizaje automático requiere.

Un científico de datos debe estar familiarizado con las redes Hive , mahout, bayesianas , etc. En la ciencia de datos, el conocimiento de MySQL es una ventaja añadida.

Ahora veamos las responsabilidades de Data Scientist; de acuerdo con las responsabilidades, puedes juzgarte a ti mismo que puedes administrar esos roles o no, y si no, tratar de agregar esas habilidades en ti mismo.

Responsabilidades de un científico de datos

Limpieza y procesamiento de datos.

Predicción del problema empresarial.

Sus roles son dar resultados futuros de ese negocio.

Desarrollar modelos de aprendizaje automático y métodos analíticos.

Encuentre nuevas preguntas de negocios que luego pueden agregar valor al negocio.

Minería de datos utilizando métodos de vanguardia.

Presentar los resultados de manera clara y hacer el análisis ad-hoc.

Para saber más sobre las habilidades y los roles de Data Scientist, consulte el siguiente enlace:

Habilidades necesarias para convertirse en Data Scientist

Después de aprender las habilidades y responsabilidades de un científico de datos, intente agregar esas habilidades en usted mismo. Aprender paso a paso significa primero aprender Aprendizaje automático, luego Python, etc. Trate de dominar las habilidades de un científico de datos, solo así usted puede convertirse en un gran científico de datos.

Espero que esto ayude.

Hola:

Primer paso: autoevalúe si posee las siguientes habilidades, que en mi opinión deben tener para que pueda alcanzar el éxito en la vida de Data Science.

  1. Amor por los números y cosas cuantitativas.
  2. Grit para seguir aprendiendo
  3. Alguna experiencia en programación (preferido)
  4. Enfoque de pensamiento estructurado
  5. Pasión por resolver problemas.
  6. Disposición a aprender conceptos estadísticos.

Segundo paso: si crees que demuestras las habilidades y aptitudes anteriores y / o estás dispuesto a aprender, continúa con el segundo paso. Esta es la etapa de aprendizaje GRATIS. ¡Y puedes comenzar este viaje ahora mismo! Le sugiero que visite Coursera, edX, LinkedIn Learming (Lynda.com) y otras plataformas de aprendizaje en línea similares. Hay varios cursos GRATUITOS disponibles que debes comenzar a aprovechar. Comienza a tomar estos cursos y trata de dar lo mejor de ti. Asegúrese de completar todas las tareas y cuestionarios para obtener el máximo valor de los cursos en línea.

Además, debido a la democratización de ML / AI, Google, IBM y otras compañías similares han hecho que sea más fácil para todos nosotros tener acceso y aumentar nuestro conocimiento sobre Big Data, herramientas y técnicas de ML / AI. Algunas de las herramientas gratuitas que deberías intentar sacar para dar una vuelta son:

o pila de aprendizaje automático de Google – tensorflow

o Apache Spark

o IBM Watson

o Microsoft Azure

Simplemente haz google y encontrarás enlaces para las pilas anteriores. Vamos a empezar con los aprendizajes gratuitos.

Tercer paso: una vez que haya probado algunos cursos gratuitos y decida unirse a un curso de ciencia de datos, aquí encontrará una guía sobre cómo elegir el programa adecuado para usted.

  1. A ritmo personal o dirigido por un instructor: prefiere un instructor dirigido, ya que esto te dará más oportunidades para aclarar tus dudas. Según una estadística, 80–90% de los estudiantes no completan su curso basado en el ritmo de su propio ritmo / videos.
  2. En línea frente a la sala de clases: algunas personas prefieren las aulas para el aprendizaje cara a cara y la interacción con otros estudiantes. Sin embargo, los cursos en línea son igualmente efectivos si se motiva a usted mismo.
  3. Calidad de los instructores: hay dos tipos de instructores en el mercado. 1- Quienes han hecho algunos cursos y ahora hacen la capacitación. 2- Profesionales de la industria. Estas son las personas que han trabajado durante años significativos en la industria. Siempre debe preferir aprender de los profesionales de la industria con una experiencia laboral significativa. Debo advertirle que, lamentablemente, hay algunas personalidades falsas en esta industria, así que verifique el perfil de LinkedIn del capacitador y vea cuántas personas han respaldado al instructor o al profesorado para las habilidades de la ciencia de datos. Si no ve o tiene muy poco respaldo, es una bandera roja.
  4. Asistencia de colocación: verifique si el instituto brinda asistencia de colocación o no. También solicite estadísticas sobre cuántas personas han sido colocadas con éxito por ellos . En última instancia, esta es una de las razones principales por las que estamos considerando tomar un curso después de todo.
  5. Practica estudios de casos y asignaciones: elige el curso que te ofrece varios conjuntos de datos y problemas reales de la industria para trabajar . Prefiere los que tienen el Sistema de Gestión de Aprendizaje (LMS) además del de aprendizaje suplementario.
  6. Ayuda en curso : no dominarás los temas en 1 o 2 meses, te llevará varios meses para que te sientas cómodo con estos temas. Se prefiere un instituto que proporcione ayuda a largo plazo con sus necesidades de aprendizaje y que responda sus consultas en el futuro.
  7. Certificación: todo lo demás es igual, una certificación del instituto de renombre será mejor.
  8. Pruebas y asignaciones: es fundamental evaluar su comprensión de forma periódica a través de pruebas y asignaciones. Un buen instituto dará toneladas de pruebas y tareas y proporcionará la calificación y los comentarios .
  9. Precio- ¿Cómo podemos olvidar esto? Evaluar si el curso es valor para el dinero o no. Compara los contenidos y el número de horas. Un instituto que ofrezca más contenidos y más horas de contacto por cada centavo que pague es mejor.

Un último punto : no hay atajo en la vida de la ciencia de datos . Así que recuerda que esto llevará algún tiempo. No se apresure a terminar los cursos máximos en poco tiempo. Más bien, céntrese en la calidad del aprendizaje, la comprensión de los conceptos y sus aplicaciones prácticas.

Espero que esto ayude.

¡Aclamaciones!

Aegis Post Graduate Programme en Data Science, Business Analytics y Big Data en asociación con IBM. El programa ejecutivo incluye tres modos de entrega: Tiempo completo, Fin de semana ejecutivo y Ejecutivo en línea.

El programa de postgrado a tiempo completo se encuentra en Mumbai.

Executive Weekend está disponible en Mumbai, Pune y Bangalore. Los participantes que tengan más de 2 años de experiencia y que no pertenezcan a ninguna de estas ciudades pueden solicitar el Programa Ejecutivo en Línea.

Aegis es uno de los mejores institutos en India en Analytics / Data Science. Está clasificado entre las 10 mejores instituciones en la India.

Para ver la clasificación, por favor haga clic en el enlace: Los 10 mejores cursos de análisis en India – Clasificación 2016

Algunas de las mejores características de este programa se enumeran a continuación:

El certificado final de PGP será emitido por Aegis e IBM conjuntamente.
El programa está diseñado y entregado conjuntamente por IBM y Aegis School of Data Science.
Exposición a proyectos en vivo de la industria.
El mejor y único PGP en Data Science en India
Programa entregado por expertos en la materia de IBM y los mejores científicos de datos.
Centro de administración de carreras para ayudarlo a cambiar su carrera y encontrar oportunidades adecuadas.
IBM Business Analytics Lab
Estructura de crédito globalmente aceptable
Haga clic aquí para saber más sobre este programa:

Tiempo completo: http://goo.gl/7veAon
Modo ejecutivo de fin de semana: http://goo.gl/I9J3r5
Modo en línea ejecutivo: http://goo.gl/jX7r70