¿Cómo debo prepararme como científico de datos? (Pitón)?

Gracias por el A2A.

Muchos otros han proporcionado excelentes definiciones de roles, habilidades necesarias y recursos para comenzar. Disfruté especialmente los recursos sugeridos de Chirag Jhamb.

Además, creo que puedo proporcionar otra perspectiva para ayudarlo a desarrollar esas habilidades relacionadas con la ciencia de datos en la escuela. Dado que actualmente es un estudiante de segundo año de ingeniería, hay mucho tiempo para tomar cursos básicos y trabajar en proyectos relacionados con la ciencia de datos .

Mi pasado:

Duke ECE / Econ -> Consultoría económica -> Harvard MS CSE -> Yelp Data Science

Antes de pasar directamente al aprendizaje automático, aquí hay una lista de cursos que me han sido útiles durante mi pasantía y búsqueda de empleo. Tenga en cuenta que estos son cursos en Harvard y existen de alguna forma en la mayoría de las universidades. Puede complementar el resto con MOOC.

La razón detrás de la elección de los cursos es elegir

  1. Tome un curso de probabilidad de un semestre del departamento de Estadística o Matemáticas de su universidad. En Duke, el curso de estadísticas del departamento de ingeniería es un curso combinado de probabilidad y estadística. Esto no es suficiente para proporcionarle una comprensión rigurosa de Probability, que sirve como base para toda su carrera en ciencia de datos. Encuentre un curso que sea comparable al programa de estudios de Harvard Statistics 110 y enseñe conceptos de la completa hoja de trucos de probabilidad de William Chen.
  2. Si tiene tiempo, tome el curso de Estadística de otro semestre (programa de estudios 111 de Harvard Statistics). Esto cubrirá el otro lado de la moneda y le dará una comprensión sólida en inferencia.
  3. Tome las clases introductorias e intermedias de programación / ingeniería de software del departamento de Informática. Estos deberían ser bastante fáciles de identificar desde el catálogo de cursos. Es importante aprender a codificar bien, ya que necesitará poder implementar sus soluciones teóricas. Cuanto más sepa, más fácil será encontrar un trabajo. Por lo que he visto en el campo, las personas de programas pesados ​​de estadísticas sin experiencias de programación significativas tienen más dificultades para ser contratados que las personas que tienen antecedentes importantes de CS y fragmentos de estadísticas. Creo que es porque en la industria, por lo general, los modelos estadísticos simples son suficientes el 80% del tiempo y la capacidad de implementación es más apreciada.
  4. La clase de algoritmo del departamento de CS será importante, especialmente para entrevistas con equipos de científicos de datos integrados en equipos de ingeniería y para roles de ingeniero de aprendizaje automático. Por lo general, es aconsejable tomar una clase de matemática discreta antes de ingresar a la clase. No hice eso en Duke y me costó mucho hacer pruebas. Demonios, hubiera sido genial si tomara matemáticas discretas antes de todas las clases de matemáticas basadas en pruebas. Por qué Duke nunca requirió eso, se me escapa. Mientras que Stanford tiene una clase que es para personas que están pensando en especializarse en matemáticas.
  5. Tomar cursos de estadística aplicada. Estos cursos generalmente deben cubrir regresiones, pruebas de hipótesis, ANOVA, modelos lineales generalizados, métodos de selección de variables, etc. Las clases comparables en Harvard son Estadísticas 139 y Estadísticas 149. Estos cursos formalizaron mi intuición estadística y comprensión de los supuestos del modelo, algo que me faltaba. de mi educación universitaria. Durante mi pasantía de verano, me encontré usando estos conceptos una y otra vez.
  6. Sumérgete en una clase de aprendizaje automático. Estos se están convirtiendo más o menos en un estándar. Usted sabe que la clase es de alta calidad cuando usa Bishop o Murphy. Bonificación, tome cursos de posgrado de aprendizaje automático. ¡Estos cursos tendrán un mayor énfasis en los modelos gráficos probabilísticos y proporcionarán otra variedad interesante de herramientas para modelar datos!
  7. Base de datos opcional y clases de computación paralela. Creo que estos son más opcionales y elegir un lenguaje de consulta de base de datos es bastante fácil. Además, el concepto de división-combinación-aplicación que encontramos en SQL también se puede encontrar en los pandas de Python y los marcos de datos de R.

Además de las clases, es importante trabajar en proyectos para aplicar todo el trabajo del curso. Trabaje en cosas que le interesen y descubrirá que probablemente incluso aprenderá más trabajando en el proyecto.

Por último, algo que creo que a menudo se subestima es la importancia de hacer las preguntas correctas. Creo que una gran manera de construir esta intuición para probar la pregunta / hipótesis correcta es leer ampliamente. Lectura de libros de historia, economía, ciencias políticas, etc. *. le dará una comprensión de alto nivel de los diferentes tipos de datos y pensamientos. Esto ayudará a construir su reconocimiento de patrones al hacer preguntas perspicaces y abordar las más impactantes. Además, también es bueno leer algunos blogs actuales escritos por colegas científicos de datos. Consulte ¿Cuáles son los mejores blogs para que los científicos de datos lean?

¡Me encantaría escuchar lo que otros piensan lo que ayudó durante la escuela!

La mejor de las suertes,

Jeff

* Libros como Guns Germs & Steel, Predictably Irrational y The Next 100 years tienen muchas hipótesis interesantes de que los autores probaron lógicamente y utilizaron datos para generar evidencia. Creo que vale la pena aprender y emular el proceso de generar tales hipótesis.

Bienvenido al mundo de la ciencia de datos.

Un científico de datos es un rol que se espera que aplique la ciencia a los datos. ¿Qué es esta ciencia?

  1. Esto podría ser comprender datos, calcular números, poder relacionarse con diferentes métricas, encontrar formas de medir cosas.
  2. De lo contrario, utilice técnicas que sean estadísticas y econométricas.

El requisito previo para ingresar a Data Science no es que esta sea una industria en auge, sino su amor hacia ella.

  1. Su amor hacia el análisis de datos, patrones, cosas en general.
  2. Ser una persona orientada a datos
  3. Números amorosos

Si esto es lo que eres, entonces deberías explorar la carrera de Ciencia de datos.

Lo que se espera de la ciencia de datos más reciente.

  1. Deberías ser bueno en la codificación. El más utilizado es SQL & R. Aprenda cualquiera de ellos.
  2. Aprenda algunas técnicas estadísticas como regresión logística, CHAID, etc.
  3. Una vez que se una, estará involucrado principalmente en la producción de datos, procesando números según las indicaciones de su gerente.
  4. Siga haciendo preguntas a su gerente sobre cómo se traduce todo esto en soluciones comerciales y cómo las usa la empresa.
  5. Eventualmente, con una experiencia de más de 3 años, sería bueno en este campo. Luego, averigua cómo y dónde quieres ir.

Por último, recuerde que está bien hacer un modelo de análisis o ejecutar un análisis de datos. Lo más importante es cómo se traduce todo esto en una visión procesable.

¡Todo lo mejor!

Así es como la revista forbes define la relación entre la ciencia de datos y el análisis, pero como siempre se debate, no hay una sola definición fija :
Ciencia de datos + Ciencia de decisiones = Análisis

Estoy en el último año de la universidad, decidí lo mismo para mí el año pasado, y es muy bueno que tengas una ventaja, ¡solo sigue aprendiendo!
Primero, si está más interesado en el análisis predictivo, la toma de decisiones, etc., entonces d3.js puede dejarse de lado para más adelante, en este momento no ayudará a menos que tenga en mente un proyecto de visualización de datos.

En segundo lugar, si desea seguir un camino claro donde incluso puede preguntar a los autores del curso en caso de duda, sugiero http://dataquest.io , las pistas gratuitas son lo suficientemente buenas.
Si necesita otros recursos para aprender más cosas, aquí está: la respuesta de Chirag Jhamb a ¿Cómo empiezo a estudiar Python para convertirme en científico de datos? ¿Algún enlace y libro puede ser útil?

Al final, si ya ha aprendido la codificación, sabrá que todos podemos leer, leer y leer, ¡pero solo aprendemos la codificación cuando realmente lo hacemos nosotros mismos! En mi opinión, lo mismo ocurre con el aprendizaje automático, solo obtenga un conocimiento básico y luego comience a hacer problemas una vez que haya terminado el curso.

Espero que esto haya sido útil, no dudes en preguntar cualquier cosa si quieres saber algo más 🙂

Prefiero recopilar algunas ideas sólidas de estadísticas / aprendizaje automático antes de aprender algunos paquetes peculiares. Si intentas saltar a un paquete que te explica algunas rutinas sin saber bien cómo aplicarlas, te perderás y tal vez renuncies al paquete. Familiarícese con el funcionamiento estadístico primero y luego con el funcionamiento del paquete estadístico.

No necesita conocer todas las entradas y salidas de cada algoritmo, pero debe saber cuándo aplicar los algos más utilizados y cómo hacerlo correctamente.

Hay buenos cursos y libros en línea, uno bastante fácil desde una perspectiva empresarial es: DAta Mining Techniques por Linoof / Berry.

Técnicas de minería de datos: para marketing, ventas y gestión de relaciones con clientes, 3a edición

hay siete capas en el paisaje bigdata

1. colección 2. Almacenamiento 3. almacenamiento 4. procesamiento 5. Consulta 6. Análisis 7. Visualización

1-4 y parte de 5 viene en ingeniería de datos

, Parte de 5 y 6 es Ciencia de datos, 4-5 tipos de análisis desde descriptivos hasta prescriptivos

7. es su capa de visualización donde viene javascript y tableau rapid miner o D3.js

La ingeniería de datos necesita diferentes habilidades, en particular la creación de Data Lake y el motor de procesamiento

La ciencia de datos necesita también habilidades de estadística, aprendizaje automático e ingeniería de datos.

la visualización es diferentes habilidades

Por lo tanto, ustedes optan y se convierten en jugadores a largo plazo, la ciencia de datos no es para jugadores de 100-200 my su maratón

Te sugiero que estudies la documentación de los paquetes de Python como NumPy y Scipy.

Nota : Teniendo en cuenta que tiene conocimientos de nivel principiante sobre python.

More Interesting

¿Qué preguntas formulan los antiguos alumnos durante una entrevista de admisión al Harvard College?

¿Cómo es trabajar como asistente de investigación en la Universidad Nacional de Singapur?

¿Hay alguna ruta específica a la que aferrarse para convertirse en Contador Público?

¿Cómo uno puede convertirse en fotógrafo de vida salvaje?

Me dieron el recibo rosa 30 minutos antes del cierre, diciendo que me estaban dejando ir. ¿Es esto correcto?

He tenido varios años fuera de la fuerza laboral debido a un problema de salud mental. ¿Cómo debo dar cuenta de esto en mi CV y ​​en mi perfil de LinkedIn?

Cómo abordar la programación (leer la descripción)

¿Cuánto tiempo pasa antes de que la ciencia de datos pierda relevancia en el futuro?

¿Qué es mejor hacer para un ingeniero químico: Matlab o CFD?

Me encantaría unirme al ejército, pero soy socialista y no creo en las causas de mi país. ¿A qué otras organizaciones puedo unirme?

¿Cuál sería una buena elección de carrera para un nuevo graduado que tiene ofertas de trabajo en grupos de diseño de CPU y diseño de GPU (front-end RTL)?

Cómo hacer 50 ka mes sin trabajo

¿Qué nueva tecnología de software debería aprender ahora, que me permita ganar más en India después de cuatro años?

¿Qué nivel de conocimiento debe tener un desarrollador Junior en Git?

¿Cuáles son las áreas en las que puede entrar un recién graduado de ingeniería mecánica después de hacer un curso de negocios SAP? ¿Vale la pena hacerlo o debería optar por el SAP ERP 6.0?