¿Cómo debo prepararme como científico de datos? (Pitón)?

Gracias por el A2A.

Muchos otros han proporcionado excelentes definiciones de roles, habilidades necesarias y recursos para comenzar. Disfruté especialmente los recursos sugeridos de Chirag Jhamb.

Además, creo que puedo proporcionar otra perspectiva para ayudarlo a desarrollar esas habilidades relacionadas con la ciencia de datos en la escuela. Dado que actualmente es un estudiante de segundo año de ingeniería, hay mucho tiempo para tomar cursos básicos y trabajar en proyectos relacionados con la ciencia de datos .

Mi pasado:

Duke ECE / Econ -> Consultoría económica -> Harvard MS CSE -> Yelp Data Science

Antes de pasar directamente al aprendizaje automático, aquí hay una lista de cursos que me han sido útiles durante mi pasantía y búsqueda de empleo. Tenga en cuenta que estos son cursos en Harvard y existen de alguna forma en la mayoría de las universidades. Puede complementar el resto con MOOC.

La razón detrás de la elección de los cursos es elegir

Tome un curso de probabilidad de un semestre del departamento de Estadística o Matemáticas de su universidad. En Duke, el curso de estadísticas del departamento de ingeniería es un curso combinado de probabilidad y estadística. Esto no es suficiente para proporcionarle una comprensión rigurosa de Probability, que sirve como base para toda su carrera en ciencia de datos. Encuentre un curso que sea comparable al programa de estudios de Harvard Statistics 110 y enseñe conceptos de la completa hoja de trucos de probabilidad de William Chen.
Si tiene tiempo, tome el curso de Estadística de otro semestre (programa de estudios 111 de Harvard Statistics). Esto cubrirá el otro lado de la moneda y le dará una comprensión sólida en inferencia.
Tome las clases introductorias e intermedias de programación / ingeniería de software del departamento de Informática. Estos deberían ser bastante fáciles de identificar desde el catálogo de cursos. Es importante aprender a codificar bien, ya que necesitará poder implementar sus soluciones teóricas. Cuanto más sepa, más fácil será encontrar un trabajo. Por lo que he visto en el campo, las personas de programas pesados de estadísticas sin experiencias de programación significativas tienen más dificultades para ser contratados que las personas que tienen antecedentes importantes de CS y fragmentos de estadísticas. Creo que es porque en la industria, por lo general, los modelos estadísticos simples son suficientes el 80% del tiempo y la capacidad de implementación es más apreciada.
La clase de algoritmo del departamento de CS será importante, especialmente para entrevistas con equipos de científicos de datos integrados en equipos de ingeniería y para roles de ingeniero de aprendizaje automático. Por lo general, es aconsejable tomar una clase de matemática discreta antes de ingresar a la clase. No hice eso en Duke y me costó mucho hacer pruebas. Demonios, hubiera sido genial si tomara matemáticas discretas antes de todas las clases de matemáticas basadas en pruebas. Por qué Duke nunca requirió eso, se me escapa. Mientras que Stanford tiene una clase que es para personas que están pensando en especializarse en matemáticas.
Tomar cursos de estadística aplicada. Estos cursos generalmente deben cubrir regresiones, pruebas de hipótesis, ANOVA, modelos lineales generalizados, métodos de selección de variables, etc. Las clases comparables en Harvard son Estadísticas 139 y Estadísticas 149. Estos cursos formalizaron mi intuición estadística y comprensión de los supuestos del modelo, algo que me faltaba. de mi educación universitaria. Durante mi pasantía de verano, me encontré usando estos conceptos una y otra vez.
Sumérgete en una clase de aprendizaje automático. Estos se están convirtiendo más o menos en un estándar. Usted sabe que la clase es de alta calidad cuando usa Bishop o Murphy. Bonificación, tome cursos de posgrado de aprendizaje automático. ¡Estos cursos tendrán un mayor énfasis en los modelos gráficos probabilísticos y proporcionarán otra variedad interesante de herramientas para modelar datos!
Base de datos opcional y clases de computación paralela. Creo que estos son más opcionales y elegir un lenguaje de consulta de base de datos es bastante fácil. Además, el concepto de división-combinación-aplicación que encontramos en SQL también se puede encontrar en los pandas de Python y los marcos de datos de R.

Además de las clases, es importante trabajar en proyectos para aplicar todo el trabajo del curso. Trabaje en cosas que le interesen y descubrirá que probablemente incluso aprenderá más trabajando en el proyecto.

Por último, algo que creo que a menudo se subestima es la importancia de hacer las preguntas correctas. Creo que una gran manera de construir esta intuición para probar la pregunta / hipótesis correcta es leer ampliamente. Lectura de libros de historia, economía, ciencias políticas, etc. *. le dará una comprensión de alto nivel de los diferentes tipos de datos y pensamientos. Esto ayudará a construir su reconocimiento de patrones al hacer preguntas perspicaces y abordar las más impactantes. Además, también es bueno leer algunos blogs actuales escritos por colegas científicos de datos. Consulte ¿Cuáles son los mejores blogs para que los científicos de datos lean?

¡Me encantaría escuchar lo que otros piensan lo que ayudó durante la escuela!

La mejor de las suertes,

Jeff

* Libros como Guns Germs & Steel, Predictably Irrational y The Next 100 years tienen muchas hipótesis interesantes de que los autores probaron lógicamente y utilizaron datos para generar evidencia. Creo que vale la pena aprender y emular el proceso de generar tales hipótesis.

Análisis de datosciencia de datosEmpleos y carreras en Ciencia de datosOrientación laboralPython