Veo a muchas personas preguntando cómo convertirse en un científico de datos, pero ¿cuál es un marco de tiempo realista para obtener un trabajo a tiempo completo, comenzando desde la zona cero?

Si bien no soy de ninguna manera un científico de datos a tiempo completo, creo que entiendo algo del tiempo que lleva comenzar en el campo.

Preámbulo:
Actualmente estoy trabajando como pasante de Data Scientist. Hace aproximadamente un año, no conocía ninguna programación o estadística.

Durante el verano del año pasado, un amigo me sugirió que tomara dos cursos de Coursera. La ciencia de datos de Bill Howe y el aprendizaje automático de Andrew Ng.
Un poco cambió mi vida.

Después de terminar mi primera mitad del segundo año, abandoné la física y comencé a obtener un título en computación científica / matemática aplicada. Pasé el último año trabajando en aprender CS y matemáticas relevantes (algunas cosas de ML, principalmente estadísticas y probabilidad, un poco de matemática discreta).

Responder:
Entre el primer día y el comienzo de mi pasantía, pasé unas 2-3 horas al día estudiando (fuera de los exámenes finales y de mitad de período). Traté de tomar todos los cursos de datos que pude encontrar. Por ejemplo, Coursera, publicaciones, libros, blogs.

Me aseguré de escribir mucho código y ver muchos videos sobre cómo codificar bien. Aprendí principalmente Python y su pila de computación científica, pandas, numpy, sklearn, scipy, etc.

También leí muchos DataTau, esto me expuso a muchos temas relacionados.

Si tuviera que hacer una estimación del tiempo que me llevó pasar de Cero a esta pasantía, serían alrededor de 500-600 horas.

Para ser sincero, personalmente no creo que el tema del científico de datos esté bien definido.

¡Quizás intente especificar su definición de ciencia de datos!
1) ¿Cuánto tiempo lleva aprender las tecnologías involucradas?
2) ¿Cuánto tiempo lleva obtener los conocimientos matemáticos necesarios?
3) ¿Cuánto tiempo lleva obtener un trabajo a tiempo completo?

editar: 1/23/2017

Ya han pasado casi tres años desde que escribí esta publicación y desde entonces escribí un artículo sobre computación social con NYU, hice 3 pasantías más en ciencia de datos y acepté una oferta para Facebook Data Science. Así que supongo que una respuesta actualizada sería ‘3-4 años’ de principio a fin.

La pregunta planteada ha sido editada. Antes de que cambie nuevamente, permítame capturar la pregunta que tenía la intención de responder:

Veo a muchas personas preguntando cómo convertirse en un científico de datos, pero ¿cuál es un marco de tiempo realista para convertirse en uno que comience en la zona cero?

El término “científico de datos” es amplio y cubre una amplia variedad de pecados, por lo que es difícil responder la pregunta tal como se establece con precisión. Además, voy a interpretar “marco de tiempo” como calendario en esta respuesta. Además, no sé qué significa “zona cero”, por lo que lo vincularé en términos de requisitos previos a continuación.

Si fueras tan duro como (digamos) los cursos intensivos de entrenamiento de idiomas de la Academia Naval de los Estados Unidos … alrededor de 2-3 meses más o menos. Eso ciertamente lo llevaría al punto en el que uno podría comenzar a tomar decisiones más inteligentes sobre áreas en las que centrarse y poder obtener puestos de nivel de entrada en el campo.

Advertencia # 1: necesitaría saber al menos álgebra de nivel universitario y cálculo introductorio. El álgebra lineal y las estadísticas serían un plus y se acortarían esta vez.

Advertencia # 2: Necesitaría saber al menos un lenguaje de programación con un nivel moderado de competencia. No importaría cuál tendría las herramientas para aprender otra según sea necesario.

Tenga en cuenta que no hará mucho más durante este período además de comer y dormir.

Esta pregunta tiene un alcance increíblemente amplio.

  • ¿qué clase de trabajo?
  • que salario
  • ¿que tipo de trabajo?

Si lo que buscas es dinero, diría que es una carrera profesional equivocada. Está solo marginalmente por encima de la ingeniería de software o devops.

¡Entra al campo solo si realmente te encanta! ¿Tu cerebro piensa en datos? ¿Abordas los problemas de manera integral? ¿Ves un proceso y piensas “podríamos aprender de la experiencia!”

Si su corazón no está en él, cualquier período de tiempo es demasiado largo. En el futuro estarás muerto. Así que no hagas algo mundano porque el dinero es bueno.

Más concretamente, para hacer bien la ciencia de datos, necesita tres conocimientos muy importantes:

  • programación
  • estadísticas y matemáticas avanzadas
  • conocimiento de la industria en la que trabajará (académica o comercial)

El primero que la mayoría de las personas recoge más rápido

El segundo solo viene de golpear los libros y el tipo de práctica que proviene del lápiz y el papel. Para citar a mi tía abuela uruguaya, “tu trasero tiene que ser dos veces el tamaño de tu cerebro para mantenerte sentado en esa silla”

El tercero que puede obtener de los libros. Pero ese conocimiento será limitado y altamente incompleto. El conocimiento real que necesita aquí proviene de la experiencia.

Adquirir experiencia lleva tiempo.

Desarrollar una comprensión profunda de conceptos matemáticos sofisticados lleva tiempo.

Si sus corazones no están en él, probablemente encontrará el camino traicionero.

La buena noticia es que si lo disfrutas todo el tiempo, entonces es tiempo realmente espléndido.

En resumen, terminé mi maestría en física aplicada este verano en Cambridge y luego decidí estudiar ciencia de datos en empresas de nueva creación con sede en Berlín. Estoy a punto de comenzar un puesto de tiempo completo como científico de datos.

¿Qué hice en el medio?

  1. Conseguí un trabajo como analista de datos en una empresa, realmente lo vi como un buen comienzo para familiarizarme no solo con las estadísticas y el aprendizaje automático, sino también con la forma en que los datos están estructurados y organizados en grandes empresas de datos o pequeñas empresas de tecnología en general. Después de trabajar 7 meses, las principales habilidades que aprendí de esto son: administración de bases de datos multidimensionales usando SQL, extracción de datos y carga en Python, sabiendo cómo están estructuradas las bases de datos
  2. Actualicé mi Python en un contexto de ciencia de datos como loco durante aproximadamente 2 a 5 horas por semana. Realmente aprendí todo a través de un sitio web llamado DataQuest, tienen excelentes ejercicios de aprendizaje, pero también proyectos de Amal para practicar usando Jupyter Notebook.
  3. Conoce tus estadísticas. He hecho estadísticas bastante intensas en física estadística, aunque todavía tuve que actualizarlas en un contexto de ciencia de datos, es muy diferente. Muchas fuentes por ahí, probablemente Coursera es bueno.
  4. Soy ‘afortunado’ de tener un historial formal de investigación científica, asegúrese de enfatizar esto cuando solicite puestos de ciencia de datos, ya que los empleadores no solo buscan habilidades sino también creatividad y visión a la hora de formular hipótesis.

Obviamente, hay muchas formas de hacerlo, pero no se preocupe, si se esfuerza y ​​comprende que la ciencia de datos es más que solo usar algoritmos de ML en Python y comprender el proceso que es hipotetizar, encontrar y limpiar datos, usando el derecho modelo y prueba, debe poder convencer a los empleadores de que es un excelente científico de datos junior listo para aprender y aplicar sus habilidades. ¡Buena suerte!

Puede ver esta preparación y aplicación de varias maneras. Los que se destacan desde el punto de vista de la vida significan que tienes solvencia financiera, te cuidas, permaneces razonablemente educado y, de hecho, puedes contribuir al resultado final de tu equipo. Si se prepara para un estudio académico de este tipo, estudiará materias que apliquen modelos matemáticos, dominio de la programación, trabajar con personas de negocios en comunicación y determinar las necesidades de cada empresa en particular. Lo más alto que estudies en el mundo académico no necesariamente se traduce en un mejor flujo de trabajo o capacidad profesional como científico de datos, pero sí te enseña cómo aprender, investigar y organizar con instituciones académicas y su gobierno. También te clasifica implícitamente en un grupo de estudiantes, intereses similares y orientaciones profesionales. Pero una mejor manera de ver esa inversión de su atención, vida y trabajo requiere una inversión de recursos, salud y relaciones. Debes desear vivir bien, mantener relaciones y prepararte a largo plazo para una carrera o un estudio académico. Se aplica en cualquier institución, ya sea académica, privada o agencia pública. Si ingresa cuatro años para obtener un título universitario, debe algo de matrícula o puede haber solicitado una beca o beca, lo que significa obligación financiera. Mientras estudia, puede aprender con profesores o personas que ya han demostrado su competencia profesional en campos relacionados con la ciencia de datos y profesiones aliadas. Cuanto más cerca te entrene tu maestro como aprendiz, pasante o practicante de tu campo, por supuesto, más adecuado podrás postularte para el trabajo en la práctica real. Piense en su educación en términos de conocimientos y habilidades, así como en la orientación profesional. Un estudio académico con un profesor que no ha aplicado su trabajo con impacto comercial, valor patentable, inventos o material publicado, usted aprende a enseñar y enseñar a las personas cómo hacer ese trabajo. Y la forma en que enseña puede incluso reflejar el mercado actual, la demanda o la práctica real de una profesión para ganarse la vida. Así sería como ganarse la vida como académico fuera de la práctica. Esto significa que debe equilibrar su estudio con la práctica profesional, pasantías, pasantías con investigadores o líderes empresariales, participar en conferencias y talleres profesionales, y contribuir de manera no trivial al mercado de los científicos de datos. Ponen su trabajo, experiencia y aprendizaje en foros públicos, conferencias, sitios web, organizaciones y cursos académicos para que personas de cualquier nivel participen, crezcan, aprendan y se guíen mutuamente. Por lo tanto, invierte sus recursos, se enfoca en años, relaciones y credenciales en el conocimiento central, las habilidades y la educación acreditada para un objetivo. Este objetivo generalmente sigue el empleo y la responsabilidad con un equipo y una empresa.

Depende de su formación matemática y qué tipo de codificación ya conoce. Si tiene cálculo, álgebra lineal y estadísticas con algún conocimiento de R o Python, es posible comenzar en aprendizaje automático y ciencia de datos con bastante rapidez (meses). Si necesita adquirir el fondo, es probable que pasen varios meses o años antes de que tenga las herramientas para pasar a la ciencia de datos (y hacerlo bien y correctamente).

Sugeriría comenzar como analista en lugar de volver a la escuela. Muchas compañías están capacitando a analistas con bootcamps y títulos en línea para convertirse en científicos de datos a cambio de quedarse con la compañía.

La Escuela de Negocios de Leeds en la Universidad de Colorado, Boulder, ofrece un programa de MS Business Analytics de doce meses que acepta estudiantes con experiencia limitada en estadística y programación y los convierte en un analista de datos altamente calificado y con grandes perspectivas de trabajo.

Un “científico de datos” posee mucho más conocimiento teórico en informática y con frecuencia utiliza el conocimiento teórico para emplear herramientas de datos analíticos más avanzadas como Machine Learning (ML).

Un científico de datos, incluso cuando trabaja para una corporación, a menudo estará involucrado en investigación y desarrollo, mientras que los analistas de datos generalmente están involucrados en análisis más descriptivos que predictivos a nivel de empresa-empresa.

Para ver el programa Business Analytics en la Leeds School of Business en CU Boulder, siga el enlace a continuación.

Máster en Business Analytics