Si amo las estadísticas. ¿Es más adecuado un científico de datos o un rol de analista cuantitativo?

Tu futuro depende de ti mismo.

Deberías hacerte esta pregunta: ¿me encanta trabajar en finanzas o simplemente en datos en general?

En mi opinión, los dos son muy diferentes. Las finanzas tienen más que ver con métodos, opciones, y son muy pesadas en fórmulas y teorías. Mientras que el científico de datos se enfoca más en las técnicas ETL y la implementación de algoritmos, que es más pesado en CS pero que también requiere conocimiento previo en la formulación teórica de algoritmos de aprendizaje automático.

Comencé mi licenciatura como estadística y matemática computacional. Solía ​​tomar casi solo estadísticas y cursos de CS y me encantaban. A principios de este año, no tomé ningún curso de economía o finanzas. Entonces, de repente quise probar, así que tomé un curso de CS que trata sobre modelos financieros. Sin conocimientos financieros previos, sufrí mucho en esa clase (aunque el conocimiento financiero no era un requisito previo). El curso trató sobre diferentes derivados, opciones, barreras, etc. y cómo utiliza Matlab para simular todas las diferentes opciones de precios. Lo cual es una fórmula muy pesada y no tiene casi nada que ver con el aprendizaje automático (al menos lo que me enseñaron en esa clase). Como resultado, realmente no disfruté la clase y también decidí no tocar las finanzas tanto como sea posible en el futuro.

Si le gustan las finanzas y quiere trabajar más en su análisis de datos, puede probarlo. Es muy diferente de lo que pienso y siento que los científicos de datos lo hacen a diario. Y sí, no deberían ocuparse mucho de la limpieza de datos, ya que esas compañías deberían tener equipos de almacenamiento de datos que se centren en la limpieza de datos.

Como se menciona en el detalle de su pregunta, si le encantan las estadísticas y el análisis de datos deportivos que es como yo, le sugiero que siga el camino del científico de datos, tendrá más oportunidades de analizar todo tipo de datos y posiblemente datos deportivos si es contratado por Un equipo deportivo.

Los científicos de datos limpian datos, y la limpieza de datos es una parte muy muy muy importante en el análisis de datos. Por lo general, los datos no vienen en el formato que desea. A diferencia de los datos financieros, donde casi siempre solo tiene precios de acciones, precio de ejercicio (valor único), tasa de interés (valor único), volatilidad (valor único), etc. y un montón de fórmulas para aplicarlos.

Los datos para que los científicos de datos trabajen suelen ser grandes y contienen mucha información. Es responsabilidad del científico de datos profundizar en los datos y encontrar información útil de ellos y conectarlos de manera significativa para obtener predicciones.

A menos que consiga un trabajo en el que tenga un equipo dedicado que limpie los datos por usted, no tendrá suerte. La limpieza / munging de datos también tiene un beneficio: obtiene una mejor idea de los datos a través de ellos que si tuviera que trabajar con datos perfectamente “limpios” en primer lugar.

Un ejemplo: suponga que está trabajando con datos numéricos. Hay valores faltantes. Si tuvieras un equipo limpiando los datos, querrás saber cómo se trataron los valores faltantes. Desafortunadamente, alguien que se contenta con limpiar datos todo el tiempo puede no ser la mejor persona para lidiar con este problema. A menos que estuvieran familiarizados con todos los mecanismos clásicos de falta y cómo diferían, probablemente tratarían MCAR como NMAR (es decir, faltan completamente al azar como no faltan al azar). Y si los datos tienen un porcentaje sustancial de datos faltantes, Estas suposiciones realmente tienen un impacto en sus resultados. Tratar los datos que faltan usted mismo también le da una idea de sus datos. Del mismo modo tratar con valores atípicos, etc.

Cuando ha estado lidiando con un tipo o fuente de datos durante un tiempo que puede asumir que los datos son generados por el mismo proceso, puede automatizar los procesos que limpian sus datos. Siempre es bueno hacer verificaciones puntuales de vez en cuando para asegurarse de que no haya infracciones específicas a sus suposiciones.

Hay otro beneficio (dependiendo de cómo piense, puede ser uno de los muchos) de hacer la limpieza de datos o, de hecho, cualquier cosa que no desee hacer manualmente. La del aburrimiento.

Ahora, si eres como yo, odias aburrirte. Es por eso que te preguntas qué tipo de trabajo conseguir: tener menos aburrimiento. Estoy de acuerdo con usted en que demasiado aburrimiento es malo y es aterrador. Pero una cierta cantidad de aburrimiento podría ser algo bueno. Por ejemplo, en un trabajo que tenía, estaba aburrido. Al final, el trabajo se volvió demasiado aburrido y me fui. Pero cuando me aburrí de crear informes personalizados, tuve la brillante idea de cómo automatizar los informes. No era simplemente yo siendo inteligente. Estaba tan harto de los informes que desafié a mi jefe (no siempre es algo bueno) que podría encontrar una manera de automatizar los informes dentro de una semana, si me permitieran tener ese tiempo. Me llevó tres días, porque la perspectiva de menos aburrimiento es motivadora.

Nunca podrás hacer lo que quieres todo el tiempo. Lo que yo haría, si fuera usted, es decidir en qué tipo de entorno preferiría trabajar y qué tipo de trabajo preferiría hacer en lugar de evitar hacer cosas que preferiría no hacer. Los quants generalmente viven con un alto estrés (al igual que la mayoría de los científicos de datos, pero generalmente es un estrés menos obvio), pero generalmente tienen datos más limpios para trabajar inherentemente. (Por supuesto, hay excepciones para cada regla). Si el estrés te afecta, no seas cuantitativo.

Investigue un poco y calcule los pros y los contras de cada tipo de trabajo que pueda hacer. Llega a una conclusión y ve por ella. Puede encontrar que algo no es lo que pensaba, y tiene que cambiar de dirección. Está bien. Tienes permitido cometer errores.

Como suele ser el caso en cualquier tipo de análisis, no utilice solo una métrica en su evaluación. Planear una carrera basada estrictamente en minimizar la limpieza / munging que tienes que hacer conducirá a una realización subóptima al final.

Me encanta el modelado y el análisis cuantitativo tanto como cualquiera. De hecho, dejé una carrera de 5 años en ingeniería de bases de datos y volví a la escuela a tiempo completo para concentrarme en mi pasión por las estadísticas y las matemáticas aplicadas. Sin embargo, tan pronto como comencé a trabajar en la industria como estadístico, me encontré usando mi base de datos y mis habilidades de programación mucho más que mis habilidades de modelado.

Esta es la dura verdad que muchos de nosotros descubrimos tan pronto como dejamos los confines de la academia y experimentamos la dura realidad de la industria. En la escuela, nos entregan pequeños conjuntos de datos que siempre parecen estar distribuidos normalmente con pocos datos faltantes. De esa manera, podríamos centrarnos en construir un modelo que generalmente se ajuste muy bien, generalmente un R-cuadrado de> 0.7. En la industria, paso mucho tiempo consultando depósitos de datos muy complejos y mal documentados solo para descubrir que el 80% de mis datos tienen inconsistencias, contradicciones, valores perdidos, valores no válidos, datos con formato incorrecto, etc. Después de un enorme esfuerzo de limpieza y munging , De alguna manera logro crear un modelo con R-cuadrado = 0.2 y me siento muy orgulloso. Posteriormente, el modelo puede implementarse en un sistema de puntuación en tiempo real, que es otro esfuerzo de ingeniería que consume mucho tiempo. En general, no más del 10% de mi tiempo se enfoca en modelar.

Pocos de nosotros disfrutamos este estado de cosas, pero desafortunadamente todos tenemos que vivir con ello. Sí, puede haber algunos trabajos cuantitativos que no requieren mucha ingeniería de datos, y puede ser lo suficientemente bueno como para obtener uno. Pero en lugar de huir del desafío, te animo a aceptarlo. Serás mucho más valioso si puedes hacer tanto el lado cuantitativo como el de ingeniería. Además, la manipulación de datos a veces proporciona las mejores ideas para mejorar su modelo. ¡La mejor de las suertes!

Odio decirte esto: para casi todos los trabajos que realizan análisis, los datos no están disponibles porque el tipo de pregunta a responder generalmente no está estructurado y es nuevo que estés allí para recopilar datos para hacer análisis. Por lo tanto, es cierto que debe dedicar mucho tiempo a recopilar, limpiar y modelar datos en lugar de realizar análisis estadísticos / ML.

El trabajo real no es tan bueno como lo que encuentras en el entorno escolar.

Depende de los datos en los que esté trabajando. En muchos casos, sus datos provienen directamente de la base de datos y solo necesita transformarlos al formato correcto para otra herramienta de análisis.
Creo que en el campo de la finalización, no necesitaría dedicar demasiado tiempo al procesamiento de datos.