Entre estadística y probabilidad, ¿qué es lo más importante para mejorar primero para un aspirante a científico de datos?

“Científico de datos” sigue siendo un término muy vago y la respuesta a la pregunta depende de lo que va a hacer.

Sin embargo, voy a romper la tendencia y decir “estadísticas”. No creo que necesite mucha teoría de probabilidad para comprender las estadísticas al nivel que necesita para hacer un análisis de datos y hacerlo bien. Debe comprender los límites de cada una de una amplia variedad de métodos, pero puede aprender estos límites sin conocer la teoría.

Por ejemplo, debe aprender que la regresión de mínimos cuadrados ordinarios supone que los errores se distribuyen normalmente. También debe aprender que existen métodos alternativos cuando se viola ese supuesto y que dos de esas alternativas son la regresión cuantil y la regresión robusta. Dentro de una regresión robusta, debe saber que existen varios métodos y cuál es bueno para qué tipo de violación, pero no necesita comprender la derivación de los estimadores M.

Algunos científicos de datos pueden necesitar encontrar métodos completamente nuevos. Pero mi impresión es que la mayoría de los científicos de datos no necesitan hacerlo; más bien, muchos científicos de datos necesitan estar mejor informados sobre lo que ya existe.

Jay tiene razón, como es habitual. Sin embargo, al comenzar las estadísticas, necesita saber la probabilidad de tener una pista, mientras que mientras comprenda qué es un vector y una matriz, y cómo se invierte una matriz (conceptos básicos de álgebra lineal), puede comprender las estadísticas para principiantes.

Sin embargo, si está preguntando, debe estar haciendo un autoaprendizaje completo. Incluso un MOOC lo guiará lo suficiente como para que no tenga que preguntar. Espero que tengas la autodisciplina para perseverar. Si le resulta difícil, no se sorprenda. Es posible que desee tomar un curso de estudio.

Oh … para entender la probabilidad, también necesitarás series infinitas y cálculo integral. Posiblemente inducción. Entonces … estudia mucho. Buena suerte.

Como usted pregunta cuál es el más importante para mejorar primero, diría probabilidad simplemente porque hace que las estadísticas sean mucho más simples. Aunque los ejemplos completos de monedas y dados generalmente presentados para enseñar la probabilidad son muy sencillos, lo encuentro muy abstracto. Esta abstracción es muy importante (al menos para mí) en estadística, pero también en pensamiento analítico y escepticismo cuando se trabaja en ciencia de datos.