¿Qué tan útiles son los concursos de Kaggle para obtener entrevistas para alguien que ya trabaja como científico de datos?

He entrevistado a varios solicitantes y no me importa en absoluto Kaggle. La ciencia de datos es un deporte de equipo. Si a alguien le va bien en una competencia de Kaggle por sí mismo, no tengo idea de si es un egoísta que no encajaría o sería un apasionado de la ciencia de datos. Del mismo modo, si un solicitante es parte de un equipo que se desempeña bien en una competencia, no sé si esa persona jugó un papel importante, pequeño, ayudó al equipo a avanzar, fue una espina para todos, etc. Kaggle le dice yo nada.

Si alguien no trabajaba como científico de datos, entonces el hecho de que se esforzaran por hacer un proyecto me impresionaría. Pero su pregunta decía explícitamente “alguien que ya trabaja como científico de datos”.

Un buen entrevistador siempre está tratando de imaginar si esta persona será una valiosa contribución a la empresa o no. No necesito saber qué tan bien anotaron en una competencia de Kaggle, cuál es su coeficiente intelectual, a qué escuela asistieron, cuál es el apellido de soltera de su madre o cualquier otra cosa. Solo déjame hablar con ellos durante 30 minutos y lo resolveré.

¿Cómo? Yo escucho Escucho muy atentamente lo que dicen, lo que no dicen, cómo lo dicen, etc. Les pregunto “Hábleme de un momento en que las cosas salieron terriblemente mal en un proyecto”. NO les pregunto “Cuéntame sobre un momento en que las cosas salieron terriblemente mal en un proyecto y qué hiciste al respecto. El segundo tiene una pista sobre lo que espero escuchar. Te sorprendería saber cuántas personas responden a la primera pregunta no es más que una queja o señalar con el dedo. Lea el libro Hiring For Attitude para más información sobre esto.

Muy bien, esto no pretende ser un sermón. Una gran, gran advertencia es que todo lo anterior se refiere a cómo lo entrevisto. Y eso es muy diferente a la mayoría. No tengo dudas de que una búsqueda en Google producirá muchas publicaciones en el blog que ensalzan las virtudes de hacer concursos de Kaggle para diferenciarse (estoy a favor de destacar, pero hay otras formas de hacerlo. Al igual que hacer una maldita investigación sobre la compañía antes de tu entrevista).

Permítanme resumir afirmando que cuando hago citas en línea, siempre incluyo la siguiente línea en mi perfil: “Estoy buscando el tipo de mujer que estará a mi lado, con una motosierra en la mano, cuando llegue el Apocalipsis Zombi. No la ardiente rubia bimbo que grita pidiendo ayuda “. Lo mismo aqui. Contrato científicos de datos con los que iría a la guerra. Kaggle no me dice nada.

Amén.

Las competencias de Kaggle muestran que tienes interés en el campo fuera del trabajo, que generalmente se considera un buen rasgo.

También demuestran que tienes cierta cantidad de conocimiento de aprendizaje automático. O mejor dicho, tiene cierta cantidad de conocimiento de aprendizaje automático en los tipos específicos de aprendizaje automático utilizados en las competencias de Kaggle, que a menudo es un pequeño subconjunto de aprendizaje automático.

Por lo tanto, es una pieza de información, pero en general no una que yo hubiera puesto demasiado peso. Francamente, a menos que pueda hablar sobre por qué las competiciones de Kaggle no reflejan la carga de trabajo real que ve un Científico de Datos, las marcaría como negativas. No quiero a alguien que vea su trabajo como una competencia de Kaggle porque eso es casi lo opuesto a lo que necesitamos y hacemos.

Así que enumeremos las cosas que Kaggle no me dice:

  • Como Mark dijo tan bien, no dicen nada sobre tu personalidad o cómo trabajas en un equipo.
  • Lo que realmente sabe sobre el lado del aprendizaje automático de Data Science. Una vez asistí a una charla de un exitoso ganador de Kaggle donde habló sobre cómo utilizó exactamente el mismo marco y enfoque en cada competencia. Fue genial, pero ¿es solo un pony de un truco?
  • ¿Qué sabes realmente sobre el aprendizaje automático en un entorno de producción? Kaggle ofrece un conjunto de datos único con una métrica predefinida para optimizar. Desearía que la vida fuera tan simple. Un enfoque de caja negra muy complicado y lento para entrenar puede ser excelente en Kaggle pero horrendo en una empresa. Son difíciles de entender, difíciles de depurar, frágiles si las cosas cambian, etc., etc. Por ejemplo, según tengo entendido, Netflix nunca implementó los algoritmos que surgieron de la competencia de Netflix.
  • Una extensión del último punto, ¿qué tan bien puedes hacer compensaciones? Si mejorar la precisión en un 1% requerirá 5 veces el esfuerzo, ¿cómo va a reaccionar? En Kaggle, la respuesta es hacerlo porque, de lo contrario, uno de los otros equipos puede hacerlo. En un trabajo tienes varios proyectos en curso y hacer uno un poco mejor puede significar que los demás no se terminen en absoluto. ¿No puedes ser un perfeccionista?
  • Lo que realmente sabe sobre trabajar con datos. Kaggle proporciona conjuntos de datos muy limitados y generalmente limpios. Se puede inferir una limpieza adicional de todas las publicaciones del foro. En un trabajo de Data Scientist, generalmente debe realizar todos los pasos entre “datos en bruto” y “conjuntos de datos de calidad de kaggle”.
  • Lo que realmente sabe sobre el aprovechamiento del contexto empresarial. Nuevamente, Kaggle proporciona conjuntos de datos muy limitados y estáticos. En la práctica, el trabajo del Data Scientist es no solo usar los datos sino también definir cuáles son los datos. A menudo, extraer puntos de datos adicionales o datos externos será más valioso que un algoritmo de aprendizaje automático ligeramente mejor.