¿Cómo es trabajar como científico de datos en una startup?

En resumen, es agotador y emocionante. Como científico de datos en una empresa incipiente, hay muchos aspectos en mi trabajo. Dejé un trabajo central de desarrollo de software para convertirme en científico de datos. Lo que me sorprende mucho es que no solo estoy haciendo más ciencia de datos, sino también más desarrollo de software, más reclutamiento (no es tan fácil como podría pensar), más planificación estratégica y más tutoría para colegas. Algunas de estas cosas se te presentan porque estás en una startup, pero cuando las mezclas con tu rol de científico de datos, se convierte en una lata de gusanos muy diferente.

Tratemos con los conceptos erróneos, algunos de los cuales yo mismo tuve.

1. Puede pasar todo su tiempo en MATLAB, R, MS Excel, SAS / SPSS
No va a pasar. Si solo sabe cómo usar herramientas específicas de dominio, hay literalmente miles de otros trabajadores independientes que pueden hacer un mejor trabajo que usted por una fracción de su salario. Es solo cuestión de tiempo antes de que sus empleadores se den cuenta de esto. Es posible que pueda salirse con la suya en las grandes empresas, pero no en las nuevas empresas.

2. Se trata de tramas y visualización
Antes de trazar los datos, deben limpiarse, formatearse y codificarse correctamente. Ninguna herramienta de visualización tomará amablemente trazar una columna de enteros esparcidos con valores aleatorios mal formateados. En realidad, se le pedirá que pase mucho más tiempo limpiando sus datos que visualizándolos. No puedes seguir confiando en que otra persona haga eso. Lo más importante, no puede trazar un gigabyte de datos. Ahora bien, ese podría ser el tamaño de los datos que le entrega su cliente. Así que debes pensar qué parte de ese gigabyte es relevante. Esa es una pregunta que debe tener una respuesta.

3. Solo tengo que hacer EDA
EDA significa análisis de datos exploratorio, que es simplemente un conjunto de herramientas utilizadas para realizar análisis muy amplios y generales en un conjunto de datos. Esto te llevará muy lejos, sí, pero no a través de la línea de meta. Después de todo, sus clientes necesitan un poco más de información sobre sus datos que decirles cuáles son los momentos estadísticos de todas las columnas y cómo se ve la distribución de probabilidad de un conjunto de variables.

4. No tendré que escribir un buen código
Recuerde que ser un científico de datos no significa que ya no tenga que escribir código. No puede pasar todo su tiempo en un REPL y simplemente seguir lanzando figuras y diagramas a sus colegas. Su compañía está entregando productos y servicios, y es su trabajo más que el de cualquier otro asegurarse de que los productos y servicios se vinculen de manera confiable con los datos que usted produce. Además, tienes que aprender a automatizar la mierda de tu trabajo. Nada de eso puede suceder a menos que sea un ingeniero de software razonablemente bueno. Tenga en cuenta que la mayoría de los científicos de datos son buenos programadores, pero pocos son buenos ingenieros de software. Conoce la diferencia entre los dos.

5. Solo puedo usar herramientas de terceros para hacer el ML.
Absolutamente debe y debe conocer el estado del arte en el aprendizaje automático. Si su pila de tecnología principal está en Java, se espera que conozca bien a Weka. Si usa Python, se espera que sepa cómo usar al menos cosas como sklearn o theano. Sin embargo, también debe conocer los límites de estas cosas, porque puede estar seguro de que los límites de su pila se probarán con más y más datos. Debe saber en qué momento las herramientas de terceros dejarán de admitir lo que desea, y debe estar listo para hackearlas con usted mismo.

6. Las habilidades de comunicación no son importantes.
Como científico de datos, habrá muchas personas a su alrededor que no entienden la información tan bien como usted. Estos pueden ser clientes, compañeros de trabajo, VCs, usuarios de su software, etc. Es su trabajo explicarles los problemas específicos de los datos en el lenguaje más simple posible. ¿Recuerdas lo que dijo Einstein al respecto?

Si no puede explicárselo a un niño de seis años, no lo comprende usted mismo.

Y los niños de seis años son más inteligentes que la mayoría de los adultos.

Si has leído todo esto hasta ahora, probablemente estés bastante interesado en ser un científico de datos. Te dejo con un bono. Si lo que he escrito resuena contigo, ponte en contacto. Estamos contratando.