¿Cómo es una semana típica para los científicos de datos? ¿Qué problemas están tratando de resolver? ¿Qué tipo de datos están raspando y analizando? ¿Qué hacen en una semana normal?

Le remitiré a mi respuesta a: La respuesta de Yilun (Tom) Zhang (張 逸倫) a ¿Qué puede crear un científico de datos en 1 hora, 1 día, 1 semana o 1 mes? ¿Qué problemas pueden abordar? ¿Qué herramientas usarían?

Aunque todavía no estoy a tiempo completo, he realizado una serie de pasantías relacionadas con la ciencia de datos y el análisis de datos. Una razón por la que me encanta este trabajo / área es que creas cosas diferentes todos los días, analizas datos diferentes todos los días.

Entonces, no hay una semana típica para un científico de datos porque sus días son diferentes. Esta semana, está extrayendo datos de bases de datos; la próxima semana, estás modelando e intentas obtener la mejor precisión; la otra semana, podría estar pensando qué historia puede contar de sus datos y cómo el resultado de su análisis de datos puede ser útil para los productos y las decisiones comerciales de la compañía; etc.

Algo que he estado haciendo durante mis pasantías:

  • obtener datos de bases de datos
  • datos de limpieza
  • unir diferentes fuentes de datos
  • creando nuevas variables
  • haciendo modelos
  • prediciendo el futuro, si es un mal futuro, pronostico nuevamente hasta que sea lo suficientemente bueno (es decir, validación del modelo)
  • pensando en cómo vincular los datos con los productos / decisiones comerciales
  • discutir sobre productos y decisiones comerciales con gerentes de producto / otros equipos
  • crea impresionantes visualizaciones de datos e impresiona a otros
  • automatizar algunos de los procesos anteriores

Aunque me encanta la pregunta, me temo que esta respuesta podría ser una gran mentira en un par de días, ya que nada es lo mismo de semana a semana. Para ser honesto, creo que esa es una de las cosas que encuentro más emocionantes, especialmente en el análisis de juegos que tiene los datos que carecen de muchas industrias pero que, por otro lado, no tienen la experiencia que tienen.

Para empeorar las cosas, mis semanas, aunque ocupadas y variadas, son la ciencia de datos menos importante de todos los que me rodean, así que les contaré los míos, pero también los de otros que me rodean.

A continuación hay un gráfico en mi blog sobre una pila analítica completa del juego, pero define prácticamente todo lo que definimos, construimos, cuidamos y hacemos.

Entonces … mi semana …

Paso aproximadamente un día y medio por semana en reuniones periódicas y tareas gerenciales. Todos los miembros de mi equipo (y creo que también en Ingeniería de datos), incluido yo, tienen el 20% de su tiempo para usar libremente para el autoaprendizaje, esto puede incluir MOOC, libros, codificación propia, etc. En una semana típica, esto es otro día. Y media semana se ha ido. 🙂 A veces hay otras reuniones pero son raras. En el tiempo restante hago muchas cosas diferentes:

  • Productos prototipo de datos
  • Ejecutar análisis
  • Experimentos de diseño
  • Crear código base (no es suficiente, necesita hacer más de esto)
  • Hacer revisiones de código / proyecto / análisis / experimento

También hay mucho trabajo sobre procesos, principalmente porque hay mucha novedad. Por ejemplo, llevamos a cabo experimentos durante años y actualmente estoy revisando todos nuestros proyectos de experimentos. A medida que los equipos y procesos maduren, esto será cada vez menos recurrente.

Como puede ver, soy bastante interesante en cuanto a la ciencia de los datos.

Por otro lado, las personas que me rodean se mueven y tienen semanas mucho más interesantes. Tenemos analistas (mi equipo) e ingenieros (el equipo de nuestra hermana).

Analistas:

  • Ejecutar experimentos
  • Ejecutar análisis
  • Crea productos de datos con ingenieros de datos
  • Revisar código / proyecto / análisis / experimentos
  • Definir y revisar taxonomías de eventos.
  • Construir paneles
  • Estudiar

Ingenieros

  • Cree canales de datos para comunicarse con otros sistemas
  • Crear productos de datos con analistas de datos.
  • ETL
  • Estudiar

¡Esto fue divertido! ¡Espero eso ayude!

Como han dicho otras personas, es realmente difícil definir una “semana típica” como científico de datos. Sin embargo, recordando mis experiencias trabajando a tiempo completo como científico de datos, aquí hay un desglose aproximado de cómo sería una semana típica

  • Reuniones no técnicas: 10%
    No es raro pasar aproximadamente el 10% de su tiempo en reuniones que no son necesariamente de naturaleza técnica. Esto puede significar sincronizarse con las partes interesadas del producto para comprender cuáles son los elementos importantes de su trabajo. Esto también puede incluir reuniones del equipo de ciencia de datos, reuniones de toda la empresa o participar en reuniones de productos donde las personas debaten sobre cómo integrar su trabajo en el producto. También podría estar comunicando y presentando los resultados de su trabajo o experimentos a las partes interesadas no técnicas.
  • Reuniones técnicas: 15%
    Puede pasar aproximadamente el 15% de su tiempo en reuniones técnicas. Estas reuniones son a menudo con otros científicos e ingenieros de datos con los que está trabajando en proyectos. Estas reuniones pueden organizarse formalmente, o pueden ocurrir cuando la gente habla en la oficina. Puede hablar sobre formas de mejorar el modelo en el que está trabajando, nuevas ideas sobre cómo pensar sobre un problema, problemas que tiene con su código, etc.
  • Solicitudes de datos ad-hoc: 15%
    Quizás pueda dedicar aproximadamente el 20% de su tiempo a atender las solicitudes de datos ad-hoc. Varias personas pueden tener preguntas rápidas para usted que necesitan ser respondidas con datos. Los gerentes o ingenieros de productos pueden estar tomando decisiones de alto nivel sobre cómo diseñar o construir productos, y quieren que estas decisiones se informen con datos. Estas preguntas suelen ser bastante fáciles de atender y de alto impacto.
  • Proyectos más pequeños: 25%
    Por lo general, pasé aproximadamente el 25% de mi tiempo trabajando en proyectos más pequeños (es decir, proyectos que se pueden completar en una o dos semanas). Esto puede implicar determinar el potencial de un determinado proyecto a más largo plazo, diseñar un experimento, realizar análisis de potencia, analizar los resultados de un experimento o hacer un análisis exploratorio de datos temprano.
  • Proyectos más grandes: 25%
    Este es el trabajo que puede hacer en proyectos a largo plazo que pueden durar meses a la vez. Estos incluyen modelos de aprendizaje automático para recomendar o predecir cosas, o inmersiones profundas en datos increíblemente desordenados. Siempre estás trabajando en estos proyectos en paralelo a todo lo que está sucediendo, y son realmente satisfactorios (¡y a menudo impactantes!) Para terminar y lanzar.
  • Revisión del código y ayuda a otros: 10%
    Si trabaja en un equipo más grande, pasará (y debería) dedicar parte de su tiempo a compartir el conocimiento que tiene con sus colegas y también a revisar su código de análisis para ayudar a encontrar errores y realizar mejoras.

Nuevamente, esta es solo mi experiencia después de trabajar en algunos lugares diferentes, pero otros pueden tener experiencias muy diferentes dependiendo de la estructura de los equipos en los que han trabajado y la naturaleza del trabajo que esos equipos tienden a hacer.

No hay una “semana típica”. Por naturaleza, el trabajo de ciencia de datos es trabajo de proyecto: hay un elemento de novedad en cada proyecto.

También una de las razones por las que hay dudas al responder esta pregunta es que la ciencia de datos es un medio de ventaja competitiva. Si una respuesta es demasiado detallada, sería como mostrar los esquemas de su nueva arma brillante.

Con eso en mente, puedo dar algunas instantáneas de mis últimas dos semanas. Pido disculpas si algo es genérico por las razones mencionadas.

  • Escribió algunas secuencias de comandos para realizar la limpieza y agrupamiento de datos automatizados para investigar cómo interactúan las transacciones y los proveedores.
  • Ofreció una presentación sobre aplicaciones de la ciencia de datos en todo el ciclo de vida del producto. Hay mucha educación de primera línea para cerrar la gran brecha entre las personas de negocios que poco a poco se están dando cuenta del potencial de la ciencia de datos y el equipo interno que lo vive y lo respira.
  • Se investigaron las posibilidades de implementación en digital y móvil. El modelado en una computadora portátil es diferente de tener su producción consumida en todo el estado / país / región. No todo escala a la perfección. (Cualquiera que sepa lo contrario puede hablar con nuestro departamento legal).
  • Conocí a un proveedor que quería vendernos análisis avanzados. Suavemente los alentó a irse.
  • Asistí a un taller interno sobre modelado predictivo usando AWS y revisé los paquetes disponibles. No todos los datos son grandes datos. Pero los datos pequeños pueden beneficiarse de los músculos grandes. Y algunos datos son muy, muy grandes datos.
  • Me senté con un líder de almacenamiento de datos durante dos horas mientras me explicaba los detalles de algunos conjuntos de datos de ventas. Vale la pena invertir en comprender los detalles de cada columna que usará para modelar.
  • ¿Funcionó algún panel en dos herramientas de visualización comercial? No todo es aprendizaje automático (aunque gran parte lo es). La visualización es particularmente necesaria para ‘vender’ la ciencia de datos a los usuarios finales.
  • Fui a una universidad para establecer contactos, apoyando a tres de mis colegas que dieron una charla sobre ‘big data’ (lo siento, lo siento). Esto es en parte para la educación, y en parte para prepararnos para el reclutamiento. El talento de la ciencia de datos es competitivo, y estamos compitiendo con algunas otras compañías para ser un lugar para los mejores talentos de la ciencia de datos.

También para compensar el genérico, puedo agregar algo de fragmentos de conversación aleatorios que recuerdo de la oficina:

“En este momento parece que nos estamos moviendo hacia dos tipos de competiciones en Kaggle: todas las de visualización y habla que son ganadas por grupos y aprendizaje profundo, y todo lo demás por XGboost”.

“Esta parte es la parte con la que nos involucramos en el negocio, esta parte es la parte de la caja negra y la mantenemos entre el equipo para no perder a nuestros usuarios”.

“En minería de datos solo puedo prometerle cuánta arena excavo, no cuántos diamantes encontraré”

A: “Entonces, ¿en lugar de ir a Tinder a buscar pareja, va a Github?”

B: “No, te equivocas. Está buscando a alguien en los guiones de Kaggle”

A: “¿Se llama … Julia?”

Siempre trato de descubrir cómo hacer las cosas más eficientes para las personas con las que trabajo. A veces trabajo con datos digitales para comprender cómo lo estamos haciendo o si puedo pronosticar con precisión cómo lo haremos.

Gran parte de mi raspado de datos se centra en los datos de mi industria y los recursos gratuitos.

En una semana normal, me reúno con mis clientes comerciales (esto es fundamental para comprender sus necesidades, averiguar qué puedo optimizar, etc.) Luego codifico soluciones, extraigo apis y pienso qué más debo hacer para hacer mi La vida del cliente es más fácil. A veces es simple informe de BI. Otras veces, me pongo a trabajar en problemas interesantes.

El hecho es que un modelo no siempre resuelve un problema. Realmente tienes que entender a tus clientes para hacer las cosas.

Esto es lo que hacen nuestros científicos de datos en DataToBiz (dot) com

Producimos ideas o información a partir de los datos. Esto puede ser tan simple como un informe de lo que sucedió en el pasado o tan complejo como una predicción de lo que podría suceder en el futuro. Puede estar involucrado en la producción de gráficos, la realización de análisis estadísticos, la construcción de paneles, la capacitación de modelos de aprendizaje automático o el desarrollo de algoritmos, pero el propósito es crear (o descubrir) la comprensión sobre la cual una empresa puede actuar.

En segundo lugar, automatizamos los procesos existentes para que una máquina o computadora pueda hacer lo que una persona hizo, generalmente para aumentar la eficiencia de una organización y reducir los costos.

Podríamos estar involucrados en los pasos de crear información y automatizar un proceso para producir valor comercial, por ejemplo, podemos entrenar un algoritmo para reconocer el fraude, que se puede incorporar en una aplicación. Esto no solo crea información sobre cómo una máquina puede identificar el fraude, sino que también automatiza la detección del fraude.

Solucionamos problemas, ahorramos dinero, optimizamos procesos utilizando lo que se encuentra en sus datos.

A su pregunta, señor, ya que apenas disfruto de la ingeniería de software, no tomo proyectos por semanas. De vez en cuando pienso en algo, pero fue en vano. Obviamente necesito tu ayuda.