¿Considerarías la ciencia de datos como una carrera en la que pasas innumerables horas investigando?

Trabajo en la Universidad Estatal de California, Sacramento, en la Oficina de Investigación Institucional. Actualmente estoy reconstruyendo una base de datos de estudiantes que rastrea medio millón de registros de estudiantes en diez años. Probablemente haya alrededor de 100,000 estudiantes individuales en mi base de datos, incluidos unos 250,000 estudiantes solicitantes. No consideraría mi trabajo en “Big Data“, sin duda es una cantidad no trivial de datos.

Trabajar con grandes conjuntos de datos puede ser muy interesante e increíblemente gratificante. Cuando cientos de miles o registros para examinar, tienes la oportunidad de descubrir cosas que no son obvias o no intuitivas. Hay momentos en los que descubres algo que quizás nadie más en el mundo conoce más que tú. Puede ser muy emocionante.

Sin embargo, la mayor parte del tiempo lo paso en tareas mucho más mundanas. Probablemente paso la mitad de mi tiempo o más limpiando los datos y dándoles sentido. Mi base de datos está construida a partir de más de una docena de fuentes de datos diferentes que provienen de una variedad de oficinas y departamentos diferentes y que abarcan una cantidad de tiempo bastante significativa. Problemas que trato con bastante frecuencia:

1) Faltan valores de datos. Tengo muchas fuentes de datos con toneladas de información útil integrada en el esquema, pero grandes partes de esos datos simplemente están inactivos. El reclamo de informar datos de admisiones, por ejemplo, pero en realidad la mayoría de los valores son NULL.

2) Datos falsos. La mayoría de mis datos provienen de un informe de inscripción preparado y limpiado por otra oficina; o al menos eso es lo que se supone que debe pasar. Estos informes de inscripción se someten a un proceso de limpieza automatizado antes de su publicación. En teoría, eso significaría que la calidad de los datos es realmente buena, y algunas partes lo son. Sin embargo, grandes porciones de los datos son completamente falsos. Por una variedad de razones, se insertan datos falsos en el archivo para pasar sus pruebas automatizadas. Desafortunadamente, esto hace que muchos datos buenos sean inútiles, porque no se puede distinguir fácilmente de los datos incorrectos.

3) Convenciones de datos ilógicos. Las personas no técnicas a menudo deciden cómo se codifican los departamentos, cursos, especializaciones, etc. Esto significa que para cada “regla” en mi conjunto de datos, hay al menos dos o tres excepciones a esa regla. No tiene ningún sentido, podría haberse manejado mejor y no hay nada que pueda hacer al respecto. Esto a menudo me obliga a escribir código sql realmente repetitivo, poco interesante y difícil de documentar.

4) Cambio de convenciones de datos. Los datos se informan en un sentido en los albores del tiempo, hasta que de repente se informa de una manera completamente diferente. Para crear coherencias en los informes y suavizar las líneas de tendencia, esto significa que a menudo tengo que tomar datos en un formato y convertirlos para que coincidan con los de otro formato.

Algo más digno de mención, rara vez llego a investigar algo “nuevo”. Casi todos los informes son intentos de escritura para responder preguntas que ya han sido respondidas muchas veces antes. Por ejemplo, el desglose étnico del alumnado se debe informar cada año. Básicamente ejecuto un script que escribí antes, lo reviso para asegurarme de que el resultado tenga sentido y luego paso un poco de tiempo formateando para que se vea bien. También se me pide constantemente que produzca informes que sean prácticamente idénticos a los informes que ya he escrito, excepto por una pieza superficial. Por ejemplo, escribo informes que calculan la tasa de graduación de los estudiantes de primer año. Recibiré una solicitud de datos pidiéndome que informe la tasa de graduados de estudiantes de primer año que tienen una especialización particular, o estudiantes de primer año que sean asiáticos, o mayores de 25 años, o algo similar.

Supongo que tienes que definir “incontables horas”. Si bien investigamos mucho, mi equipo no tiene mucho tiempo y hay muchas más tareas que investigar.

También asignamos el 20% del tiempo para estudiar que a veces usamos como investigación.

Esperaría respuestas muy diferentes en todas las industrias e incluso más en comparación con la academia.