Hadoop Developer no es realmente una categoría amplia, por lo que voy a asumir eso como ingeniero de datos y generalizarlo.
Entonces, veamos qué significan estas dos carreras y cómo son similares / diferentes entre sí.
Científico de datos
- ¿Cuál es la mejor manera de responder la pregunta, '¿Cuántas bombillas hay en (cualquier país)'?
- Cómo conseguir un trabajo de ventas comisionado con un diploma de escuela secundaria
- ¿Cómo eliges una buena carrera?
- Cómo convertirse en administrador de base de datos
- Cómo acercarse a una empresa de TI para una pasantía
Los científicos de datos se han vuelto muy populares en estos días gracias a la explosión en el volumen de datos. Un científico de datos, es simple aquellos que estudian grandes cantidades de datos y hacen varios análisis sobre ellos. El trabajo de un científico de datos no es muy diferente del de un estadístico, con todo el enfoque en big data. Entonces, eso incluiría,
- Aumentar la calidad de los datos (eliminar el ruido, cuidar los valores atípicos, etc.)
- Identificar las variables / características clave que influyen en los datos.
- Descubrir las relaciones entre estas variables
- Formulación de un modelo de datos que explique estos datos en función de las variables.
- Aplique el modelo a otro conjunto de datos similar y vea cuán precisas son las predicciones.
- Mejora del modelo agregando / eliminando las variables y probándolo en varios conjuntos de datos
- Y, finalmente, creando un modelo que sea capaz de predecir los datos con una alta precisión.
Se espera que los científicos de datos tengan conocimiento de minería de datos y aprendizaje automático. Por lo tanto, su conjunto de habilidades incluiría un conocimiento riguroso de las técnicas y modelos estadísticos, la capacidad de comprender problemas inherentes con la pureza de los datos y una comprensión básica de la programación en uno de los lenguajes estadísticos para probar sus teorías.
Y ahora para un ingeniero / desarrollador
Ingeniero de datos
Un ingeniero de datos que generalmente son ingenieros de software construyen caminos eficientes y robustos para enviar grandes cantidades de datos a bases de datos u otras fuentes de datos. Serían responsables de
- Mantenimiento de las bases de datos.
- Escribir consultas extensas para obtener datos y manipulación
- Hacer los sistemas seguros.
- Diseñando la arquitectura del sistema
- Implementación de los modelos de datos desarrollados por científicos de datos
- Almacenamiento de datos
Ahora, adquiriendo habilidades, se espera que un ingeniero de datos conozca las herramientas y tecnologías basadas en Hadoop como Hive, Pig, MR, Spark, etc., lenguajes SQL para trabajar con bases de datos y tecnologías de almacenamiento. Y, necesitan tener un cierto nivel de comprensión sobre Estadística y Matemáticas involucradas en el desarrollo del modelo.
Referencias y fuentes:
3 carreras de datos decodificadas y lo que significa para usted | Udacity
¿Cuál es la diferencia entre un arquitecto de datos, un analista de datos, un ingeniero de datos y un científico de datos?