¿Cuál es la diferencia entre un desarrollador de hadoop y un científico de datos?

Hadoop Developer no es realmente una categoría amplia, por lo que voy a asumir eso como ingeniero de datos y generalizarlo.

Entonces, veamos qué significan estas dos carreras y cómo son similares / diferentes entre sí.

Científico de datos

Los científicos de datos se han vuelto muy populares en estos días gracias a la explosión en el volumen de datos. Un científico de datos, es simple aquellos que estudian grandes cantidades de datos y hacen varios análisis sobre ellos. El trabajo de un científico de datos no es muy diferente del de un estadístico, con todo el enfoque en big data. Entonces, eso incluiría,

  • Aumentar la calidad de los datos (eliminar el ruido, cuidar los valores atípicos, etc.)
  • Identificar las variables / características clave que influyen en los datos.
  • Descubrir las relaciones entre estas variables
  • Formulación de un modelo de datos que explique estos datos en función de las variables.
  • Aplique el modelo a otro conjunto de datos similar y vea cuán precisas son las predicciones.
  • Mejora del modelo agregando / eliminando las variables y probándolo en varios conjuntos de datos
  • Y, finalmente, creando un modelo que sea capaz de predecir los datos con una alta precisión.

Se espera que los científicos de datos tengan conocimiento de minería de datos y aprendizaje automático. Por lo tanto, su conjunto de habilidades incluiría un conocimiento riguroso de las técnicas y modelos estadísticos, la capacidad de comprender problemas inherentes con la pureza de los datos y una comprensión básica de la programación en uno de los lenguajes estadísticos para probar sus teorías.

Y ahora para un ingeniero / desarrollador

Ingeniero de datos

Un ingeniero de datos que generalmente son ingenieros de software construyen caminos eficientes y robustos para enviar grandes cantidades de datos a bases de datos u otras fuentes de datos. Serían responsables de

  • Mantenimiento de las bases de datos.
  • Escribir consultas extensas para obtener datos y manipulación
  • Hacer los sistemas seguros.
  • Diseñando la arquitectura del sistema
  • Implementación de los modelos de datos desarrollados por científicos de datos
  • Almacenamiento de datos

Ahora, adquiriendo habilidades, se espera que un ingeniero de datos conozca las herramientas y tecnologías basadas en Hadoop como Hive, Pig, MR, Spark, etc., lenguajes SQL para trabajar con bases de datos y tecnologías de almacenamiento. Y, necesitan tener un cierto nivel de comprensión sobre Estadística y Matemáticas involucradas en el desarrollo del modelo.

Referencias y fuentes:

3 carreras de datos decodificadas y lo que significa para usted | Udacity

¿Cuál es la diferencia entre un arquitecto de datos, un analista de datos, un ingeniero de datos y un científico de datos?

Ver … La ciencia de datos es un campo muy vasto y solo digo que sé que Big Data / hadoop no convierte a nadie en Data Scientist. La palabra “científico” asociada con esa designación define que cuán dominante debe ser en casi todo. Si le digo en palabras simples, debe conocer la informática distribuida (Big Data), el análisis estadístico, la minería de datos, el aprendizaje automático, las estadísticas, etc., etc. . . . . . . Para hacerlo extremadamente simple, desarrollador de hadoop es el término utilizado para aquellos que trabajan para la etapa ETL de los datos … preparándolos para el mejor uso. Hasta ahora, se lo llamará desarrollador de Big Data / hadoop (que también es igualmente bueno en el mercado ahora). Ahora, para saltar a la ciencia de datos, deberá comenzar a comprender el aprendizaje automático, las estadísticas, las probabilidades y otras cosas, y utilizar los enormes datos ya preparados para extraer un análisis significativo de él … Es muy vasto y tendrá que seguir actualizando y algún día puedes llamarte a ti mismo como Data Scientist.

Las responsabilidades laborales de los desarrolladores de Hadoop incluyen:

  • Comprensión de la fuente de datos: los datos provienen de RDBMS o en forma de archivos de registro u otra cosa
  • Comprender la estructura de los datos, como si los datos están delimitados o sus datos anidados como JSON, XML, etc.
  • La comprensión de los datos es limpia o necesita ser limpiada, lo que todos los datos de basura podrían tener como nuevos caracteres de línea, comillas desequilibradas en el caso de archivos CSV, etc.
  • Elegir la herramienta adecuada para ETL como cerdo, chispa, colmena, etc.
  • Realizar ETL o ELT en los datos y hacer que los datos limpios estén disponibles para los científicos de datos
  • A veces, el desarrollador de Hadoop necesita implementar algoritmos dados por los científicos de datos porque los científicos de datos pueden no conocer herramientas informáticas distribuidas como spark, Hadoop, etc.
  • Piense en cómo automatizar todo esto y cómo escalar todo esto en caso de que los datos crezcan 5x, 10x, etc.
  • Piense en cómo probar la integridad de los datos a mayor escala e implementar comprobaciones de integridad de datos

Las responsabilidades del científico de datos incluyen:

  • Comprender la semántica de los datos: esto es diferente de los ingenieros de Hadoop. Los ingenieros de Hadoop estarán más preocupados por la sintaxis o la estructura de los datos.
  • Decidir qué algoritmo y herramienta / lenguaje / marco de ciencia de datos / aprendizaje automático debe usarse y qué resultados obtienen de su uso
  • Ejecución de algoritmos de ciencia de datos en los datos, comprensión de los resultados obtenidos.
  • Posiblemente prepare PPT para demostrar resultados a usuarios comerciales

Esta no es una lista exhaustiva, podría haber algunas cosas más que me he perdido aquí. Espero eso ayude.

Salud,

Chandra

Realmente no hay similitud entre los dos. Los desarrolladores escriben y copian código todo el día que realmente no tiene mucho que ver con las matemáticas o los datos. Los científicos de datos son estadísticos que trabajan con conjuntos de datos muy grandes o muy pequeños, por lo general, y usan herramientas avanzadas en aprendizaje automático (principalmente a través de paquetes en R o Python); lo que desarrollan es matemática, que luego se pasa a ingenieros y programadores para que produzcan.