¿Cuál es la diferencia entre un desarrollador de hadoop y un científico de datos?

Hadoop Developer no es realmente una categoría amplia, por lo que voy a asumir eso como ingeniero de datos y generalizarlo.

Entonces, veamos qué significan estas dos carreras y cómo son similares / diferentes entre sí.

Científico de datos

Los científicos de datos se han vuelto muy populares en estos días gracias a la explosión en el volumen de datos. Un científico de datos, es simple aquellos que estudian grandes cantidades de datos y hacen varios análisis sobre ellos. El trabajo de un científico de datos no es muy diferente del de un estadístico, con todo el enfoque en big data. Entonces, eso incluiría,

Aumentar la calidad de los datos (eliminar el ruido, cuidar los valores atípicos, etc.)
Identificar las variables / características clave que influyen en los datos.
Descubrir las relaciones entre estas variables
Formulación de un modelo de datos que explique estos datos en función de las variables.
Aplique el modelo a otro conjunto de datos similar y vea cuán precisas son las predicciones.
Mejora del modelo agregando / eliminando las variables y probándolo en varios conjuntos de datos
Y, finalmente, creando un modelo que sea capaz de predecir los datos con una alta precisión.

Se espera que los científicos de datos tengan conocimiento de minería de datos y aprendizaje automático. Por lo tanto, su conjunto de habilidades incluiría un conocimiento riguroso de las técnicas y modelos estadísticos, la capacidad de comprender problemas inherentes con la pureza de los datos y una comprensión básica de la programación en uno de los lenguajes estadísticos para probar sus teorías.

Y ahora para un ingeniero / desarrollador

Ingeniero de datos

Un ingeniero de datos que generalmente son ingenieros de software construyen caminos eficientes y robustos para enviar grandes cantidades de datos a bases de datos u otras fuentes de datos. Serían responsables de

Mantenimiento de las bases de datos.
Escribir consultas extensas para obtener datos y manipulación
Hacer los sistemas seguros.
Diseñando la arquitectura del sistema
Implementación de los modelos de datos desarrollados por científicos de datos
Almacenamiento de datos

Ahora, adquiriendo habilidades, se espera que un ingeniero de datos conozca las herramientas y tecnologías basadas en Hadoop como Hive, Pig, MR, Spark, etc., lenguajes SQL para trabajar con bases de datos y tecnologías de almacenamiento. Y, necesitan tener un cierto nivel de comprensión sobre Estadística y Matemáticas involucradas en el desarrollo del modelo.

Referencias y fuentes:

3 carreras de datos decodificadas y lo que significa para usted | Udacity

¿Cuál es la diferencia entre un arquitecto de datos, un analista de datos, un ingeniero de datos y un científico de datos?

Apache HadoopBig Datacientíficos de datosEmpleos y carrerasEmpleos y carreras en Big DataEmpleos y carreras en programación de computadorasprogramación de computadoras

¿Debo aspirar a convertirme en un científico / analista de datos como mi carrera en los próximos 40 años? ¿Se automatizará el trabajo de un científico de datos?

¿Qué tipo de ropa es la más apropiada para un asistente / gerente de producción en un set de filmación?

¿Qué es lo mejor para aprender a encontrar un trabajo en 3D VFX, Maya o Houdini? ¿Y qué software necesitas controlar para convertirte en un artista ambiental?

¿Qué tipo de trabajos realiza el personal militar indio después de abandonar las fuerzas armadas?

¿Qué tan mala es la vida de un ingeniero marino?

¿Qué consejo no trivial cambió fundamentalmente la forma en que te acercaste y te preparaste para las entrevistas de trabajo?

Ver … La ciencia de datos es un campo muy vasto y solo digo que sé que Big Data / hadoop no convierte a nadie en Data Scientist. La palabra “científico” asociada con esa designación define que cuán dominante debe ser en casi todo. Si le digo en palabras simples, debe conocer la informática distribuida (Big Data), el análisis estadístico, la minería de datos, el aprendizaje automático, las estadísticas, etc., etc. . . . . . . Para hacerlo extremadamente simple, desarrollador de hadoop es el término utilizado para aquellos que trabajan para la etapa ETL de los datos … preparándolos para el mejor uso. Hasta ahora, se lo llamará desarrollador de Big Data / hadoop (que también es igualmente bueno en el mercado ahora). Ahora, para saltar a la ciencia de datos, deberá comenzar a comprender el aprendizaje automático, las estadísticas, las probabilidades y otras cosas, y utilizar los enormes datos ya preparados para extraer un análisis significativo de él … Es muy vasto y tendrá que seguir actualizando y algún día puedes llamarte a ti mismo como Data Scientist.

Priyanshu Kumar

Las responsabilidades laborales de los desarrolladores de Hadoop incluyen:

Comprensión de la fuente de datos: los datos provienen de RDBMS o en forma de archivos de registro u otra cosa
Comprender la estructura de los datos, como si los datos están delimitados o sus datos anidados como JSON, XML, etc.
La comprensión de los datos es limpia o necesita ser limpiada, lo que todos los datos de basura podrían tener como nuevos caracteres de línea, comillas desequilibradas en el caso de archivos CSV, etc.
Elegir la herramienta adecuada para ETL como cerdo, chispa, colmena, etc.
Realizar ETL o ELT en los datos y hacer que los datos limpios estén disponibles para los científicos de datos
A veces, el desarrollador de Hadoop necesita implementar algoritmos dados por los científicos de datos porque los científicos de datos pueden no conocer herramientas informáticas distribuidas como spark, Hadoop, etc.
Piense en cómo automatizar todo esto y cómo escalar todo esto en caso de que los datos crezcan 5x, 10x, etc.
Piense en cómo probar la integridad de los datos a mayor escala e implementar comprobaciones de integridad de datos

Las responsabilidades del científico de datos incluyen:

Comprender la semántica de los datos: esto es diferente de los ingenieros de Hadoop. Los ingenieros de Hadoop estarán más preocupados por la sintaxis o la estructura de los datos.
Decidir qué algoritmo y herramienta / lenguaje / marco de ciencia de datos / aprendizaje automático debe usarse y qué resultados obtienen de su uso
Ejecución de algoritmos de ciencia de datos en los datos, comprensión de los resultados obtenidos.
Posiblemente prepare PPT para demostrar resultados a usuarios comerciales

Esta no es una lista exhaustiva, podría haber algunas cosas más que me he perdido aquí. Espero eso ayude.

Salud,

Chandra

Durgaswaroop Perla

Realmente no hay similitud entre los dos. Los desarrolladores escriben y copian código todo el día que realmente no tiene mucho que ver con las matemáticas o los datos. Los científicos de datos son estadísticos que trabajan con conjuntos de datos muy grandes o muy pequeños, por lo general, y usan herramientas avanzadas en aprendizaje automático (principalmente a través de paquetes en R o Python); lo que desarrollan es matemática, que luego se pasa a ingenieros y programadores para que produzcan.

Durgaswaroop Perla

More Interesting

Además de las ocupaciones relacionadas con la tecnología, ¿qué otras ocupaciones tienen demanda en Silicon Valley?

¿Debo dejar un trabajo con un sueldo relativamente alto para encontrarme auditando clasificando y probando un trabajo diferente? La única razón por la que tengo dudas es porque tengo 30 años.

¿Hay trabajos de justicia penal que no requieren largas horas?

¿Debería estudiar finanzas si no soy bueno en matemáticas?

¿Cuáles son los trabajos o ámbitos para los ingenieros mecánicos?

Cómo conseguir mi primera pasantía

¿A los maestros / profesores no les gusta escribir cartas de recomendación?

¿Es un trabajo paralegal ideal para un cambio de carrera en la mediana edad para un hombre autista que es nerd y aficionado?

¿Qué debo esperar en la entrevista de desarrollador de aplicaciones ETL en Google?

¿Qué curso (B.sc) tiene más oportunidades de trabajo en India: botánica, zoología, microbiología o bioquímica?