Es totalmente depende de su interés. Si realmente desea cambiar, puede hacerlo fácilmente y seguramente obtendrá un buen trabajo. Y lo segundo es que tienes 4 años de experiencia en el mundo corporativo. Esta experiencia le dará ventaja en comparación con los demás. No importa que en qué campo tenga experiencia, lo principal es que tenga conocimiento de la industria, de cómo funciona la industria en todos. Tienes una ventaja añadida.
Lo primero que quiero decir es que solo trato de obtener conocimiento. Si tiene un buen conocimiento en este dominio, definitivamente obtendrá un salario suficiente. Pero si no tienes la habilidad y la chispa entonces no obtendrás nada.
Sí, es cierto que existe una gran demanda de candidatos a Big Data Hadoop. Las empresas están buscando candidatos para Big Data.
- ¿Cuánto gana un CA promedio?
- ¿Puedo sobrevivir en Osaka, Japón, con un salario de 400,000 yenes por mes?
- ¿Cómo nos pagan en youtube?
- Cómo recibir el pago por tuitear para otros
- ¿Cuándo es una buena idea tomar un recorte salarial?
Pero también es cierto que están buscando candidatos calificados . Entonces, en mi opinión, primero concéntrese en obtener un conocimiento profundo del tema en lugar del salario.
Ahora, para aprender Big Data tienes muchas opciones:
Puedes aprender uniéndote a algunos institutos, puedes aprender por ti mismo y puedes hacer certificaciones cloudera.
Para conocer las certificaciones de Spark hadoop Cloudera, consulte el siguiente enlace:
Certificaciones Spark Hadoop Cloudera
Si desea aprender por su cuenta, primero aprenda desde el principio qué es Big Data, V’s de Big Data, historia de Big Data y sus tendencias, luego aprenda la introducción de Hadoop, cómo Hadoop proporcionó la solución, cómo funciona Hadoop , MapReduce , HDFS , luego sus componentes del ecosistema como PIG , HIVE , Hbase , etc.
Entonces, comencemos a aprender Big Data y sus tecnologías
La primera pregunta que surge en la mente de todos es qué es big data.
- Big Data
Big Data es una gran colección de datos, ya que el nombre hace referencia a ” BIG DATA” . No puede procesarse por métodos tradicionales porque la mayor parte de la generación de datos es de forma no estructurada.
Vea el video a continuación para una introducción suave de Big Data y la necesidad de Big Data:
- ¿Por qué deberíamos aprender Big Data?
Los grandes datos se generan en cantidades de varios bytes, cambian rápidamente y vienen en una variedad de formas que son difíciles de administrar y procesar utilizando RDBMS u otras tecnologías tradicionales. Las soluciones de Big Data proporcionan las herramientas, metodologías y tecnologías que se utilizan para capturar, almacenar, buscar y analizar los datos en segundos para encontrar relaciones y conocimientos sobre innovación y ganancias competitivas que antes no estaban disponibles. El 80% de los datos que se generan hoy en día son no estructurado y no puede ser manejado por nuestras tecnologías tradicionales. Anteriormente, la cantidad de datos generados no era tan alta y seguimos archivando los datos ya que solo era necesario un análisis histórico de los datos.
Para más detalles, consulte el siguiente enlace:
¿Por qué deberíamos aprender Big Data?
Para conocer las décimas V de Big Data, consulte el siguiente enlace:
V de Big Data
- ¿Qué es Hadoop?
Hadoop es una herramienta de código abierto de ASF. Se utiliza para procesar y almacenar una gran cantidad de datos. Procesa eficientemente una gran cantidad de datos.
Para saber más, consulte el siguiente enlace: Sumérjase profundamente en Hadoop
También puede ver el video a continuación para una introducción suave:
Una vez que lea la introducción, aprenda los conceptos más importantes de Hadoop, es decir, MapReduce y HDFS.
MapReduce es el corazón de Hadoop. Es la capa de procesamiento de Hadoop. Es el modelo de diseño de programación de Hadoop. Para el desarrollador de Hadoop se requiere una buena comprensión de MapReduce.
En MapReduce, dos conceptos más importantes son:
- Mapper
- Reductor
Entonces, aprendamos en detalle. Hay muchos conceptos en MapReduce que comienzan con la ejecución especulativa de MapReduce que mejora la eficiencia de Hadoop.
Consulte el GIF a continuación para obtener una comprensión clara de la ejecución especulativa de Hadoop.
Para más detalles, consulte el siguiente enlace:
Ejecución especulativa de Hadoop
Ahora aprendamos Mapper y Reductor.
- Mapper
La tarea del asignador procesa cada registro de entrada y genera un nuevo par . Los pares pueden ser completamente diferentes del par de entrada. En la tarea del asignador, la salida es la colección completa de todos estos pares . Antes de escribir la salida para cada tarea del mapeador, la partición de la salida se realiza en función de la clave y luego se realiza la clasificación. Esta partición especifica que todos los valores para cada clave se agrupan juntos.
El marco MapReduce genera una tarea de mapa para cada InputSplit generado por InputFormat para el trabajo.
Para más detalles, consulte el siguiente enlace:
Mapper en MapReduce: una comprensión clara
- Reductor
El reductor procesa la salida del mapeador. Después de procesar los datos, produce un nuevo conjunto de salida, que se almacenará en el HDFS.
Reductor toma un conjunto de un par clave-valor intermedio producido por el asignador como entrada y ejecuta una función Reductor en cada uno de ellos. Estos datos (clave, valor) se pueden agregar, filtrar y combinar de varias maneras, y requiere una amplia gama de procesamiento. Reductor primero procesa los valores intermedios para la clave particular generada por la función de mapa y luego genera la salida ( cero o más pares clave-valor). El mapeo uno a uno se realiza entre teclas y reductores. Los reductores funcionan en paralelo ya que son independientes entre sí. El usuario decide el número de reductores. Por defecto, el número de reductores es 1.
Para obtener más detalles sobre el reductor, consulte el siguiente enlace:
Reductor en MapReduce
Ahora para el combinador en MapReduce, consulte el siguiente enlace:
Combinador en MapReduce
Ahora vamos a avanzar hacia HDFS.
HDFS es el sistema de almacenamiento más confiable del mundo. Almacena todo tipo de datos como estructurados, no estructurados y semiestructurados. Su principio se basa en almacenar archivos grandes en lugar de muchos archivos pequeños.
Para saber más sobre la introducción de HDFS, consulte el siguiente enlace:
HDFS: una guía completa
Ahora, estudiemos cómo se realiza la operación de lectura y escritura de datos en HDFS
Consulte a continuación el GIF para la operación de lectura:
yo. El cliente interactúa con NameNode
Como NameNode contiene toda la información sobre qué bloque se almacena en qué esclavo en particular en HDFS, que son los bloques para el archivo específico. Por lo tanto, el cliente debe interactuar con el Namenode para obtener la dirección de los esclavos donde se almacenan realmente los bloques. NameNode proporcionará los detalles de los esclavos que contienen los bloques necesarios.
Para saber más, consulte el siguiente enlace:
Operación de lectura de datos en HDFS
Consulte a continuación el GIF para la operación de escritura:
Para obtener más detalles sobre la operación de escritura, consulte el siguiente enlace:
Operación de escritura de datos en HDFS
Espero que esto ayude.