Tengo 4 años de experiencia como desarrollador de .net. ¿Debo cambiar a Big Data? ¿Qué salario inicial recibiría?

Es totalmente depende de su interés. Si realmente desea cambiar, puede hacerlo fácilmente y seguramente obtendrá un buen trabajo. Y lo segundo es que tienes 4 años de experiencia en el mundo corporativo. Esta experiencia le dará ventaja en comparación con los demás. No importa que en qué campo tenga experiencia, lo principal es que tenga conocimiento de la industria, de cómo funciona la industria en todos. Tienes una ventaja añadida.

Lo primero que quiero decir es que solo trato de obtener conocimiento. Si tiene un buen conocimiento en este dominio, definitivamente obtendrá un salario suficiente. Pero si no tienes la habilidad y la chispa entonces no obtendrás nada.

Sí, es cierto que existe una gran demanda de candidatos a Big Data Hadoop. Las empresas están buscando candidatos para Big Data.

Pero también es cierto que están buscando candidatos calificados . Entonces, en mi opinión, primero concéntrese en obtener un conocimiento profundo del tema en lugar del salario.

Ahora, para aprender Big Data tienes muchas opciones:

Puedes aprender uniéndote a algunos institutos, puedes aprender por ti mismo y puedes hacer certificaciones cloudera.

Para conocer las certificaciones de Spark hadoop Cloudera, consulte el siguiente enlace:

Certificaciones Spark Hadoop Cloudera

Si desea aprender por su cuenta, primero aprenda desde el principio qué es Big Data, V’s de Big Data, historia de Big Data y sus tendencias, luego aprenda la introducción de Hadoop, cómo Hadoop proporcionó la solución, cómo funciona Hadoop , MapReduce , HDFS , luego sus componentes del ecosistema como PIG , HIVE , Hbase , etc.

Entonces, comencemos a aprender Big Data y sus tecnologías

La primera pregunta que surge en la mente de todos es qué es big data.

  • Big Data

Big Data es una gran colección de datos, ya que el nombre hace referencia a ” BIG DATA” . No puede procesarse por métodos tradicionales porque la mayor parte de la generación de datos es de forma no estructurada.

Vea el video a continuación para una introducción suave de Big Data y la necesidad de Big Data:

  • ¿Por qué deberíamos aprender Big Data?

Los grandes datos se generan en cantidades de varios bytes, cambian rápidamente y vienen en una variedad de formas que son difíciles de administrar y procesar utilizando RDBMS u otras tecnologías tradicionales. Las soluciones de Big Data proporcionan las herramientas, metodologías y tecnologías que se utilizan para capturar, almacenar, buscar y analizar los datos en segundos para encontrar relaciones y conocimientos sobre innovación y ganancias competitivas que antes no estaban disponibles. El 80% de los datos que se generan hoy en día son no estructurado y no puede ser manejado por nuestras tecnologías tradicionales. Anteriormente, la cantidad de datos generados no era tan alta y seguimos archivando los datos ya que solo era necesario un análisis histórico de los datos.

Para más detalles, consulte el siguiente enlace:

¿Por qué deberíamos aprender Big Data?

Para conocer las décimas V de Big Data, consulte el siguiente enlace:

V de Big Data

  • ¿Qué es Hadoop?

Hadoop es una herramienta de código abierto de ASF. Se utiliza para procesar y almacenar una gran cantidad de datos. Procesa eficientemente una gran cantidad de datos.

Para saber más, consulte el siguiente enlace: Sumérjase profundamente en Hadoop

También puede ver el video a continuación para una introducción suave:

Una vez que lea la introducción, aprenda los conceptos más importantes de Hadoop, es decir, MapReduce y HDFS.

MapReduce es el corazón de Hadoop. Es la capa de procesamiento de Hadoop. Es el modelo de diseño de programación de Hadoop. Para el desarrollador de Hadoop se requiere una buena comprensión de MapReduce.

En MapReduce, dos conceptos más importantes son:

  • Mapper
  • Reductor

Entonces, aprendamos en detalle. Hay muchos conceptos en MapReduce que comienzan con la ejecución especulativa de MapReduce que mejora la eficiencia de Hadoop.

Consulte el GIF a continuación para obtener una comprensión clara de la ejecución especulativa de Hadoop.

Para más detalles, consulte el siguiente enlace:

Ejecución especulativa de Hadoop

Ahora aprendamos Mapper y Reductor.

  • Mapper

La tarea del asignador procesa cada registro de entrada y genera un nuevo par . Los pares pueden ser completamente diferentes del par de entrada. En la tarea del asignador, la salida es la colección completa de todos estos pares . Antes de escribir la salida para cada tarea del mapeador, la partición de la salida se realiza en función de la clave y luego se realiza la clasificación. Esta partición especifica que todos los valores para cada clave se agrupan juntos.

El marco MapReduce genera una tarea de mapa para cada InputSplit generado por InputFormat para el trabajo.

Para más detalles, consulte el siguiente enlace:

Mapper en MapReduce: una comprensión clara

  • Reductor

El reductor procesa la salida del mapeador. Después de procesar los datos, produce un nuevo conjunto de salida, que se almacenará en el HDFS.

Reductor toma un conjunto de un par clave-valor intermedio producido por el asignador como entrada y ejecuta una función Reductor en cada uno de ellos. Estos datos (clave, valor) se pueden agregar, filtrar y combinar de varias maneras, y requiere una amplia gama de procesamiento. Reductor primero procesa los valores intermedios para la clave particular generada por la función de mapa y luego genera la salida ( cero o más pares clave-valor). El mapeo uno a uno se realiza entre teclas y reductores. Los reductores funcionan en paralelo ya que son independientes entre sí. El usuario decide el número de reductores. Por defecto, el número de reductores es 1.

Para obtener más detalles sobre el reductor, consulte el siguiente enlace:

Reductor en MapReduce

Ahora para el combinador en MapReduce, consulte el siguiente enlace:

Combinador en MapReduce

Ahora vamos a avanzar hacia HDFS.

HDFS es el sistema de almacenamiento más confiable del mundo. Almacena todo tipo de datos como estructurados, no estructurados y semiestructurados. Su principio se basa en almacenar archivos grandes en lugar de muchos archivos pequeños.

Para saber más sobre la introducción de HDFS, consulte el siguiente enlace:

HDFS: una guía completa

Ahora, estudiemos cómo se realiza la operación de lectura y escritura de datos en HDFS

Consulte a continuación el GIF para la operación de lectura:

yo. El cliente interactúa con NameNode

Como NameNode contiene toda la información sobre qué bloque se almacena en qué esclavo en particular en HDFS, que son los bloques para el archivo específico. Por lo tanto, el cliente debe interactuar con el Namenode para obtener la dirección de los esclavos donde se almacenan realmente los bloques. NameNode proporcionará los detalles de los esclavos que contienen los bloques necesarios.

Para saber más, consulte el siguiente enlace:

Operación de lectura de datos en HDFS

Consulte a continuación el GIF para la operación de escritura:

Para obtener más detalles sobre la operación de escritura, consulte el siguiente enlace:

Operación de escritura de datos en HDFS

Espero que esto ayude.

Yo diría que depende completamente de tu interés. Primero debe echar un vistazo a Big Data y Hadoop para tener una idea al respecto. Hablar sobre la parte del salario depende totalmente de su conocimiento y práctica práctica. Pero sí, te diría que si buscas una certificación como Cloudera y Hortonworks, te ayudaría mucho. Visite este blog de Big Data Career y el blog de certificación de Hadoop para tener una idea al respecto.

Primero, comprenda Big Data y los desafíos asociados con Big Data. Entonces, puede entender cómo Hadoop surgió como una solución a esos problemas de Big Data. Este blog Qué es Hadoop y Hadoop Tuorial te presentará eso.

Entonces debe comprender cómo funciona la arquitectura Hadoop con respecto a HDFS, YARN y MapReduce.

Más adelante, debe instalar Hadoop en su sistema para que pueda comenzar a trabajar con Hadoop. Esto lo ayudará a comprender los aspectos prácticos en detalle.

Continuando, sumérjase en el ecosistema Hadoop y aprenda varias herramientas dentro del ecosistema Hadoop con sus funcionalidades. Entonces, aprenderá a crear una solución personalizada de acuerdo con sus requisitos.

Vamos a entender en breve:

¿Qué es el Big Data?

Big Data es un término utilizado para una colección de conjuntos de datos que son grandes y complejos, que es difícil de almacenar y procesar utilizando las herramientas de administración de bases de datos disponibles o las aplicaciones tradicionales de procesamiento de datos. El desafío incluye capturar, seleccionar, almacenar, buscar, compartir, transferir, analizar y visualizar estos datos.

Se caracteriza por 5 V’s.

VOLUMEN: El volumen se refiere a la ‘cantidad de datos’, que crece día a día a un ritmo muy rápido.

VELOCIDAD: la velocidad se define como el ritmo al que diferentes fuentes generan los datos todos los días. Este flujo de datos es masivo y continuo.

VARIEDAD: Como hay muchas fuentes que contribuyen a Big Data, el tipo de datos que generan es diferente. Puede ser estructurado, semiestructurado o no estructurado.

VALOR: Está muy bien tener acceso a Big Data, pero a menos que podamos convertirlo en valor, es inútil. Encuentre información sobre los datos y aproveche al máximo.

VERACIDAD: Veracidad se refiere a los datos en duda o incertidumbre de los datos disponibles debido a la inconsistencia e incompletitud de los datos.

¿Qué es Hadoop y su arquitectura?

Los componentes principales de HDFS son NameNode y DataNode .

NameNode

Es el demonio maestro que mantiene

y gestiona los DataNodes (nodos esclavos). Registra los metadatos de todos los archivos almacenados en el clúster, por ejemplo, la ubicación de los bloques almacenados, el tamaño de los archivos, los permisos, la jerarquía, etc. Registra todos y cada uno de los cambios que tienen lugar en los metadatos del sistema de archivos.

Por ejemplo, si un archivo se elimina en HDFS, NameNode lo registrará inmediatamente en EditLog. Regularmente recibe un Heartbeat y un informe de bloque de todos los DataNodes en el clúster para garantizar que los DataNodes estén activos. Mantiene un registro de todos los bloques en HDFS y en qué nodos se almacenan estos bloques.

DataNode

Estos son demonios esclavos que se ejecutan en cada máquina esclava. Los datos reales se almacenan en DataNodes. Son responsables de atender las solicitudes de lectura y escritura de los clientes. También son responsables de crear bloques, eliminar bloques y replicarlos según las decisiones tomadas por NameNode.

Para el procesamiento, usamos YARN (Yet Another Resource Negotiator). Los componentes de YARN son ResourceManager y NodeManager .

Administrador de recursos

Es un componente de nivel de clúster (uno para cada clúster) y se ejecuta en la máquina maestra. Gestiona recursos y programa aplicaciones que se ejecutan sobre YARN.

NodeManager

Es un componente de nivel de nodo (uno en cada nodo) y se ejecuta en cada máquina esclava. Es responsable de administrar contenedores y monitorear la utilización de recursos en cada contenedor. También realiza un seguimiento de la salud del nodo y la gestión de registros. Se comunica continuamente con ResourceManager para mantenerse actualizado.

Por lo tanto, puede realizar un procesamiento paralelo en HDFS utilizando MapReduce.

Mapa reducido

Es el componente central del procesamiento en un ecosistema de Hadoop, ya que proporciona la lógica del procesamiento. En otras palabras, MapReduce es un marco de software que ayuda a escribir aplicaciones que procesan grandes conjuntos de datos utilizando algoritmos distribuidos y paralelos dentro del entorno Hadoop. En un programa MapReduce, Map () y Reduce () son dos funciones. La función Map realiza acciones como filtrar, agrupar y ordenar. Mientras que la función Reduce agrega y resume el resultado producido por la función map. El resultado generado por la función Map es par de valores clave (K, V) que actúa como entrada para la función Reducir.

Puede leer este video para comprender Hadoop y su arquitectura en detalle.

Instale Hadoop Single Node y Multi Node Cluster

Luego, puede consultar este blog de Hadoop Ecosystem para aprender en detalle sobre Hadoop Ecosystem.

También puede leer este video tutorial de Hadoop Ecosystem.

Cerdo

PIG tiene dos partes: Pig Latin , el idioma y el tiempo de ejecución de Pig , para el entorno de ejecución. Puede entenderlo mejor como Java y JVM. Es compatible con el lenguaje latino porcino .

Como no todos pertenecen a un fondo de programación. Entonces, Apache PIG los alivia. ¿Puede ser curioso saber cómo?

Bueno, te diré un hecho interesante:

10 líneas de latín de cerdo = aprox. 200 líneas de código Java Map-Reduce

Pero no se sorprenda cuando digo que al final del trabajo de Pig, se ejecuta un trabajo de reducción de mapas. El compilador convierte internamente pig latin a MapReduce. Produce un conjunto secuencial de trabajos de MapReduce, y eso es una abstracción (que funciona como un cuadro negro). PIG fue desarrollado inicialmente por Yahoo. Le brinda una plataforma para generar flujo de datos para ETL (Extraer, Transformar y Cargar), procesar y analizar grandes conjuntos de datos.

Colmena

Facebook creó HIVE para personas que dominan SQL. Por lo tanto, HIVE los hace sentir como en casa mientras trabajan en un ecosistema de Hadoop. Básicamente, HIVE es un componente de almacenamiento de datos que realiza lectura, escritura y gestión de grandes conjuntos de datos en un entorno distribuido utilizando una interfaz similar a SQL.

HIVE + SQL = HQL

El lenguaje de consulta de Hive se llama Hive Query Language (HQL), que es muy similar al SQL. La colmena es altamente escalable. Como, puede servir tanto para los propósitos, es decir, el procesamiento de grandes conjuntos de datos (es decir, el procesamiento de consultas por lotes) y el procesamiento en tiempo real (es decir, el procesamiento de consultas interactivas). La colmena se convierte internamente en programas MapReduce.

Es compatible con todos los tipos de datos primitivos de SQL. Puede utilizar funciones predefinidas o escribir funciones definidas por el usuario (UDF) personalizadas también para cumplir con sus necesidades específicas.

Puede almacenar datos en HBase según sus requisitos.

HBase

HBase es una base de datos distribuida no relacional de código abierto. En otras palabras, es una base de datos NoSQL. Admite todo tipo de datos y es por eso que es capaz de manejar cualquier cosa y todo dentro de un ecosistema de Hadoop. Se basa en BigTable de Google, que es un sistema de almacenamiento distribuido diseñado para hacer frente a grandes conjuntos de datos.

El HBase fue diseñado para ejecutarse sobre HDFS y proporciona capacidades similares a BigTable. Nos brinda una forma tolerante a fallas de almacenar datos dispersos, lo cual es común en la mayoría de los casos de uso de Big Data. El HBase está escrito en Java, mientras que las aplicaciones de HBase pueden escribirse en las API REST, Avro y Thrift.

Para una mejor comprensión, tomemos un ejemplo. Tiene miles de millones de correos electrónicos de clientes y necesita averiguar la cantidad de clientes que ha utilizado la palabra queja en sus correos electrónicos. La solicitud debe procesarse rápidamente (es decir, en tiempo real). Entonces, aquí estamos manejando un gran conjunto de datos mientras recuperamos una pequeña cantidad de datos. Para resolver este tipo de problemas, se diseñó HBase.

Edureka proporciona una buena lista de videos tutoriales de Hadoop. Le recomendaría que revise esta lista de reproducción de videos de tutoriales de Hadoop , así como la serie de blogs Tutoriales de Hadoop . Su aprendizaje debe estar alineado con las certificaciones de Big Data .

Según un abeto de reclutamiento global, Randstad, los salarios promedio de los profesionales analíticos de big data son un 50% más que los de otros profesionales de TI.

El salario promedio de los profesionales analíticos de big data en el rol no administrativo es de 8.5 lakhs INR, mientras que los gerentes pueden ganar un promedio de la friolera de 16 lakhs. Estos salarios promedio son meramente habilidades de big data como hadoop y spark. Para los profesionales calificados con un profundo talento analítico, los salarios son científicos de datos aún más altos bajo roles no gerenciales que ganan un salario promedio de 12 Lakhs, mientras que los gerentes ganan un salario promedio de 18 http://lakhs.IT profesionales con habilidades analíticas se acercan a 250% de aumento en sus salarios. Muchas empresas en la India están dispuestas a igualar las enormes alzas en la industria que buscan los candidatos, al cambiar de carrera para contratar talentos expertos en el espacio de big data.

Ahora, una aplicación de noticias basada en big data para India. 7 de junio de 2016. http://Gizmodo.in

23 mil empleos para análisis de big data en Bangalore. 23 de febrero de 2016. Times of India.

Las empresas de análisis de datos se preparan para atraer al mejor talento a medida que aumenta la demanda de talento especializado. 22 de junio de 2016. Economic Times.

TCS se asocia con cuatro universidades para ofrecer cursos en Big Data. 22 de junio de 2016. Economic Times

Academia para la ciencia de datos que se lanzará. 16 de junio de 2016. TimesofIndia

Infosys invierte USD 4 millones en Waterline Data Science. 28 de enero de 2016. TheHindu.

Todos estos titulares en las noticias demuestran claramente que la esfera del análisis de big data en los próximos años es la gran clave para desarrollar la carrera de los profesionales de TI en análisis de datos. El creciente número de nuevas empresas, el auge en la industria del comercio electrónico, el mercado impulsado por el consumidor y la creciente economía están listos para crear grandes oportunidades de trabajo de big data en el espacio de análisis con salarios dominantes en la India. India tiene la segunda mayor demanda de profesionales de big data, data science y analytics, siendo Estados Unidos el primero. Esta publicación de blog ofrece una visión general sobre el crecimiento del mercado laboral de análisis de big data en India, lo que ayudará a los lectores a comprender las tendencias actuales en los trabajos de big data y hadoop y los grandes salarios que las empresas están dispuestas a pagar para contratar a desarrolladores expertos de Hadoop.

Para 2017-2018, solo India será un accionista importante del mercado global de análisis de big data por un valor de $ 2.3 mil millones. Las principales industrias que impulsan la demanda de talento analítico en la India son: comercio electrónico y venta minorista, seguros, finanzas, manufactura e informática, y el comercio electrónico es el principal proveedor de salarios de Hadoop en India. Muchas organizaciones en estas industrias han comenzado a aumentar la conciencia sobre las nuevas herramientas de big data y están tomando medidas para desarrollar el grupo de talentos de big data para impulsar la industrialización del segmento de análisis en la India.

Aditya Narain Mishra, Presidenta de la Unidad India de la firma de reclutamiento global, Randstad dijo: “Hasta el 20% de los trabajos de análisis de datos no se realizan o se están llenando de dificultades”.

Únase a nosotros y sobresalga en su carrera aprendiendo y capacitándose en estas tecnologías emergentes. Solicitando a todas las personas interesadas que compartan su identificación de correo electrónico y número de contacto o pueden contactarme al 72270 48 673

Sí, definitivamente debe avanzar en el campo Big data Hadoop, ya que es la tecnología más moderna y exigente en estos días.

Puede aprender fácilmente esta tecnología e ingresar al mundo de Big Data. Incluso si no conoce Java, puede aprender la tecnología fácilmente como se menciona a continuación:

Para empezar, primero debe saber qué es Big Data y por qué debería aprenderlo.

¿Por qué deberías aprender Big Data?

Para obtener más información sobre el tema, consulte los siguientes enlaces:

  • Comprender qué es Big Data: la palabra de moda más grande
  • Los mejores libros para aprender Big Data y Hadoop
  • Introducción a Hadoop: una guía completa para principiantes

Además de pasar por el material anterior, para obtener un buen trabajo en Big Data Hadoop, debe tener más conocimientos prácticos en lugar de solo conocimientos teóricos. Debería haber hecho pocos POC y un proyecto en vivo para obtener conocimientos prácticos. Esto es lo que la mayoría de las industrias buscan de un candidato que aparece para entrevistas.

Le sugiero que consulte el siguiente enlace para obtener más detalles sobre 1 de estos cursos de DataFlair:

Curso de formación certificado en Big Data y Hadoop

Proporcionan capacitación a un precio mucho menor en comparación con otros con la mayor parte de la capacitación como orientación práctica y directa de un capacitador que tiene más de 18 años de experiencia. Su curso complementario de Java lo ayudará a aprender lo esencial de Java para Big Data Hadoop.

Una vez que haya terminado con los POC y el proyecto, su instructor lo ayudará a preparar el currículum y las entrevistas simuladas lo ayudarán a descifrar las entrevistas en cualquier empresa y conseguir el trabajo de sus sueños.

Hola,

Es una buena plataforma para cambiar de .Net a Hadoop.

Hadoop es un caliente big data que viene. Es mejor incluir una serie de habilidades tecnológicas como bases de datos NoSQL, análisis y otros. Lo mejor de esta tecnología es que es asequible porque utiliza hardware ordinario y de bajo costo y creo que Big data No es realmente una nueva tecnología, sino un término utilizado para un puñado de tecnologías. Si bien algunas de estas tecnologías han existido durante una década o más, se están uniendo muchas piezas para hacer que los grandes datos sean lo más importante para el futuro.

También puede desempeñar un gran papel en el manejo de grandes cantidades de información en todo tipo de formatos: tweets, publicaciones, correos electrónicos, documentos, audio, video, lo que sea que pueda decir que es un formato independiente que las principales compañías están buscando. No pienses mucho en seguir adelante porque todavía hay menos personas con experiencia … obtén .NET SDK de codeplex y míralo.

Para más detalles, visite: http://www.it-skillstraining.com