Hadoop es el método de muchos proyectos de ciencia de datos. Las nuevas tecnologías que crecen en los mejores Hadoop se lanzan todo el tiempo, y puede ser difícil mantenerse al día
La capacitación en certificación de Hadoop y Big Data será muy útil para aprobar el examen de certificación profesional en Hadoop y análisis de datos avanzados.
Con la amplia gama de herramientas a su disposición, aquí hay una lista de algunas de las distribuciones oficiales de Apache Hadoop más necesarias. Apache Ambari, un paquete de software para administrar clústeres Hadoop HDFC Reduzca el marco básico para dividir datos en un clúster que sustenta a Hadoop. Apache H-base, una base de datos orientada a tablas construida sobre Hadoop. Apache Hive, un almacén de datos construido sobre Hadoop que hace que los datos sean accesibles a través de un lenguaje similar a SQL.
- ¿En qué carrera más segura se está metiendo: ingeniería de software o ingeniería de hardware?
- ¿Es aconsejable dejar mi trabajo estable de TI en una industria no tecnológica para un trabajo de TI de tendencia en el inicio de la tecnología?
- ¿Cuál es su mejor consejo para presidir una reunión de manera efectiva?
- ¿Qué puedo hacer para convertirme en un excelente desarrollador de kernel como Terry Lambert?
- Actualmente soy desarrollador de software con 4 años de experiencia laboral. ¿Cómo puedo entrenarme desde esta etapa para ser un gran administrador de desarrollo de software? ¿También se recomienda ramificarse a mgmt lo antes posible o permanecer técnico por más tiempo, considerando la elevación vertical?
Apache sqoop, una herramienta para transferir datos entre Hadoop y otros almacenes de datos. Apache Pig, una plataforma para ejecutar código en datos en Hadoop en paralelo. Zookeeper, una herramienta para configurar y sincronizar clústeres de Hadoop.
No SQL, un tipo de base de datos que se separa de los sistemas tradicionales de administración de bases de datos relacionales que usan SQL. Las bases de datos populares sin SQL incluyen Cassandra, riak y MongoDB.
Apache ofrece una biblioteca de aprendizaje automático diseñada para ejecutarse en datos almacenados en Hadoop.
apache solar, una herramienta para indexar datos de texto que se integra bien con Hadoop.
Apache avero, un sistema de serialización de datos.
oozie, un administrador de flujo de trabajo para la cadena de herramientas Apache.
Herramientas GIS, un conjunto de herramientas para ayudar a administrar los componentes geográficos de sus datos.
Apache Flume, un sistema para recopilar datos de registro utilizando HDFS.
SQL en Hadoop, algunas de las opciones más populares incluyen: Apache Hive, Cloudera Impala, Presto (Facebook), Shark, Apache Drill, EMC / Pivotal HAWQ, Big SQL de IBM, ApachePhoenix (para H Base), Apache Tajo
Nubes, servidores gestionados y servicios que eliminan la molestia de ejecutar su propia infraestructura
Apache Spark, una nueva forma de ejecutar algoritmos aún más rápido en los datos de Hadoop.