¡Ya casi estás ahí!
R y MATLAB tienen bibliotecas de aprendizaje automático antes de que se crearan Spark MLib y Mahout.
Tener conocimientos previos en Python y SQL ayudará a su programa fácilmente en Spark y Spark SQL (también Steaming y Mlib).
- ¿Cuáles son las diferentes opciones de financiación disponibles para los empresarios asalariados, jóvenes, de alto rendimiento, que aún no están incorporados y no tienen garantía?
- Soy un btech en ingeniería mecánica con una brecha de 4 años. ¿Qué debo hacer para conseguir un trabajo en TI?
- Mi padre tiene un negocio de piezas de ciclo y yo soy un graduado de robótica. ¿Debo ir por negocios o elegir mi carrera en el campo de la robótica?
- ¿Qué debo hacer para ingresar a una empresa de TI de primer nivel como estudiante de ECE de segundo año en India?
- ¿Cuáles son las materias que necesitamos para ser perfectos para graduarnos con una maestría en CS?
Incluso si su objetivo es ser un científico de datos, no afectará a cómo funcionan Hadoop y sus derivados, especialmente MapReduce, HDFS, Hive y Hbase, y cómo la chispa es mejor que estos.
Solo toma un par de semanas comprender HDFS, Hive, HBase y MapReduce (Pig, Sqoop, Oozie son irrelevantes desde la perspectiva de DataScientist, pero es bueno saberlo para Data Engineer)
Luego aprenda RDD, Transformación y Acciones en spark (trabajo en pyspark o en scala spark-shell, prefiero python)
A continuación, comprenda DataFrames y practique SparkSQL, tiene una sintaxis similar a SQL o Hive
Luego, comprenda el proceso DStreams y Spark Streaming, una alternativa a esto es Storm
Como complemento, aprenda Kafka (una cola de mensajería de editor-cunsumer como ActiveMQ pero con un alto rendimiento y una arquitectura tolerante a fallas)
Esto completa el proceso de aprendizaje y luego puede aplicar algoritmos de aprendizaje automático similares en python o scala o R (a través de spark.pipe). Aunque los conceptos centrales de los algoritmos de ML son los mismos, Spark Mlib manejará datos más grandes y calculará más rápido utilizando un clúster escalable.
Como ingeniero eléctrico, puede resolver problemas de BigData relacionados con su campo, le sugiero que trabaje en un proyecto en su último año en este que muestre sus habilidades a las universidades / empresas principales / empresas de TI para resolver problemas de Bigdata más interesantes.
Todo lo mejor !!