Soy un estudiante de ingeniería eléctrica y electrónica. También estoy interesado en big data y machine learning. Tengo conocimiento de R, MATLAB, Python y Oracle-SQL. Como no soy un estudiante de informática o informática, ¿qué tan beneficiosas son estas cosas para mí?

¡Ya casi estás ahí!

R y MATLAB tienen bibliotecas de aprendizaje automático antes de que se crearan Spark MLib y Mahout.

Tener conocimientos previos en Python y SQL ayudará a su programa fácilmente en Spark y Spark SQL (también Steaming y Mlib).

Incluso si su objetivo es ser un científico de datos, no afectará a cómo funcionan Hadoop y sus derivados, especialmente MapReduce, HDFS, Hive y Hbase, y cómo la chispa es mejor que estos.

Solo toma un par de semanas comprender HDFS, Hive, HBase y MapReduce (Pig, Sqoop, Oozie son irrelevantes desde la perspectiva de DataScientist, pero es bueno saberlo para Data Engineer)

Luego aprenda RDD, Transformación y Acciones en spark (trabajo en pyspark o en scala spark-shell, prefiero python)

A continuación, comprenda DataFrames y practique SparkSQL, tiene una sintaxis similar a SQL o Hive

Luego, comprenda el proceso DStreams y Spark Streaming, una alternativa a esto es Storm

Como complemento, aprenda Kafka (una cola de mensajería de editor-cunsumer como ActiveMQ pero con un alto rendimiento y una arquitectura tolerante a fallas)

Esto completa el proceso de aprendizaje y luego puede aplicar algoritmos de aprendizaje automático similares en python o scala o R (a través de spark.pipe). Aunque los conceptos centrales de los algoritmos de ML son los mismos, Spark Mlib manejará datos más grandes y calculará más rápido utilizando un clúster escalable.

Como ingeniero eléctrico, puede resolver problemas de BigData relacionados con su campo, le sugiero que trabaje en un proyecto en su último año en este que muestre sus habilidades a las universidades / empresas principales / empresas de TI para resolver problemas de Bigdata más interesantes.

Todo lo mejor !!

AsesoramientoBig DataeléctricainformaciónIngenieríaIngeniería eléctricaOrientación laboralPregunta personalsobre programación informáticaTecnología de laTecnología de la información