Cómo comenzar una carrera relacionada con el análisis de datos

Cómo comenzar una carrera en Data Analytics

Data Analytics ha sido una de las etiquetas de trabajo más buscadas debido a la inflación de más recursos de datos, también conocida como el nacimiento de Big Data. Pero, ¿qué es exactamente el análisis de datos y quién es un analista de datos ? Comencemos por definirlos en términos de un bibliófilo.

Análisis de datos : –

“El análisis de datos , también conocido como análisis de datos o análisis de datos , es el mecanismo involucrado en la inspección, limpieza, transformación, visualización y modelado de datos con el objetivo principal de extraer información útil, sugerir conclusiones y apoyar la toma de decisiones”.

Pero cuando aparece la palabra “Datos”, nos referimos a “datos estructurados” principalmente, que podría ser un término vago en sí mismo que encapsula muchas formas diferentes de datos como:

  • Matrices o matrices multidimensionales
  • Convención de datos tabular u hoja de cálculo; donde las columnas pueden tener diferentes tipos de datos, como valores numéricos, constantes de cadena o formato de fecha y hora, etc. Esto incluye la mayoría de los datos almacenados comúnmente en bases de datos relacionales (RDBMS como IBM DB2, Microsoft SQL Server, Oracle, SQLite, MySQL , etc.) o archivos de texto delimitados por tabuladores o comas, como el popular formato CSV (valores separados por comas) y Excel.
  • Múltiples tablas de datos interrelacionadas por columnas clave que serán claves primarias o externas para un usuario de SQL)
  • Pares clave-valor como JSON.
  • Datos de series de tiempo espaciados de manera uniforme o desigual.

Esta de ninguna manera es la lista confinada concreta. Los datos pueden tener la forma de un archivo de audio o un archivo de video. Pero principalmente, todos estos se convierten en formato estructurado o, de lo contrario, es posible extraer características del conjunto de datos. Como por ejemplo, una aglomeración de artículos de noticias podría procesarse en una tabla de conteo de palabras o frecuencia de palabras, que podría utilizarse para realizar análisis de sentimientos.

El flujo de trabajo de Data Analysis es algo como esto, aunque es una forma muy breve de describir lo mismo y solo se muestra en la perspectiva de los usuarios que confían en Share-point, Azure Analytics o Excel:

Las siguientes son las etapas en el análisis de datos:

  • Adquisición de datos o disputa de datos: es el proceso de adquirir los datos en un formato estructurado o, si no está disponible en un formato estructurado, aplicar el método de extracción de características para obtener los datos útiles.

Herramientas utilizadas para la adquisición de datos:

1. Sistemas de adquisición de datos independientes: registradores de datos Ethernet o USB (utilizados para adquirir datos digitales o físicos de los sistemas y convertirlos en valores de datos numéricos)

2. Sistema de adquisición de datos máximo integrado (MIDAS): adquisición de datos basada en partículas de laboratorio.

3. Power Query

Puede obtener una gran cantidad de conjuntos de datos de los siguientes dos recursos para analizar y mejorar sus habilidades como analista de datos:

1. Conjuntos de datos de Kaggle

2. Repositorio Vincent Arel Bundock Github

  • Análisis de los datos:

Esto involucra los 4 procesos principales en el ciclo de vida del análisis de datos:

1. Preprocesamiento de datos

2. Limpieza de datos

3. Modelado de datos

4. Pronóstico de datos

Herramientas utilizadas: –

1. Expresiones de análisis de datos (DAX): integradas en Excel como lenguaje de consulta para análisis, Power Business Intelligence (BI), etc.

2. Lenguaje de programación centrado en datos: Hadoop Pig y HPCC ECL (utilizado para la manipulación de datos)

3. Lenguajes de manipulación de datos: SQL, IMS, CODASYL, etc.

4. Tecnologías de Big Data: Hadoop y MapReduce

5. Servidores en la nube o IBM Watson.

6. SAS

7. Python

8. R

9. MATLAB

10. STATA

11. SPSS

12. NoSQL

13. Azure Analytics

El mecanismo de análisis de datos involucra el aspecto más importante de Analytics. Durante este proceso, uno debe estar familiarizado con el tipo de datos con los que está trabajando, cuáles son los objetivos o las respuestas que desea responder de los datos y debe estar familiarizado con los aspectos de las características de los datos disponibles para usar y cómo administrarlo de manera efectiva.

Como dice la famosa frase ” La limpieza de datos toma el 90% del tiempo en el análisis de un conjunto de datos “, no se debe socavar la importancia de limpiar el conjunto de datos para eliminar los puntos de datos innecesarios o los puntos de datos que tienen variables faltantes que no serán necesarias durante el análisis

  • Visualización de datos:

Después de pasar por el arduo trabajo de limpiar los datos, modelarlos y pronosticarlos, y extraer todas las características necesarias, es hora de visualizar los datos. Según el dicho “el 80% de las preguntas relacionadas con los datos se responden simplemente visualizándolas “, la visualización de datos es, con mucho, el penúltimo paso crucial, ya que su trabajo como analista de datos es visualizar el conjunto de datos y responder preguntas relacionadas con conjunto de datos o hacer predicciones o hacer modelos.

  • Publicación: si está trabajando como freelance, es una excelente manera de hacerse oír publicando sus resultados como documentación o haciendo que todo su proyecto sea de código abierto para que otros analistas tomen instancias de su proyecto y comprendan perspectivas más profundas del datos que usas capaces de desentrañar.

Puede poner su código como código abierto en GitHub, BitBucket, BeanStalk, etc.

Ahora surge la pregunta ¿por qué? ¿Por qué análisis de datos?

Data Analytics ha estado bajo el foco de atención desde hace bastantes años, pero su reciente florecimiento debido a los recursos expansivos lo ha convertido en una de las mejores perspectivas en la industria de las empresas basadas en datos por las siguientes razones principales:

  • El equivalente al 90% de los datos en el mundo se generó en los últimos 2 años, superando la predicción hecha por la mayoría en el mismo dominio anteriormente y ahora está en camino de cuadruplicarse en solo un lapso de 36 meses.
  • El costo efectivo de almacenamiento de datos se ha reducido exponencialmente desde el costo de un Mercedes por 1GB de datos en los años 90 hasta el costo de un dulce por el mismo en 2010.
  • Las empresas están más orientadas a los datos y dependen de modelos de negocio predictivos para el desarrollo de la marca.
  • El modelado financiero se basa completamente en análisis, ya que el crecimiento económico y los mercados de valores dependen en gran medida de los datos.
  • El dominio médico también se basa en el análisis de datos para el descubrimiento de fármacos, tratamientos efectivos de enfermedades que eran una hazaña casi imposible de lograr a principios de los 90.

¿Quién es un analista de datos?

Las dos imágenes anteriores resumen en su mayoría el papel de un analista de datos como un profesional que responde a la mayoría de las preguntas relacionadas con los datos discutiendo, adquiriendo, limpiando, almacenando, interpretando, visualizando los datos y aplicando las observaciones en un modelo basado en datos.

Entonces, ¿cómo se pasa de principiante a analista de datos?

Los siguientes son los requisitos previos:

1. Matemáticas:

Las matemáticas son el aspecto más básico y fundamental de Data Analytics. Uno debe ser minucioso con Estadísticas, Algoritmos, Complejidad, Álgebra Lineal, Cálculo, etc. Los siguientes recursos están disponibles para repasar esos temas:

  • MIT Open Courseware (MIT OCW) Álgebra lineal
  • Cálculo – https://www.youtube.com/playlist…
  • Probabilidad : https://www.edx.org/course/intro…
    https://www.coursera.org/learn/p…
  • Algoritmo – https://www.coursera.org/courses…
  • Estadísticas – https://classroom.udacity.com/co…
  • Udacity – https://classroom.udacity.com/co…
  • Coursera – https://www.coursera.org/learn/m…#

2. Lenguaje de programación: hay muchas opciones que uno puede tomar dependiendo de su habilidad y comodidad con un lenguaje de programación, echemos un vistazo a algunos de ellos junto con los recursos disponibles para estudiar:

  • Python : Python es uno de los lenguajes de programación más populares y usados ​​para Data Analytics porque es más bien un lenguaje dinámico en comparación con otros lenguajes de “scripting”. Las bibliotecas en Python, que incluyen pandas, cython, matplotlib, numpy, scipy, etc., junto con su curva de aprendizaje fácil, lo hacen favorable para que los analistas trabajen en conjuntos de datos extensos. Con la presencia de paquetes interactivos de terceros como BeautifulSoup (Análisis de datos), OpenCV (Análisis de imagen y video) y Psyplot (Visualización interactiva) le da al usuario más poder para analizar y visualizar conjuntos de datos.

Python también resuelve el ” Problema de dos idiomas “. Para explicar lo mismo, en muchas empresas, es común investigar, crear prototipos y probar nuevas ideas utilizando un lenguaje informático más específico del dominio como MATLAB o R y luego portar esos proyectos para que formen parte de un sistema de producción más grande modelado, digamos, JAVA, C # o C ++. Pero Python resuelve este problema al proporcionar una plataforma para la creación de prototipos y la producción a gran escala.

Sin embargo, Python no es un lenguaje ideal para aplicaciones altamente concurrentes y multiproceso, particularmente aplicaciones con muchos hilos enlazados a la CPU. Junto con lo mismo, Python es más lento en muchos aspectos en comparación con MATLAB.

Tome clases de capacitación en línea para aprender ciencia de datos con Python

Pero aún así Python sigue siendo uno de los lenguajes más utilizados en el análisis.

  • R – R es uno de los mejores lenguajes de programación para análisis y visualización con su amplia comunidad y herramienta de visualización interactiva y paquetes como ggplot2, lo que lo convierte en uno de los lenguajes más utilizados en Análisis y Ciencia de Datos con un debate constante entre R y Python. Sin embargo, R tiene una curva de aprendizaje comparativamente más pronunciada y algunos alumnos pueden tener dificultades para aprender lo mismo.
  • SAS : un lenguaje más comercializado para Analytics, SAS es muy poderoso y es uno de los idiomas más buscados en las empresas globales para el análisis predictivo y el modelado basado en datos comerciales. SAS también se usa para Business Intelligence y es bastante fácil de aprender con su programa de certificación que se ejecuta durante todo el año, pero puede costarle un poco de inversión el paquete de idiomas.

Cursos de análisis de datos : los cursos de análisis de datos están ampliamente disponibles, sin embargo, estos están cuidadosamente seleccionados para que comprenda todos los conceptos de los mismos:

Revisa este libro en línea. Obtiene los conocimientos sobre cómo convertirse en un desarrollador de Big Data o asistir a una sesión de demostración gratuita sobre Big Data & Analytics para saber cómo puede comenzar su carrera en Data Analytics o Big Data. Obtendrá una guía adecuada sobre cómo comenzar a aprender análisis de datos con Python, SAS, R o Excel.

Comunidades y empresas de hosting de competencia: las comunidades son un recurso muy interactivo para ser parte de todo aspirante a analista de datos. Algunos sitios web alojan compañías basadas en datos para demostrar su valía entre todos los competidores en el mismo dominio. Éstos son algunos de ellos:

  • Su hogar para la ciencia de datos
  • https://www.drivendata.org/
  • https://www.crowdai.org/
  • https://stackoverflow.com/
  • https://www.reddit.com/r/datasci…
  • https://www.hackerrank.com/
  • HackerEarth: desafíos de programación y trabajos de desarrollador

Personas a seguir:

  • https://www.linkedin.com/in/jürgen-schmidhuber-39226872
  • https://www.linkedin.com/in/alex…
  • https://www.linkedin.com/in/yann…
  • https://www.linkedin.com/in/kirk…
  • https://www.linkedin.com/in/stas…

Blogs a seguir:

  • https://www.datasciencecentral.com/
  • https://www.kdnuggets.com/
  • https://www.r-bloggers.com/
  • https://www.digitalvidya.com/blog/
  • https://www.oreilly.com/topics/data
  • https://simplystatistics.org/

Después de haber adquirido todos los conocimientos necesarios para Analytics, comience a solicitar algunas pasantías. Hay muchas compañías que pagan generosamente a Data Analyst Intern. En última instancia, todo se reduce a su determinación y pasión por el análisis de datos.

¿Tiene usted alguna pregunta?

Espero que esto te ayude. Si aún desea orientación o apoyo, puede enviarme un mensaje. Te ayudaré con tus dudas. Además, si encuentra esta publicación útil y útil, vote o comente lo que seguirá motivándome a escribir.

¡Todo lo mejor!

Hay varias habilidades duras y habilidades blandas que necesita desarrollar para ser un buen analista de datos.

Habilidades duras:

Necesitas tener sólidos conocimientos matemáticos y estadísticos. Esto es crucial ya que cuanto más sepa, más rápido y mejor podrá obtener una solución de alto nivel al problema. Afecta directamente la calidad y reputación de su trabajo. Sin eso, es difícil ser un analista de datos exitoso.

Debe dominar al menos una o más herramientas de análisis de datos, como Python y R. Esto es casi imprescindible y afecta su eficiencia. Conocer y comprender sus paquetes junto con cuándo y cómo usarlos. Implementar sus ideas a través del código de manera formal y de producción lleva tiempo. Revisar el código escrito por otros ayuda. Además, sé bueno en las herramientas de visualización. Proporcionar una buena visualización en su presentación a menudo da una gran impresión al público.

Necesita tener una comprensión decente de la base de datos. Este campo tiene que ver con datos, por lo que no puede vivir sin la base de datos. Comprenda su concepto, tipos y cómo se almacenan y transfieren. Si es posible, aprenda sobre tecnologías de big data como Hadoop y Spark porque han sido un tema candente en los últimos años y la demanda de expertos en esta área es muy alta. Dominar SQL es imprescindible.

Sé bueno en la navegación del sistema y el script bash. Encontrará que esta habilidad ayuda a aumentar su eficiencia y hacer su vida mucho más fácil.

Habilidades blandas:

La comunicación es muy importante. Esto significa comprender la necesidad de sus clientes o colegas. Ayuda a garantizar que sus entregas satisfagan sus necesidades. Por otro lado, debes convertirte en un gran narrador. A menudo, esta es una gran debilidad para muchos analistas de datos / científicos de datos. La traducción de algo complejo a idiomas simples que su audiencia es fácil de digerir necesita mucha práctica. Además, en una empresa presentará su trabajo a diferentes tipos de personas, como otros analistas, ingenieros y ejecutivos, por lo que debe tener cuidado con los idiomas y las terminologías que utiliza.

Sentido de negocios. Estás en resolver un problema de matemáticas en la escuela. Su trabajo es utilizar algunas habilidades cuantitativas para resolver un problema comercial. No existe una solución única y, a menudo, no puede seguir un libro de texto. Es importante desarrollar una mentalidad empírica y teórica, encontrar un punto de equilibrio. La solución de Hacky sucedería, pero a veces podría funcionar bien.

Multitarea En muchos casos, la proporción de número de ingenieros, PM y otros roles con respecto al número de analista de datos / científico de datos es grande, como 5: 1, 10: 1 o incluso mayor. Es posible que tenga muchas solicitudes simultáneamente, por lo que debe priorizarlas y administrar bien su tiempo. Y debería ver cuán valioso es para el equipo, ya que sus resultados inciden en la decisión y dirección del equipo.

Puedo pensar en estas habilidades en común y, por supuesto, hay muchas otras dependiendo del tipo de empresa, su función, etc. Diría que tener habilidades difíciles debería convertirlo en un buen analista de datos, pero dominar las habilidades blandas es la clave. que separan bien y excelente. Esta carrera cambia rápidamente, por lo que debes adaptarla y aprender lo suficientemente rápido como para ponerte al día. Hay habilidades y conocimientos ilimitados que necesita aprender en el camino.

Busque este sitio web llamado coursera. Si desea entrar en el análisis de datos y la ciencia de datos, lo que debe aprender con prontitud es el modelado estadístico básico y agregar conjuntos de habilidades como R, Hadoop (big data), análisis predictivo para la toma de decisiones. El mejor enfoque para esto sería:

  1. Para obtener un título a tiempo completo en análisis de datos / análisis de negocios / ciencia de datos (este curso se conoce principalmente con estos nombres), ya sea de un Instituto Indio o de Estados Unidos. De hecho, voy a Estados Unidos por el mismo motivo este año. Si quieres puedes enviarme un mensaje.
  2. O únete a trabajos de nivel de entrada en los departamentos de análisis de empresas como Amazon.com, flipkart, snapdeal, etc., pero necesitarás conocer estadísticas básicas y sql solo para ser elegible para asistir a esas entrevistas.

Los trabajos de analista de datos de nivel de entrada se pueden destilar a estos 4 atributos:

  • Conocimientos básicos de estadística y probabilidad.
  • Usuario intermedio de Microsoft Excel
  • Poder escribir consultas SQL
  • Fuerte ética de trabajo e interesado en datos

Si está buscando comenzar tomando cursos en línea, puede consultar este curso de análisis de datos con un 90% de descuento aquí: Aprendizaje de Python para análisis y visualización de datos