Cómo comenzar una carrera en Data Analytics
Data Analytics ha sido una de las etiquetas de trabajo más buscadas debido a la inflación de más recursos de datos, también conocida como el nacimiento de Big Data. Pero, ¿qué es exactamente el análisis de datos y quién es un analista de datos ? Comencemos por definirlos en términos de un bibliófilo.
- ¿Por qué las ofertas de trabajo parecen tener siempre bucles infinitos en los requisitos?
- ¿Es 150k y 0.042% de capital en una oferta de arranque de la serie B para un puesto de gerente de producto?
- ¿Qué trabajo es mejor: ser piloto o personal de tierra?
- ¿Puede un ingeniero civil trabajar como diseñador de automóviles?
- ¿TCS paga extra por ser transferido de un lugar a otro o el mismo pago estará allí?
“El análisis de datos , también conocido como análisis de datos o análisis de datos , es el mecanismo involucrado en la inspección, limpieza, transformación, visualización y modelado de datos con el objetivo principal de extraer información útil, sugerir conclusiones y apoyar la toma de decisiones”.
Pero cuando aparece la palabra “Datos”, nos referimos a “datos estructurados” principalmente, que podría ser un término vago en sí mismo que encapsula muchas formas diferentes de datos como:
- Matrices o matrices multidimensionales
- Convención de datos tabular u hoja de cálculo; donde las columnas pueden tener diferentes tipos de datos, como valores numéricos, constantes de cadena o formato de fecha y hora, etc. Esto incluye la mayoría de los datos almacenados comúnmente en bases de datos relacionales (RDBMS como IBM DB2, Microsoft SQL Server, Oracle, SQLite, MySQL , etc.) o archivos de texto delimitados por tabuladores o comas, como el popular formato CSV (valores separados por comas) y Excel.
- Múltiples tablas de datos interrelacionadas por columnas clave que serán claves primarias o externas para un usuario de SQL)
- Pares clave-valor como JSON.
- Datos de series de tiempo espaciados de manera uniforme o desigual.
Esta de ninguna manera es la lista confinada concreta. Los datos pueden tener la forma de un archivo de audio o un archivo de video. Pero principalmente, todos estos se convierten en formato estructurado o, de lo contrario, es posible extraer características del conjunto de datos. Como por ejemplo, una aglomeración de artículos de noticias podría procesarse en una tabla de conteo de palabras o frecuencia de palabras, que podría utilizarse para realizar análisis de sentimientos.
El flujo de trabajo de Data Analysis es algo como esto, aunque es una forma muy breve de describir lo mismo y solo se muestra en la perspectiva de los usuarios que confían en Share-point, Azure Analytics o Excel:
Las siguientes son las etapas en el análisis de datos:
- Adquisición de datos o disputa de datos: es el proceso de adquirir los datos en un formato estructurado o, si no está disponible en un formato estructurado, aplicar el método de extracción de características para obtener los datos útiles.
Herramientas utilizadas para la adquisición de datos:
1. Sistemas de adquisición de datos independientes: registradores de datos Ethernet o USB (utilizados para adquirir datos digitales o físicos de los sistemas y convertirlos en valores de datos numéricos)
2. Sistema de adquisición de datos máximo integrado (MIDAS): adquisición de datos basada en partículas de laboratorio.
3. Power Query
Puede obtener una gran cantidad de conjuntos de datos de los siguientes dos recursos para analizar y mejorar sus habilidades como analista de datos:
1. Conjuntos de datos de Kaggle
2. Repositorio Vincent Arel Bundock Github
- Análisis de los datos:
Esto involucra los 4 procesos principales en el ciclo de vida del análisis de datos:
1. Preprocesamiento de datos
2. Limpieza de datos
3. Modelado de datos
4. Pronóstico de datos
Herramientas utilizadas: –
1. Expresiones de análisis de datos (DAX): integradas en Excel como lenguaje de consulta para análisis, Power Business Intelligence (BI), etc.
2. Lenguaje de programación centrado en datos: Hadoop Pig y HPCC ECL (utilizado para la manipulación de datos)
3. Lenguajes de manipulación de datos: SQL, IMS, CODASYL, etc.
4. Tecnologías de Big Data: Hadoop y MapReduce
5. Servidores en la nube o IBM Watson.
6. SAS
7. Python
8. R
9. MATLAB
10. STATA
11. SPSS
12. NoSQL
13. Azure Analytics
El mecanismo de análisis de datos involucra el aspecto más importante de Analytics. Durante este proceso, uno debe estar familiarizado con el tipo de datos con los que está trabajando, cuáles son los objetivos o las respuestas que desea responder de los datos y debe estar familiarizado con los aspectos de las características de los datos disponibles para usar y cómo administrarlo de manera efectiva.
Como dice la famosa frase ” La limpieza de datos toma el 90% del tiempo en el análisis de un conjunto de datos “, no se debe socavar la importancia de limpiar el conjunto de datos para eliminar los puntos de datos innecesarios o los puntos de datos que tienen variables faltantes que no serán necesarias durante el análisis
- Visualización de datos:
Después de pasar por el arduo trabajo de limpiar los datos, modelarlos y pronosticarlos, y extraer todas las características necesarias, es hora de visualizar los datos. Según el dicho “el 80% de las preguntas relacionadas con los datos se responden simplemente visualizándolas “, la visualización de datos es, con mucho, el penúltimo paso crucial, ya que su trabajo como analista de datos es visualizar el conjunto de datos y responder preguntas relacionadas con conjunto de datos o hacer predicciones o hacer modelos.
- Publicación: si está trabajando como freelance, es una excelente manera de hacerse oír publicando sus resultados como documentación o haciendo que todo su proyecto sea de código abierto para que otros analistas tomen instancias de su proyecto y comprendan perspectivas más profundas del datos que usas capaces de desentrañar.
Puede poner su código como código abierto en GitHub, BitBucket, BeanStalk, etc.
Ahora surge la pregunta ¿por qué? ¿Por qué análisis de datos?
Data Analytics ha estado bajo el foco de atención desde hace bastantes años, pero su reciente florecimiento debido a los recursos expansivos lo ha convertido en una de las mejores perspectivas en la industria de las empresas basadas en datos por las siguientes razones principales:
- El equivalente al 90% de los datos en el mundo se generó en los últimos 2 años, superando la predicción hecha por la mayoría en el mismo dominio anteriormente y ahora está en camino de cuadruplicarse en solo un lapso de 36 meses.
- El costo efectivo de almacenamiento de datos se ha reducido exponencialmente desde el costo de un Mercedes por 1GB de datos en los años 90 hasta el costo de un dulce por el mismo en 2010.
- Las empresas están más orientadas a los datos y dependen de modelos de negocio predictivos para el desarrollo de la marca.
- El modelado financiero se basa completamente en análisis, ya que el crecimiento económico y los mercados de valores dependen en gran medida de los datos.
- El dominio médico también se basa en el análisis de datos para el descubrimiento de fármacos, tratamientos efectivos de enfermedades que eran una hazaña casi imposible de lograr a principios de los 90.
¿Quién es un analista de datos?
Las dos imágenes anteriores resumen en su mayoría el papel de un analista de datos como un profesional que responde a la mayoría de las preguntas relacionadas con los datos discutiendo, adquiriendo, limpiando, almacenando, interpretando, visualizando los datos y aplicando las observaciones en un modelo basado en datos.
Entonces, ¿cómo se pasa de principiante a analista de datos?
Los siguientes son los requisitos previos:
1. Matemáticas:
Las matemáticas son el aspecto más básico y fundamental de Data Analytics. Uno debe ser minucioso con Estadísticas, Algoritmos, Complejidad, Álgebra Lineal, Cálculo, etc. Los siguientes recursos están disponibles para repasar esos temas:
- MIT Open Courseware (MIT OCW) Álgebra lineal
- Cálculo – https://www.youtube.com/playlist…
- Probabilidad : https://www.edx.org/course/intro…
https://www.coursera.org/learn/p… - Algoritmo – https://www.coursera.org/courses…
- Estadísticas – https://classroom.udacity.com/co…
- Udacity – https://classroom.udacity.com/co…
- Coursera – https://www.coursera.org/learn/m…#
2. Lenguaje de programación: hay muchas opciones que uno puede tomar dependiendo de su habilidad y comodidad con un lenguaje de programación, echemos un vistazo a algunos de ellos junto con los recursos disponibles para estudiar:
- Python : Python es uno de los lenguajes de programación más populares y usados para Data Analytics porque es más bien un lenguaje dinámico en comparación con otros lenguajes de “scripting”. Las bibliotecas en Python, que incluyen pandas, cython, matplotlib, numpy, scipy, etc., junto con su curva de aprendizaje fácil, lo hacen favorable para que los analistas trabajen en conjuntos de datos extensos. Con la presencia de paquetes interactivos de terceros como BeautifulSoup (Análisis de datos), OpenCV (Análisis de imagen y video) y Psyplot (Visualización interactiva) le da al usuario más poder para analizar y visualizar conjuntos de datos.
Python también resuelve el ” Problema de dos idiomas “. Para explicar lo mismo, en muchas empresas, es común investigar, crear prototipos y probar nuevas ideas utilizando un lenguaje informático más específico del dominio como MATLAB o R y luego portar esos proyectos para que formen parte de un sistema de producción más grande modelado, digamos, JAVA, C # o C ++. Pero Python resuelve este problema al proporcionar una plataforma para la creación de prototipos y la producción a gran escala.
Sin embargo, Python no es un lenguaje ideal para aplicaciones altamente concurrentes y multiproceso, particularmente aplicaciones con muchos hilos enlazados a la CPU. Junto con lo mismo, Python es más lento en muchos aspectos en comparación con MATLAB.
Tome clases de capacitación en línea para aprender ciencia de datos con Python
Pero aún así Python sigue siendo uno de los lenguajes más utilizados en el análisis.
- R – R es uno de los mejores lenguajes de programación para análisis y visualización con su amplia comunidad y herramienta de visualización interactiva y paquetes como ggplot2, lo que lo convierte en uno de los lenguajes más utilizados en Análisis y Ciencia de Datos con un debate constante entre R y Python. Sin embargo, R tiene una curva de aprendizaje comparativamente más pronunciada y algunos alumnos pueden tener dificultades para aprender lo mismo.
- SAS : un lenguaje más comercializado para Analytics, SAS es muy poderoso y es uno de los idiomas más buscados en las empresas globales para el análisis predictivo y el modelado basado en datos comerciales. SAS también se usa para Business Intelligence y es bastante fácil de aprender con su programa de certificación que se ejecuta durante todo el año, pero puede costarle un poco de inversión el paquete de idiomas.
Cursos de análisis de datos : los cursos de análisis de datos están ampliamente disponibles, sin embargo, estos están cuidadosamente seleccionados para que comprenda todos los conceptos de los mismos:
Revisa este libro en línea. Obtiene los conocimientos sobre cómo convertirse en un desarrollador de Big Data o asistir a una sesión de demostración gratuita sobre Big Data & Analytics para saber cómo puede comenzar su carrera en Data Analytics o Big Data. Obtendrá una guía adecuada sobre cómo comenzar a aprender análisis de datos con Python, SAS, R o Excel.
Comunidades y empresas de hosting de competencia: las comunidades son un recurso muy interactivo para ser parte de todo aspirante a analista de datos. Algunos sitios web alojan compañías basadas en datos para demostrar su valía entre todos los competidores en el mismo dominio. Éstos son algunos de ellos:
- Su hogar para la ciencia de datos
- https://www.drivendata.org/
- https://www.crowdai.org/
- https://stackoverflow.com/
- https://www.reddit.com/r/datasci…
- https://www.hackerrank.com/
- HackerEarth: desafíos de programación y trabajos de desarrollador
Personas a seguir:
- https://www.linkedin.com/in/jürgen-schmidhuber-39226872
- https://www.linkedin.com/in/alex…
- https://www.linkedin.com/in/yann…
- https://www.linkedin.com/in/kirk…
- https://www.linkedin.com/in/stas…
Blogs a seguir:
- https://www.datasciencecentral.com/
- https://www.kdnuggets.com/
- https://www.r-bloggers.com/
- https://www.digitalvidya.com/blog/
- https://www.oreilly.com/topics/data
- https://simplystatistics.org/
Después de haber adquirido todos los conocimientos necesarios para Analytics, comience a solicitar algunas pasantías. Hay muchas compañías que pagan generosamente a Data Analyst Intern. En última instancia, todo se reduce a su determinación y pasión por el análisis de datos.
¿Tiene usted alguna pregunta?
Espero que esto te ayude. Si aún desea orientación o apoyo, puede enviarme un mensaje. Te ayudaré con tus dudas. Además, si encuentra esta publicación útil y útil, vote o comente lo que seguirá motivándome a escribir.
¡Todo lo mejor!