La mejor manera de convertirse en un científico de datos es aprender, y hacer, ciencia de datos. Hay muchos cursos y herramientas excelentes disponibles en línea que pueden ayudarlo a llegar allí.
Aquí hay una increíble lista de recursos compilados por Jonathan Dinu, cofundador de Zipfian Academy, que capacita a científicos e ingenieros de datos en San Francisco.
NOTA: Esta es la misma lista de ¿Cómo me convierto en un científico de datos? Hay muchas respuestas geniales sobre esa pregunta sobre la enseñanza de la ciencia de datos.
- ¿Cuál es el mejor entre Accenture y Wipro para una TI más fresca?
- ¿Cómo te sentirías si un empleado fuera tan inteligente que podría hacer todo su trabajo en una hora pero estuvieras demasiado ocupado para darles nuevos proyectos?
- Como diseñador de UX, ¿qué debo hacer para convertirme en gerente de producto?
- ¿Qué flujo debo elegir si quiero seguir la ciencia actuarial?
- ¿Vale la pena una carrera en sap MM?
Ambiente
Python es un gran lenguaje de programación de elección para los aspirantes a científicos de datos debido a su aplicabilidad de propósito general, una curva de aprendizaje suave (o firme) y, quizás la razón más convincente, el rico ecosistema de recursos y bibliotecas utilizadas activamente por la comunidad científica.
Desarrollo
Al aprender un nuevo idioma en un nuevo dominio, es de gran ayuda tener un entorno interactivo para explorar y recibir comentarios inmediatos. IPython proporciona un REPL interactivo que también le permite integrar una amplia variedad de marcos (incluido R) en sus programas de Python.
ESTADÍSTICA
Los científicos de datos son mejores en ingeniería de software que los estadísticos y mejores en estadística que cualquier ingeniero de software. Como tal, la inferencia estadística sustenta gran parte de la teoría detrás del análisis de datos y una base sólida de métodos estadísticos y probabilidad sirve como un trampolín en el mundo de la ciencia de datos.
Cursos
edX: Introducción a la estadística: Estadística descriptiva: Un curso básico de estadística introductoria.
Coursera Statistics, Making Sense of Data: un curso de estadística aplicada que enseña la línea completa de análisis estadístico
MIT: Pensamiento estadístico y análisis de datos: Introducción a la probabilidad, muestreo, regresión, distribuciones comunes e inferencia.
Si bien R es el estándar de facto para realizar análisis estadísticos, tiene una curva de aprendizaje bastante alta y hay otras áreas de la ciencia de datos para las que no es muy adecuado. Para evitar aprender un nuevo idioma para un dominio de problema específico, recomendamos intentar realizar los ejercicios de estos cursos con Python y sus numerosas bibliotecas estadísticas. Encontrará que gran parte de la funcionalidad de R se puede replicar con NumPy, @SciPy, @Matplotlib y @Python Data Analysis Library
Libros
Los libros bien escritos pueden ser una gran referencia (y complemento) para estos cursos, y también proporcionan una experiencia de aprendizaje más independiente. Estos pueden ser útiles si ya tiene algún conocimiento del tema o simplemente necesita llenar algunos vacíos en su comprensión:
O’Reilly Think Stats: una introducción a la probabilidad y las estadísticas para programadores de Python
Introducción a la probabilidad: Libro de texto para la clase Stats 134 de Berkeley, un tratamiento introductorio de probabilidad con ejercicios complementarios.
Notas de clase de Berkeley, Introducción a la probabilidad: notas de clase compiladas del libro de texto anterior, completadas con ejercicios.
OpenIntro: Estadísticas: libro de texto introductorio con ejercicios y laboratorios complementarios en un portal en línea.
Think Bayes: una introducción simple a las estadísticas bayesianas con ejemplos de código Python.
APRENDIZAJE DE MÁQUINAS / ALGORITMOS
Una base sólida de informática y algoritmos es esencial para un aspirante a científico de datos. Afortunadamente, hay una gran cantidad de excelentes recursos en línea, y el aprendizaje automático es una de las habilidades más lucrativas (y avanzadas) de un científico de datos.
Cursos
Coursera Machine Learning: el famoso curso de aprendizaje automático de Stanford impartido por Andrew Ng.
Coursera: Métodos computacionales para el análisis de datos: Métodos estadísticos y análisis de datos aplicados a las ciencias físicas, de ingeniería y biológicas.
MIT Data Mining: una introducción a las técnicas de minería de datos y cómo aplicar algoritmos de ML para obtener información.
Edx: Introducción a la Inteligencia Artificial: Introducción a la Inteligencia Artificial: La primera mitad del popular curso de IA de Berkeley que te enseña a construir agentes autónomos para tomar decisiones de manera eficiente en entornos estocásticos y adversos.
Introducción a la informática y la programación: curso introductorio del MIT a la teoría y la aplicación de la informática.
Libros
UCI: un primer encuentro con el aprendizaje automático: una introducción a los conceptos de aprendizaje automático centrados en la intuición y la explicación de por qué funcionan.
Una guía del programador para la minería de datos: un libro basado en la web completo con ejemplos de código (en Python) y ejercicios.
Estructuras de datos y algoritmos con patrones de diseño orientados a objetos en Python: una introducción a la informática con ejemplos de código en Python: cubre el análisis de algoritmos, estructuras de datos, algoritmos de clasificación y diseño orientado a objetos.
Introducción a la minería de datos: una guía interactiva del árbol de decisiones (con conferencias hipervinculadas) para aprender minería de datos y aprendizaje automático.
Elementos del aprendizaje estadístico: uno de los tratamientos más completos de minería de datos y ML, a menudo utilizado como libro de texto universitario.
Stanford: Introducción a la recuperación de información: Libro de texto de un curso de Stanford sobre PNL y recuperación de información con secciones sobre clasificación de texto, agrupación, indexación y rastreo web.
INGESTIÓN Y LIMPIEZA DE DATOS
Uno de los aspectos menos apreciados de la ciencia de datos es la limpieza y el munging de datos que a menudo representa el sumidero de tiempo más significativo durante el análisis. Si bien nunca hay una bala de plata para tal problema, conocer las herramientas, técnicas y enfoques correctos puede ayudar a minimizar el tiempo dedicado a discutir los datos.
Cursos
Escuela de datos: una introducción suave a la limpieza de datos: un enfoque práctico para aprender a limpiar datos, con muchos ejercicios y recursos web.
Tutoriales
Análisis predictivo: preparación de datos: una introducción a los conceptos y técnicas de muestreo de datos, teniendo en cuenta los valores erróneos y manipulando los datos para transformarlos en formatos aceptables.
Herramientas
OpenRefine (anteriormente Google Refine): una herramienta poderosa para trabajar con datos desordenados, limpiarlos, transformarlos, extenderlos con servicios web y vincularlos a bases de datos. Piensa en Excel con esteroides.
Data Wrangler: proyecto de investigación de Stanford que proporciona una herramienta interactiva para la limpieza y transformación de datos.
sed – una Introducción y Tutorial: “El último editor de flujo”, utilizado para procesar archivos con expresiones regulares que a menudo se utilizan para la sustitución.
awk – Introducción y tutorial: “Otra piedra angular de la programación de shell de UNIX” – utilizada para procesar filas y columnas de información.
VISUALIZACIÓN
El análisis de datos más perspicaz es inútil a menos que pueda comunicar sus resultados de manera efectiva. El arte de la visualización tiene una larga historia, y aunque es uno de los aspectos más cualitativos de la ciencia de datos, sus métodos y herramientas están bien documentados.
Cursos
Visualización de UC Berkeley: clase de posgrado sobre técnicas y algoritmos para crear visualizaciones efectivas.
Visualización de datos de la Universidad de Rice: un tratamiento de visualización de datos y cómo presentar información de manera significativa desde la perspectiva de la estadística.
Introducción a la informática, modelado y visualización de la Universidad de Harvard: conecta los conceptos de informática con datos al proceso de visualización interactiva de resultados.
Libros
Tufte: la pantalla visual de información cuantitativa: no disponible gratuitamente, pero quizás el texto más influyente para el tema de la visualización de datos. Un clásico que definió el campo.
Tutoriales
Escuela de datos: de los datos a los diagramas: una introducción suave para trazar y trazar datos, con ejercicios.
Análisis predictivo: descripción general y visualización de datos: una introducción al proceso de modelado predictivo y un tratamiento de la visualización de sus resultados.
Herramientas
D3.js: Documentos basados en datos: manipulación declarativa de elementos DOM con funciones dependientes de datos (con puerto Python).
Vega: una gramática de visualización construida sobre D3 para visualizaciones declarativas en JSON. Lanzado por el equipo de ensueño en Trifacta, proporciona una abstracción de nivel más alto que D3 para crear gráficos basados en SVG.
Rickshaw: una biblioteca de gráficos construida sobre D3 con un enfoque en gráficos de series de tiempo interactivas.
Mapas modestos: una biblioteca liviana con una interfaz simple para trabajar con mapas en el navegador (con puertos a varios idiomas).
Chart.js: Biblioteca de trazado basada en HTML5 “muy simple (solo seis gráficos) con un hermoso estilo y animación.
COMPUTACION A ESCALA
Cuando comienza a operar con datos a escala de la web (o superior), el enfoque fundamental y el proceso de análisis deben cambiar. Para combatir la cantidad cada vez mayor de datos, Google desarrolló el paradigma MapReduce. Este modelo de programación se ha convertido en el estándar de facto para el procesamiento por lotes a gran escala desde el lanzamiento de Apache Hadoop en 2007, el marco de MapReduce de código abierto.
Cursos
UC Berkeley: Análisis de Big Data con Twitter: un curso, impartido en estrecha colaboración con Twitter, que se centra en las herramientas y algoritmos para el análisis de datos aplicados a los datos de microblog de Twitter (con un plan de estudios basado en proyectos).
Coursera: Web Intelligence y Big Data: una introducción al manejo de grandes cantidades de datos de la web; cómo las herramientas y técnicas para adquirir, manipular, consultar y analizar datos cambian a escala.
CMU: Aprendizaje automático con grandes conjuntos de datos: un curso sobre algoritmos de escalamiento de aprendizaje automático en Hadoop para manejar conjuntos de datos masivos.
U de Chicago: Aprendizaje a gran escala: un tratamiento para manejar grandes conjuntos de datos a través de la reducción de dimensionalidad, clasificación, parametrización de características y estructuras de datos eficientes.
UC Berkeley: Machine Learning escalable: una amplia introducción a los sistemas, algoritmos, modelos y optimizaciones necesarios a escala.
Libros
Conjuntos de datos masivos de minería: recursos del curso de Stanford sobre aprendizaje automático a gran escala y MapReduce con el libro adjunto.
Procesamiento de texto intensivo en datos con MapReduce: una introducción a los algoritmos para la indexación y el procesamiento de texto que le enseña a “pensar en MapReduce”.
Hadoop: la guía definitiva: el tratamiento más completo del marco Hadoop, un gran tutorial y referencia por igual.
Programming Pig: una introducción al marco de Pig para programar flujos de datos en Hadoop.
PONIENDOLO TODO JUNTO
Data Science es un campo inherentemente multidisciplinario que requiere una gran cantidad de habilidades para ser un profesional competente. El plan de estudios necesario no se ajusta a las ofertas de cursos tradicionales, pero a medida que crece la conciencia de la necesidad de personas con tales habilidades, estamos viendo que universidades y empresas privadas crean clases personalizadas.
Cursos
UC Berkeley: Introducción a la ciencia de datos: un curso impartido por Jeff Hammerbacher y Mike Franklin que destaca cada una de las variadas habilidades con las que un científico de datos debe ser competente.
Cómo procesar, analizar y visualizar datos: un curso orientado al laboratorio que le enseña todo el proceso de ciencia de datos; desde la adquisición de conjuntos de datos y su análisis a escala hasta la visualización efectiva de los resultados.
Coursera: Introducción a la ciencia de datos: un recorrido por las técnicas básicas para la ciencia de datos, incluidas las bases de datos SQL y NoSQL, MapReduce en Hadoop, algoritmos ML y visualización de datos.
Columbia: Introducción a la ciencia de datos: un curso muy completo que cubre todos los aspectos de la ciencia de datos, con un tratamiento humanista del campo.
Columbia: ciencia de datos aplicada (con libro): otro curso de Columbia: enseña los fundamentos del desarrollo de software aplicado utilizando datos reales, dirigidos a personas con antecedentes matemáticos.
Coursera: Análisis de datos (con notas y conferencias): un curso de estadística aplicada que cubre algoritmos y técnicas para analizar datos e interpretar los resultados para comunicar sus hallazgos.
Libros
Introducción a la ciencia de datos: el libro de texto complementario del curso insignia de la Universidad de Syracuse para su nuevo programa de ciencia de datos.
Tutoriales
Kaggle: Comenzando con Python para la ciencia de datos: una visita guiada para configurar un entorno de desarrollo, una introducción para hacer su primera presentación de competencia y validar sus resultados.
CONCLUSIÓN
La ciencia de datos es un campo infinitamente complejo y acabamos de arañar la superficie aquí. Si desea ensuciarse las manos y ganar experiencia trabajando con estas herramientas en un entorno colaborativo, consulte nuestras opciones en http://zipfianacademy.com.
También está invitado a conectarse con nosotros en Twitter @zipfianacademy y háganos saber si desea obtener más información sobre alguno de estos temas.