¿Cómo puedo convertirme en un científico de datos?

Estrictamente hablando, no existe la “ciencia de datos” (ver ¿Qué es la ciencia de datos?). Ver también: Vardi, Science tiene solo dos patas: http://portal.acm.org/ft_gateway…

Aquí hay algunos recursos que he recopilado sobre el trabajo con datos, espero que les sean útiles (nota: soy un estudiante universitario, esta no es una opinión experta de ninguna manera).

1) Aprenda sobre factorizaciones matriciales

Cómo motivarme a dejar mi trabajo decente para arrancar mi propio negocio
Tengo 1 año de experiencia en desarrollo Java. ¿Cómo debo preparar la estructura de datos y el algoritmo para obtener un buen trabajo?
Suponiendo que obtengo un puesto de trabajo en el Líbano, a los 16 años, para enseñarles inglés a los niños de mi misma edad (soy hablante nativo), ¿qué puede aconsejarme un maestro? Quiero ser tomado en serio, y no ser visto como un "compañero" sino como un maestro. ¿Debo ocultar mi edad?
¿Cómo es ser programador? ¿Es un trabajo que podrías ver haciendo por el resto de tu vida?
¿Los trabajos de programación se trasladan al extranjero?

Tome el curso de álgebra lineal computacional (a veces se llama álgebra lineal aplicada o computaciones matriciales o análisis numérico o análisis matricial y puede ser un curso de CS o matemática aplicada). Los algoritmos de descomposición matricial son fundamentales para muchas aplicaciones de minería de datos y generalmente están subrepresentados en un plan de estudios estándar de “aprendizaje automático”. Con TBs de datos, las herramientas tradicionales como Matlab dejan de ser adecuadas para el trabajo, no puede simplemente ejecutar eig () en Big Data. Los paquetes de computación matricial distribuida como los incluidos en Apache Mahout [1] están tratando de llenar este vacío, pero debe comprender cómo funcionan los algoritmos numéricos / rutinas LAPACK / BLAS [2] [3] [4] [5] para poder úselos adecuadamente, ajústelos para casos especiales, construya los suyos propios y escale hasta terabytes de datos en un grupo de máquinas comerciales. [6] Por lo general, los cursos numéricos se basan en álgebra y cálculo de pregrado, por lo que debe ser bueno con los requisitos previos. Recomendaría estos recursos para auto estudio / material de referencia:
Ver Jack Dongarra: Cursos y ¿Cuáles son algunos buenos recursos para aprender sobre análisis numérico?

2) Aprenda sobre computación distribuida

Es importante aprender cómo trabajar con un clúster de Linux y cómo diseñar algoritmos distribuidos escalables si desea trabajar con grandes datos (¿Por qué la obsesión actual con los grandes datos, cuando generalmente son más grandes los datos, se hace más difícil incluso? análisis básico y procesamiento?).
Crays y máquinas de conexión del pasado ahora se pueden reemplazar con granjas de instancias de nube baratas, los costos de computación se redujeron a menos de $ 1.80 / GFlop en 2011 frente a $ 15M en 1984: http://en.wikipedia.org/wiki/FLOPS .
Si desea aprovechar al máximo su hardware (alquilado), también es cada vez más importante poder utilizar toda la potencia del multinúcleo (consulte http://en.wikipedia.org/wiki/Moo…)
Nota: este tema no forma parte de una pista estándar de Machine Learning, pero probablemente pueda encontrar cursos como Sistemas distribuidos o Programación paralela en su catálogo CS / EE. Vea los recursos informáticos distribuidos, un curso de sistemas en UIUC, trabajos clave y para empezar: Introducción a las redes informáticas.
Después de estudiar los conceptos básicos de las redes y los sistemas distribuidos, me enfocaría en las bases de datos distribuidas, que pronto se volverán omnipresentes con el diluvio de datos y alcanzarán los límites de la escala vertical. Vea trabajos clave, tendencias de investigación y para empezar: Introducción a las bases de datos relacionales e Introducción a las bases de datos distribuidas (HBase en acción).

3) Aprenda sobre análisis estadístico

Comience a aprender estadísticas codificando con R: ¿Cuáles son las referencias esenciales para R? y experimentar con datos del mundo real: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
Cosma Shalizi compiló algunos materiales excelentes sobre estadísticas computacionales, revisó sus diapositivas de conferencias y también ¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?
Descubrí que aprender estadísticas en un dominio particular (por ejemplo, procesamiento del lenguaje natural) es mucho más divertido que tomar Stats 101. Mi recomendación personal es el curso de Michael Collins en Columbia (también disponible en Coursera).
También puede elegir un campo donde el uso de estadísticas cuantitativas y principios de causalidad [7] es inevitable, por ejemplo, biología molecular [8], o un subcampo divertido como la investigación del cáncer [9], o incluso un dominio más estrecho, por ejemplo, análisis genético de angiogénesis tumoral [10] y trata de responder preguntas importantes en ese campo en particular, aprendiendo lo que necesitas en el proceso.

4) Aprenda sobre la optimización

Este tema es esencialmente un prerrequisito para comprender muchos algoritmos de aprendizaje automático y procesamiento de señales, además de ser importante por derecho propio.
Comience con las conferencias en video de Stephen P. Boyd y también ¿Cuáles son algunos buenos recursos para aprender sobre la optimización?

5) Aprenda sobre el aprendizaje automático

Antes de pensar en algoritmos, observe cuidadosamente los datos y seleccione las características que lo ayudan a filtrar la señal del ruido. Vea esta charla de Jeremy Howard: en Kaggle, es una desventaja saber demasiado
Consulte también ¿Cómo aprendo el aprendizaje automático? y ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?
Estadísticas vs aprendizaje automático, lucha !: http://brenocon.com/blog/2008/12…
Puede estructurar su programa de estudios de acuerdo con los catálogos de cursos en línea.
y planes de estudio de MIT, Stanford u otras escuelas superiores. Experimentar con
muchos datos, piratear algún código, hacer preguntas, hablar con buenas personas, configurar un rastreador web en su garaje: la anatomía de un motor de búsqueda
Puede unirse a una de estas nuevas empresas y aprender haciendo: ¿Qué nuevas empresas están contratando ingenieros con fortalezas en aprendizaje automático / PNL?
La opción alternativa (y bastante cara) es inscribirse en un CS
programa / pista de Machine Learning si prefieres estudiar en un curso formal
ajuste. Ver: ¿Qué hace que valga la pena un Máster en Informática (MS CS) y por qué?
Intenta evitar la especialización excesiva. El enfoque de amplitud a menudo funciona mejor cuando se aprende un nuevo campo y se enfrentan problemas difíciles, vea el Segundo viaje del HMS Beagle sobre las aventuras de un ingenioso joven minero de datos.

6) Aprenda sobre la recuperación de información

El aprendizaje automático no es tan genial como parece: http://teddziuba.com/2008/05/mac…
¿Cuáles son algunos buenos recursos para comenzar el entrenamiento de Recuperación de información y por qué se prefieren estos sobre otros?

7) Aprenda sobre la detección y estimación de señales

Este es un tema clásico y “ciencia de datos” por excelencia en mi opinión.
Algunos de estos métodos se utilizaron para guiar la misión Apolo o detectar
submarinos enemigos y todavía están en uso activo en muchos campos. Esto es
a menudo parte del plan de estudios de EE.
Buenas referencias son las diapositivas de la conferencia de Robert F. Stengel sobre control y estimación óptimos: Página de inicio de Rob Stengel, Señales y sistemas de Alan V. Oppenheim. y ¿Cuáles son algunos buenos recursos para aprender sobre la estimación y detección de señales? Un buen tema para enfocarse primero es el filtro de Kalman, ampliamente utilizado para el pronóstico de series temporales.
Hablando de datos, es probable que desee saber algo sobre la información: su transmisión, compresión y filtrado de la señal del ruido. Los métodos desarrollados por los ingenieros de comunicación en los años 60 (como el decodificador Viterbi, que ahora se usa en aproximadamente mil millones de teléfonos celulares, o la wavelet de Gabor ampliamente utilizada en el reconocimiento de Iris) son aplicables a una sorprendente variedad de tareas de análisis de datos, desde la traducción automática estadística hasta la comprensión del organización y función de redes moleculares. Un buen recurso para empezar es la teoría de la información y la comunicación confiable: Robert G. Gallager: 9780471290483: Amazon.com: Libros. Además, ¿cuáles son algunos buenos recursos para aprender sobre la teoría de la información?

8) algoritmos maestros y estructuras de datos

¿Cuáles son los recursos más fáciles de aprender para aprender sobre algoritmos?

9) práctica

Ponerse en forma para el deporte de la ciencia de datos
Carpintería: http://software-carpentry.org/
¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
Herramientas: ¿Cuáles son algunas de las mejores herramientas de análisis de datos?
¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Si decides ir a una maestría:

10) estudiar ingeniería

Iría por CS con un enfoque en IR o Machine Learning o una combinación de ambos y tomaría algunos cursos de sistemas en el camino. Como “científico de datos”, tendrá que escribir una tonelada de código y probablemente desarrollar algoritmos / sistemas distribuidos para procesar cantidades masivas de datos. MS in Statistics le enseñará cómo hacer modelos y análisis de regresión, etc., no cómo construir sistemas, creo que estos últimos se necesitan con más urgencia en la actualidad, ya que las herramientas antiguas se vuelven obsoletas con la avalancha de datos. Hay una escasez de ingenieros que puedan construir un sistema de minería de datos desde cero. Puede recoger estadísticas de libros y experimentos con R (consulte el punto 3 anterior) o tomar algunas clases de estadísticas como parte de sus estudios de CS.

Buena suerte.

[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric…
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma…
[7] Amazon.com: Causalidad: modelos, razonamiento e inferencia (9780521895606): Judea Pearl: Libros
[8] Introducción a la biología, video conferencias MIT 7.012
[9] Hanahan y Weinberg, The Hallmarks of Cancer, Next Generation: Page on Wisc
[10] La organización caótica de la vasculatura asociada a tumores, de The Biology of Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books, p. 562

Análisis de datosciencia de datosCientíficoscientíficos de datosEmpleos y carrerasEmpleos y carreras en Análisis de datosEmpleos y carreras en Ciencia de datosOrientación laboral

¿Cuáles son algunos trabajos a tiempo parcial relacionados con el marketing?

Cómo conseguir trabajos de PMP para una industria que no es de TI en India

Cómo acercarse a las empresas para los negocios

¿Cuáles son algunos trabajos no relacionados con STEM disponibles en empresas tecnológicas como Facebook y Google?

¿Cuáles son las mejores empresas de desarrollo de software en Oriente Medio?

Cómo convertirse en un representante de ventas

Aquí hay algunos recursos sorprendentes y completamente gratuitos en línea que puede usar para aprender ciencia de datos.

¡Además de esta página, recomendaría las preguntas frecuentes oficiales de Quora Data Science como su guía completa para la ciencia de datos! Incluye recursos similares a este, así como consejos sobre cómo prepararse para entrevistas de ciencia de datos. ¡Además, siga el tema de Quora Data Science si aún no ha recibido actualizaciones sobre nuevas preguntas y respuestas!

Paso 1. Cumple tus prerrequisitos

Antes de comenzar, necesita Cálculo multivariable, Álgebra lineal y Python. Si su experiencia matemática depende del cálculo multivariable y el álgebra lineal, tendrá suficiente experiencia para comprender casi todas las probabilidades / estadísticas / aprendizaje automático para el trabajo.

Cálculo multivariante : ¿Cuáles son los mejores recursos para dominar el cálculo multivariable?
Álgebra lineal numérica / Álgebra lineal computacional / Álgebra matricial: Álgebra lineal, Introducción a los modelos lineales y Álgebra matricial. Evite las clases de álgebra lineal que son demasiado teóricas, necesita una clase de álgebra lineal que funcione con matrices reales.

El cálculo multivariado es útil para algunas partes del aprendizaje automático y mucha probabilidad. El álgebra lineal / matricial es absolutamente necesario para muchos conceptos en el aprendizaje automático.

También necesita algunos antecedentes de programación para comenzar, preferiblemente en Python. La mayoría de las otras cosas en esta guía se pueden aprender en el trabajo (como bosques aleatorios, pandas, pruebas A / B), ¡pero no puede escapar sin saber cómo programar!

Python es el lenguaje más importante que debe aprender un científico de datos. Para aprender a codificar, más sobre Python y por qué Python es tan importante, consulte

¿Cómo aprendo a codificar?
¿Cómo aprendo Python?
¿Por qué Python es un lenguaje de elección para los científicos de datos?
¿Es Python el lenguaje de programación más importante para aprender para los aspirantes a científicos de datos y mineros de datos?

R es el segundo lenguaje más importante que debe aprender un científico de datos. Lo digo como alguien con experiencia en estadísticas y que cursó estudios de pregrado principalmente solo con R. Mientras que R es poderoso para tareas estadísticas dedicadas, Python es más versátil ya que lo conectará más con el trabajo a nivel de producción.

Si actualmente estás en la escuela, toma clases de estadística e informática . Echa un vistazo a ¿Qué clases debo tomar si quiero ser un científico de datos?

Paso 2. Conéctate a la comunidad

¡Mira Meetup para encontrar algunos que te interesen! Asista a una charla interesante, aprenda sobre ciencia de datos en vivo y conozca científicos de datos y otros científicos de datos aspiracionales. Comience a leer blogs de ciencia de datos y siga a científicos de datos influyentes:

¿Cuáles son los mejores blogs perspicaces sobre datos, incluida la forma en que las empresas usan los datos?
¿Cuál es su fuente de aprendizaje automático y noticias de ciencia de datos? ¿Por qué?
¿Cuáles son algunas de las mejores cuentas de ciencia de datos para seguir en Twitter, Facebook, G + y LinkedIn?
¿Cuáles son las mejores cuentas de Twitter sobre datos?

Paso 3. Configura y aprende a usar tus herramientas

Pitón

Instalar Python, iPython y bibliotecas relacionadas (guía)
¿Cómo aprendo Python?

Instale R y RStudio (es bueno saber tanto Python como R)
Aprende R con remolino

Texto sublime

Instalar texto sublime
¿Cuál es la mejor manera de aprender a usar Sublime Text?

SQL

¿Cómo aprendo SQL? ¿Cuáles son algunos buenos recursos en línea, como sitios web, blogs o videos? (Puedes practicarlo usando el paquete sqlite en Python)

Paso 4. Aprender probabilidad y estadística

Asegúrese de realizar un curso que implique una gran aplicación en R o Python. Conocer la probabilidad y las estadísticas solo será realmente útil si puede implementar lo que aprende.

Aplicación Python: Think Stats (pdf gratuito) (enfoque de Python)
Aplicaciones R: Introducción al aprendizaje estadístico (pdf gratuito) (MOOC) (enfoque R)
Imprima una copia de Probability Cheatsheet

Paso 5. Completa el curso de ciencia de datos de Harvard

A partir del otoño de 2015, el curso se encuentra actualmente en su tercer año y se esfuerza por ser lo más aplicable y útil posible para los estudiantes que estén interesados en convertirse en científicos de datos. Un ejemplo de cómo está sucediendo esto es la introducción de Spark y SQL a partir de este año.

Recomiendo hacer los laboratorios y las conferencias de 2015 y las tareas de 2013 (las tareas de 2015 no están disponibles para el público, y las tareas de 2014 están escritas bajo un instructor diferente al de los instructores originales).

Este curso es desarrollado en parte por un compañero usuario de Quora, el profesor Joe Blitzstein. ¡Aquí están todos los materiales!

Introducción a la clase

¿Cómo es diseñar una clase de ciencia de datos? En particular, ¿cómo fue diseñar la nueva clase de ciencia de datos de Harvard, impartida por los profesores Joe Blitzstein y Hanspeter Pfister?
¿Cómo es tomar CS 109 / Statistics 121 (Data Science) en Harvard?

Materiales del curso

Página principal de la clase: CS109 Data Science
Conferencias, diapositivas y laboratorios: material de clase

Asignaciones

Introducción a Python, Numpy, Matplotlib (Tarea 0) (Soluciones)
Agregación de encuestas, raspado web, trazado, evaluación de modelos y pronósticos (tarea 1) (soluciones)
Predicción, manipulación y evaluación de datos (Tarea 2) (Soluciones)
Modelado predictivo, calibración de modelos, análisis de sentimientos (tarea 3) (soluciones)
Motores de recomendación, utilizando Mapreduce (tarea 4) (soluciones)
Visualización y análisis de redes (Tarea 5) (Soluciones)

Laboratorios

(estos son los laboratorios de 2013. Para los laboratorios de 2015, consulte Material de clase)

Laboratorio 2: raspado web
Laboratorio 3: EDA, Pandas, Matplotlib
Laboratorio 4: Scikit-Learn, Regresión, PCA
Laboratorio 5: Sesgo, varianza, validación cruzada
Laboratorio 6: Bayes, regresión lineal y muestreo de metrópolis
Laboratorio 7: muestreo de Gibbs
Laboratorio 8: MapReduce
Laboratorio 9: Redes
Laboratorio 10: Máquinas de vectores de soporte

Paso 6. Realiza todas las competiciones de iniciación y juegos de Kaggle

NO recomendaría hacer ninguno de los concursos de premios en dinero. Por lo general, tienen conjuntos de datos que son demasiado grandes, complicados o molestos, y no son buenos para el aprendizaje. Las competiciones están disponibles en Competiciones | Kaggle

Comienza aprendiendo scikit-learn, jugando, leyendo tutoriales y foros sobre las competencias que estás haciendo. A continuación, juegue un poco más y consulte los tutoriales para Titanic: Machine Learning from Disaster para una tarea de clasificación binaria (con variables categóricas, valores faltantes, etc.)

Luego, intente una clasificación de varias clases con Predicción de tipo de cobertura forestal. Ahora, intente una tarea de regresión Precios de la vivienda: técnicas de regresión avanzadas. Pruebe el procesamiento del lenguaje natural con los pares de preguntas de Quora | Kaggle Finalmente, ¡prueba cualquiera de las otras competencias basadas en conocimiento que te interesan!

Paso 7. Aprenda algunas asignaturas optativas de ciencia de datos

La ciencia de datos es un campo increíblemente grande e interdisciplinario, y diferentes trabajos requerirán diferentes habilidades. Estos son algunos de los más comunes:

Las métricas de productos le enseñarán qué rastrean las empresas, qué métricas consideran importantes y cómo las empresas miden su éxito: las 27 métricas en el Panel de control de crecimiento interno de Pinterest
Machine Learning ¿Cómo aprendo machine learning? Esta es un área extremadamente rica con enormes cantidades de potencial, y probablemente el área “más sexy” de la ciencia de datos en la actualidad. El curso de aprendizaje automático de Andrew Ng en Coursera es uno de los MOOC más populares, ¡y una excelente manera de comenzar! MOOC de aprendizaje automático de Andrew Ng
Las pruebas A / B son increíblemente importantes para ayudar a informar las decisiones de productos para aplicaciones de consumo. Obtenga más información sobre las pruebas A / B aquí: ¿Cómo aprendo sobre las pruebas A / B?
Visualización : recomendaría elegir ggplot2 en R para crear gráficos simples pero hermosos y simplemente explorar DataIsBeautiful • / r / dataisbeautiful y FlowingData para obtener ideas e inspiración.
Comportamiento del usuario: este conjunto de publicaciones de blogs parece útil e interesante. Esto explica todo “Comportamiento del usuario
Ingeniería de funciones: consulte ¿Cuáles son algunas de las mejores prácticas en Ingeniería de funciones? y este gran ejemplo: http://nbviewer.ipython.org/gith …
Tecnologías de Big Data : son herramientas y marcos desarrollados específicamente para manejar grandes cantidades de datos. ¿Cómo aprendo tecnologías de big data?
La optimización lo ayudará a comprender las estadísticas y el aprendizaje automático: optimización convexa – Boyd y Vandenberghe
Procesamiento del lenguaje natural : esta es la práctica de convertir datos de texto en datos numéricos mientras se conserva el “significado”. Aprender esto le permitirá analizar nuevas y emocionantes formas de datos. ¿Cómo aprendo el procesamiento del lenguaje natural (PNL)?
Análisis de series de tiempo – ¿Cómo aprendo sobre el análisis de series de tiempo?

Paso 8. Hacer un producto Capstone / Proyecto paralelo

Use sus nuevas habilidades de ciencia de datos e ingeniería de software para crear algo que haga que otras personas digan ¡guau! ¡Esto puede ser un sitio web, una nueva forma de ver un conjunto de datos, una visualización genial o cualquier cosa!

¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
¿Cómo puedo comenzar a construir un motor de recomendación? ¿Dónde puedo encontrar un conjunto de datos interesante? ¿Con qué herramientas / tecnologías / algoritmos es mejor construir el motor? ¿Cómo verifico la efectividad de las recomendaciones?
¿Cuáles son algunas ideas para un proyecto Python rápido de fin de semana? Estoy buscando ganar algo de experiencia.
¿Cuál es una buena medida de la influencia de un usuario de Twitter?
¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
¿Cuáles son algunos buenos algoritmos para una bandeja de entrada priorizada?
¿Cuáles son algunos buenos proyectos de ciencia de datos?

¡Cree repositorios públicos de github, cree un blog y publique su trabajo, proyectos paralelos, soluciones de Kaggle, ideas y pensamientos! Esto le ayuda a ganar visibilidad, crear una cartera para su currículum y conectarse con otras personas que trabajan en las mismas tareas.

Paso 9. Obtenga una pasantía o trabajo en ciencia de datos

¿Cómo me preparo para una entrevista con un científico de datos?
¿Cómo debo prepararme para las preguntas de estadísticas para una entrevista de ciencia de datos?
¿Qué tipo de preguntas de prueba A / B debo esperar en una entrevista con un científico de datos y cómo debo prepararme para esas preguntas?
¿Qué empresas tienen pasantías en ciencia de datos para estudiantes universitarios?
¿Cuáles son algunos consejos para elegir si deseo solicitar una pasantía de Data Science o Software Engineering?
¿Cuándo es el mejor momento para solicitar pasantías de verano de ciencia de datos?

¡Consulte las Preguntas frecuentes oficiales sobre ciencia de datos de Quora para obtener más información sobre pasantías, trabajos y procesos de entrevistas de ciencia de datos! Las preguntas frecuentes sobre ciencia de datos también enlazan con versiones más específicas de esta pregunta, como ¿Cómo me convierto en un científico de datos sin un doctorado? o la contraparte, ¿cómo me convierto en un científico de datos como estudiante de doctorado?

Paso 10. Comparta su sabiduría con la comunidad de ciencia de datos

Si has llegado hasta aquí, ¡felicidades por convertirte en un científico de datos! Te animo a que compartas tus conocimientos y lo que has aprendido con la comunidad de ciencia de datos. ¡La ciencia de datos como un campo incipiente depende del intercambio de conocimientos!

Piensa como un científico de datos

Además de los pasos concretos que enumeré anteriormente para desarrollar el conjunto de habilidades de un científico de datos, incluyo siete desafíos a continuación para que pueda aprender a pensar como un científico de datos y desarrollar la actitud correcta para convertirse en uno.

(1) Satisface tu curiosidad a través de los datos

Como científico de datos, usted escribe sus propias preguntas y respuestas. Los científicos de datos son naturalmente curiosos acerca de los datos que están viendo, y son creativos con las formas de abordar y resolver cualquier problema que deba resolverse.

Gran parte de la ciencia de datos no es el análisis en sí, sino descubrir una pregunta interesante y descubrir cómo responderla.

Aquí hay dos grandes ejemplos:

Hilary: el nombre de bebé más envenenado en la historia de los EE. UU.
Una mirada a los datos de respuesta al fuego

Desafío : ¡piense en un problema o tema que le interese y responda con datos!

(2) Lea las noticias con ojo escéptico

Gran parte de la contribución de un científico de datos (y por qué es realmente difícil reemplazar un científico de datos con una máquina), es que un científico de datos le dirá qué es importante y qué es falso. Este escepticismo persistente es saludable en todas las ciencias, y es especialmente necesario en un entorno acelerado donde es demasiado fácil dejar que un resultado espurio se malinterprete.

Puede adoptar esta mentalidad usted mismo leyendo noticias con ojo crítico. Muchos artículos de noticias tienen premisas principales inherentemente defectuosas. Prueba estos dos artículos. Ejemplos de respuestas están disponibles en los comentarios.

Más fácil: amas tu iPhone. Literalmente.

Harder: ¿Quién predijo la intervención militar de Rusia?

Desafío: haga esto todos los días cuando encuentre un artículo de noticias. Comente el artículo y señale los defectos.

(3) Ver los datos como una herramienta para mejorar los productos de consumo.

Visite un producto de Internet para el consumidor (probablemente sepa que ya no realiza pruebas A / B exhaustivas) y luego piense en su embudo principal. ¿Tienen un embudo de pago? ¿Tienen un embudo de registro? ¿Tienen un mecanismo de virilidad? ¿Tienen un embudo de compromiso?

Revise el embudo varias veces e hipotetice sobre las diferentes formas en que podría mejorar aumentar una métrica central (tasa de conversión, acciones, suscripciones, etc.). Diseñe un experimento para verificar si su cambio sugerido realmente puede cambiar la métrica central.

Reto : ¡compártelo con el correo electrónico de comentarios para el sitio de Internet del consumidor!

(4) Piensa como un bayesiano

Para pensar como un bayesiano, evite la falacia de la tasa base. Esto significa que para formar nuevas creencias debes incorporar tanto la información recién observada como la información previa formada a través de la intuición y la experiencia.

Al revisar su tablero, los números de participación de los usuarios han disminuido significativamente hoy. ¿Cuál de los siguientes es más probable?

1. Los usuarios de repente están menos comprometidos
2. Característica del sitio roto
3. La función de registro se rompió

Aunque la explicación n. ° 1 explica completamente la caída, los n. ° 2 y n. ° 3 deberían ser más probables porque tienen una probabilidad previa mucho mayor.

Estás en la alta gerencia de Tesla, y cinco de los Model S de Tesla se han incendiado en los últimos cinco meses. ¿Cuál es más probable?

1. La calidad de fabricación ha disminuido y Teslas ahora debería considerarse inseguro.
2. La seguridad no ha cambiado y los incendios en los Tesla Model S son aún más raros que sus homólogos en los automóviles a gasolina.

Si bien el n. ° 1 es una explicación fácil (y excelente para la cobertura de los medios), su anterior debe ser fuerte en el n. ° 2 debido a sus pruebas de calidad regulares. Sin embargo, aún debe buscar información que pueda actualizar sus creencias sobre el n. ° 1 frente al n. ° 2 (y aún así encontrar formas de mejorar la seguridad). Pregunta para pensar: ¿qué información debe buscar?

Desafío: identifique la última vez que cometió la Falacia de tasa base. Evite cometer la falacia de ahora en adelante.

(5) Conozca las limitaciones de sus herramientas

“El conocimiento es saber que un tomate es una fruta, la sabiduría no es ponerlo en una ensalada de frutas”. – Miles Kington

El conocimiento es saber cómo realizar una regresión lineal ordinaria, la sabiduría es darse cuenta de lo raro que se aplica limpiamente en la práctica.

El conocimiento es conocer cinco variaciones diferentes de la agrupación de K-means, la sabiduría es darse cuenta de cuán raramente se pueden agrupar los datos reales de manera limpia, y de qué manera la agrupación de K-means puede funcionar con demasiadas características.

El conocimiento es conocer una amplia gama de técnicas sofisticadas, pero la sabiduría es poder elegir la que proporcionará la mayor cantidad de impacto para la empresa en un tiempo razonable.

Puede desarrollar una amplia gama de herramientas mientras realiza sus cursos Coursera o EdX, pero su caja de herramientas no es útil hasta que sepa qué herramientas usar.

Desafío: aplique varias herramientas a un conjunto de datos real y descubra las compensaciones y limitaciones de cada herramienta. ¿Qué herramientas funcionaron mejor? ¿Puedes entender por qué?

(6) Enseñar un concepto complicado

¿Cómo distingue Richard Feynman qué conceptos entiende y qué conceptos no entiende?

Feynman fue un maestro realmente genial. Se enorgullecía de poder idear formas de explicar incluso las ideas más profundas a los estudiantes principiantes. Una vez, le dije: “Dick, explícame, para que pueda entenderlo, por qué las partículas de la mitad giran obedecen las estadísticas de Fermi-Dirac”. Evaluando a su audiencia perfectamente, Feynman dijo: “Prepararé una conferencia sobre estudiantes de primer año”. Pero regresó unos días después y dijo: “No pude hacerlo. No pude reducirlo al nivel de primer año. Eso significa que realmente no lo entendemos”. – David L. Goodstein, Conferencia perdida de Feynman: El movimiento de los planetas alrededor del sol

Lo que distinguió a Richard Feynman fue su habilidad para convertir conceptos complejos en ideas comprensibles. Del mismo modo, lo que distingue a los principales científicos de datos es su capacidad para compartir de manera convincente sus ideas y explicar sus análisis.

Consulte https://www.quora.com/Edwin-Chen … para ver ejemplos de conceptos técnicos explicados convincentemente.

Desafío: enseñe un concepto técnico a un amigo o en un foro público, como Quora o YouTube.

(7) Convencer a otros sobre lo que es importante

Quizás incluso más importante que la capacidad de un científico de datos para explicar su análisis es su capacidad para comunicar el valor y el impacto potencial de las ideas procesables.

Ciertas tareas de la ciencia de datos se comercializarán a medida que las herramientas de ciencia de datos se vuelvan cada vez mejores. Las nuevas herramientas harán que ciertas tareas queden obsoletas, como escribir paneles, disputas innecesarias de datos e incluso tipos específicos de modelos predictivos.

Sin embargo, la necesidad de que un científico de datos extraiga y comunique lo que es importante nunca quedará obsoleto. Con cantidades crecientes de datos y perspectivas potenciales, las empresas siempre necesitarán científicos de datos (o personas con funciones similares a la ciencia de datos), para clasificar todo lo que se puede hacer y priorizar las tareas en función del impacto.

El papel del científico de datos en la empresa es servir como embajador entre los datos y la empresa . El éxito de un científico de datos se mide por lo bien que él / ella puede contar una historia y tener un impacto. Cualquier otra habilidad se amplifica por esta habilidad.

Desafío: contar una historia con estadísticas. Comunicar los hallazgos importantes en un conjunto de datos. Haga una presentación convincente que le interese a su audiencia.

¡Buena suerte y los mejores deseos en tu viaje para convertirte en un científico de datos! Para obtener más recursos, consulte las Preguntas frecuentes oficiales de Quora Data Science de Quora

Shadab Shah

La perspectiva de la palabra DATOS ha cambiado drásticamente a lo largo de las décadas y más aún en los últimos años. La práctica de recopilar datos en el pasado para la mera contabilidad se ha convertido hoy en una cuestión de sabia inversión para crear una mina de oro para el futuro. Por lo tanto, todos los sectores, como el gobierno, las corporaciones y el mundo académico, están invirtiendo fuertemente para implementar sus arquitecturas de gestión de información empresarial.

La posibilidad de aprovechar los DATOS generados en el patio trasero de una empresa o en la World Wide Web, de repente ha estimulado la necesidad de un talento único. El nombre dado a ese talento va desde los más elegantes como Data Scientists / Big Data Engineer hasta los más humildes como Data Engineer / BI engineer / Data Architect hasta los de una vieja escuela como Data / Business Analyst . Actualmente, estas designaciones se usan de manera más o menos intercambiable y ambigua en la industria para el trabajo que implica fundamentalmente almacenar datos de diversas fuentes, resumirlos, informarlos durante una ventana de períodos de tiempo variados y generar ideas para evaluar esencialmente un problema o una oportunidad y construir un caso de uso a su alrededor.

La razón por la cual estas designaciones a veces son confusas a su definición de trabajo real es porque la brecha entre los equipos de Gestión de la Información y Ciencias de la Decisión se está reduciendo. A medida que las estrategias comerciales basadas en datos evolucionan gradualmente, estos roles están definiendo sus distintas responsabilidades y criterios de elegibilidad para no confundirse o superponerse con sus puntos fuertes y expectativas reales. Pero en esa lista, el papel de Data Scientist se destaca porque es un papel donde la superposición de esas fortalezas es más o menos un mandato que una consecuencia . Y debido a la rareza y la creciente demanda de este talento interdisciplinario, Harvard lo cataloga como el trabajo más sexy del siglo XXI . Hoy, cuando todo el mundo está despertando a la llamada de la fortuna basada en DATA, las empresas corporativas buscan desesperadamente este Ejército de un solo hombre llamado Data Scientist, que puede visualizar y ejecutar una estrategia de datos de extremo a extremo para resolver problemas comerciales complejos y Aproveche las oportunidades de crecimiento.

Un Científico de Datos es alguien con doble personalidad deliberada que primero puede construir un caso de negocios curioso definido con una visión telescópica y luego puede sumergirse profundamente con una lente microscópica para tamizar a través de los DATOS para alcanzar el objetivo mientras define y ejecuta todas las tareas intermitentes.

Ahora, con casi una década de pruebas con el desarrollo impulsado por “datos”, solo estoy agregando mis propios pensamientos para dar un alcance más amplio de lo que es la ciencia de datos y lo que se necesita para comenzar en el camino de convertirse en un científico de datos. Un Científico de Datos es alguien con doble personalidad deliberada que primero puede construir un caso de negocios curioso definido con una visión telescópica y luego puede sumergirse profundamente con una lente microscópica para tamizar a través de los DATOS para alcanzar el objetivo mientras define y ejecuta todas las tareas intermitentes. Cada una de esas etapas intermedias requiere el conocimiento de técnicas de herramientas y dominio que a veces puede ser muy diversificado. A continuación se enumeran algunos de esos temas más amplios que se utilizan en esas etapas y que son imprescindibles para un aspirante a científico de datos.

Técnico friki : para manejar las necesidades fundamentales de los datos digitales ( para ser almacenados, recuperados, trasladados y transformados para el consumo ), uno no puede ser “técnicamente desafiado”. El conocimiento del diseño de algoritmos , sistemas de bases de datos , sistemas distribuidos , tecnologías en la nube , recuperación de información y una sólida ventaja en lenguajes de programación optimizados para cada etapa del flujo de datos es imprescindible. Entonces, aparte del inglés, debería poder hablar al menos en Python, Java, SQL y R.
Matemáticas : cuando los datos están listos para el consumo, la capacidad de detectar algunos resúmenes y tendencias obvias es muy útil para decidir los conjuntos de datos correctos para el propósito correcto. El conocimiento de Estadística descriptiva , Teoría de la probabilidad , Álgebra y Cálculo lo ayuda rápidamente con el análisis básico de datos. El desafío a veces no es conocer las matemáticas detrás del análisis, sino interpretar los resultados que impulsan el curso de acción adicional. Por lo general, la transformación de datos da como resultado un resumen descriptivo para capturar la esencia de los datos.
Inteligencia artificial : los resúmenes y patrones identificados a partir de datos sin procesar deben correlacionarse con datos históricos para predecir el futuro con algunos niveles de confianza. Aquí es donde aparecen las complejas matemáticas de las técnicas de minería de datos y aprendizaje automático . Uno necesita ser fuerte en los algoritmos de descomposición matricial , optimización y aprendizaje automático . Aquí es donde se utiliza el resultado del análisis descriptivo para construir y probar modelos analíticos predictivos y prescriptivos.
Artista : con haberse sumergido profundamente en el océano de datos para obtener ideas significativas y procesables. Es necesario transmitir esas ideas utilizando técnicas de visualización de datos para que sea absolutamente intuitivo para los legos. Incluso sin mirar los datos, la visualización debe transmitir la esencia de lo que fue: lo que es: lo que puede ser de los datos. A veces, incluso los datos sin procesar cuando se visualizan, cuentan muchas historias para resolver casos de negocios. Aquí es donde entra en juego el destello artístico de un individuo. Es necesario estar familiarizado con bibliotecas como D3 para representar datos visualmente.
3Cs – Curiosidad, sentido común y comunicación – El papel de la ciencia de datos está fuertemente impulsado por la curiosidad . Muchas veces no hay una definición de “PROBLEMA”; Es solo la curiosidad la que saca algunas ideas sobre las oportunidades. Al mismo tiempo, la habilidad de sentirse cómodo con la ambigüedad y la capacidad de mitigarlo con curiosidad y sentido común es muy útil. El sentido común aquí puede ser impulsado por el conocimiento del dominio y la perspicacia comercial y desempeña un papel vital para el punto de partida para formular cualquier hipótesis o definición de un problema. Además, como dice el refrán, “La correlación no implica causalidad”, primero hay que entender qué se analiza, por qué se analiza y cómo se analiza. Al hacer el análisis de los datos disponibles, la comunicación con las partes interesadas es imprescindible, ya que mantiene el curso de acción en el camino correcto, ya que es muy fácil distraerse mientras se analizan los datos.

La lista anterior es solo para la evaluación comparativa de la mentalidad y ofrece una visión general de lo que uno necesita mínimamente para comenzar en la hoja de ruta central de Data Science. La lista puede ser bastante exhaustiva con detalles específicos, pero esa no es la intención de este artículo.

Publicado originalmente en mi sitio web Sapanpatel.in

Frederick T. Williams

Empecé a aprender ciencia de datos hace unos 4 años. No tenía experiencia en programación real. Esto está orientado principalmente a las personas que están en la misma posición en la que yo estaba.

Muchos consejos sobre el aprendizaje de la ciencia de datos comienzan con “primero aprender Python” o “primero tomar un curso de álgebra lineal”. Este consejo está bien, pero si lo siguiera, nunca habría aprendido ninguna ciencia de datos.

1. Aprende a amar los datos

Nadie habla nunca de motivación en el aprendizaje. La ciencia de datos es un campo amplio y difuso, lo que dificulta el aprendizaje. Realmente difícil. Sin motivación, terminarás deteniéndote a la mitad y creyendo que no puedes hacerlo, cuando la culpa no es tuya, es con la enseñanza.

Necesita algo que lo motive a seguir aprendiendo, incluso cuando es la 1 de la madrugada, las fórmulas comienzan a verse borrosas, y se pregunta si esta será la noche en que las redes neuronales finalmente tengan sentido.

Necesitas algo que te haga encontrar los vínculos entre temas como estadísticas, álgebra lineal y redes neuronales. Algo que te impedirá luchar con el “¿qué aprendo después?” pregunta.

Mi punto de entrada a la ciencia de datos fue predecir el mercado de valores, aunque no lo sabía en ese momento. Algunos de los primeros programas que codifiqué para predecir el mercado de valores casi no incluían estadísticas. Pero sabía que no estaban funcionando bien, así que trabajé día y noche para mejorarlos.

Estaba obsesionado con mejorar el rendimiento de mis programas. Estaba obsesionado con el mercado de valores. Estaba aprendiendo a amar los datos. Y debido a que estaba aprendiendo a amar los datos, estaba motivado para aprender todo lo que necesitaba para mejorar mis programas.

No todos están obsesionados con predecir el mercado de valores, lo sé. Pero es realmente importante encontrar esa cosa que te haga querer aprender.

Puede estar descubriendo cosas nuevas e interesantes sobre su ciudad, mapeando todos los dispositivos en Internet, encontrando las posiciones reales que juegan los jugadores de la NBA, o cualquier otra cosa. Lo mejor de aprender ciencia de datos es que hay infinitas cosas interesantes para trabajar: se trata de hacer preguntas y encontrar la manera de obtener respuestas.

Tome el control de su aprendizaje al adaptarlo a lo que desea hacer, no al revés.

2. Aprende haciendo

Aprender sobre redes neuronales, reconocimiento de imágenes y otras técnicas de vanguardia es importante. Pero la mayoría de la ciencia de datos no involucra nada de eso. Aquí hay algunas pautas importantes:

El 90% de su trabajo será la limpieza de datos.
Conocer algunos algoritmos realmente bien es mejor que saber un poco sobre muchos algoritmos. Si conoce muy bien la regresión lineal, la agrupación de k-medias y la regresión logística, puede explicar e interpretar sus resultados y, de hecho, puede completar un proyecto de datos de principio a fin con ellos, será mucho más útil que si conociera todos algoritmo único, pero no puedo usarlos.
La mayoría de las veces, cuando usa un algoritmo, será una versión de una biblioteca (rara vez codificará sus propias implementaciones de SVM, lleva demasiado tiempo).

Lo que todo esto significa es que la mejor manera de aprender es trabajar en proyectos. Al trabajar en proyectos, obtienes habilidades que son inmediatamente aplicables y útiles. También tiene una buena manera de crear una cartera.

Una técnica para comenzar proyectos es encontrar un conjunto de datos que le guste. Responde una pregunta interesante al respecto. Enjuague y repita.

Aquí hay algunos buenos lugares para encontrar conjuntos de datos para comenzar:

Más de 100 conjuntos de datos interesantes para estadísticas – rs.io
Archivo de conjuntos de datos • / r / conjuntos de datos

Otra técnica (y mi técnica) fue encontrar un problema profundo, predecir el mercado de valores, que aún podría dividirse en pequeños pasos implementables. Primero me conecté a la API de finanzas de Yahoo, y bajé los datos de precios diarios. Luego creé algunos indicadores, como el precio promedio en los últimos días, y los usé para predecir el futuro (nota, no hay algoritmos reales aquí, solo análisis técnico). Esto no funcionó tan bien, así que aprendí algunas estadísticas y luego usé la regresión lineal. Luego me conecté a otra API, recogí datos minuto a minuto y los almacené en una base de datos SQL. Y así sucesivamente, hasta que el algoritmo funcionó bien.

Lo bueno de esto es que tuve contexto para mi aprendizaje. No solo aprendí la sintaxis SQL, sino que la usé para almacenar datos de precios, y así aprendí 10 veces más de lo que lo hubiera hecho simplemente estudiando la sintaxis. El aprendizaje sin aplicación no se retendrá muy bien y no lo preparará para hacer un trabajo real de ciencia de datos.

3. Aprende a comunicar ideas

Los científicos de datos constantemente necesitan presentar los resultados de su análisis a otros. La habilidad para hacer esto puede ser la diferencia entre un científico de datos bueno y uno excelente.

Parte de las ideas comunicativas es comprender bien el tema y la teoría. Otra parte es entender cómo organizar claramente sus resultados. La pieza final es poder explicar su análisis claramente.

Es difícil ser bueno para comunicar conceptos complejos de manera efectiva, pero aquí hay algunas cosas que debe intentar:

Comience un blog. Publique los resultados de su análisis de datos.
Intente enseñar a sus amigos y familiares menos expertos en tecnología los conceptos de ciencia de datos. Es sorprendente la cantidad de enseñanza que puede ayudarlo a comprender los conceptos.
Intenta hablar en las reuniones.
Use github para alojar todos sus análisis.
Actívese en comunidades como Quora, DataTau y / r / machinelearning.

4. Aprende de tus compañeros

Es sorprendente cuánto puede aprender trabajando con otros. En ciencia de datos, el trabajo en equipo también puede ser muy importante en un entorno laboral.

Algunas ideas aquí:

Encuentra personas para trabajar en las reuniones.
Contribuir a los paquetes de código abierto.
Envía mensajes a las personas que escriben blogs de análisis de datos interesantes para ver si puedes colaborar.
Pruebe Kaggle y vea si puede encontrar un compañero de equipo.

5. Incremente constantemente el grado de dificultad

¿Estás completamente cómodo con el proyecto en el que estás trabajando? ¿Fue la última vez que usó un nuevo concepto hace una semana? Es hora de trabajar en algo más difícil. La ciencia de datos es una montaña empinada para escalar, y si dejas de escalar, es fácil nunca llegar.

Si te encuentras demasiado cómodo, aquí hay algunas ideas:

Trabajar con un conjunto de datos más grande. Aprende a usar la chispa.
Vea si puede hacer que su algoritmo sea más rápido.
¿Cómo escalarías tu algoritmo a múltiples procesadores? ¿Puedes hacerlo?
Intenta enseñarle a un novato a hacer lo mismo que estás haciendo ahora.

La línea de fondo

Esto es menos una hoja de ruta de exactamente qué hacer que es un conjunto aproximado de pautas a seguir a medida que aprende ciencia de datos. Si hace todas estas cosas bien, descubrirá que, naturalmente, está desarrollando experiencia en ciencia de datos.

En general, no me gusta el enfoque de “aquí hay una gran lista de cosas”, porque hace que sea extremadamente difícil decidir qué hacer a continuación. He visto a muchas personas dejar de aprender cuando se enfrentan a una lista gigante de libros de texto y MOOC.

Personalmente, creo que cualquiera puede aprender ciencia de datos si lo aborda con la mentalidad correcta.

También soy el fundador de dataquest.io, un sitio que te ayuda a aprender ciencia de datos en tu navegador. Encapsula muchas de las ideas discutidas en esta publicación para crear una mejor experiencia de aprendizaje. Aprende analizando conjuntos de datos interesantes como documentos de la CIA y estadísticas de jugadores de la NBA. No es un problema si no sabes cómo codificar: te enseñamos Python. Enseñamos Python porque es el lenguaje más amigable para los principiantes, se usa en muchos trabajos de ciencia de datos de producción y se puede usar para una variedad de aplicaciones.

Algunos recursos útiles

Mientras trabajaba en proyectos, encontré estos recursos útiles. Recuerde, los recursos por sí solos no son útiles; encuentre un contexto para ellos:

Khan Academy: buenas estadísticas básicas y contenido de álgebra lineal.

Introducción al álgebra lineal, 4ª edición – Gran libro de álgebra lineal de Gilbert Strang.
Libro de texto | Libro de texto en línea de cálculo | MIT OpenCourseWare – también de Gilbert Strang, gran libro de cálculo.
minería de datos, inferencia y predicción. 2ª edición: Elementos de aprendizaje estadístico, un buen libro de aprendizaje automático.
Clase de aprendizaje automático en línea de Andrew Ng: la clase original del curso.
OpenIntro Statistics – Buen libro de estadísticas básicas.
https://scholar.google.com : un documento puede ser una excelente manera de aprender sobre un tema. Por ejemplo, aquí está el artículo original sobre bosque aleatorio de Breiman: http://link.springer.com/article… .

Prashanth Sriram

MANERA DE ARRANQUE
Para un novato con iniciativa propia, aquí hay un esquema con el que uno puede comenzar. (esto se reproduce en mi blog: ¿Cómo adquirir el “Conjunto de habilidades esenciales”? La idea es elegir uno o dos recursos (enlaces) de cada subgrupo y aprender sobre el mismo.

0. Prerrequisitos básicos:

Matemáticas, Algoritmos y Bases de Datos: Mathispower4u-Calculus, Coursera-Linear Algebra, Coursera-Analysis of Algorithms, Coursera- Introduction to Databases
Estadísticas: probabilidad y estadística para programadores, fórmulas estadísticas para programadores, Coursera- Análisis de datos, Coursera- Statistics One
Programación: Google Developers R Programming Lectures, Introducción a R – DataCamp, Scientific Python Lectures, Cómo pensar como un informático

1. Adquirir y restregar datos:

DFS y bases de datos: Plataforma Hadoop y marco de aplicación – Coursera, Tutorial de Hadoop – Yahoo, Introducción a Hadoop y MapReduce para principiantes – Udacity, Guía completa para principiantes de MongoDB
Munging de datos: análisis predictivo: preparación de datos, análisis de datos en pandas, análisis y manipulación de datos con pandas, data wrangler, OpenRefine

2. Datos de filtro y mina:

Análisis de datos en R: ciencia de datos en R, Coursera-Computing para análisis de datos en R
Análisis de datos en Python (numpy, scipy, pandas, scikit): Introducción a Python para la ciencia de datos, Introducción a NumPy -SciPyConf 2015, Análisis estadístico de datos en Python, Pandas (1er video a continuación), SciPy 2013- Introducción a SciKit Learn Tutorial I y II (segundo y tercer video a continuación)

Análisis de datos exploratorios: análisis de datos exploratorios en R, análisis de datos exploratorios en Python, UC Berkeley: estadísticas descriptivas, comandos básicos de Unix Shell para el científico de datos
Minería de datos, aprendizaje automático:

Mapa de minería de datos, Coursera – Aprendizaje automático, Stanford – Aprendizaje estadístico, MITx: The Analytics Edge, STATS 202 Minería y análisis de datos, Aprendiendo de datos – CalTech, Coursera – Inteligencia web y Big Data

Big Data Machine Learning – AMP Camp Berkeley Spark Introducción y ejercicios, EdX- Análisis de Big Data con Apache Spark, Minería Conjuntos de datos masivos – Stanford

3. Representar y refinar datos: Tableau-Training & Tutorials, Visualización de datos en R con ggplot2 y plyr, Predictive Analytics: Overview and Data visualization, Flowing Data-Tutorials, UC Berkeley-Data Visualization, Tutorial D3.js

4. Conocimiento del dominio: esta habilidad se desarrolla a través de la experiencia trabajando en una industria. Cada conjunto de datos es diferente y viene con ciertos supuestos y conocimientos de la industria. Por ejemplo, un analista de datos especializado en datos del mercado de valores necesitaría tiempo para desarrollar el conocimiento en el análisis de datos transaccionales para restaurantes.

Combinando todo lo anterior:
Curso de alfabetización de datos – IAP
Coursera – Introducción a la ciencia de datos
Coursera – Especialización en ciencia de datos

Libros:
Elementos de aprendizaje estadístico
Python Machine Learning

Aplica el conocimiento:
Tarea del curso de ciencias de datos de Harvard
Kaggle: el hogar de la ciencia de datos
Analizando Big Data con Twitter
Análisis de datos de Twitter con Apache Hadoop

MANERA FORMAL
Para una forma más formal de convertirse en un científico de datos, puede consultar esta publicación (reproducida a continuación): ¿Cómo adquirir el “Conjunto de habilidades esenciales”? – La forma formal.
El conjunto de habilidades esenciales son las habilidades básicas básicas que se espera que cada científico de datos conozca. Tradicionalmente, estos pueden adquirirse realizando un título en informática o un título en estadística de una institución. Los cursos de Stanford Computer Science y los cursos de Estadística proporcionan una buena lista de referencia de cursos para realizar. Ahora, algunos de los cursos son relevantes, mientras que muchos otros no lo son. Por ejemplo, en informática, sería bueno aprender sobre bases de datos y algoritmos distribuidos a gran escala, pero no es necesario aprender HCI y UX, ni almacenamiento puro y sistemas operativos, redes, etc. De manera similar, algunos cursos de estadística se centran demasiado en, digamos, “estadísticas de la vieja escuela” que incluyen miles de formas de prueba de hipótesis en lugar de más sobre aprendizaje automático (agrupación, regresión, clasificación, etc.). Por lo tanto, ambos flujos tienen muchos cursos agradables y deben tener cursos para un científico de datos (me atrevo a afirmar que en la actualidad el porcentaje de cursos obligatorios parece ser mayor en un flujo de estadísticas tradicional que en un flujo de informática). Como tal, uno debe elegir los cursos sabiamente.

O, alternativamente, también se pueden ver una serie de nuevos cursos de Ciencia de Datos que algunas universidades están ofreciendo con los puntos que mencioné anteriormente. Combinan los cursos imprescindibles del programa tradicional de estadística y ciencias de la computación para impartir las 4 habilidades esenciales, así como también incluyen cursos para desarrollar las habilidades diferenciadoras en los estudiantes. La Maestría en Ciencia de Datos en NYU y la Maestría en Análisis en USF son buenos ejemplos de tal amalgama de los cursos requeridos. Aquí se presenta una lista completa de dichos cursos: universidades con títulos en ciencias de datos.

El programa correcto obviamente depende de la meta del individuo. Una de las publicaciones recientes de O’Rielly titulada ‘Analizando a los analizadores’ hace un muy buen trabajo al agregar los diversos roles de científicos de datos en 4 categorías principales según sus habilidades. Por lo tanto, un individuo puede seleccionar un programa según la categoría de científico de datos con el que más se identifica, como se muestra a continuación.

Los empresarios de datos son los científicos de datos centrados en el producto y las ganancias. Son líderes, gerentes y empresarios, pero con una inclinación técnica. Una ruta educativa común es un título de ingeniería junto con un MBA o los nuevos programas de Data Science como se mencionó anteriormente.
Data Creatives son eclécticos jacks of all-trades, capaces de trabajar con una amplia gama de datos y herramientas. Pueden pensar en sí mismos como artistas o hackers, y sobresalir en la visualización y las tecnologías de código abierto. Se espera que tengan un título de ingeniería (principalmente en estadística o economía) pero no mucho en habilidades comerciales.
Los desarrolladores de datos se centran en escribir software para realizar tareas analíticas, estadísticas y de aprendizaje automático, a menudo en entornos de producción. A menudo tienen títulos en ciencias de la computación, y a menudo trabajan con los llamados “big data”.
Los investigadores de datos aplican su capacitación científica y las herramientas y técnicas que aprendieron en la academia a los datos de la organización. Pueden tener una maestría o doctorado en estadística, economía, física, etc., y sus aplicaciones creativas de herramientas matemáticas producen valiosos conocimientos y productos.

Las habilidades asociadas con las 4 categorías principales, que justifican la recomendación del programa mencionada anteriormente, son las siguientes:

Mark Meloon

Solo podría decirte lo que hice hasta ahora y en qué tengo la intención de trabajar además para convertirme en un mejor científico de datos.

Lo que sigue es mi propio plan de estudios de ciencia de datos . Esto está dirigido a la informática con una especialización en aprendizaje automático .

Mi objetivo principal aquí es aprender sobre Matemáticas, Estadística, Informática y Aprendizaje automático , aunque no necesariamente en el mismo orden.

He categorizado los cursos aquí de dos tipos :

F – Clase fundamental
A – Especialización avanzada

MATEMÁTICAS:

(F1) Álgebra lineal por Gilbert Strang:

Una gran clase de un gran maestro. Definitivamente recomendaría esta clase a cualquiera que quiera aprender LA.

(F2) Cálculo multivariante – MIT OCW: QUE HACER

CIENCIAS DE LA COMPUTACIÓN:

(F1) CS50x: Introducción a la informática, Harvard

Esta es una clase de Introducción a la Informática tomada por David Malan. Me ayudó con muchos malentendidos y ayudó a construir la intuición en todo el patio de recreo CS. Comienza con una introducción básica a C y algunos ejercicios de programación. Termina enseñando conceptos básicos de PHP, Javascript y HTML / CSS también. Los proyectos en esta clase son realmente impresionantes. El repositorio de código github para esta clase está AQUÍ

(F2) CS101x: Introducción a la programación MITx usando Python:

El curso es una introducción a muchos de los conceptos importantes en informática.

Habla sobre algoritmos simples, tiempos asintóticos, clases, POO, árboles, excepciones, aserciones, hash y muchas otras cosas.

(F3) Algoritmos y estructuras de datos – MIT OCW: ACTUALMENTE trabajando en

(F4) RICE University: Especialización en Comp Sci Mini –

Esta es una serie de 6 cursos cortos pero buenos . Trabajé en estos cursos ya que la ciencia de datos requerirá que hagas mucha programación. Y la mejor manera de aprender programación es haciendo programación. Las conferencias son buenas, pero los problemas y las tareas son increíbles. Se compone de tres platos principales:

1> Programación interactiva en Python: el curso comienza con la enseñanza de Python, pero de repente pasa a crear interfaces gráficas de usuario y juegos usando python en codeskulptor. Creé algunos juegos muy básicos en este curso como parte del curso. Algunos de ellos son:

Adivina el número
Cronógrafo
Apestar
Memoria
Veintiuna
ArrozRocas

2> Principios de computación: este curso se agrega al curso anterior, pero aquí el enfoque se centra más en pensar programáticamente que en las GUI. Los proyectos son realmente geniales a medida que el curso avanza en la creación de juegos.

Solitario Mancala
2048
Tic Tac Toe Usando Monte Carlo
Yahtzee
Cookie Clicker
Apocalipsis zombie
Word Wrangler
Tic Tac Toe con Minimax
Quince rompecabezas

Pensamiento algorítmico 3>: este curso comienza con un enfoque en algoritmos gráficos y estructuras de datos. Los códigos se obtienen en Github

ESTADÍSTICA:

(F1) Stat 110: Introducción a la probabilidad: Joe Blitzstein – Harvard University

El condicionamiento es el alma de la estadística.

Tomé este curso para mejorar mi comprensión de las distribuciones de probabilidad y las estadísticas , pero este curso me enseñó mucho más que eso. Además de aprender a pensar condicionalmente , esto también me enseñó a explicar conceptos difíciles con una historia.

Esta fue una clase difícil pero definitivamente divertida . El enfoque no solo era obtener pruebas matemáticas, sino también comprender la intuición detrás de ellas y cómo la intuición puede ayudar a derivarlas más fácilmente. A veces, la misma prueba se realizó de diferentes maneras para facilitar el aprendizaje de un concepto.

Una de las cosas que más me gustó de este curso es el enfoque en ejemplos concretos al explicar conceptos abstractos. La inclusión de Gambler’s Ruin Problem, Matching Problem, Birthday Problem, Monty Hall, Simpsons Paradox, St. Petersberg Paradox, etc. hizo que este curso fuera mucho más emocionante que un curso normal de estadística.

Definitivamente buscaré más cursos de Joe después de esto y ya he hecho un curso más de él: CS109. Más sobre eso más tarde.

Las 10 mejores ideas cubiertas en esta clase son:

Probabilidad, condicionamiento es el alma de las estadísticas, pruebas de historias
Teorema de Bayes, Ley de probabilidad total , análisis del primer paso .
Expectativa y varianza para vehículos recreativos discretos y vehículos recreativos continuos. LOTO
Distribuciones discretas (Bernoulli, Binomial, Hipergeométrica, Geométrica, Binomial Negativa, FS, Poisson) y Continua (Uniforme, Normal, expo, Beta, Gamma) y las historias detrás de ellas.
Funciones generadoras de momentos (MGF) y sus propiedades
Distribuciones conjuntas y marginales, covarianza y correlación
Convoluciones y transformaciones
Expectativa condicional – Ley de Adán y Eva
Ley de grandes números y CLT
Cadenas de Markov

Resolver los conjuntos de problemas y las revisiones intermedias me ayudó mucho a comprender los conceptos abstractos.

(F2) Estad 111 : TODO

Utiliza Degroot y Schervish para la instrucción. No hay videos de conferencias disponibles, así que planeo leer el libro y completar los conjuntos de problemas en línea desde el sitio web de Stat111. Ojalá las conferencias estuvieran allí.

(A1) Estadísticas Bayesianas STAT 544: QUE HACER

Una serie de conferencias sobre estadísticas bayesianas de Jarad Niemi en ISU.

(A2) Procesos estocásticos discretos MIT OCW: QUE HACER

Me interesé mucho en Probability después de STAT 110, así que agregué esto aquí. Es una alternativa a uno de los próximos cursos a seguir después de STAT 110 del que habla el profesor Joe Blitzstein en el curso, aparte de STAT 111.

APRENDIZAJE AUTOMÁTICO:

(F1) MITx La ventaja analítica:

Este es un curso fantástico para aprender sobre R, así como las implementaciones de varios algoritmos de aprendizaje automático en R. Muy básico. Muy crujiente y muy informativo. Los escenarios y ejemplos van desde Moneyball a Watson. El único problema con este curso es que sus conjuntos de problemas se sienten un poco repetitivos.

Aquí está la ubicación de mi repositorio de código R para este curso

(F2) Introducción a la ciencia de datos -Universidad de Washington

Mi primera clase de ML. Me tomó un poco de tiempo comprender los conceptos, pero en retrospectiva podría ser debido a mi falta de exposición al material. Fue mi primer enfrentamiento con herramientas como R y Python. Cubre una gran cantidad de bases de R a Python a Mapreduce. Lo pondría aquí, ya que ofrece una perspectiva completa de todo el espacio de ciencia de datos.

(F3) Data Science CS109 : – De nuevo por el profesor Blitzstein. De nuevo un curso increíble. Míralo después de Stat110, ya que podrás comprender todo mucho mejor con un análisis exhaustivo de los conceptos de Stat110. Aprenderá acerca de las bibliotecas de Python para la ciencia de datos, junto con un exhaustivo análisis intuitivo para varios algoritmos de aprendizaje automático. Descripción del curso del sitio web:

Aprender de los datos para obtener predicciones y conocimientos útiles. Este curso introduce métodos para cinco facetas clave de una investigación: disputas de datos, limpieza y muestreo para obtener un conjunto de datos adecuado; gestión de datos para poder acceder a big data de manera rápida y confiable; análisis exploratorio de datos para generar hipótesis e intuición; predicción basada en métodos estadísticos como regresión y clasificación; y comunicación de resultados a través de visualización, historias y resúmenes interpretables.

(A1) CS229: Andrew Ng:

Contiene las matemáticas detrás de muchos de los algoritmos de Machine Learning. El curso de aprendizaje automático Game Changer. Pondré este curso como número uno, ya que este curso me motivó a entrar en este campo y Andrew Ng es un gran instructor.

COMPUTACIÓN DISTRIBUIDA Y PARALELA:

(A1) Introducción a Hadoop y Mapreduce – Udacity

Curso muy fácil. Enseñó los fundamentos de la transmisión de Hadoop con Python tomada por Cloudera en Udacity. Estoy haciendo cosas mucho más avanzadas con Python y Mapreduce ahora, pero este es uno de los cursos que sentó las bases allí.

(A2) BerkeleyX: Introducción a Big Data con Apache Spark y (A3) BerkeleyX: CS190.1x Aprendizaje automático escalable

Una llama poderosa sigue a una pequeña chispa.

Esta es una serie de cursos en Spark impartidos por Anthony D. Joseph, profesor de Ingeniería Eléctrica y Ciencias de la Computación en UC Berkeley y Ameet Talwalkar, un nombre bien conocido en la comunidad de Spark.

Este curso cumple con lo que dice. Enseña chispa. Los principiantes totales tendrán dificultades para seguir el curso ya que el curso progresa muy rápido. Dicho esto, cualquier persona con una comprensión decente de cómo funciona el Big Data estará bien.

Las principales ideas cubiertas en este curso son:

Transformaciones RDD (mapa, mapa plano, filtro, distinto, groupByKey, sortByKey, reduceByKey)
Acciones RDD (reducir, tomar, ordenar, tomar, recolectar)
Acumulador y Variables BroadCast
Marco de datos en pySpark
SQL en RDD emparejados: leftOuterJoin, rightOuterJoin, fullOuterJoin

Ciertamente me gustaron los Mini Proyectos en la clase:

Wordcount in Spark: un programa de conteo de palabras para contar las palabras en todas las obras de Shakespeare
Análisis del archivo de registro de Apache en Spark: use Spark para explorar el registro del servidor web Apache de la NASA
Resolución de entidad: resolución de entidad mediante enfoques TFIDF en Spark.
Recomendación de películas con ALS: predicción de clasificaciones de películas con Spark.
Regresión lineal: predicción del año de la canción mediante regresión lineal en Spark.
Regresión logística: predicción de las tasas de clics mediante Spark. Una codificación en caliente, Hashing explicado.
PCA: ejecutar PCA en datos de neurociencia

Algunos de los cursos aquí pueden parecer repetitivos, pero todos han proporcionado algún tipo de habilidades adicionales, por lo tanto, los he puesto aquí.

Actualizaré esta respuesta para obtener más detalles a medida que complete los cursos TODO en la lista. También hice el Data Science Track de Johns Hopkins en Coursera pero no lo encontré lo suficientemente bueno.

Cosas adicionales que hice:

1. Mantener un Blog activo: tengo mi propio blog MlWhiz donde trato de dejar lo que he aprendido. Esto me ayuda cada vez que necesito un fragmento de código o necesito revisar algo que he olvidado.

2. Aprende a usar Git: trato de poner todos mis códigos en Github. Esto me ayuda a hacer un seguimiento de las cosas que estoy haciendo y también me hace más organizado cuando se trata de codificación.

Espero que ayude 🙂

Originalmente publicado como respuesta para: Ciencia de datos: ¿Qué clases debo tomar si quiero ser un científico de datos?

Prashanth Sriram

Cuando comencé a leer sobre ciencia de datos en Internet, en ese momento solía usar solo C y Matlab. Era bastante competente en esto, pero cualquier cosa y todo lo que había hecho hasta ese momento era ingeniería informática. Estaba generando muchos datos, y estaba creando algunas parcelas. Cuando estaba rodeado de una enorme cantidad de datos, y comencé a ver a otros usar esos datos, comencé a buscar varios cursos y métodos para aprender diferentes cosas, y estaba confundido sobre dónde comenzar, qué aprender, etc. . Afortunadamente, casi siempre estaba rodeado de varias personas que estaban profundamente involucradas con la ciencia de datos.

Trabajo con personas que escriben programas C / C ++ que generan GB de datos, personas que administran TB de datos distribuidos en bases de datos gigantes, personas que son programadores de primer nivel en SQL, Python, R y personas que han configurado una base de datos de toda la organización para trabajar con Hadoop, Sap, Business Intelligence, etc.

Mi inspiración para todos y cada uno sería la siguiente:

Aprenda todos los conceptos básicos de Coursera, pero si realmente tengo que comparar lo que obtendrá de Coursera en comparación con la inmensidad de la ciencia de datos, digamos ~ Coursera es tan bueno como comer un burrito en Chipotle Mexican Grill. Ciertamente puede saciarse, y tiene algunas cosas para comer allí.
El camino hacia el valor agregado de la ciencia de datos es realmente bastante profundo, y lo considero equivalente a un buffet de cinco estrellas que ofrece 20 cocinas y unas 500 recetas diferentes.
Coursera es ciertamente un buen punto de partida, y uno debería repasar estos cursos, pero personalmente nunca pagué dinero a Coursera, y podría aprender fácilmente una variedad de cosas poco a poco con el tiempo.
Kaggle es un recurso realmente bueno para que los ingenieros en ciernes analicen las ideas de otras personas y se basen en ellas.

Mi propio aprendizaje provino de construir cosas. Comencé con SQL , luego aprendí Python, luego aprendí R, luego aprendí muchas bibliotecas en Python y R. Luego aprendí html, programación GUI decente usando script VB, programación C #. Entonces aprendí Scikit aprender. Finalmente hablé con varios estadísticos en mi lugar de trabajo cuyo trabajo diario es sacar conclusiones de los datos, y en el proceso aprendí el script JMP / JSL. Aprendí muchas estadísticas en el proceso.

Aquí hay una secuencia general de cómo progresé.

Lo primero que quiero inspirar a todos es aprender la “ciencia”. La ciencia de datos es 90% de ciencia y 10% de gestión de datos. Sin conocer la ciencia, y sin saber lo que quieres lograr y por qué quieres lograrlo, no podrás utilizar lo que aprendes en Coursera de ninguna manera. Casi puedo garantizarte eso.

He visto a mis amigos pasar por algunos de esos cursos, pero al final del día, no construyen nada, no sacan conclusiones correctas y realmente no “usan” nada de lo que aprenden. Más que eso, ni siquiera usan las habilidades que adquieren.

La forma en que todo esto me sucedió es la siguiente:

Me sumergí profundamente en los datos, entendí su estructura, entendí sus tipos. Comprendí por qué incluso estábamos recopilando todos esos datos, cómo los recopilamos, cómo los almacenamos y cómo los procesamos antes de almacenarlos.
Aprendí cómo se pueden manejar los datos con estos lenguajes de programación de manera efectiva. Aprendí a limpiar los datos, procesarlos tanto como quería y trazarlos con todas las formas posibles. Solo trazar los datos me llevó horas y horas ver cómo varios gráficos podían mostrar los datos de una manera en comparación con otra.
Aprendí de mis amigos que administran bases de datos cómo lo hicieron y qué pasó en segundo plano. Aprendí las estructuras de las tablas de la base de datos.
Luego aprendí cómo trazar algunas parcelas relevantes y calcular el retorno de la inversión para hacer cualquier cosa. Aquí es donde la ciencia de datos comenzó a unirse. No hay trama que no pueda trazar. Básicamente, cada trama que vi en Internet, aprendí a trazarla. Esto es extremadamente importante, y esto es lo que lo llevará a contar historias.
Luego aprendí a automatizar las cosas, y esto es realmente sorprendente, porque podrías hacer algunas cosas automáticamente, lo que te ahorraría mucho tiempo.
La automatización fue muy fácil con Python, R, VBscript, programación C #.
Les puedo decir que, en términos generales, no hay nada que no esté automatizado para mí. Tengo un programa de computadora para cualquier cosa, y la mayoría de mis cosas se hacen con un clic de botón ~ O digamos, unos pocos clics.
Entonces aprendí a escribir informes. Lo que aprendí es que tenía que enviar muchos datos y tramas a otros por correo. Y créeme, la gente no tiene tiempo ni interés. Pero si hace tramas coloridas, escriba un informe coherente que demuestre lo que quiere decir y empaque información enorme y poderosa en pocas tramas realmente coloridas, puede presentar un caso.
Entonces aprendí a contar historias. Lo que esto simplemente significa es que debe poder decirle al vicepresidente de la compañía cuáles son los principales problemas de su división. Y de la forma en que debería poder derivar estas conclusiones es creando tramas atractivas que cuenten una historia. Sin esto, no serías capaz de convencer a nadie. La gente no está interesada en los números. Todo lo que recuerdan son nombres, lugares, cosas, inspiración y por qué alguien quiere hacer algo. Un verdadero científico de datos también es un verdadero presentador de los datos.
Luego leí todos los blogs posibles en Internet para ver cómo otros hacían estas cosas. Cómo las personas escribían sus programas, cómo creaban varias tramas, cómo automatizaban las cosas, etc. También obtuve muchas ideas de cómo alguien usó sus habilidades para hacer un proyecto increíble. Esta es una manera realmente agradable de ver cómo otros imaginan. Luego, puedes tomar prestada su imaginación y construir cosas, y eventualmente a medida que las cosas te resulten más fáciles, comenzarás a imaginar las cosas tú mismo.

Solo eche un vistazo a la cantidad de blogs disponibles desde donde puede aprender muchas cosas.

La guía definitiva para blogs de ciencia de datos.

He revisado muchos de estos blogs y los he leído en profundidad. Esto llevó semanas de esfuerzos y múltiples sábados y domingos experimentando con datos y lenguajes de programación.

Mis sitios web más utilizados:

Desbordamiento de pila
Tutoriales de programación de Python
La red completa de archivos R
Seaborn: visualización de datos estadísticos
Su hogar para la ciencia de datos
16+ libros gratuitos de ciencia de datos
ipython / ipython
vinta / awesome-python
scikit-learn: aprendizaje automático en Python
Grace: Galería

Echa un vistazo a las parcelas increíbles aquí.

Programación práctica para principiantes totales

Aprende python de la manera difícil

Youtube. ¡Si! Simplemente escriba su pregunta aquí y debería obtener una respuesta.

Mundo Sapo

Tutorial SQL

CodeAcademy: Python

http://mahout.apache.org/

http://www.netlib.org/lapack/

http://www.netlib.org/eispack/

http://www.netlib.org/scalapack/

RegExr: Aprenda, construya y pruebe RegExr

Regex para JavaScript, Python, PHP y PCRE

StatsModels: Estadísticas en Python: ¡Este es un asesino! Puedes hacer mucho con esto.

Instalación de NLTK – documentación de NLTK 3.0

Libros más leídos:

Python de aprendizaje
El arte de la programación en R El arte de la programación en R http://shop.oreilly.com/product/ …
Realmente no creo que sea una persona de libros, pero me gusta leerlos de vez en cuando cuando estoy en el modo “No hay manera sino leer el manual”. He leído muchos libros de estadísticas y los actualizaré aquí.

Ahora le daría un enfoque más integral, para que tenga mucha inspiración a la que aferrarse.

¿Cómo se ve el trabajo de un ingeniero típico y cómo puede ayudar la ciencia de datos en esas líneas?

Toma de decisiones: en mi trabajo, tengo varias decisiones que tomar y varias acciones que tomar en un día. Además, tengo varias partes interesadas para actualizar, varias personas a las que orientar, varios conjuntos de datos para ver y varias herramientas y máquinas para manejar. Algunas de estas máquinas son máquinas físicas que fabrican cosas, y otras son simplemente programas de computadora y plataformas de software que crean configuraciones para estas máquinas.
Datos: la mayoría de los datos que tenemos están en varios servidores que se distribuyen en varias unidades, o están en alguna unidad compartida, o en alguna unidad de disco duro disponible en un servidor.
Bases de datos: estos servidores de bases de datos se pueden usar para obtener datos con SQL o extracción directa de datos, o tomándolos de alguna manera (por ejemplo, copiando por FTP), a veces incluso copiando manualmente y pegando en Excel, CSV o bloc de notas. Por lo general, tenemos varios métodos para extraer datos directamente de los servidores. Hay varias plataformas SQL como TOAD, Business Intelligence e incluso en plataformas integradas.

SQL se puede aprender fácilmente usando estas plataformas, y uno puede crear muchos scripts SQL.
Incluso puede crear guiones que puedan escribir guiones.
Te inspiraría a aprender SQL, ya que es uno de los lenguajes más utilizados para obtener datos.

Datos nuevamente: los datos en estas bases de datos pueden estar altamente estructurados o algo desestructurados, como comentarios humanos, etc.

Estos datos a menudo pueden tener un número fijo de variables o un número variable de variables.
A veces también pueden faltar datos, y a veces se pueden ingresar incorrectamente en las bases de datos.

Cada vez que se encuentra algo como esto, y se envía una respuesta inmediata a los administradores de bases de datos, y corrigen los errores si hay alguno en el sistema.
Por lo general, antes de configurar un proyecto gigante completo de configuración de una base de datos, varias personas se unen y discuten cómo deberían verse los datos, cómo deberían distribuirse en varias tablas y cómo deberían conectarse las tablas.
Estas personas son verdaderos científicos de datos, ya que saben lo que el usuario final querrá diariamente una y otra vez.
Siempre intentan estructurar los datos tanto como sea posible, porque hace que sea muy fácil manejarlos.

Programación y programación: al utilizar varias secuencias de comandos programadas para ejecutarse en momentos específicos, o a veces configuradas para ejecutarse de manera ad hoc, obtengo y vuelco datos en varias carpetas en una computadora dedicada. Tengo un HDD bastante grande para almacenar muchos datos.

Por lo general, agrego nuevos datos a los conjuntos de datos existentes y elimino los datos más antiguos de manera oportuna.
A veces tengo programas que se ejecutan con comandos de suspensión, que en horarios programados simplemente comprueban algo rápidamente y vuelven a dormir.

Más secuencias de comandos: Además, hay varias secuencias de comandos que se configuran para procesar estos conjuntos de datos y crear un montón de decisiones a partir de ellos.

La limpieza de datos, la creación de valiosas tablas dinámicas y gráficos es uno de los mayores retrasos de tiempo para cualquiera que intente obtener un valor de esto.
Para lograr algo como esto, primero debe comprender sus datos de entrada y salida, y debe ser muy capaz de hacer todo tipo de cálculos manuales, generar hojas de Excel y visualizar datos.
Ciencia: con lo que te inspiraría es que antes de que hagas ciencia de datos, hagas ciencia, aprendas la física detrás de tus datos y los entiendas dentro y fuera. Diga ~ Si trabaja en una industria de camisetas, debe conocer todos los aspectos de un cambio de T dentro y fuera, debe tener acceso a toda la información posible alrededor de las camisetas, y debe saber muy bien lo que quieren los clientes y como, sin siquiera mirar ninguno de los datos.
Sin comprender la ciencia, la ciencia de datos no tiene valor, y tratar de lograr algo con ella puede ser un esfuerzo infructuoso.
Advertencias: he visto a muchas personas sin saber qué planear contra qué.

Lo peor que he visto es que las personas trazan casi algunas variables aleatorias entre sí y sacan conclusiones de ellas.
Es cierto que las correlaciones existen en muchas cosas, pero siempre debe saber si hay alguna causalidad.
Ejemplo: existe una correlación significativa entre el número de premios Nobel y el consumo de chocolate per cápita de varios países; ¿Pero es una causalidad? ¡Tal vez no!

Volver a los programas: por lo general, hay una secuencia en la que se ejecutan todos los scripts y se crean todo tipo de tablas y gráficos para ver.

Algunas secuencias de comandos son secuenciales, mientras que algunos programas son simples ejecutables. Los ejecutables generalmente se escriben para la velocidad, y C, C ++, C # etc. se pueden usar para ellos.
Los scripts se pueden escribir en Python, VB, etc.

Toma de decisiones: cuando se cumplen ciertas condiciones {If / Then}, más programas informáticos se disparan automáticamente y ejecutan más análisis de datos.

Ciencia de datos: esto generalmente se desarrolla en muchas estadísticas, clasificación, regresión.

Aquí es donde entra el aprendizaje automático. Uno puede usar lenguajes de programación como Python o R para hacer esto.
Basado en los resultados de los algoritmos de aprendizaje automático, se ejecutan más programas de computadora y se generan más tramas o se activan más programas.

Trazado: en última instancia, muchos trazados se almacenan de manera coherente para que los humanos tomen decisiones.

Informes autosostenibles: los informes son programas autoactivados y autosostenidos que me dicen qué hacer.

La sensación de ser ironman: generalmente miro los resultados de todos los informes en 10 minutos y tomo decisiones sobre qué hacer a continuación durante muchas horas. De vez en cuando miro los informes nuevamente para redefinir las decisiones o cambiarlas sobre la marcha si esto tiene que hacerse.

¿Cuáles son las ventajas de hacer todo esto?

En primer lugar, cuando una computadora hace algo, lo haría a una velocidad mucho más rápida que un humano.
Una computadora lo hará incansablemente y sin cesar.
Los programas de computadora necesitan una cantidad suficiente de entrenamiento y múltiples niveles de prueba para entradas variables, pero una vez que todo esté hecho, seguiría haciendo ese trabajo para siempre hasta que el espacio de muestra cambie o algo cambie drásticamente en la entrada.
Al programarlo al nivel en que todo el resultado se configura en un tablero, es muy fácil ver cuál debe ser el orden de los proyectos.

¿Cómo creas ahora valor a partir de algo como esto?

¡Uno siempre debe estar detrás de la ciencia! y al conocer sus datos lo mejor posible, podrá ordenar la implementación de sus proyectos.
La decisión que tomaría y las acciones que tomaría serían más difíciles, mejores, más rápidas y más fuertes.
Sería capaz de sacar conclusiones y generar algunos proyectos lean sigma.
Podrá actualizar a las partes interesadas con bastante anticipación y estar en la cima de sus proyectos.
Podrías concentrarte solo en el aspecto científico en lugar de solo tratar de crear tramas manualmente.
Podría descubrir tendencias en sus datos más fácilmente y decir las cosas de una forma u otra si los datos le indican que tome decisiones a favor de una opción sobre otra.
Por último, pero no menos importante, puede reducir significativamente los esfuerzos humanos y automatizar todas las cosas por usted.

Incluso tengo scripts que me presionan o completan formularios.
Tengo varios programas de análisis de imágenes que analizan imágenes y toman decisiones sobre la marcha sin que los humanos las miren.

Espero que esta respuesta sea elaborada y te dé una idea de en qué puedes trabajar. Intentaré agregar a esto a medida que más se me ocurra.

Por último, pero no menos importante: simplemente conociendo SQL, C, Python y R y VB dot Net, puedo decirte que puedes distorsionar algo de la realidad. No hay absolutamente ningún límite para esto. Solo que lleva tiempo, paciencia y construir sistemáticamente las cosas una tras otra.

¡Manténgase bendecido y manténgase inspirado!

Prashanth Sriram

tl; dr: Haz un proyecto que te interese. Hazlo bueno y compártelo.

Hay mucho interés en convertirse en un científico de datos, y por buenas razones: alto impacto, alta satisfacción laboral, altos salarios, alta demanda. Una búsqueda rápida produce una gran cantidad de recursos posibles que podrían ayudar: MOOC, blogs, respuestas de Quora a esta pregunta exacta, libros, programas de maestría, bootcamps, planes de estudio autodirigidos, artículos, foros y podcasts. Su calidad es muy variable; algunos son excelentes recursos y programas, algunos son listas de lavandería con cebo de clic. Dado que este es un papel relativamente nuevo y no existe un acuerdo universal sobre lo que hace un científico de datos, es difícil para un principiante saber por dónde empezar, y es fácil sentirse abrumado.

Muchos de estos recursos siguen un patrón común: 1) aquí están las habilidades que necesita y 2) aquí es donde aprende cada una de ellas. Aprenda Python desde este enlace, R desde este; tome una clase de aprendizaje automático y “repase” su álgebra lineal. Descargue el conjunto de datos del iris y entrene un clasificador (“¡aprenda haciendo!”). Instala Spark y Hadoop. No te olvides del aprendizaje profundo: sigue el tutorial de TensorFlow (el indicado para principiantes de ML, para que puedas sentirte aún peor por no entenderlo). Compre ese viejo libro anaranjado de Clasificación de Patrones para exhibirlo en su escritorio después de haber dejado dos capítulos.

Esto tiene sentido; Nuestras instituciones educativas nos capacitaron para pensar que así se aprenden las cosas. Eventualmente también podría funcionar, pero es un proceso innecesariamente ineficiente. Algunos programas tienen proyectos finales (a menudo usan conjuntos de datos curados y limpios con un propósito claro, lo que suena bien pero no lo es). Muchos reconocen que no hay sustituto para ‘aprender en el trabajo’, pero ¿cómo se obtiene ese trabajo de ciencia de datos en primer lugar ?

En cambio, recomiendo construir una cartera pública de proyectos simples pero interesantes . Aprenderá todo lo que necesita en el proceso, tal vez incluso utilizando todos los recursos anteriores. Sin embargo, estará muy motivado para hacerlo y retendrá la mayor parte de ese conocimiento, en lugar de pasar por alto pasivamente fórmulas complejas y olvidar todo en un mes. Si conseguir un trabajo como científico de datos es una prioridad, esta cartera abrirá muchas puertas, y si su tema, hallazgos o producto son interesantes para un público más amplio, tendrá más llamadas de reclutamiento de las que pueda manejar.

Aquí están los pasos que recomiendo. Están optimizados para maximizar su aprendizaje y las posibilidades de obtener un trabajo de datos.

1. Elija un tema que le apasione o tenga curiosidad .

Gatos, fitness, startups, política, abejas, educación, derechos humanos, tomates de la herencia, mercados laborales. Investigue qué conjuntos de datos están disponibles, o conjuntos de datos que podría crear u obtener con un mínimo esfuerzo y gasto. Tal vez ya trabajas en una empresa que tiene datos únicos, o tal vez puedes ser voluntario en una organización sin fines de lucro que sí. El objetivo es responder preguntas interesantes o construir algo genial en una semana (tomará más tiempo, pero esto lo guiará hacia algo manejable).
¿Encontraste lo suficiente para comenzar a cavar? ¿Estás entusiasmado con las preguntas que podrías hacer y tienes curiosidad por las respuestas? ¿Podría combinar estos datos con otros conjuntos de datos para producir ideas originales que otros aún no han explorado? Los datos del censo, el código postal o los datos demográficos a nivel estatal, el clima y el clima son opciones populares. ¿Estás mareado por empezar? Si su respuesta es ‘meh’ o si ya se siente como una tarea, comience de nuevo con un tema diferente.

2. Escribe el tweet primero.

( Una versión probabilística del siglo XXI del método científico, inspirada en la práctica de Amazon de “escribir el comunicado de prensa primero” y, más ampliamente, la filosofía Lean Startup )

Probablemente nunca tuitees esto, y probablemente pienses que los tuits son una vía frívola para diseminar hallazgos científicos. Pero es esencial que escriba 1-2 oraciones sobre sus hallazgos (hipotéticos) * antes * de comenzar. Sea realista (especialmente acerca de poder hacer esto en una semana) y optimista (acerca de tener algún hallazgo o ser interesante). Piensa en un escenario probable; no será preciso (puede hacer las cosas en este momento), pero sabrá si vale la pena seguirlo.
Aquí hay algunos ejemplos, con un gancho de conversación:

“Utilicé datos de LinkedIn para descubrir qué hace a los empresarios diferentes: resulta que son más viejos de lo que piensas, y tienden a especializarse en física pero no en enfermería o teología. Supongo que es difícil obtener fondos de capital de riesgo para comenzar tu propia religión “.
“Utilicé datos de Jawbone para ver cómo el clima afecta los niveles de actividad; resulta que las personas en Nueva York son menos sensibles a las variaciones climáticas que los californianos. ¿Crees que los neoyorquinos son más duros o simplemente trabajan en el interior?
“Combiné datos de obituarios de la BBC con entradas de Wikipedia para ver si 2016 fue tan malo como pensamos para las celebridades”.

Si su objetivo es aprender tecnologías particulares u obtener un trabajo, agréguelos.

De Shelby Sturgis: “ Creé una aplicación web para ayudar a los maestros y administradores a mejorar la calidad de la educación de los estudiantes al proporcionar análisis sobre el rango de la escuela, el progreso en los puntajes de las pruebas a lo largo del tiempo y el rendimiento en diferentes materias. Usé MySQL, Python, Javascript, Highcharts.js y D3.js para almacenar, analizar y visualizar datos de pruebas de California STAR . ”
“ He usado TensorFlow para colorear y restaurar automáticamente fotos en blanco y negro. Hice este collage gigante para la abuela, ¡la mejor Navidad de todas! ”

Imagínese repitiendo esto una y otra vez en reuniones y entrevistas de trabajo. Imagine esto en USA Today o en una historia o Wall Street Journal (sin las tecnologías exactas; un vago “algoritmo” o “IA” funcionará). ¿Estás aburrido y tienes problemas para explicarlo, o te sientes orgulloso e inteligente? Si la respuesta es “meh”, repita el paso 2 (y posiblemente 1) hasta que tenga 2-3 ideas convincentes. Obtenga comentarios de los demás, ¿suena interesante? ¿Entrevistarías a alguien que construyó esto para un trabajo de datos?

Recuerde, en este punto aún no ha escrito ningún código ni ha realizado ningún trabajo de datos, más allá de investigar conjuntos de datos y comprender superficialmente qué tecnologías y herramientas tienen demanda y qué hacen, en términos generales. Es mucho más fácil iterar en esta etapa . Suena obvio, pero la gente está ansiosa por entrar en un tutorial o clase aleatoria para sentirse productivo y pronto se hunden meses en un proyecto que no va a ninguna parte.

3. Haz el trabajo.

Explore los datos. Límpialo. Graficarlo. Repetir. Mire los 10 valores más frecuentes para cada columna. Estudie los valores atípicos. Verifica las distribuciones. Agrupe valores similares si está demasiado fragmentado. Busque correlaciones y datos faltantes. Pruebe varios algoritmos de agrupamiento y clasificación. Depurar. Descubra por qué funcionaron o no en sus datos. Cree canales de datos en AWS si sus datos son grandes. Pruebe varias bibliotecas NLP en sus datos de texto no estructurados. Sí, puede aprender Spark, numpy, pandas, nltk, factorización matricial y TensorFlow, no para marcar una casilla junto a una lista de lavandería, sino porque * lo necesita * para lograr algo que le importa. Se un detective. Presente nuevas preguntas y direcciones inesperadas. A ver si las cosas tienen sentido. ¿Encontró un problema gigante con la forma en que se recopilaron los datos? ¿Qué pasa si traes otro conjunto de datos? Monta la ola de datos. Esto debería ser emocionante y divertido, con el obstáculo ocasional. Obtenga ayuda y comentarios en línea, de Kaggle, de mentores si tiene acceso a ellos, o de un amigo que haga lo mismo. Si esto no le parece divertido, regrese al paso 1. Si pensar en eso lo hace odiar la vida, reconsidere ser un científico de datos: esto es tan divertido como puede ser, y no podrá soportar el arduo trabajo. y el 80% de trabajo pesado de un trabajo de datos real si no encuentra esta parte energizante).

4. Comunicar
Escriba sus hallazgos en un lenguaje simple, con visualizaciones claras y convincentes que sean fáciles de entender en segundos. Aprenderá varias herramientas de visualización de datos en el proceso, que recomiendo encarecidamente (es una inversión subestimada en sus habilidades). Tenga una demostración o video limpio e interesante si creó un prototipo. Los detalles técnicos y el código deben estar a un enlace de distancia. Envíalo y recibe comentarios. El hecho de ser público se mantendrá en un estándar más alto y dará como resultado un código de buena calidad, escritura y visualizaciones.

Ahora, hazlo todo de nuevo. Felicitaciones, ha aprendido mucho sobre las últimas tecnologías y ahora tiene una cartera de proyectos atractivos. Envíe un enlace al gerente de contratación del equipo de ciencia de datos de sus sueños. Cuando consigas el trabajo, envíame un Sterling Truffle Bar.

Jerrod Lowmaster

Si tienes tiempo para tomar cursos, pruébalo.

1) Intenta tomar algunos de los cursos de matemáticas de pregrado que te perdiste. Álgebra Lineal, Cálculo Avanzado, Dif. Eq., Probabilidad, Las estadísticas son las más importantes. Después de eso, tome algunos cursos de Machine Learning. Lea algunos de los principales libros de texto de ML y manténgase al día con las revistas para tener una buena idea del campo.

2) Lea sobre lo que están haciendo las principales compañías de datos. Después de 1 o 2 cursos de aprendizaje automático, debe tener suficientes antecedentes para seguir la mayoría de los trabajos académicos. Implemente algunos de estos algoritmos en datos reales.

3) Si está trabajando con grandes conjuntos de datos, familiarícese con las últimas técnicas y herramientas (Hadoop, NoSQL, Spark, etc.) poniéndolas en práctica en el trabajo (o fuera del trabajo).

4) Una gran parte de la ciencia de datos en el lado del desarrollo de productos es esencialmente la ingeniería de software y la capacidad de crear, modificar e implementar algoritmos. Como mencionó William Chen, muchos científicos de datos conocen Python, R, scikits-learn, etc., pero eso es principalmente para análisis o creación de prototipos. Si necesita implementar algo a escala o dentro de los sistemas de producción, es probable que necesite saber cómo escribir código en algo como Java o C ++. Echa un vistazo al libro Amazon.com: The Pragmatic Programmer: From Journeyman to Master (9780201616224): Andrew Hunt, David Thomas: Libros y el curso de Carpintería de software si vienes al desarrollo de software desde un fondo científico.

Hice una entrevista de TCTV recientemente con Semil Shah donde profundizamos en cómo convertirse en un científico de datos:

* http://techcrunch.com/2012/09/06 …

Katrina Ni

Ya hay algunas respuestas sorprendentes aquí para leer. Si te gustaría escuchar algo, encontré que estas transmisiones de podcast son muy valiosas en mi viaje hacia la ciencia de datos (y también hacen que mis viajes diarios sean más interesantes):

Parcialmente Derivado
a16z
Historias de datos
DataScience.LA Podcast
Números y narrativa
Podcast .__ init__ – Python y las personas que lo hacen genial
R Talk
Podcast de datos parlantes
El podcast escéptico de datos
El R-Podcast
Todas las cosas Hadoop
O’Reilly Data Show

Expande la lista si tienes más.

EDITAR:

Gracias Quora User por la adición: Conversación humana sobre aprendizaje automático

Sravan Kumar

Los científicos de datos responden preguntas interesantes con datos, por lo que los pasos son:

1) encuentra una pregunta interesante

2) intenta responder con datos

3) intenta comprender otras formas de responder la pregunta

Abundan las preguntas interesantes en el trabajo diario, y una buena forma de avanzar en la ciencia de los datos es tratar de responder estas preguntas de una manera más rigurosa que lo haría normalmente. Por ejemplo, si trabaja en una empresa web, es casi seguro que tenga alguna funcionalidad de búsqueda. ¿Qué tan bien está funcionando su algoritmo de búsqueda actual? ¿Cómo se mide tal cosa? Comience a tratar de responder esta pregunta para su empresa (esto puede implicar horas adicionales además de sus responsabilidades normales). Después de tener una respuesta razonable, intente aprender sobre otros enfoques, por ejemplo. Capítulo 8 de Introducción a la recuperación de información. Otras preguntas interesantes incluyen ¿Qué tan comprometida está su base de usuarios? ¿Hay usuarios maliciosos en su sistema? ¿Qué tipo de tareas suelen realizarse juntas?

Si no tiene preguntas disponibles durante las horas de trabajo, intente competir en competencias de Kaggle, encontrar patrones interesantes en conjuntos de datos abiertos (aquí está Yelp’s: Yelp Dataset Challenge) o hablar con amigos en pequeñas empresas emergentes.

Intentar responder con datos plantea sus propios desafíos; ¡con mayor frecuencia los datos aún no están disponibles! Bienvenido al mundo de la ciencia de datos del mundo real. Puede depender de usted instrumentar la actividad que está investigando, unir una miríada de fuentes o configurar el almacén de datos. ¿Qué tan seguro estás en tu respuesta? Esto plantea desafíos en estadísticas y matemáticas discretas. No descuide estos problemas; profundizar en ellos si está interesado en la ciencia de datos como una carrera. Sé capaz de responder * por qué * estás usando una técnica, no solo reproducir una respuesta de StackOverflow 🙂

Cuando sienta que comprende su problema y se haya esforzado por encontrar una respuesta razonable, verifique cómo lo han hecho otros. Si ha encontrado libros de texto o trabajos académicos secos en el pasado, intente leerlos con un problema específico en mente. Las encuentro mejores fuentes de conocimiento profundo que las publicaciones de blog. Se pueden encontrar algunos documentos interesantes sobre el conjunto de datos de Yelp mencionado anteriormente en Ganadores del Desafío de conjuntos de datos de Yelp y la segunda ronda ahora en vivo.

ACTUALIZACIÓN: Kaggle ahora alberga competiciones de reclutamiento. Estos son especialmente útiles para las personas que no tienen mucha experiencia en su currículum, pero pueden hacer el trabajo y demostrar cómo. Echa un vistazo a la competencia actual de Yelp para predecir los atributos del restaurante al comprender sus fotos: Clasificación de fotos de restaurantes de Yelp. Si te va bien en estas competiciones, puedes obtener una entrevista y evitar que te corten en el momento de la reanudación del examen.

Finalmente, si está listo para dar el salto al científico de datos a tiempo completo, mi equipo tiene puestos de ingeniería abiertos en Data Mining Engineer, y también tenemos un puesto de Data Science puro en Data Scientist, ambos disponibles a través de http: // www. yelp.com/careers !

Prashanth Sriram

Como Data Mining usa mucho ML, es muy útil para obtener sus fundamentos correctamente en ML:
El mejor curso de ML en línea en mi opinión es el ofrecido por Yasser Abu Mostafa de Caltech. A diferencia de otros cursos de ML, Yasser comienza con algo de teoría detrás de ML. Yasser lo explica tan bien que todo lo que necesita es álgebra lineal lineal y probabilidad (quiero decir, conceptos básicos absolutos). Comenzar con la teoría fue realmente útil, ya que en las secciones posteriores del curso analiza algunos algoritmos utilizando la teoría.
Y su curso, sin lugar a dudas, tiene el mejor tutorial sobre SVM. Todo lo que necesita hacer es pasar 1 hora en la conferencia SVM, y estará prácticamente listo para implementar un SVM (menos la parte de optimización).
La última conferencia que ofrece una visión general de todo el curso es una visita obligada.

Otro curso que le enseña sobre el manejo de datos a gran escala, es
“Minería de conjuntos de datos masivos” ofrecida por Jure Leskovec en Stanford (acabo de empezar a leer las conferencias). Parece que el curso se basa principalmente en este libro Minería de conjuntos de datos masivos. Desde una perspectiva CS, si desea ampliar sus algoritmos teniendo en cuenta la memoria y el tiempo, este parece ser un curso útil.

Frederick T. Williams

Hay una visualización realmente completa y genial del camino a seguir para convertirse en un científico de datos.

La infografía muestra las habilidades necesarias para convertirse en un buen científico de datos y trazó el camino de aprendizaje de un científico de datos de acuerdo con 10 dominios diferentes.

Editar: La imagen proviene del artículo, Convertirse en un científico de datos – Plan de estudios a través de Metromap – Perspectivas pragmáticas, por Swami Chandrasekaran.

Prashanth Sriram

También estoy a punto de ser un científico de datos y me beneficio mucho de esta publicación. Ahora quiero compartir mi experiencia ya que he estado investigando esta pregunta por un tiempo.

Comencé a interesarme en la ciencia de datos cuando terminé uno de mis primeros cursos MOOC, Análisis de datos e Inferencia estadística. Es un gran curso, que me presentó a las estadísticas y R, el lenguaje de programación para la ciencia de datos. Desde entonces no me he detenido. Continué con la especialización de Data Science en Coursera y The Analytics Edge en Edx, ambos me inspiraron y eventualmente me llevaron al mundo del aprendizaje automático. Estaba tan asombrado que yo, como químico, decidí cambiar mi carrera y comenzar de nuevo como científico de datos. Comencé a aprender serias habilidades de programación con Python y gradualmente, un nuevo mundo se está abriendo para mí.

A continuación se presentan algunos de los recursos para comenzar, en su mayoría son contenidos introductorios y aún debe profundizar en un área específica si es necesario. También acabo de abrir mi nuevo DataING [protegido por correo electrónico] y compartí mi experiencia con toneladas de recursos desde estadísticas computacionales, R, Python, Machine Learning hasta Big Data. ¡Disfrutar!

Ciencia de datos de la Asamblea General
Los maestros de la ciencia de datos de código abierto
Estadísticas computacionales en Python
Analista de datos de Udacity Nanodegree (General)
Especialización en ciencia de datos a escala (general)
CS109 Data Science (Avanzado)

Shadab Shah

La mayoría de las personas confundidas con la carrera de ciencia de datos para ellos, he creado una hoja de ruta completa para convertirme en científico de datos.

La mejor hoja de ruta para prepararse para la ciencia de datos:

Aprender lenguaje de programación: ¡Sí! necesitas aprender lenguajes de programación. Pruebe Python primero, ya que es muy fácil de aprender y pertenece a la categoría de código abierto. Aprenda Python aquí: Tutoriales de Python: Temporada 1 (No necesita ser Python Ninja, solo se necesita información básica). A continuación, pruebe el lenguaje de programación “R”. También es de código abierto. Aprenda R aquí: DataCamp: la forma más fácil de aprender R y ciencia de datos (es gratis)
El conocimiento de SQL es necesario: como vas a jugar con muchos datos, mi recomendación es aprender SQL. Puede aprender SQL aquí: SQLZOO o del canal de youtube de “Manish Sharma”: tutoriales de SQL para principiantes / tutoriales de Oracle Database.
Aprendamos Estadística y Probabilidad: La probabilidad también se llama la ciencia de la incertidumbre y ese concepto es más importante en el campo de la DS. Puedes aprenderlo de los cursos del MIT. Aquí está el enlace de youtube: Probabilidad y estadísticas MIT
Aprendizaje automático: Otro tema importante que todos deberían aprender es el “Aprendizaje automático”. Necesitas tener conocimientos de matemáticas para aprender ML. Aquí está el mejor tutorial del mundo sobre ML: Lecture Collection | Aprendizaje automático
Aprenda el procesamiento del lenguaje natural: esta es la mejor referencia, procesamiento del lenguaje natural con Python

Hay muchos proyectos ficticios disponibles en internet. Intenta terminarlo. Hacer el hogar de la ciencia de datos, etc.

¿Estás buscando tecnologías de Big Data? En caso afirmativo, siga el siguiente camino: la respuesta de Akash Dugam a ¿Cuáles son las habilidades necesarias para los trabajos de Big Data?

Los libros son realmente verdaderos amigos de los humanos. Si realmente está buscando algún tipo de guía sobre la carrera en ciencia de datos y cuáles son los libros disponibles para consultar, lea este artículo: la respuesta de Akash Dugam a ¿Cuáles son los buenos libros para “científico de datos” y “análisis de datos” para ¿principiante?

Prashanth Sriram

Desde mi perspectiva, la “triple amenaza” de un buen científico de datos es:

conocimiento de programación
conocimiento estadístico
habilidades de comunicación

Obviamente tienes la parte 1 bastante bien manejada. Probablemente debería considerar aprender un lenguaje de programación que sea más útil para el trabajo exploratorio de datos, como Python o R.

También querrás algunas estadísticas de fondo. Si elige adquirir Python, Think Stats (Probability and Statistics for Programmers) es una excelente manera de hacerlo. Si estás en la escuela en este momento, tal vez puedas agregar algunas clases de estadísticas a tu plan de estudios para obtener los fundamentos básicos o inscribirte en un curso de Coursera u otro MOOC.

Finalmente, odio decírtelo, pero los científicos de datos tienen que transmitir sus hallazgos y hacerlos útiles para las personas, y esto está absolutamente relacionado con el “diseño”. Las diferentes compañías desglosan los roles de manera diferente, por lo que si nunca desea tener que producir una aplicación web o visualización, necesitará encontrar un lugar donde eso no sea parte del trabajo. Supongo que las compañías más grandes son aquellas donde los roles están más especializados, pero no puedo decirlo con certeza. Casi todos los científicos de datos que conozco tienen que producir al menos tramas presentables, y la mayoría hace mucho más que eso.

También puede examinar los roles de “ingeniería de datos”. Estas son típicamente las personas que programan para implementar y escalar modelos que los científicos de datos han desarrollado. Estos roles suelen ser más pesados en programación / desarrollo y no requieren tanta información estadística profunda o comunicación orientada al usuario como lo hace un rol de ciencia de datos.

Algunos de mis colegas escribieron una publicación bastante sólida aquí, evaluando los pros y los contras de la autoaprendizaje (MOOC), los programas de maestría y los bootcamps:
¿Cómo me convierto en un científico de datos? Una evaluación de 3 alternativas

Jalem Raj Rohit

Ser científico de datos requiere una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemáticas.

Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

También creo que el conocimiento profundo de la ciencia de datos, el aprendizaje automático y la PNL ayudarán a resolver problemas de nivel básico a superior. De 4 a 5 años de experiencia en el desarrollo pueden dar tal prestigio.

Curso de Introducción al CS
Notas: Curso de Introducción a la Informática que proporciona instrucciones sobre codificación.
Recursos en línea:
Udacity – introducción al curso de CS,
Coursera – Informática 101

Código en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
Recursos en línea para principiantes:
Coursera – Aprender a programar: los fundamentos,
Introducción del MIT a la programación en Java,
Python Class de Google,
Coursera – Introducción a Python,
Libro electrónico de código abierto de Python
Recursos en línea intermedios:
Diseño de programas informáticos de Udacity,
Coursera – Learn to Program: Crafting Quality Code,
Coursera – Lenguajes de programación,
Brown University – Introducción a los lenguajes de programación
Aprende otros lenguajes de programación
Notas: Agregue a su repertorio: Java Script, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
Recursos en línea: w3school.com – Tutorial HTML, Aprenda a codificar
Prueba tu código
Notas: aprenda a detectar errores, crear pruebas y romper su software
Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
Desarrollar razonamiento lógico y conocimiento de matemáticas discretas.
Recursos en línea:
MIT Matemáticas para Informática,
Coursera – Introducción a la lógica,
Coursera – Optimización lineal y discreta,
Coursera – Modelos gráficos probabilísticos,
Coursera – Teoría de juegos.
Desarrollar una sólida comprensión de los algoritmos y las estructuras de datos.
Notas: Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.
Recursos en línea:
Introducción a los algoritmos del MIT,
Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
Wikipedia – Lista de algoritmos,
Wikipedia – Lista de estructuras de datos,
Libro: El manual de diseño de algoritmos
Desarrollar un sólido conocimiento de los sistemas operativos.
Recursos en línea: UC Berkeley Computer Science 162
Aprenda recursos de inteligencia artificial en línea:
Stanford University – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
Aprende a construir compiladores
Recursos en línea: Coursera – Compiladores
Aprende criptografía
Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
Aprender programación paralela
Recursos en línea: Coursera – Programación paralela heterogénea

Herramientas y tecnologías para Bigdata:

Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en AMPLab en UC Berkeley. [1] Spark se adapta a la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

Canalización de bases de datos –
Como notará, no se trata solo de procesar los datos, sino que involucra muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

SOLR : Solr para construir un motor de análisis de datos altamente escalable que permita a los clientes participar en el descubrimiento de conocimiento en tiempo real a la velocidad de la luz.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupación dinámica, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar búsqueda distribuida y replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por Amazon Web Services. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en grupos de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache construido y utilizado por una comunidad global de contribuyentes y usuarios. Tiene licencia de Apache License 2.0. Apache Hadoop

MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos) de hardware básico de manera confiable y tolerante a fallas.

Un trabajo de MapReduce generalmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados por las tareas de mapa de manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan a las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar tareas, monitorearlas y volver a ejecutar las tareas fallidas.

Corona:

Corona, un nuevo marco de programación que separa la gestión de recursos del clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clúster cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo, y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).

Una diferencia importante con respecto a nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull. Después de que el administrador de clúster recibe solicitudes de recursos del rastreador de trabajos, devuelve las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene subvenciones de recursos, crea tareas y luego empuja estas tareas a los rastreadores de tareas para su ejecución. No hay latidos cardíacos periódicos involucrados en esta programación, por lo que se minimiza la latencia de programación. Ref: Under the Hood: Programando trabajos MapReduce más eficientemente con Corona

HBase: HBase es una base de datos distribuida, no relacional y de código abierto, inspirada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), proporcionando capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a fallas de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturadas dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el elementos distintos de cero que representan menos del 0.1% de una gran colección).

Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper era un subproyecto de Hadoop pero ahora es un proyecto de nivel superior por derecho propio.

Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es utilizado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en Amazon Web Services.

Mahout – Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones usan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas Java para operaciones matemáticas comunes (centradas en álgebra lineal y estadística) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero todavía faltan varios algoritmos.

Lucene es un conjunto de herramientas relacionadas con la búsqueda y PNL, pero su característica principal es ser un índice de búsqueda y un sistema de recuperación. Toma datos de una tienda como HBase y los indexa para una recuperación rápida de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.

Sqoop es una interfaz de línea de comandos para respaldar datos SQL en un almacén distribuido. Es lo que puede usar para tomar instantáneas y copiar las tablas de su base de datos en un almacén de Hive todas las noches.

Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una sola interfaz y apunta a la experiencia del usuario. Su objetivo principal es hacer que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usando una línea de comando

Pregel y su código abierto gemelo Giraph es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que Hadoop / MapReduce se evitan en este modelo, pero HDFS / GFS todavía se usa como un almacén de datos.

NLTK: el Kit de herramientas de lenguaje natural , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Está acompañado por un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento de lenguaje admitidas por el kit de herramientas, además de un libro de cocina.

NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluida la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

Para Python
Scikit Learn

Numpy

Scipy

Freebase: Freebase es una gran base de conocimiento colaborativo que consta de metadatos compuestos principalmente por los miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales ‘wiki’.

DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.

Herramienta de visualización
ggplot en R
Tableu
Qlikview

Matemáticas : )

Cálculo, estadística, probabilidad, álgebra lineal y geometría coordinada

El reconocimiento de entidad con nombre (NER) NER etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y compañías, o nombres de genes y proteínas.

Búsqueda por facetas: la búsqueda por facetas, también llamada navegación por facetas o navegación por facetas, es una técnica para acceder a la información organizada según un sistema de clasificación por facetas, lo que permite a los usuarios explorar una colección de información mediante la aplicación de múltiples filtros. Un sistema de clasificación por facetas clasifica cada elemento de información a lo largo de múltiples dimensiones explícitas, llamadas facetas, lo que permite acceder a las clasificaciones y ordenarlas de varias maneras en lugar de en un solo orden taxonómico predeterminado.

Fuente: Wikipedia, la enciclopedia libre.

Hay muchos, por supuesto, que puedes resolver:

Análisis de sentimientos para twitter, artículos web : identifique todos los sentimientos para artículos web, revisión de productos, revisión de películas, tweets. Se puede utilizar un enfoque basado en léxico o técnicas de aprendizaje automático
Clasificación / resumen de artículos web : utilice la técnica de agrupación / clasificación para clasificar el artículo web, realice análisis semánticos para resumir los artículos
Sistema de recomendaciones basado en los perfiles de redes sociales del usuario : utilice la API de redes sociales, recopile el interés del usuario de Facebook, Twitter, etc. implemente el sistema de recomendación para el interés del usuario
Clasificación de tweets y detección de tendencias: clasifique los tweets para deportes, negocios, política, entretenimiento, etc. y detecte tweets de tendencias en esos dominios
Predicción de revisión de películas: use críticas de películas en línea para predecir críticas de nuevas películas.
Resumir reseñas de restaurantes: tome una lista de reseñas sobre un restaurante y genere un único resumen en inglés para ese restaurante.
AutoBot: crea un sistema que pueda mantener una conversación contigo. El usuario escribe mensajes y su sistema responde en función del texto del usuario. Muchos enfoques aquí … podría usar un gran corpus de Twitter y hacer similitud de lenguaje
Sistema de noticias basado en Twitter : recopile tweets para varias categorías cada hora, base diaria, identifique debates de tendencias, realice análisis semánticos y cree un sistema de noticias (consulte el producto Frrole)

Pocos conjuntos de datos utilizados para la aplicación bigdata que puede utilizar:

Página de inicio para el conjunto de datos de 20 grupos de noticias: el conjunto de datos de 20 grupos de noticias es una colección de aproximadamente 20,000 documentos de grupos de noticias, divididos (casi) de manera uniforme en 20 grupos de noticias diferentes.
Descargar Trec (= Conferencia de recuperación de texto) Conjunto de datos: conjuntos de datos de texto utilizados en la recuperación de información y el aprendizaje en dominios de texto.
World Factbook Download 2013- El World Factbook proporciona información sobre la historia, las personas, el gobierno, la economía, la geografía, las comunicaciones, el transporte, los asuntos militares y transnacionales para 267 entidades mundiales.
DBpedia “Lanzamiento del conjunto de datos: el conjunto de datos DBpedia utiliza una gran ontología multidominio derivada de Wikipedia. La versión en inglés del conjunto de datos DBpedia 2014 describe actualmente 4.58 millones de” cosas “con 583 millones de” hechos “. Además, nosotros proporcionan versiones localizadas de DBpedia en 125 idiomas. Todas estas versiones juntas describen 38.3 millones de cosas, de las cuales 23.8 millones se superponen (están interrelacionadas) con conceptos de la DBpedia en inglés.
http://konect.uni-koblenz.de/net … – KONECT (Koblenz Network Collection) es un proyecto para recopilar grandes conjuntos de datos de red de todo tipo para realizar investigaciones en ciencias de redes y campos relacionados,
Max-Planck-Institut für Informatik: YAGO – YAGO (Yet Another Great Ontology) es una base de conocimiento desarrollada en el Instituto Max Planck de Ciencias de la Computación en Sarrebruck. Se extrae automáticamente de Wikipedia y otras fuentes.
Reuters-21578 Conjunto de datos de recopilación de categorización de texto: repositorio de aprendizaje automático
Página CSTR en ed.ac.uk – CSTR se ocupa de la investigación en todas las áreas de la tecnología del habla, incluido el reconocimiento de voz, síntesis de voz, procesamiento de señales de voz, acceso a la información, interfaces multimodales y sistemas de diálogo. Tenemos muchas colaboraciones con la comunidad más amplia de investigadores en ciencias del habla, lenguaje, cognición y aprendizaje automático por las que Edimburgo es reconocida.
ConceptNet: ConceptNet es una base de conocimiento de sentido común y un kit de herramientas de procesamiento del lenguaje natural disponibles de forma gratuita que admite muchas tareas prácticas de razonamiento textual sobre documentos del mundo real listos para usar (sin capacitación estadística adicional)

Otros conjuntos de datos bien conocidos son: MNIST, CIFAR e ImageNet.

Prashanth Sriram

Descargo de responsabilidad: cualquiera que haya escrito sus respuestas aquí tiene mucha más experiencia y desarrollo en ciencia de datos que yo. Soy totalmente nuevo en ciencia de datos.

William Chen me invitó a responder esta pregunta, así que usaré mi publicación como respuesta:
Año Nuevo Nuevo Comienzo: Vamos con las mejores escuelas por Julie Lin sobre Julie Data Learning
Descubro un nuevo enfoque para continuar mi viaje de datos. (Nuevo para mí pero quizás no nuevo para ustedes)

Espía…. No, quiero decir, buscar en los programas de ciencia de datos / análisis de datos de las mejores escuelas, obtener los materiales y enseñarme a mí mismo utilizando sus rutas bien diseñadas.

Si tiene alguna idea y consejo sobre esta publicación, no dude en comentar. Sus palabras pueden ayudarme a mí y a otras personas a partir de la ciencia de datos.

Razones para ir con los mejores sistemas educativos
(Para ahorrar tiempo, no dude en omitir esta parte y “Contras” en “Recursos y enlaces para comenzar”)

1. Fundamento académico riguroso.
Este es el mayor problema de aprendizaje autodirigido que veo: falta de una base académica sólida y rigurosa para desarrollar un pensamiento crítico adicional. Al igual que la arquitectura de edificios, una base buena y sólida es necesaria para ir más alto.
Si todo lo que desea es resolver rápidamente un problema de trabajo temporal, aprenda y aplique una herramienta de cualquier “libro de herramientas de análisis de datos”.
Pero busco ir más allá.

2. Camino estructurado.
En la primera lista de libros compartida en este blog, algunos grandes libros fueron muy recomendados por los gurús del análisis de datos, que personalmente seguí como la ruta de mi viaje. Sin embargo, ahora los veo más como frutas, flores y hojas de un árbol, en lugar de todo el árbol.
Para hacer crecer el árbol, probablemente necesitemos una imagen completa y un desarrollo estructurado. Mi visión ve una mayor probabilidad en un camino educativo que ha sido diseñado y aprobado por profesores experimentados y los mejores sistemas educativos en los EE. UU.
La lista de libros recomendada sigue siendo útil, como “suplemento nutricional” autodirigido.

Ambos puntos 1 y 2 se pueden explicar con un ejemplo:
Cuando comencé a elegir la lista de libros para ciencia de datos, busqué directamente libros de “análisis de datos” y “ciencia de datos” o cursos en línea. Pero no entendí que estadísticas vitales, matemáticas y un poco de experiencia en programación son vitales para sumergirse en los libros / cursos de ciencias de datos. Después de buscar en las mejores escuelas de ciencias de datos de las escuelas de pregrado a posgrado, me di cuenta de que debe ser un paquete diseñado completo que incluya bases sólidas de estadística, matemáticas e informática además de la ciencia de datos.

3. Práctica común
Un libro o el consejo de un gurú pueden ser buenos en un aspecto basado en sus experiencias personales. Seguirlos sin un juicio experimentado es apostar ciegamente que no estás en un camino torcido. Una vez más, veo una mayor probabilidad de encajar en los mejores programas educativos, ya que fueron diseñados para adaptarse a cientos de excelentes estudiantes.

Contras de los mejores programas de ciencia de datos escolares

1. Defectos del programa en sí
Clases de Harvard sobre ciencia de datos
Este artículo, hace aproximadamente 1 año, argumentó principalmente que el programa de ciencia de datos de Harvard se basa tradicionalmente en estadísticas y carece de elementos automatizados o de “máquina a máquina”.
La defensa que respondió al artículo fue principalmente el cliché de Ivy League sobre “los grandes recursos académicos y las excelentes personas en las mejores escuelas”. Como aprendiz autodirigido, creo que las respuestas realmente no están ayudando a cubrir la falla.
Está totalmente bien Puedo “complementar la nutrición” leyendo los libros de aprendizaje automático en mi lista de libros.

2. No poder participar en proyectos de clase real
Creo que puedo solucionarlo haciendo concursos en línea The Home of Data Science, consulte los recursos de William Chen a continuación.

Recursos y enlaces para comenzar

Aunque tomé Harvard como el ejemplo en la sección “Contras”, quiero dar un gran aplauso a los profesores y estudiantes / ex alumnos de Harvard por compartir recursos útiles e información sobre ciencia de datos.
Por favor, consulte las respuestas de William Chen en quora.
Escribió excelentes respuestas sobre cómo comenzar el camino de la ciencia de datos y compartió excelentes recursos educativos que las personas fuera de Harvard pueden usar.
Muchas gracias a él y a otras personas que sinceramente comparten los recursos para ayudar a otros en la ruta de la ciencia de datos.
Algunas buenas preguntas / respuestas que veo de la historia pasada de William. Su respuesta y las respuestas de otros gurús deberían ser un buen comienzo para echar un vistazo a los mejores programas de educación:

(No me gusta el hecho de que el blog de Quora no puede insertar tablas …)

¿Cómo me convierto en un científico de datos?

Probablemente todos los recursos de configuración para comenzar estén aquí: Python para configurar, blogs para seguir, archivos PDF gratuitos, etc.

Realiza la mayoría de las competiciones de iniciación y juegos de Kaggle

¿Qué tan similares son las competencias de Kaggle con lo que hacen los científicos de datos?

Tenga esto en cuenta para ser un científico de datos.

1. “Listo es mejor que perfecto”.

2. En competencia, los puntajes hablan. En la vida real, los científicos de datos necesitan convencer a los compañeros de equipo para que actúen en su análisis. (La comunicación y la presentación son siempre vitales)

La respuesta de William Chen a ¿Cómo aprendo minería de datos? ¿Este curso de Harvard cs109 sigue siendo válido con desarrollos recientes?

Clase de ciencia de datos CS109 en Harvard

Él habla mucho sobre este curso en otras publicaciones largas también … este fue el fácil de obtener la información sobre la clase.

¿Qué clases debo tomar si quiero ser un científico de datos?

La página de preguntas resume una lista de preguntas para clases particulares para tomar en las mejores escuelas específicas. La respuesta de William ofrece un gran resumen sobre la estructura del conocimiento que un científico de datos debería tener.

El resumen de William está de acuerdo con el camino que encontré en el programa de ciencia de datos de Stanford a continuación.

Ciencias de datos de las mejores escuelas o plan de estudios relacionado
Descargo de responsabilidad: no digo que estas cuatro sean las mejores universidades más importantes de EE. UU., Pero debido a la limitación de tiempo, solo puedo buscar en el plan de estudios de estas 4 escuelas hasta la cabeza.

1. Stanford Statistic Master Program Data Science Track
Personalmente, creo que este es el programa académico más riguroso entre el plan de estudios que busqué.
Instituto de Ingeniería Computacional y Matemática
El diseño del camino está bien redondeado con estadística, matemáticas y un poco de informática. Sí, similar a los contras de Harvard anteriores, se hace más hincapié en los requisitos estadísticos y matemáticos como parte del programa estadístico. Sin embargo, veo aprendizaje automático y otros cursos relacionados automatizados interesantes en asignaturas optativas.
Yo personalmente preguntaría a mis amigos de Stanford si puedo obtener algún programa de estudios, comprar los mismos libros y tratar de conectarme con los estudiantes / profesores en los cursos para discutir. Si alguno de ustedes que está leyendo esta publicación conoce a alguien en los cursos, por favor conécteme, ¡gracias!
Si no puede obtener información sobre los cursos, creo que la copia de seguridad es sustituir por cursos similares de otros recursos escolares / en línea.
2. Currículum en línea de UC Berkeley
Plan de estudios | Programa de ciencia de datos | [correo electrónico protegido]
Siento que este currículo es más en el sentido de “aplicable” que “académico”. Personalmente, creo que el programa está diseñado para aquellas personas que quieren “¡Boom! ¡Estás listo para trabajar en el mundo real! ”Los cursos del plan de estudios se ven elegantes y a la moda con los datos actuales de big data / machine learning. También enseña buenas habilidades aplicables en la presentación de datos.
Sin embargo, parece un poco como las otras escuelas en línea de “bootcamp”. No estoy seguro de qué puedo hacer con él. Prefiero hacer las clases en línea de Berkeley en Edx primero.

3. Certificado de Ciencias de Datos de la Escuela de Extensión de Harvard
No pude encontrar un título / título en ciencias de datos en los programas de pregrado y posgrado de Harvard. El plan de estudios que encontré estaba abierto a los certificados públicos. Es un poco simple en los requisitos. El curso central CS109 parece ser el que William compartió recursos. Simplemente iría con los recursos de William.

4. MIT
No pude encontrar ningún plan de estudios específicamente relacionado con la ciencia de datos en el sitio web del MIT. Lo único que encontré sobre la ciencia de datos del MIT fueron los cursos sobre Edx.

Otros recursos aleatorios que encontré en línea:
1. CS 194-16 Introducción a la ciencia de datos – UC Berkeley, primavera de 2014
Introducción a la ciencia de datos
2. Harvard STAT 221 Blog “Computación estadística y visualización” con todas las conferencias en línea
Harvard Data Science

Gracias por leer esta larga publicación. Espero que ayude no solo a mí sino a alguien más. Si encuentra algún error o problema que le gustaría discutir, no dude en dejar comentarios o enviarme un mensaje.

¡Que tengan una gran marcha!

Mark Meloon

“Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico”.

Creo que para ser un científico de datos exitoso necesitarás ciertas habilidades como:

Matemáticas (por ejemplo, álgebra lineal, cálculo y probabilidad)
Estadísticas (por ejemplo, pruebas de hipótesis y estadísticas resumidas)
Herramientas y técnicas de aprendizaje automático (p. Ej., Vecinos más cercanos, bosques aleatorios, métodos de conjunto, etc.)
Habilidades de ingeniería de software (por ejemplo, computación distribuida, algoritmos y estructuras de datos)
Minería de datos
Limpieza de datos y munging
Visualización de datos (por ejemplo, ggplot y d3.js) y técnicas de informes
Técnicas de datos no estructurados.
Idiomas R y / o SAS
Bases de datos SQL y lenguajes de consulta de bases de datos
Python (más común), C / C ++ Java, Perl

Esta lista siempre está sujeta a cambios. Como sugiere Anmol Rajpurohit, “ las habilidades genéricas de programación son mucho más importantes que ser expertos en un lenguaje de programación en particular. ”

Hay una variedad de cursos que se ofrecen en línea para Data Science. Sin embargo, siempre recomendaría ir con el aprendizaje inmersivo. El aprendizaje inmersivo es una gran cosa en el aprendizaje corporativo . El aprendizaje inmersivo es una última tendencia en los institutos corporativos de aprendizaje y capacitación. En pocas palabras, se trata de trabajo real, problemas reales, datos reales, escenarios reales del lugar de trabajo y experiencia real en el terreno.

En GreyAtom ponemos énfasis en el aprendizaje inmersivo que en realidad significaría:

Replicando posibles escenarios de trabajo
Aprendizaje interactivo
Enseñar habilidades o técnicas particulares
aprender = hacer trabajo real
Aprendizaje practico
Trabajando en equipo, aprendiendo del instructor
Menos basado en el aula
Más proyecto / estudio de caso basado
Manejo de problemas reales, datos reales, escenarios reales, flujo de trabajo real
Herramientas que reflejan la industria, herramientas y estructuras alineadas a la industria.
Imitando una situación o escenario que enfrentan la industria / empresas
O llevar a cabo proyectos basados en escenarios de trabajo reales
Juego de roles y realización de una tarea como se hace en el lugar de trabajo
Capacitación para la industria antes de ser contratado.
Buscando alternativas para la gestión tradicional de proyectos / escenarios / problemas
Fases cortas de trabajo, reevaluación frecuente, adaptación de planes.
Scrum sprints: evaluación colaborativa, agradable y rápida, entrega de productos en ciclos cortos, retroalimentación rápida, mejora continua
Scrum sprints: creación de lugares de trabajo alegres y sostenibles
Los sprints ágiles mejoran la comunicación, el trabajo en equipo y la velocidad.

En GreyAtom , con nuestro plan de estudios ágil, listo para la industria y monitoreo activo de carrera , estaremos allí en cada paso de su viaje para llegar al destino final de convertirse y trabajar como ingeniero de ciencia de datos de Full Stack . Tendrá un historial de contribuciones de código abierto y ayudará a la comunidad más amplia de ingeniería de software (a través de Github, StackOverflow, un blog o similar). Puede consultar el plan de estudios haciendo clic en este enlace http://www.greyatom.com/ curso-d …? utm_source = Quora & utm_medium = Respuesta & utm_campaign = Marzo2017

Los datos realmente impulsan todo lo que hacemos. Si le apasiona la ciencia de datos y desea redefinir su carrera, visítenos en GreyAtom – ¿Aprendizaje inmersivo? Utm_source = Quora & utm_medium = Answer & utm_campaign = March2017
Creemos que “Aprender = hacer trabajo real”

Descargo de responsabilidad: soy cofundador de @GreyAtom y Data Science es mi pasión.

Prashanth Sriram

Las principales habilidades basadas en las ofertas de trabajo actuales son las siguientes, pero es un gran campo donde puedes dominar una parte de él. Echa un vistazo a este mapa de habilidades a continuación de jobmego. Podría ayudar.