Cómo convertirse en un científico de datos

Cuando comencé a leer sobre ciencia de datos en Internet, en ese momento solía usar solo C y Matlab. Era bastante competente en esto, pero cualquier cosa y todo lo que había hecho hasta ese momento era ingeniería informática. Estaba generando muchos datos, y estaba creando algunas parcelas. Cuando estaba rodeado de una enorme cantidad de datos, y comencé a ver a otros usar esos datos, comencé a buscar varios cursos y métodos para aprender diferentes cosas, y estaba confundido sobre dónde comenzar, qué aprender, etc. . Afortunadamente, casi siempre estaba rodeado de varias personas que estaban profundamente involucradas con la ciencia de datos.

Trabajo con personas que escriben programas C / C ++ que generan GB de datos, personas que administran TB de datos distribuidos en bases de datos gigantes, personas que son programadores de primer nivel en SQL, Python, R y personas que han configurado una base de datos de toda la organización para trabajar con Hadoop, Sap, Business Intelligence, etc.

Mi inspiración para todos y cada uno sería la siguiente:

  1. Aprenda todos los conceptos básicos de Coursera, pero si realmente tengo que comparar lo que obtendrá de Coursera en comparación con la inmensidad de la ciencia de datos, digamos ~ Coursera es tan bueno como comer un burrito en Chipotle Mexican Grill. Ciertamente puede saciarse, y tiene algunas cosas para comer allí.
  2. El camino hacia el valor agregado de la ciencia de datos es realmente bastante profundo, y lo considero equivalente a un buffet de cinco estrellas que ofrece 20 cocinas y unas 500 recetas diferentes.
  3. Coursera es ciertamente un buen punto de partida, y uno debería repasar estos cursos, pero personalmente nunca pagué dinero a Coursera, y podría aprender fácilmente una variedad de cosas poco a poco con el tiempo.
  4. Kaggle es un recurso realmente bueno para que los ingenieros en ciernes analicen las ideas de otras personas y se basen en ellas.

Mi propio aprendizaje provino de construir cosas. Comencé con SQL , luego aprendí Python, luego aprendí R, luego aprendí muchas bibliotecas en Python y R. Luego aprendí html, programación GUI decente usando script VB, programación C #. Entonces aprendí Scikit aprender. Finalmente hablé con varios estadísticos en mi lugar de trabajo cuyo trabajo diario es sacar conclusiones de los datos, y en el proceso aprendí el script JMP / JSL. Aprendí muchas estadísticas en el proceso.

Aquí hay una secuencia general de cómo progresé.

Lo primero que quiero inspirar a todos es aprender la “ciencia”. La ciencia de datos es 90% de ciencia y 10% de gestión de datos. Sin conocer la ciencia, y sin saber lo que quieres lograr y por qué quieres lograrlo, no podrás utilizar lo que aprendes en Coursera de ninguna manera. Casi puedo garantizarte eso.

He visto a mis amigos pasar por algunos de esos cursos, pero al final del día, no construyen nada, no sacan conclusiones correctas y realmente no “usan” nada de lo que aprenden. Más que eso, ni siquiera usan las habilidades que adquieren.

La forma en que todo esto me sucedió es la siguiente:

  1. Me sumergí profundamente en los datos, entendí su estructura, entendí sus tipos. Comprendí por qué incluso estábamos recopilando todos esos datos, cómo los recopilamos, cómo los almacenamos y cómo los procesamos antes de almacenarlos.
  2. Aprendí cómo se pueden manejar los datos con estos lenguajes de programación de manera efectiva. Aprendí a limpiar los datos, procesarlos tanto como quería y trazarlos con todas las formas posibles. Solo trazar los datos me llevó horas y horas ver cómo varios gráficos podían mostrar los datos de una manera en comparación con otra.
  3. Aprendí de mis amigos que administran bases de datos cómo lo hicieron y qué pasó en segundo plano. Aprendí las estructuras de las tablas de la base de datos.
  4. Luego aprendí cómo trazar algunas parcelas relevantes y calcular el retorno de la inversión para hacer cualquier cosa. Aquí es donde la ciencia de datos comenzó a unirse. No hay trama que no pueda trazar. Básicamente, cada trama que vi en Internet, aprendí a trazarla. Esto es extremadamente importante, y esto es lo que lo llevará a contar historias.
  5. Luego aprendí a automatizar las cosas, y esto es realmente sorprendente, porque podrías hacer algunas cosas automáticamente, lo que te ahorraría mucho tiempo.
  6. La automatización fue muy fácil con Python, R, VBscript, programación C #.
    Les puedo decir que, en términos generales, no hay nada que no esté automatizado para mí. Tengo un programa de computadora para cualquier cosa, y la mayoría de mis cosas se hacen con un clic de botón ~ O digamos, unos pocos clics.
  7. Entonces aprendí a escribir informes. Lo que aprendí es que tenía que enviar muchos datos y tramas a otros por correo. Y créeme, la gente no tiene tiempo ni interés. Pero si hace tramas coloridas, escriba un informe coherente que demuestre lo que quiere decir y empaque información enorme y poderosa en pocas tramas realmente coloridas, puede presentar un caso.
  8. Entonces aprendí a contar historias. Lo que esto simplemente significa es que debe poder decirle al vicepresidente de la compañía cuáles son los principales problemas de su división. Y de la forma en que debería poder derivar estas conclusiones es creando tramas atractivas que cuenten una historia. Sin esto, no serías capaz de convencer a nadie. La gente no está interesada en los números. Todo lo que recuerdan son nombres, lugares, cosas, inspiración y por qué alguien quiere hacer algo. Un verdadero científico de datos también es un verdadero presentador de los datos.
  9. Luego leí todos los blogs posibles en Internet para ver cómo otros hacían estas cosas. Cómo las personas escribían sus programas, cómo creaban varias tramas, cómo automatizaban las cosas, etc. También obtuve muchas ideas de cómo alguien usó sus habilidades para hacer un proyecto increíble. Esta es una manera realmente agradable de ver cómo otros imaginan. Luego, puedes tomar prestada su imaginación y construir cosas, y eventualmente a medida que las cosas te resulten más fáciles, comenzarás a imaginar las cosas tú mismo.

Solo eche un vistazo a la cantidad de blogs disponibles desde donde puede aprender muchas cosas.

La guía definitiva para blogs de ciencia de datos.

He revisado muchos de estos blogs y los he leído en profundidad. Esto llevó semanas de esfuerzos y múltiples sábados y domingos experimentando con datos y lenguajes de programación.

Mis sitios web más utilizados:

  1. Desbordamiento de pila
  2. Tutoriales de programación de Python
  3. La red completa de archivos R
  4. Seaborn: visualización de datos estadísticos
  5. Su hogar para la ciencia de datos
  6. 16+ libros gratuitos de ciencia de datos
  7. ipython / ipython
  8. vinta / awesome-python
  9. scikit-learn: aprendizaje automático en Python
  10. Grace: Galería
    1. Echa un vistazo a las parcelas increíbles aquí.
  11. Programación práctica para principiantes totales
  12. Aprende python de la manera difícil
  13. Youtube. ¡Sí! Simplemente escriba su pregunta aquí y debería obtener una respuesta.
  14. Mundo Sapo
  15. Tutorial SQL
  16. CodeAcademy: Python
  17. http://mahout.apache.org/
  18. http://www.netlib.org/lapack/
  19. http://www.netlib.org/eispack/
  20. http://www.netlib.org/scalapack/
  21. RegExr: Aprenda, construya y pruebe RegExr
  22. Regex para JavaScript, Python, PHP y PCRE
  23. StatsModels: Estadísticas en Python: ¡Este es un asesino! Puedes hacer mucho con esto.
  24. Instalación de NLTK – documentación de NLTK 3.0

Libros más leídos:

  1. Python de aprendizaje
  2. El arte de la programación en R El arte de la programación en R http://shop.oreilly.com/product/…
  3. Realmente no creo que sea una persona de libros, pero me gusta leerlos de vez en cuando cuando estoy en el modo “No hay manera sino leer el manual”. He leído muchos libros de estadísticas y los actualizaré aquí.

Ahora le daría un enfoque más integral, para que tenga mucha inspiración a la que aferrarse.

¿Cómo se ve el trabajo de un ingeniero típico y cómo puede ayudar la ciencia de datos en esas líneas?

  1. Toma de decisiones: en mi trabajo, tengo varias decisiones que tomar y varias acciones que tomar en un día. Además, tengo varias partes interesadas para actualizar, varias personas a las que orientar, varios conjuntos de datos para ver y varias herramientas y máquinas para manejar. Algunas de estas máquinas son máquinas físicas que fabrican cosas, y otras son simplemente programas de computadora y plataformas de software que crean configuraciones para estas máquinas.
  2. Datos: la mayoría de los datos que tenemos están en varios servidores que se distribuyen en varias unidades, o están en alguna unidad compartida, o en alguna unidad de disco duro disponible en un servidor.
  3. Bases de datos: estos servidores de bases de datos se pueden usar para obtener datos con SQL o extracción directa de datos, o tomándolos de alguna manera (por ejemplo, copiando por FTP), a veces incluso copiando manualmente y pegando en Excel, CSV o bloc de notas. Por lo general, tenemos varios métodos para extraer datos directamente de los servidores. Hay varias plataformas SQL como TOAD, Business Intelligence e incluso en plataformas integradas.
    1. SQL se puede aprender fácilmente usando estas plataformas, y uno puede crear muchos scripts SQL.
    2. Incluso puede crear guiones que puedan escribir guiones.
    3. Te inspiraría a aprender SQL, ya que es uno de los lenguajes más utilizados para obtener datos.
  4. Datos nuevamente: los datos en estas bases de datos pueden estar altamente estructurados o algo desestructurados, como comentarios humanos, etc.
    1. Estos datos a menudo pueden tener un número fijo de variables o un número variable de variables.
    2. A veces también pueden faltar datos, y a veces se pueden ingresar incorrectamente en las bases de datos.
      1. Cada vez que se encuentra algo como esto, y se envía una respuesta inmediata a los administradores de bases de datos, y corrigen los errores si hay alguno en el sistema.
      2. Por lo general, antes de configurar un proyecto gigante completo de configuración de una base de datos, varias personas se unen y discuten cómo deberían verse los datos, cómo deberían distribuirse en varias tablas y cómo deberían conectarse las tablas.
      3. Estas personas son verdaderos científicos de datos, ya que saben lo que el usuario final querrá diariamente una y otra vez.
      4. Siempre intentan estructurar los datos tanto como sea posible, porque hace que sea muy fácil manejarlos.
  5. Programación y programación: al utilizar varias secuencias de comandos programadas para ejecutarse en momentos específicos, o a veces configuradas para ejecutarse de manera ad hoc, obtengo y vuelco datos en varias carpetas en una computadora dedicada. Tengo un HDD bastante grande para almacenar muchos datos.
    1. Por lo general, agrego nuevos datos a los conjuntos de datos existentes y elimino los datos más antiguos de manera oportuna.
    2. A veces tengo programas que se ejecutan con comandos de suspensión, que en horarios programados simplemente comprueban algo rápidamente y vuelven a dormir.
  6. Más secuencias de comandos: Además, hay varias secuencias de comandos que se configuran para procesar estos conjuntos de datos y crear un montón de decisiones a partir de ellos.
    1. La limpieza de datos, la creación de valiosas tablas dinámicas y gráficos es uno de los mayores retrasos de tiempo para cualquiera que intente obtener un valor de esto.
    2. Para lograr algo como esto, primero debe comprender sus datos de entrada y salida, y debe ser muy capaz de hacer todo tipo de cálculos manuales, generar hojas de Excel y visualizar datos.
    3. Ciencia: con lo que te inspiraría es que antes de que hagas ciencia de datos, hagas ciencia, aprendas la física detrás de tus datos y los entiendas dentro y fuera. Diga ~ Si trabaja en una industria de camisetas, debe conocer todos los aspectos de un cambio de T dentro y fuera, debe tener acceso a toda la información posible alrededor de las camisetas, y debe saber muy bien lo que quieren los clientes y como, sin siquiera mirar ninguno de los datos.
    4. Sin comprender la ciencia, la ciencia de datos no tiene valor, y tratar de lograr algo con ella puede ser un esfuerzo infructuoso.
    5. Advertencias: he visto a muchas personas sin saber qué planear contra qué.
      1. Lo peor que he visto es que las personas trazan casi algunas variables aleatorias entre sí y sacan conclusiones de ellas.
      2. Es cierto que las correlaciones existen en muchas cosas, pero siempre debe saber si hay alguna causalidad.
      3. Ejemplo: existe una correlación significativa entre el número de premios Nobel y el consumo de chocolate per cápita de varios países; ¿Pero es una causalidad? ¡Tal vez no!

  1. Volver a los programas: por lo general, hay una secuencia en la que se ejecutan todos los scripts y se crean todo tipo de tablas y gráficos para ver.
    1. Algunas secuencias de comandos son secuenciales, mientras que algunos programas son simples ejecutables. Los ejecutables generalmente se escriben para la velocidad, y C, C ++, C # etc. se pueden usar para ellos.
    2. Los scripts se pueden escribir en Python, VB, etc.
  2. Toma de decisiones: cuando se cumplen ciertas condiciones {If / Then}, más programas informáticos se disparan automáticamente y ejecutan más análisis de datos.
  3. Ciencia de datos: esto generalmente se desarrolla en muchas estadísticas, clasificación, regresión.
    1. Aquí es donde entra el aprendizaje automático. Uno puede usar lenguajes de programación como Python o R para hacer esto.
    2. Basado en los resultados de los algoritmos de aprendizaje automático, se ejecutan más programas de computadora y se generan más tramas o se activan más programas.
  4. Trazado: en última instancia, muchos trazados se almacenan de manera coherente para que los humanos tomen decisiones.
  5. Informes autosostenibles: los informes son programas autoactivados y autosostenidos que me dicen qué hacer.
  6. La sensación de ser ironman: generalmente miro los resultados de todos los informes en 10 minutos y tomo decisiones sobre qué hacer a continuación durante muchas horas. De vez en cuando miro los informes nuevamente para redefinir las decisiones o cambiarlas sobre la marcha si esto tiene que hacerse.

¿Cuáles son las ventajas de hacer todo esto?

  1. En primer lugar, cuando una computadora hace algo, lo haría a una velocidad mucho más rápida que un humano.
  2. Una computadora lo hará incansablemente y sin cesar.
  3. Los programas de computadora necesitan una cantidad suficiente de entrenamiento y múltiples niveles de prueba para entradas variables, pero una vez que todo esté hecho, seguiría haciendo ese trabajo para siempre hasta que el espacio de muestra cambie o algo cambie drásticamente en la entrada.
  4. Al programarlo al nivel en que todo el resultado se configura en un tablero, es muy fácil ver cuál debe ser el orden de los proyectos.

¿Cómo creas ahora valor a partir de algo como esto?

  1. ¡Uno siempre debe estar detrás de la ciencia! y al conocer sus datos lo mejor posible, podrá ordenar la implementación de sus proyectos.
  2. La decisión que tomaría y las acciones que tomaría serían más difíciles, mejores, más rápidas y más fuertes.
  3. Sería capaz de sacar conclusiones y generar algunos proyectos lean sigma.
  4. Podrá actualizar a las partes interesadas con bastante anticipación y estar en la cima de sus proyectos.
  5. Podrías concentrarte solo en el aspecto científico en lugar de solo tratar de crear tramas manualmente.
  6. Podría descubrir tendencias en sus datos más fácilmente y decir las cosas de una forma u otra si los datos le indican que tome decisiones a favor de una opción sobre otra.
  7. Por último, pero no menos importante, puede reducir significativamente los esfuerzos humanos y automatizar todas las cosas por usted.
    1. Incluso tengo scripts que me presionan o completan formularios.
    2. Tengo varios programas de análisis de imágenes que analizan imágenes y toman decisiones sobre la marcha sin que los humanos las miren.

Espero que esta respuesta sea elaborada y te dé una idea de en qué puedes trabajar. Intentaré agregar a esto a medida que más se me ocurra.

Por último, pero no menos importante: simplemente conociendo SQL, C, Python y R y VB dot Net, puedo decirte que puedes distorsionar algo de la realidad. No hay absolutamente ningún límite para esto. Solo que lleva tiempo, paciencia y construir sistemáticamente las cosas una tras otra.

¡Manténgase bendecido y manténgase inspirado!

Creo que ser un científico de datos en última instancia se reduce a aportar habilidades en el pensamiento cuantitativo.

Eso es muy general y por eso me encanta. Vengo de un fondo de física, pero quiero investigar epidemias, tal vez probar consultoría, finanzas, redes sociales, trabajar para grandes empresas, trabajar para nuevas empresas.

No hay ningún problema con hacer eso si se describe a sí mismo como un científico de datos.

Además de eso, se espera que los científicos de datos sean buenos contadores de historias.

Al entrenar sus habilidades cuantitativas y también las habilidades de pensamiento crítico, es difícil convencer a alguien de que no puede recoger algo y aprenderlo.

Es lo contrario de ser de tipo fundido.

A2A …

Nota: La industria financiera es muy diferente a la mayoría de las otras industrias en términos de “ciencia de datos”. De hecho, diría que tienden a contratar más analistas cuantitativos, lo que se inclina más hacia las estadísticas y el aprendizaje automático, ya que los conjuntos de datos son en gran medida muy directos y relativamente hablando muy limpio. Yo personalmente NO llamaría a nadie que trabaje con datos financieros para que sea un Científico de Datos. Hay muy poca ambigüedad y los datos son muy limpios. Data Science, para mí, está trabajando con muchos datos desestructurados desordenados y datos de muchas áreas dispares diferentes y combinándolos en un producto de datos.

TL; Versión DR: Industria financiera => Ir tras el aprendizaje automático y las estadísticas. Llamo a estas personas Analistas cuantitativos.

Ahora si quieres hacer ciencia de datos … sigue leyendo.

Tiene dos vías principales para la ciencia de datos y no muchas personas son contratadas de inmediato para tomar decisiones comerciales. Hay unas pocas, muy pocas empresas con grandes equipos de ciencia de datos que tomarán algunos “Jr Data Scientists” en el equipo, pero de lo contrario, los trabajos de Data Science serán difíciles de encontrar para un nuevo graduado. Sigues siendo un verdadero científico de datos (por lo que sea que eso signifique), es decir, trabajarás con datos (!) Y lo harás para tomar decisiones (!), Lo que significa que es lo suficientemente bueno como para ser considerado un científico de datos.

Entonces, ¿cómo llegar a esos equipos de ciencia de datos? ¿O cuál es la mejor forma de posicionarse para obtener un trabajo de científico de datos “Sr” en una de esas compañías o un trabajo de científico de datos “completo” en otro lugar?

Un científico de datos es la acumulación de “análisis” e “ingeniería”, por lo que hay dos lugares para llegar al pináculo. Uno es a través del lado de Ingeniería y el otro es a través de Analytics. El lado de la ingeniería se puede dividir en Ingeniería de Software e Ingeniería de Datos. Para mí, el camino más fácil de los tres es a través de la Ingeniería de Datos.

Si puede extraer datos, recopilar datos, raspar datos o escalar datos a través de una aplicación y crear una tubería de datos a partir de esas fuentes de datos, será un producto muy valioso y será el ‘cuello’ de cualquier equipo de Data Scientist. Lo que significa que eres su alma y estarás cerca de ellos. También creo que aquí es donde puede convertirse en un mejor científico de datos, ya que los modeladores y los aprendices de máquinas a menudo tienen poca importancia en comparación con los limpiadores de datos. Tiene datos sesgados o algún otro problema aguas arriba que no se detecta y cualquier idiota en un teclado puede obtener un alto AUC o valor de correlación. El tipo que entiende los datos, la aplicación y los problemas comerciales terminará siendo el producto valioso sin importar su título.

Entonces, si desea ser un Científico de Datos, le recomendaría que comience a ver todos los trabajos de Ingeniero de Datos y Analista de Datos que puede encontrar en las áreas geográficas en las que desea trabajar y aprender esas tecnologías y habilidades. Si puede encontrar clases en su universidad actual que complementen a esas excelentes, pero probablemente no lo hará y nada se puede comparar con ensuciarse las manos descargando e implementando Hadoop o Spark o Jupyter Notebooks y destrozando un conjunto de datos y creando un producto de datos . Cuando comience a manejar el lado de la ingeniería de datos, iré a Kaggle, Github, Pycon, PyData y Scipy y revisaré todos los conjuntos de datos y tutoriales de Machine Learning que pueda.

Estrictamente hablando, no existe la “ciencia de datos” (ver ¿Qué es la ciencia de datos?). Ver también: Vardi, Science tiene solo dos patas: http://portal.acm.org/ft_gateway

Aquí hay algunos recursos que he recopilado sobre el trabajo con datos, espero que les sean útiles (nota: soy un estudiante universitario, esta no es una opinión experta de ninguna manera).

1) Aprenda sobre factorizaciones matriciales

  • Tome el curso de álgebra lineal computacional (a veces se llama álgebra lineal aplicada o computaciones matriciales o análisis numérico o análisis matricial y puede ser un curso de CS o matemática aplicada). Los algoritmos de descomposición matricial son fundamentales para muchas aplicaciones de minería de datos y generalmente están subrepresentados en un plan de estudios estándar de “aprendizaje automático”. Con TBs de datos, las herramientas tradicionales como Matlab dejan de ser adecuadas para el trabajo, no puede simplemente ejecutar eig () en Big Data. Los paquetes de cálculo de matriz distribuida como los incluidos en Apache Mahout [1] están tratando de llenar este vacío, pero debe comprender cómo funcionan los algoritmos numéricos / rutinas LAPACK / BLAS [2] [3] [4] [5] para poder úselos adecuadamente, ajústelos para casos especiales, cree los suyos propios y escale hasta terabytes de datos en un grupo de máquinas de productos básicos. [6] Por lo general, los cursos numéricos se basan en álgebra y cálculo de pregrado, por lo que debe ser bueno con los requisitos previos. Recomendaría estos recursos para auto estudio / material de referencia:
  • Ver Jack Dongarra: Cursos y ¿Cuáles son algunos buenos recursos para aprender sobre análisis numérico?

2) Aprenda sobre computación distribuida

  • Es importante aprender cómo trabajar con un clúster de Linux y cómo diseñar algoritmos distribuidos escalables si desea trabajar con grandes datos (¿Por qué la obsesión actual con los grandes datos, cuando generalmente son más grandes los datos, se hace más difícil incluso? análisis básico y procesamiento?).
  • Crays y máquinas de conexión del pasado ahora se pueden reemplazar con granjas de instancias de nube baratas, los costos de computación se redujeron a menos de $ 1.80 / GFlop en 2011 frente a $ 15M en 1984: http://en.wikipedia.org/wiki/FLOPS .
  • Si desea aprovechar al máximo su hardware (alquilado), también es cada vez más importante poder utilizar toda la potencia del multinúcleo (consulte http://en.wikipedia.org/wiki/Moo …)
  • Nota: este tema no forma parte de una pista estándar de Machine Learning, pero probablemente pueda encontrar cursos como Sistemas distribuidos o Programación paralela en su catálogo CS / EE. Vea los recursos informáticos distribuidos, un curso de sistemas en UIUC, trabajos clave y para empezar: Introducción a las redes informáticas.
  • Después de estudiar los conceptos básicos de las redes y los sistemas distribuidos, me enfocaría en las bases de datos distribuidas, que pronto se volverán omnipresentes con el diluvio de datos y alcanzarán los límites de la escala vertical. Vea trabajos clave, tendencias de investigación y para empezar: Introducción a las bases de datos relacionales e Introducción a las bases de datos distribuidas (HBase en acción).

3) Aprenda sobre el análisis estadístico

  • Comience a aprender estadísticas codificando con R: ¿Cuáles son las referencias esenciales para R? y experimentar con datos del mundo real: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
  • Cosma Shalizi compiló algunos excelentes materiales sobre estadísticas computacionales, revisó sus diapositivas de conferencias y también ¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?
  • Descubrí que aprender estadísticas en un dominio particular (por ejemplo, procesamiento del lenguaje natural) es mucho más agradable que tomar Stats 101. Mi recomendación personal es el curso de Michael Collins en Columbia (también disponible en Coursera).
  • También puede elegir un campo donde el uso de estadísticas cuantitativas y principios de causalidad [7] es inevitable, por ejemplo, biología molecular [8], o un subcampo divertido como la investigación del cáncer [9], o incluso un dominio más estrecho, por ejemplo, análisis genético de angiogénesis tumoral [10] y trata de responder preguntas importantes en ese campo en particular, aprendiendo lo que necesitas en el proceso.

4) Aprenda sobre la optimización

  • Este tema es esencialmente un prerrequisito para comprender muchos algoritmos de aprendizaje automático y procesamiento de señales, además de ser importante por derecho propio.
  • Comience con las conferencias en video de Stephen P. Boyd y también ¿Cuáles son algunos buenos recursos para aprender sobre la optimización?

5) Aprenda sobre el aprendizaje automático

  • Antes de pensar en algoritmos, observe cuidadosamente los datos y seleccione las características que lo ayudan a filtrar la señal del ruido. Vea esta charla de Jeremy Howard: en Kaggle, es una desventaja saber demasiado
  • Consulte también ¿Cómo aprendo el aprendizaje automático? y ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?
  • Estadísticas vs. aprendizaje automático, lucha !: http://brenocon.com/blog/2008/12…
  • Puede estructurar su programa de estudios de acuerdo con los catálogos de cursos en línea.
    y planes de estudio de MIT, Stanford u otras escuelas superiores. Experimentar con
    muchos datos, piratear algún código, hacer preguntas, hablar con buenas personas, configurar un rastreador web en su garaje: la anatomía de un motor de búsqueda
  • Puede unirse a una de estas nuevas empresas y aprender haciendo: ¿Qué nuevas empresas están contratando ingenieros con fortalezas en aprendizaje automático / PNL?
  • La opción alternativa (y bastante cara) es inscribirse en un CS
    programa / pista de Machine Learning si prefieres estudiar en un curso formal
    ajuste. Ver: ¿Qué hace que valga la pena un Máster en Informática (MS CS) y por qué?
  • Intenta evitar la sobreespecialización. El enfoque de amplitud a menudo funciona mejor cuando se aprende un nuevo campo y se enfrentan problemas difíciles, vea el Segundo viaje del HMS Beagle sobre las aventuras de un ingenioso joven minero de datos.

6) Aprenda sobre la recuperación de información

  • El aprendizaje automático no es tan bueno como parece: http://teddziuba.com/2008/05/mac
  • ¿Cuáles son algunos buenos recursos para comenzar el entrenamiento de Recuperación de información y por qué se prefieren estos sobre otros?

7) Aprenda sobre la detección y estimación de señales

  • Este es un tema clásico y “ciencia de datos” por excelencia en mi opinión.
    Algunos de estos métodos se utilizaron para guiar la misión Apolo o detectar
    submarinos enemigos y todavía están en uso activo en muchos campos. Esto es
    a menudo parte del plan de estudios de EE.
  • Buenas referencias son las diapositivas de la conferencia de Robert F. Stengel sobre control y estimación óptimos: Página de inicio de Rob Stengel, Señales y sistemas de Alan V. Oppenheim. y ¿Cuáles son algunos buenos recursos para aprender sobre la estimación y detección de señales? Un buen tema para enfocarse primero es el filtro de Kalman, ampliamente utilizado para el pronóstico de series temporales.
  • Hablando de datos, es probable que desee saber algo sobre la información: su transmisión, compresión y filtrado de la señal del ruido. Los métodos desarrollados por los ingenieros de comunicación en los años 60 (como el decodificador Viterbi, que ahora se usa en aproximadamente mil millones de teléfonos celulares, o la wavelet Gabor ampliamente utilizada en el reconocimiento de Iris) son aplicables a una sorprendente variedad de tareas de análisis de datos, desde la traducción automática estadística hasta la comprensión de organización y función de redes moleculares. Un buen recurso para empezar es la teoría de la información y la comunicación confiable: Robert G. Gallager: 9780471290483: Amazon.com: Libros. Además, ¿cuáles son algunos buenos recursos para aprender sobre la teoría de la información?

8) algoritmos maestros y estructuras de datos

  • ¿Cuáles son los recursos más fáciles de aprender para aprender sobre algoritmos?

9) práctica

  • Ponerse en forma para el deporte de la ciencia de datos
  • Carpintería: http://software-carpentry.org/
  • ¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
  • Herramientas: ¿Cuáles son algunas de las mejores herramientas de análisis de datos?
  • ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Si decides ir a una maestría:

10) estudiar ingeniería

Iría por CS con un enfoque en IR o Machine Learning o una combinación de ambos y tomaría algunos cursos de sistemas en el camino. Como “científico de datos”, tendrá que escribir una tonelada de código y probablemente desarrollar algoritmos / sistemas distribuidos para procesar cantidades masivas de datos. La Maestría en Estadística le enseñará cómo hacer análisis de modelado y regresión, etc., no cómo construir sistemas, creo que esto último se necesita con más urgencia en estos días ya que las herramientas antiguas se vuelven obsoletas con la avalancha de datos. Hay una escasez de ingenieros que puedan construir un sistema de minería de datos desde cero. Puede recoger estadísticas de libros y experimentos con R (consulte el punto 3 anterior) o tomar algunas clases de estadísticas como parte de sus estudios de CS.

Buena suerte.

[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma
[7] Amazon.com: Causalidad: modelos, razonamiento e inferencia (9780521895606): Judea Pearl: Libros
[8] Introducción a la biología, video conferencias MIT 7.012
[9] Hanahan y Weinberg, The Hallmarks of Cancer, Next Generation: Page on Wisc
[10] La organización caótica de la vasculatura asociada a tumores, de The Biology of Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books, p. 562

Desde mi perspectiva, la “triple amenaza” de un buen científico de datos es:

  • conocimiento de programación
  • conocimiento estadístico
  • habilidades de comunicación

Obviamente tienes la parte 1 bastante bien manejada. Probablemente debería considerar aprender un lenguaje de programación que sea más útil para el trabajo exploratorio de datos, como Python o R.

También querrás algunas estadísticas de fondo. Si elige adquirir Python, Think Stats (Probability and Statistics for Programmers) es una excelente manera de hacerlo. Si estás en la escuela en este momento, tal vez puedas agregar algunas clases de estadísticas a tu plan de estudios para obtener los fundamentos básicos o inscribirte en un curso de Coursera u otro MOOC.

Finalmente, odio decírtelo, pero los científicos de datos deben transmitir sus hallazgos y hacerlos útiles para las personas, y esto está absolutamente relacionado con el “diseño”. Las diferentes compañías desglosan los roles de manera diferente, por lo que si nunca desea tener que producir una aplicación web o visualización, necesitará encontrar un lugar donde eso no sea parte del trabajo. Supongo que las compañías más grandes son aquellas donde los roles están más especializados, pero no puedo decirlo con certeza. Casi todos los científicos de datos que conozco tienen que producir al menos tramas presentables, y la mayoría hace mucho más que eso.

También puede examinar los roles de “ingeniería de datos”. Estas son típicamente las personas que programan para implementar y escalar modelos que los científicos de datos han desarrollado. Estos roles suelen ser más pesados ​​en programación / desarrollo y no requieren tanta información estadística profunda o comunicación orientada al usuario como lo hace un rol de ciencia de datos.

Algunos de mis colegas escribieron una publicación bastante sólida aquí, evaluando los pros y los contras de la autoaprendizaje (MOOC), los programas de maestría y los bootcamps:
¿Cómo me convierto en un científico de datos? Una evaluación de 3 alternativas

Si quieres lograr el éxito, sigue los cinco pasos que me han funcionado bien.

El primer paso debe ser aprender lo básico. El mejor curso de aprendizaje automático hasta ahora es Machine Learning por Andrew Ng. Debería ser tu primer paso para completarlo. He tenido la costumbre de escuchar este curso durante el viaje a la sede de Microsoft durante mi pasantía.

Después de eso, puedo recomendar un curso complementario Neural Networks de Geoffrey Hinton.

Si ha terminado, proceda a aprender cursos de nivel intermedio .

Esos han funcionado para mí cuando los vi con un grupo de amigos del Machine Learning Research Group, junto con la pizza obligatoria 🙂

  • Udacity Deep Learning
  • Tutorial de Tensorflow
  • Curso oficial de redes neuronales convolucionales de Stanford
  • Video curso de aprendizaje profundo de Nando de Freitas
  • Libro de aprendizaje profundo de Ian Goodfellow

Después de eso, lea los últimos y más importantes documentos de nivel experto de conferencias y revistas.

La mejor manera de hacerlo es participar en un grupo de estudio o lista de distribución en su empresa. He oído que Google, Microsoft y NVIDIA tienen buenos. Nosotros en Sigmoidal tenemos un canal dedicado de Slack para descubrir y estudiar trabajos recientes.

  • Conferencia internacional sobre aprendizaje automático
  • Descubrimiento de conocimiento y minería de datos
  • Sistemas de procesamiento de información neuronal
  • Aprendizaje automático
  • Journal of Machine Learning Research
  • Transacciones sobre conocimiento e ingeniería de datos
  • Revista de Investigación de Inteligencia Artificial

Recopilando suficiente conocimiento, puede comenzar a convertirse en Practicante compitiendo en concursos en las plataformas Kaggle y TopCoder .

He conocido a muchas personas compitiendo juntas en competencias y resolviendo problemas mundiales como cáncer de mama o sobrecalentamiento de la estación espacial internacional

Varias personas que conocí durante el concurso están trabajando para mí ahora. 🙂 Es por eso que, después de tener éxito en los concursos, podrá asegurar fácilmente un trabajo de nivel de entrada, convirtiéndose en un científico de datos profesional

Voy a extraer una guía de trabajos de ciencia de datos que creé, y específicamente una sección que habla sobre las habilidades y herramientas que necesita, así como los recursos necesarios para convertirse en un científico de datos. Divulgación completa: trabajo para una compañía que ayuda a las personas a entrar en una carrera de ciencia de datos con un campamento de ciencia de datos en línea flexible y completo que ofrece tutoría personalizada de expertos y entrenamiento profesional.


Habilidades de ciencia de datos

La mayoría de los científicos de datos utilizan una combinación de habilidades todos los días, algunas de las cuales se han enseñado en el trabajo o no. También provienen de diversos orígenes. No hay ninguna credencial académica específica que los científicos de datos tengan que tener.

Todas las habilidades discutidas en esta sección pueden ser autoaprendidas. Hemos presentado algunos recursos para ayudarlo a comenzar ese camino. Considérelo una guía sobre cómo convertirse en un científico de datos.

Una mente analítica

Cómo convertirse en un científico de datos con una mente analítica

Necesitará una mentalidad analítica para que le vaya bien en la ciencia de datos. Gran parte de la ciencia de datos implica resolver problemas con una mente aguda y aguda.

Recursos

Mantenga su mente aguda con libros y rompecabezas. Un sitio como Lumosity puede ayudarlo a asegurarse de que sea cognitivamente inteligente en todo momento.

Matemáticas

Cómo convertirse en un científico de datos con matemáticas

Las matemáticas son una parte importante de la ciencia de datos. Asegúrese de conocer los conceptos básicos de matemáticas universitarias, desde cálculo hasta álgebra lineal. Cuantas más matemáticas conozcas, mejor.

Cuando los datos se hacen grandes, a menudo se vuelven difíciles de manejar. Tendrá que usar las matemáticas para procesar y estructurar los datos con los que está tratando.

No podrás dejar de conocer el cálculo y el álgebra lineal si te perdiste esos temas en la universidad. Necesitará comprender cómo manipular matrices de datos y tener una idea general detrás de las matemáticas de los algoritmos.

Recursos

Esta lista de 15 cursos MOOC de Matemáticas puede ayudarlo a ponerse al día con las habilidades matemáticas. El MIT también ofrece un curso abierto específicamente sobre las matemáticas de la ciencia de datos.

Estadística

Cómo convertirse en un científico de datos con estadísticas

Debe conocer las estadísticas para inferir ideas de conjuntos de datos más pequeños en poblaciones más grandes. Esta es la ley fundamental de la ciencia de datos. Las estadísticas allanarán su camino sobre cómo convertirse en un científico de datos.

Necesitas conocer estadísticas para jugar con datos. Las estadísticas le permiten comprender mejor los patrones observados en los datos y extraer la información que necesita para sacar conclusiones razonables. Por ejemplo, comprender las estadísticas inferenciales lo ayudará a sacar conclusiones generales sobre todos en una población de una muestra más pequeña.

Para comprender la ciencia de datos, debe conocer los conceptos básicos de las pruebas de hipótesis y diseñar experimentos para comprender el significado y el contexto de sus datos.

Recursos

Nuestro blog publicó un manual sobre cómo el Teorema de Bayes, la probabilidad y las estadísticas se cruzan entre sí. La publicación constituye una buena base para comprender la base estadística de cómo convertirse en un científico de datos.

Algoritmos

Cómo convertirse en un científico de datos con algoritmos

Los algoritmos son la capacidad de hacer que las computadoras sigan un cierto conjunto de reglas o patrones. Comprender cómo usar máquinas para hacer su trabajo es esencial para procesar y analizar conjuntos de datos demasiado grandes para que la mente humana los procese.

Para que pueda hacer un trabajo pesado en la ciencia de datos, tendrá que comprender la teoría detrás de la selección y optimización de algoritmos. Tendrá que decidir si su problema requiere o no un análisis de regresión o un algoritmo que ayude a clasificar diferentes puntos de datos en categorías definidas.

Querrás conocer muchos algoritmos diferentes. También querrás aprender los fundamentos del aprendizaje automático. El aprendizaje automático es lo que le permite a Amazon recomendarle productos basados ​​en su historial de compras sin ninguna intervención humana directa. Es un conjunto de algoritmos que utilizarán la potencia de la máquina para descubrir ideas para usted.

Para lidiar con conjuntos de datos masivos, necesitará usar máquinas para ampliar su pensamiento.

Recursos

Esta guía de KDNuggets ayuda a explicar diez algoritmos comunes de ciencia de datos en inglés simple. Aquí hay 19 conjuntos de datos públicos gratuitos para que pueda practicar la implementación de diferentes algoritmos en los datos.

Visualización de datos

Cómo convertirse en un científico de datos con visualización de datos

Terminar su análisis de datos es solo la mitad de la batalla. Para generar impacto, tendrá que convencer a los demás para que crean y adopten sus ideas. Así es como te conviertes en un científico de datos.

Los seres humanos son criaturas visuales. Según 3M y Zabisco, casi el 90% de la información transmitida a su cerebro es de naturaleza visual, y las imágenes se procesan 60,000 veces más rápido que el texto .

La visualización de datos es el arte de presentar información a través de gráficos y otras herramientas visuales, para que el público pueda interpretar fácilmente los datos y obtener información de ellos. ¿Qué información se presenta mejor en un gráfico de barras y qué tipos de datos deberíamos presentar en un diagrama de dispersión?

Los seres humanos están conectados para responder a las señales visuales. Cuanto mejor pueda presentar sus conocimientos de datos, más probable es que alguien tome medidas basadas en ellos.

Recursos

Tenemos una lista de 31 herramientas gratuitas de visualización de datos con las que puede jugar. El blog FlowingData de Nathan Yau está lleno de consejos y trucos de visualización de datos que lo llevarán al siguiente nivel.

Conocimiento del negocio

Cómo convertirse en un científico de datos con conocimiento empresarial

Los datos significan poco sin su contexto. Tienes que entender el negocio que estás analizando. La claridad es la pieza central de cómo convertirse en un científico de datos.

La mayoría de las empresas dependen de sus científicos de datos no solo para extraer conjuntos de datos, sino también para comunicar sus resultados a varios interesados ​​y presentar recomendaciones sobre las que se pueda actuar.

Los mejores científicos de datos no solo tienen la capacidad de trabajar con conjuntos de datos grandes y complejos, sino que también entienden las complejidades de la empresa u organización para la que trabajan .

Tener un conocimiento general del negocio les permite hacer las preguntas correctas y encontrar soluciones y recomendaciones perspicaces que sean realmente factibles dadas las restricciones que el negocio pueda imponer.

Recursos

Esta lista de cursos de negocios gratuitos puede ayudarlo a obtener el conocimiento que necesita. Nuestro curso de Data Analytics for Business puede ayudarlo a mejorar esta dimensión con un mentor.

Experiencia en el campo

Cómo convertirse en un científico de datos con experiencia en dominios

Como científico de datos, debe conocer el negocio para el que trabaja y la industria en la que vive.

Además de tener un conocimiento profundo de la empresa para la que trabaja, también tendrá que comprender el campo en el que funciona para que sus ideas comerciales tengan sentido. Los datos de un estudio de biología pueden tener un contexto drásticamente diferente que los datos obtenidos de un estudio de psicología bien diseñado. Debe saber lo suficiente como para cortar la jerga de la industria.

Recursos

Esto dependerá en gran medida de la industria. ¡Tendrá que encontrar su propio camino y aprender lo más posible sobre su industria!

Herramientas de ciencia de datos

Con su conjunto de habilidades desarrollado, ahora necesitará aprender a usar herramientas modernas de ciencia de datos. Cada herramienta tiene sus fortalezas y debilidades, y cada una juega un papel diferente en el proceso de ciencia de datos. Puede usar uno de ellos, o puede usarlos todos. Lo que sigue es una descripción general de las herramientas más populares en ciencia de datos, así como los recursos que necesitará para aprenderlas correctamente si desea profundizar.

Formatos de archivo

Los datos se pueden almacenar en diferentes formatos de archivo. Aquí hay algunos de los más comunes:

CSV : valores separados por comas. Es posible que haya abierto este tipo de archivo con Excel anteriormente. Los CSV separan los datos con un delimitador, una puntuación que sirve para separar diferentes puntos de datos.

SQL : SQL, o lenguaje de consulta estructurado, almacena datos en tablas relacionales. Si va de la derecha a una columna a la izquierda, obtendrá diferentes puntos de datos en la misma entidad (por ejemplo, una persona tendrá un valor en las categorías EDAD, GÉNERO y ALTURA).

JSON : Javascript Object Notation es un formato ligero de intercambio de datos que es legible tanto por humanos como por máquinas. Los datos de un servidor web a menudo se transmiten en este formato.


Sobresalir

Excel es a menudo la puerta de entrada a la ciencia de datos, y es algo que todo científico de datos puede beneficiarse del aprendizaje.

Introducción a Excel

Excel le permite manipular fácilmente los datos con lo que es esencialmente un editor Lo que ve es lo que obtiene que le permite realizar ecuaciones en los datos sin trabajar en absoluto en el código. Es una herramienta útil para los analistas de datos que desean obtener resultados sin programación.

Cómo convertirse en un científico de datos con Excel

Es fácil comenzar con Excel, y es un programa que cualquiera que esté en análisis comprenderá intuitivamente. Puede ser útil comunicar datos a personas que pueden no tener habilidades de programación: aún deberían poder jugar con los datos.

Quién usa esto

Los analistas de datos tienden a usar Excel.

Nivel de dificultad

Principiante

Proyecto de muestra

Importar un pequeño conjunto de datos sobre las estadísticas de los jugadores de la NBA y hacer un gráfico simple de los mejores anotadores de la liga.


SQL

SQL es el lenguaje de programación más popular para encontrar datos.

Introducción a SQL

La ciencia de datos necesita datos. SQL es un lenguaje de programación especialmente diseñado para extraer datos de bases de datos.

Cómo convertirse en un científico de datos con SQL

SQL es la herramienta más popular utilizada por los científicos de datos. La mayoría de los datos del mundo se almacenan en tablas que requerirán SQL para acceder. Podrá filtrar y ordenar los datos con él.

Quién usa esto

Los analistas de datos y algunos ingenieros de datos tienden a usar SQL.

Nivel de dificultad

Principiante

Proyecto de muestra

Usando una consulta para seleccionar las diez canciones más populares de una base de datos SQL del Billboard 100.


Pitón

Python es un lenguaje de programación potente y versátil para la ciencia de datos.

Introducción a Python

Una vez que descargue Anaconda, un administrador de entorno para Python y se configure en iPython Notebook, se dará cuenta rápidamente de lo intuitivo que es Python. Python, un lenguaje de programación versátil creado para todo, desde la creación de sitios web hasta la recopilación de datos de toda la web, tiene muchas bibliotecas de códigos dedicadas a facilitar el trabajo de la ciencia de datos.

Cómo convertirse en un científico de datos con Python

Python es un lenguaje de programación versátil con una sintaxis simple que es fácil de aprender.

El rango de salario promedio para trabajos con Python en su descripción es de alrededor de $ 102,000. Python es el lenguaje de programación más popular que se enseña en las universidades: la comunidad de programadores de Python solo será más grande en los próximos años. A la comunidad de Python le apasiona enseñar Python y crear herramientas útiles que le ahorren tiempo y le permitan hacer más con sus datos.

Muchos científicos de datos utilizan Python para resolver sus problemas: el 40% de los encuestados en una encuesta científica de datos definitiva realizada por O’Reilly utilizó Python, que era más del 36% que utilizó Excel.

Quién usa esto

Los ingenieros de datos y los científicos de datos usarán Python para conjuntos de datos de tamaño mediano.

Nivel de dificultad

Intermedio

Proyecto de muestra

Usando Python para obtener tweets de celebridades, luego haciendo un análisis de las palabras más frecuentes que se utilizan al aplicar reglas de programación.


R

R es un elemento básico en la comunidad de ciencia de datos porque está diseñado explícitamente para las necesidades de ciencia de datos. Es el entorno de programación más popular en ciencia de datos con el 43% de los profesionales de datos que lo utilizan.

Introducción a R

R es un entorno de programación diseñado para el análisis de datos. R brilla cuando se trata de construir modelos estadísticos y mostrar los resultados.

Cómo convertirse en un científico de datos con R

R es un entorno donde se puede aplicar una amplia variedad de técnicas estadísticas y gráficas.

La comunidad aporta paquetes que, de forma similar a Python, pueden ampliar las funciones centrales de la base de código R para que pueda aplicarse a problemas específicos, como medir métricas financieras o analizar datos climáticos.

Quién usa esto

Los ingenieros de datos y los científicos de datos usarán R para conjuntos de datos de tamaño mediano.

Nivel de dificultad

Intermedio

Proyecto de muestra

Usando R para graficar los movimientos del mercado de valores en los últimos cinco años.

Herramientas de Big Data

Big data proviene de la Ley de Moore, una teoría según la cual el poder de cómputo se duplica cada dos años. Esto ha llevado al surgimiento de conjuntos de datos masivos generados por millones de computadoras. ¡Imagina cuántos datos tiene Facebook en un momento dado!

Según McKinsey, cualquier conjunto de datos que sea demasiado grande para las herramientas de datos convencionales, como SQL y Excel, puede considerarse big data. La definición más simple es que los grandes datos son datos que no pueden caber en su computadora.

Aquí hay herramientas para resolver ese problema:

Hadoop

Al usar Hadoop, puede almacenar sus datos en múltiples servidores mientras los controla desde uno.

Introducción a Hadoop

La solución es una tecnología llamada MapReduce. MapReduce es una abstracción elegante que trata una serie de computadoras como si fuera un servidor central. Esto le permite almacenar datos en varias computadoras, pero procesarlas a través de una.

Cómo convertirse en un científico de datos con Hadoop

Hadoop es un ecosistema de herramientas de código abierto que le permite MapReduce sus datos y almacena enormes conjuntos de datos en diferentes servidores. Le permite administrar muchos más datos de los que puede en una sola computadora.

Quién usa esto

Los ingenieros de datos y los científicos de datos usarán Hadoop para manejar grandes conjuntos de datos.

Nivel de dificultad

Avanzado

Proyecto de muestra

Usar Hadoop para almacenar conjuntos de datos masivos que se actualizan en tiempo real, como la cantidad de me gusta que generan los usuarios de Facebook.


NoSQL

NoSQL le permite administrar datos sin peso innecesario.

Introducción a NoSQL

Las tablas que traen todos sus datos pueden ser engorrosas. NoSQL incluye una gran cantidad de soluciones de almacenamiento de datos que separan grandes conjuntos de datos en fragmentos manejables.

Beneficios de NoSQL

NoSQL fue una tendencia pionera de Google para lidiar con las imposiblemente grandes cantidades de datos que estaban almacenando. A menudo estructurado en el formato JSON popular entre los desarrolladores web, soluciones como MongoDB han creado bases de datos que pueden manipularse como tablas SQL, pero que pueden almacenar los datos con menos estructura y densidad.

Quién usa esto

Los ingenieros de datos y los científicos de datos usarán NoSQL para grandes conjuntos de datos, a menudo bases de datos de sitios web para millones de usuarios.

Nivel de dificultad

Avanzado

Proyecto de muestra

Almacenar datos sobre los usuarios de una aplicación de redes sociales que se implementa en la web.


¡Espero que esto haya sido útil! El extracto completo se puede encontrar aquí. Si está interesado en un campo de entrenamiento de ciencia de datos con mentoría que lo guiará a lo largo de los pasos que necesita para convertirse en un científico de datos, ¡eche un vistazo a la Carrera de Ciencias de Datos de Springboard!

Es realmente bueno que quieras convertirte en científico de datos. La mayoría de la gente piensa que es muy difícil convertirse en un científico de datos.

Pero, déjenme aclarar que no es difícil, si trabajarán de manera muy inteligente en la dirección correcta, pueden convertirse fácilmente en científicos de datos.

Para convertirse en un científico de datos, primero comprenda quiénes son los científicos de datos, luego aprenda qué habilidades se requieren para el científico de datos y luego vea sus roles y responsabilidades. Por último, de acuerdo con sus roles y responsabilidades, intente agregar esas habilidades en usted mismo.

En primer lugar, háganos saber quiénes son los científicos de datos.

Los científicos de datos son una nueva generación de expertos en datos analíticos que tienen las habilidades técnicas para resolver problemas complejos y la curiosidad de explorar qué problemas deben resolverse.

Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio.

Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva.

Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

  • Captura de datos y preprocesamiento
  • Análisis de datos y reconocimiento de patrones
  • Presentación y visualización

Algunas tareas laborales de los científicos de datos:

  • Transformar datos rebeldes en un formato más utilizable.
  • Resolver problemas relacionados con el negocio utilizando técnicas basadas en datos.
  • Trabajando con una variedad de lenguajes de programación.
  • Tener una sólida comprensión de las estadísticas, incluidas las pruebas estadísticas y las distribuciones.
  • Mantenerse al tanto de las técnicas analíticas como el aprendizaje automático, el aprendizaje profundo y la analítica de texto.
  • Comunicándose y colaborando con TI y negocios.
  • Buscar el orden y los patrones en los datos, así como detectar tendencias que pueden ayudar a los resultados de una empresa.

Ahora, veamos las habilidades requeridas para Data Scientist:

Habilidades necesarias para convertirse en científico de datos

  • Conocimiento profundo de la codificación Python. Es el lenguaje más común, incluido Perl, Ruby, etc.
  • Conocimiento sólido de SAS / R
  • Es necesario que el científico de datos pueda trabajar con datos no estructurados. Ya sea que provenga de videos, redes sociales, etc.
  • Habilidad de sonido en la codificación de bases de datos SQL.
  • Data Scientist debería tener una buena comprensión de varias funciones analíticas. Por ejemplo rango, mediana, etc.
  • Se requiere un conocimiento profundo del aprendizaje automático.
  • Un científico de datos debe estar familiarizado con Hive , mahout, redes bayesianas , etc. En ciencia de datos, el conocimiento de MySQL es como una ventaja adicional.

Ahora, veamos los roles y responsabilidades del científico de datos:

a) Responsabilidades de un científico de datos

  • Limpieza y procesamiento de datos.
  • Predicción del problema empresarial. Sus roles son dar resultados futuros de ese negocio.
  • Desarrollar modelos de aprendizaje automático y métodos analíticos.
  • Encuentre nuevas preguntas comerciales que luego puedan agregar valor al negocio.
  • Minería de datos utilizando métodos de vanguardia.
  • Presentar resultados de manera clara y hacer el análisis ad-hoc.

Para saber más sobre las habilidades y responsabilidades de Data Scientist, consulte el siguiente enlace:

Roles y responsabilidades de un científico de datos

Aquí hay algunas tendencias laborales de los científicos de datos.

Para realizar 3 etapas de Data Scientists, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados.

Diferentes herramientas para realizar las 3 etapas de los científicos de datos:

1. Herramientas para extracción de datos y preprocesamiento

a. SQL

Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

si. Tecnologías de Big Data

Esta es la necesidad de las habilidades necesarias para convertirse en un científico de datos. El científico de datos necesita saber sobre las diferentes tecnologías de big data: tecnologías de primera generación como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), como Next Gene: Apache Spark y Apache Flink (Apache Flink está reemplazando Apache Spark rápidamente como Flink es un motor de Big Data de propósito general, que también puede manejar transmisiones en tiempo real, para más detalles sobre Flink siga este tutorial completo).

do. UNIX

Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.

re. Pitón

Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

2. Herramientas para análisis de datos y coincidencia de patrones

Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

a. SAS

Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

si. R

R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos, ya que la mayoría de las cosas se implementan en R. Para obtener la comparación entre las principales herramientas de análisis de datos, siga esta guía de comparación entre R vs SAS y SPSS.

do. Máquina inclinada

El aprendizaje automático es la herramienta más exigente y útil que los científicos de datos deben tener. Los algoritmos de aprendizaje automático se utilizan para análisis de datos avanzados, análisis predictivo, coincidencia de patrones avanzada.

Para obtener más herramientas para realizar 3 etapas de visita de Data Scientist: Habilidades necesarias para convertirse en Data Scientist

Puede ir a través de este enlace para conocer las certificaciones para científicos de datos: varias certificaciones para científicos de datos

¡¡Espero eso ayude!!

MANERA DE ARRANQUE
Para un novato con iniciativa propia, aquí hay un esquema con el que uno puede comenzar. (esto se reproduce en mi blog: ¿Cómo adquirir el “Conjunto de habilidades esenciales”? La idea es elegir uno o dos recursos (enlaces) de cada subgrupo y aprender sobre el mismo.

0. Prerrequisitos básicos:

  • Matemáticas, Algoritmos y Bases de Datos: Mathispower4u-Calculus, Coursera-Linear Algebra, Coursera-Analysis of Algorithms, Coursera- Introduction to Databases
  • Estadísticas: probabilidad y estadística para programadores, fórmulas estadísticas para programadores, Coursera- Análisis de datos, Coursera- Statistics One
  • Programación: Google Developers R Programming Lectures, Introducción a R – DataCamp, Scientific Python Lectures, Cómo pensar como un informático

1. Adquirir y restregar datos:

  • DFS y bases de datos: Plataforma Hadoop y marco de aplicación – Coursera, Tutorial de Hadoop – Yahoo, Introducción a Hadoop y MapReduce para principiantes – Udacity, Guía completa para principiantes de MongoDB
  • Munging de datos: análisis predictivo: preparación de datos, discusión de datos en pandas, análisis y manipulación de datos con pandas, data wrangler, OpenRefine

2. Datos de filtro y mina:

  • Análisis de datos en R: ciencia de datos en R, Coursera-Computing para análisis de datos en R
  • Análisis de datos en Python (numpy, scipy, pandas, scikit): Introducción a Python para la ciencia de datos, Introducción a NumPy -SciPyConf 2015, Análisis estadístico de datos en Python, Pandas (1er video a continuación), SciPy 2013- Introducción a SciKit Learn Tutorial I y II (segundo y tercer video a continuación)
  • Análisis de datos exploratorios: análisis de datos exploratorios en R, análisis de datos exploratorios en Python, UC Berkeley: estadísticas descriptivas, comandos básicos de Unix Shell para el científico de datos
  • Minería de datos, aprendizaje automático:

Mapa de minería de datos, Coursera – Aprendizaje automático, Stanford – Aprendizaje estadístico, MITx: The Analytics Edge, STATS 202 Minería y análisis de datos, Aprendiendo de datos – CalTech, Coursera – Inteligencia web y Big Data

  • Big Data Machine Learning – AMP Camp Berkeley Spark Introducción y ejercicios, EdX- Análisis de Big Data con Apache Spark, Minería Conjuntos de datos masivos – Stanford

3. Representar y refinar datos: Tableau-Training & Tutorials, visualización de datos en R con ggplot2 y plyr, Predictive Analytics: Overview and Data visualization, Flowing Data-Tutorials, UC Berkeley-Data Visualization, Tutorial D3.js

4. Conocimiento del dominio: esta habilidad se desarrolla a través de la experiencia trabajando en una industria. Cada conjunto de datos es diferente y viene con ciertos supuestos y conocimientos de la industria. Por ejemplo, un analista de datos especializado en datos del mercado de valores necesitaría tiempo para desarrollar el conocimiento en el análisis de datos transaccionales para restaurantes.

Combinando todo lo anterior:
Curso de alfabetización de datos – IAP
Coursera – Introducción a la ciencia de datos
Coursera – Especialización en ciencia de datos

Libros:
Elementos de aprendizaje estadístico
Python Machine Learning

Aplica el conocimiento:
Tarea del curso de ciencias de datos de Harvard
Kaggle: el hogar de la ciencia de datos
Analizando Big Data con Twitter
Análisis de datos de Twitter con Apache Hadoop

MANERA FORMAL
Para una forma más formal de convertirse en un científico de datos, puede consultar esta publicación (reproducida a continuación): ¿Cómo adquirir el “Conjunto de habilidades esenciales”? – La forma formal.
El conjunto de habilidades esenciales son las habilidades básicas básicas que se espera que cada científico de datos conozca. Tradicionalmente, estos pueden adquirirse realizando un título en informática o un título en estadística de una institución. Los cursos de Stanford Computer Science y los cursos de Estadística proporcionan una buena lista de referencia de cursos para realizar. Ahora, algunos de los cursos son relevantes, mientras que muchos otros no lo son. Por ejemplo, en informática, sería bueno aprender sobre bases de datos y algoritmos distribuidos a gran escala, pero no es necesario aprender HCI y UX, ni almacenamiento puro y sistemas operativos, redes, etc. De manera similar, algunos cursos de estadística se centran demasiado en, digamos, “estadísticas de la vieja escuela” que incluyen miles de formas de prueba de hipótesis en lugar de más sobre aprendizaje automático (agrupación, regresión, clasificación, etc.). Por lo tanto, ambos flujos tienen muchos cursos agradables y deben tener cursos para un científico de datos (me atrevo a afirmar que en la actualidad el porcentaje de cursos obligatorios parece ser mayor en un flujo de estadísticas tradicional que en un flujo de informática). Como tal, uno debe elegir los cursos sabiamente.

O, alternativamente, también se pueden ver una serie de nuevos cursos de Ciencia de Datos que algunas universidades están ofreciendo con los puntos que mencioné anteriormente. Combinan los cursos imprescindibles del programa tradicional de estadística y ciencias de la computación para impartir las 4 habilidades esenciales, así como también incluyen cursos para desarrollar las habilidades diferenciadoras en los estudiantes. La Maestría en Ciencia de Datos en NYU y la Maestría en Análisis en USF son buenos ejemplos de tal amalgama de los cursos requeridos. Aquí se presenta una lista completa de dichos cursos: universidades con títulos en ciencias de datos.

El programa correcto obviamente depende de la meta del individuo. Una de las publicaciones recientes de O’Rielly titulada ‘Analizando a los analizadores’ hace un muy buen trabajo al agregar los diversos roles de científicos de datos en 4 categorías principales según sus habilidades. Por lo tanto, un individuo puede seleccionar un programa según la categoría de científico de datos con el que más se identifica, como se muestra a continuación.

  • Los empresarios de datos son los científicos de datos centrados en el producto y las ganancias. Son líderes, gerentes y empresarios, pero con una inclinación técnica. Una ruta educativa común es un título de ingeniería junto con un MBA o los nuevos programas de Data Science como se mencionó anteriormente.
  • Data Creatives son eclécticos jacks of all-trades, capaces de trabajar con una amplia gama de datos y herramientas. Pueden pensar en sí mismos como artistas o hackers, y sobresalir en la visualización y las tecnologías de código abierto. Se espera que tengan un título de ingeniería (principalmente en estadística o economía) pero no mucho en habilidades comerciales.
  • Los desarrolladores de datos se centran en escribir software para realizar tareas analíticas, estadísticas y de aprendizaje automático, a menudo en entornos de producción. A menudo tienen títulos en ciencias de la computación, y a menudo trabajan con los llamados “big data”.
  • Los investigadores de datos aplican su capacitación científica y las herramientas y técnicas que aprendieron en la academia a los datos de la organización. Pueden tener una maestría o doctorado en estadística, economía, física, etc., y sus aplicaciones creativas de herramientas matemáticas producen valiosos conocimientos y productos.

Las habilidades asociadas con las 4 categorías principales, que justifican la recomendación del programa mencionada anteriormente, son las siguientes:

Si bien hay muchas maneras de comenzar, aquí está mi revisión sobre cómo tomar el Data Science | Python: curso de certificado de seguimiento de IBM a través de DeZyre Academy. Reconozco esto como un peldaño muy importante a medida que continúo aprendiendo diferentes herramientas que son relevantes en mi campo.


Ciencia de datos de Dezyre para Python Parte 3 y 4

Comencé a publicar esta serie en mi experiencia al tomar la certificación Python de IBM de Dezyre.com y estas son mis ideas sobre las clases 3 y 4. Creo que hay 12 en total repartidas en 5-6 semanas. Haga clic aquí para leer mi comentario sobre las clases 1 y 2.

Ciencia de datos para Python: Módulo 1 – Clase 1

Ciencia de datos para Python: Módulo 1 – Clase 2

Actualmente he completado mi cuarta clase de Python con Dezyre. Combiné las reseñas de esta semana en una publicación, ya que el contenido de las dos clases fue bastante similar, ya que aprendimos y practicamos el trazado usando matplotlib y seaborn.

Las clases tienen lugar los sábados y domingos con una tarea para completar, antes de la próxima clase. El día 3, al comienzo de la sesión, el instructor revisó la primera tarea que consistía en 7 problemas de declaración de programación.

Aprendí una valiosa lección cuando abordé la tarea. Después de la clase 2, revisé los problemas y me sentí seguro de poder completarlo sin ningún tipo de estrés. Debido a esto, en lugar de completar la tarea de inmediato, esperé hasta la noche anterior al próximo Módulo para intentarlo. Recordé la mayor parte de la lógica requerida para producir las declaraciones de python necesarias, pero había olvidado las reglas críticas de sintaxis basadas en lo que se nos mostró. Comencé la tarea a las 9:30 pm y no la terminé hasta la 1 am. Lo que parecía relativamente fácil simplemente no estaba funcionando para mí. Afortunadamente, pude ver los seminarios web y revisar algunos de los archivos de la facultad en mi tablero. ¡NUNCA MÁS! Me prometí a mí mismo que haría todo lo posible para completar las tareas dentro de 1-2 días para darme una mejor oportunidad.

Cuando el instructor Singh revisó los problemas, estaba en buena forma, excepto el último (# 7). Hice muchas preguntas al respecto y todas fueron respondidas tanto por el instructor de la conferencia como por el instructor de la sala de chat.

Para ser claros, hago muchas preguntas a lo largo de toda la clase. Intento encontrar mis errores yo mismo, pero confío en el instructor de chat si no puedo verlo. Me siento terrible haciendo un millón de preguntas y publicando mi código en el registro de chat privado varias veces, ¡pero los instructores son MUY ÚTILES! Son pacientes y alentadores, y hay mucho que aprendemos en el camino. No se sentirá pequeño por no ver las comillas adicionales o lo que sea que esté causando su mensaje de error. ¡¡¡MUY IMPORTANTE!!! No puedo aprender de alguien que se irrita si no entiendo el trabajo. Nunca se sabe realmente quién está enseñando al final de estas cosas. Nos arriesgamos y pagamos varios cientos o incluso miles para que se les enseñe, teniendo muy poca idea de las personalidades detrás del programa. Siento que estoy en buenas manos con Dezyre. Cuando aprendes algo nuevo, es importante que quien enseña sea sensible a tu novedad. Como un niño que aprende a escribir sus números y letras por primera vez, nosotros también aprendemos a leer y escribir en un idioma nuevo por primera vez. Los instructores Singh y Sauram hacen un gran trabajo. Desde problemas de ortografía hasta errores más complejos, ambos instructores están muy bien informados y pueden saber con solo mirar el código lo que debe corregirse. Nunca se me ha ignorado una pregunta y tengo un promedio de 10 por sesión.

¡No más problemas de audio! Usé mi teléfono para llamar en las últimas 3 clases y personalmente prefiero la calidad del sonido. Llamo y lo dejo en el altavoz mientras ejecuto el código en el laboratorio. Si eres como yo y prefieres el teléfono, asegúrate de que esté cargado o que el cargador esté cerca. Prepárese antes de que comience la sesión porque nunca sabe si tendrá la oportunidad de abandonar su PC o cuándo. Si puede comer y tomar sus descansos en el baño antes, también ayuda. Es cierto que podemos acceder a los videos y ver lo que nos hemos perdido, pero ahorra tiempo a la clase y al instructor de tener que repetirse.

Cubrió un poco más NumPy y estoy empezando a entender algunas de las funciones comunes.

Realizamos un análisis exploratorio de datos y trazamos algunos datos usando matplotlib. ¡Esto fue lo más sorprendente que me había encontrado en mucho tiempo! ¡Muy impresionado! Debo decir que me enamoré de matplotlib durante la clase 3.

Durante la clase 3, nos presentaron el Proyecto Euyler, un proyecto en línea donde las personas pueden practicar su código. Este sitio presenta una serie de problemas matemáticos de programación de computadoras en los que los usuarios compiten para terminar primero o cerca de la cima. Dado que el sitio es reconocido, su rendimiento (si es bueno) se puede publicar en su currículum. Planeo participar y publicaré actualizaciones la próxima semana.

El día 4 vino y se fue y la clase tramó con Seaborn y matplotlib. El día 4 fue la primera vez que nos pidieron que escribiéramos declaraciones para nuestras propias parcelas. Esto fue complicado, pero ambos instructores fueron increíblemente útiles, lo descubrí y completé mis primeros argumentos. ¡¡Increíble!!

Aquí hay una captura de pantalla de algunos de mis trabajos. Este es el tipo de cosas que hacemos en cada sesión, escribimos código en el laboratorio mientras el instructor guía al grupo.

Las declaraciones aumentan con la dificultad y el tamaño de cada tarea. Justo cuando pasamos a los diagramas de densidad, el servidor se sobrecargó y se nos indicó que actualizáramos nuestras páginas. Esto no ayudó, ya que iPython no estaba cooperando, por lo que el instructor cerró la clase una hora antes. Esto realmente no me molestó ya que indicó que compensaríamos la hora perdida más adelante en el curso. ¡Hasta aquí todo bien! Realmente estoy amando este curso !!! Antes de cerrar, pedí una plataforma para practicar y me dirigieron a Sage Math, otro recurso de código abierto que le permite crear proyectos utilizando las bibliotecas para Python, R y otras herramientas. Me inscribí y conecté mi nuevo perfil de Sage Math a mi cuenta de Github. Probaré mis propios proyectos allí a medida que avancemos (más sobre eso por venir).

Siempre escucho que los empleadores miran sus proyectos de Github mientras consideran sus calificaciones. Bueno, esta es una excelente manera de comenzar! Esta clase es más que un simple curso de Python. No hay nada mejor que aprender de expertos que pueden enseñar con paciencia y guiarlo a recursos invaluables para mejorar su conjunto de habilidades.

Estoy más que feliz con mi decisión de tomar este curso con Dezyre. Ya no siento que estoy tratando de convertirme en un científico de datos, pero más aún, me estoy convirtiendo en un científico de datos, lentamente, una clase a la vez. Tengo la intención de tomar Dezyre’s Data Science para R justo después de que termine mi clase de Python. Si tiene dificultades para obtener instrucciones sobre cómo comenzar su viaje en Data Science, y necesita calificaciones profesionales para agregar a su currículum, le recomiendo este programa.

http://DataCami.com

En términos generales, existen básicamente 8 pasos para aprender ciencia de datos y recomendaría que se una a los cursos de acuerdo con esos pasos y sus conocimientos previos.

Paso 1. Sé bueno en estadísticas, matemáticas y aprendizaje automático

Para su pregunta específica sobre estadísticas, recomendaría Estadísticas y probabilidad | Khan Academy, Álgebra lineal | Khan Academy, OpenIntro, OCW Course Index, Introducción a las estadísticas | Udacity, Análisis de datos e inferencia estadística, Machine Learning – Universidad de Stanford | Coursera.

También asegúrese de buscar algoritmos, y definitivamente revise más de 40 estadísticas de Python para recursos de ciencia de datos para aprender estadísticas de ciencia de datos con Python.

Paso 2. Aprende a codificar

Parece que ya tienes esta habilidad bajo control. Sin embargo, para la ciencia de datos, recomendaría que analice Python y R. Esto debería ser bastante fácil para usted. Pruebe algunos cursos como: Curso gratuito de introducción a la programación en línea de R o Aprenda Python para Data Science – Curso en línea. Pruebe también Learn Python – Tutorial interactivo gratuito de Python.

Paso 3. Comprender las bases de datos

Supongo que, como programador, ya se habrá puesto en contacto con las bases de datos. En cualquier caso, debe comprender cómo funcionan las bases de datos y los almacenes de datos, cómo se modelan los datos y cómo puede consultar las bases de datos. Aprenda a trabajar con SQL y NoSQL. Recomendaría Introducción y Bases de datos relacionales.

Paso 4. Explore el flujo de trabajo de ciencia de datos

Comprenda cómo funciona el flujo de trabajo de la ciencia de datos e intente realmente recorrerlo: aprenda a trabajar con los diferentes paquetes y bibliotecas o herramientas que existen para comprender lo que debe hacer. Comprenda también que este es un proceso circular que realmente no termina pronto. Echa un vistazo a RDocumentation y PyPI: el índice del paquete de Python (no cursos, sino recursos útiles).

Paso 5. Sube de nivel con Big Data

Comprenda por qué Big Data es diferente de otro procesamiento de datos. Familiarícese con los marcos Hadoop y Spark. Echa un vistazo a Introducción a Apache Spark. También vale la pena echarle un vistazo a los cursos de Big Data University: Analytics, Big Data y Data Science.

Paso 6. Crecer, conectarse y aprender

Después de estos pasos, principalmente teóricos, es hora de seguir creciendo. Participe en un desafío, reúnase con sus compañeros, configure su propio proyecto favorito y desarrolle su intuición y capacidad para hacer preguntas críticas sobre sus datos, su enfoque y su análisis. Visite Your Home for Data Science (Kaggle) y DrivenData para proyectos de ciencia de datos. También puede encontrar desafíos en Analytics Community | Discusiones analíticas | Discusión de Big Data (Analytics Vidhya). Tendrá que cubrir mucho terreno con esos proyectos y construir una cartera que lo ayudará a conseguir un trabajo.

Paso 7. Sumérgete por completo

Es hora de sumergirse por completo. Ingrese a un campamento de entrenamiento, obtenga una pasantía u obtenga un trabajo (dependiendo de lo competente que ya sea).

Paso 8. Comprometerse con la comunidad

No se olvide de interactuar con la comunidad de ciencia de datos: siga y participe en Facebook, LinkedIn, Google+, Reddit, … Grupos. No olvide contribuir siempre que pueda o hacer preguntas que puedan ayudar a otros. Siga a las personas clave de la industria de la ciencia de datos y suscríbase a algunos boletines. Escuche podcasts, … Las posibilidades son infinitas. Para obtener una lista de recursos, puede ir aquí: Learn Data Science – Resources for Python & R.

Usted ve cómo los primeros cinco pasos se refieren principalmente a obtener una sólida base teórica; Asegúrese de consolidar ese conocimiento practicando: haga algunos tutoriales interactivos o comience usted mismo con la ayuda de un tutorial estático.

Observe cómo los pasos 6 a 8 se centran principalmente en obtener experiencia práctica con la ciencia de datos. Este es el momento en el que comienzas a elaborar proyectos de ciencia de datos a través de herramientas como Jupyter, R Markdown Notebooks, … Te conectas con la comunidad (pronuncia un discurso en un Meetup, discute los hallazgos con tus compañeros, participa en desafíos, etc.).

Puede encontrar toda la infografía aquí: Aprenda ciencia de datos en 8 pasos (fáciles).

Ser científico de datos requiere una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemáticas.

Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

También creo que el conocimiento profundo de la ciencia de datos, el aprendizaje automático y la PNL ayudarán a resolver problemas de nivel básico a superior. De 4 a 5 años de experiencia en el desarrollo pueden dar tal prestigio.

  • Curso de Introducción al CS
    Notas: Curso de Introducción a la Informática que proporciona instrucciones sobre codificación.
    Recursos en línea:
    Udacity – introducción al curso de CS,
    Coursera – Informática 101
  • Código en al menos un lenguaje de programación orientado a objetos: C ++, Java o Python
    Recursos en línea para principiantes:
    Coursera – Aprender a programar: los fundamentos,
    Introducción del MIT a la programación en Java,
    Python Class de Google,
    Coursera – Introducción a Python,
    Libro electrónico de código abierto de Python

    Recursos en línea intermedios:
    Diseño de programas informáticos de Udacity,
    Coursera – Learn to Program: Crafting Quality Code,
    Coursera – Lenguajes de programación,
    Brown University – Introducción a los lenguajes de programación

  • Aprende otros lenguajes de programación
    Notas: Agregue a su repertorio: Java Script, CSS, HTML, Ruby, PHP, C, Perl, Shell. Lisp, Scheme.
    Recursos en línea: w3school.com – Tutorial HTML, Aprenda a codificar
  • Prueba tu código
    Notas: aprenda a detectar errores, crear pruebas y romper su software
    Recursos en línea: Udacity – Métodos de prueba de software, Udacity – Depuración de software
  • Desarrollar razonamiento lógico y conocimiento de matemáticas discretas.
    Recursos en línea:
    MIT Matemáticas para Informática,
    Coursera – Introducción a la lógica,
    Coursera – Optimización lineal y discreta,
    Coursera – Modelos gráficos probabilísticos,
    Coursera – Teoría de juegos.
  • Desarrollar una sólida comprensión de los algoritmos y las estructuras de datos.
    Notas: Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.
    Recursos en línea:
    Introducción a los algoritmos del MIT,
    Coursera – Introducción a los algoritmos Parte 1 y Parte 2,
    Wikipedia – Lista de algoritmos,
    Wikipedia – Lista de estructuras de datos,
    Libro: El manual de diseño de algoritmos
  • Desarrollar un sólido conocimiento de los sistemas operativos.
    Recursos en línea: UC Berkeley Computer Science 162
  • Aprenda recursos de inteligencia artificial en línea:
    Stanford University – Introducción a la robótica, procesamiento del lenguaje natural, aprendizaje automático
  • Aprende a construir compiladores
    Recursos en línea: Coursera – Compiladores
  • Aprende criptografía
    Recursos en línea: Coursera – Criptografía, Udacity – Criptografía aplicada
  • Aprender programación paralela
    Recursos en línea: Coursera – Programación paralela heterogénea

Herramientas y tecnologías para Bigdata:

Apache spark : Apache Spark es un marco informático de clúster de análisis de datos de código abierto desarrollado originalmente en AMPLab en UC Berkeley. [1] Spark se adapta a la comunidad de código abierto de Hadoop, basándose en el Sistema de archivos distribuidos de Hadoop (HDFS). [2] Sin embargo, Spark no está vinculado al paradigma MapReduce de dos etapas, y promete un rendimiento hasta 100 veces más rápido que Hadoop MapReduce para ciertas aplicaciones.

Canalización de bases de datos
Como notará, no se trata solo de procesar los datos, sino que involucra muchos otros componentes. La recolección, almacenamiento, exploración, ML y visualización son críticos para el éxito del proyecto.

SOLR : Solr para construir un motor de análisis de datos altamente escalable que permita a los clientes participar en el descubrimiento de conocimiento en tiempo real a la velocidad de la luz.
Solr (pronunciado “solar”) es una plataforma de búsqueda empresarial de código abierto del proyecto Apache Lucene. Sus características principales incluyen búsqueda de texto completo, resaltado de resultados, búsqueda por facetas, agrupación dinámica, integración de bases de datos y manejo de documentos enriquecidos (por ejemplo, Word, PDF). Al proporcionar búsqueda distribuida y replicación de índices, Solr es altamente escalable. [1] Solr es el motor de búsqueda empresarial más popular. [2] Solr 4 agrega características NoSQL

S3 : Amazon S3 es un servicio web de almacenamiento de archivos en línea ofrecido por Amazon Web Services. Amazon S3 proporciona almacenamiento a través de interfaces de servicios web. Wikipedia

Hadoop: Apache Hadoop es un marco de software de código abierto para el almacenamiento y el procesamiento a gran escala de conjuntos de datos en grupos de hardware de productos básicos. Hadoop es un proyecto de nivel superior de Apache construido y utilizado por una comunidad global de contribuyentes y usuarios. Tiene licencia de Apache License 2.0. Apache Hadoop

MapReduce: Hadoop MapReduce es un marco de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos (conjuntos de datos de varios terabytes) en paralelo en grandes grupos (miles de nodos) de hardware básico de manera confiable y tolerante a fallas.

Un trabajo de MapReduce generalmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados ​​por las tareas de mapa de manera completamente paralela. El marco ordena los resultados de los mapas, que luego se ingresan a las tareas de reducción . Normalmente, tanto la entrada como la salida del trabajo se almacenan en un sistema de archivos. El marco se encarga de programar tareas, monitorearlas y volver a ejecutar las tareas fallidas.

Corona:

Corona, un nuevo marco de programación que separa la gestión de recursos del clúster de la coordinación del trabajo. [1] Corona presenta un administrador de clúster cuyo único propósito es rastrear los nodos en el clúster y la cantidad de recursos libres. Se crea un rastreador de trabajos dedicado para cada trabajo, y puede ejecutarse en el mismo proceso que el cliente (para trabajos pequeños) o como un proceso separado en el clúster (para trabajos grandes).

Una diferencia importante con respecto a nuestra implementación anterior de Hadoop MapReduce es que Corona utiliza una programación basada en push, en lugar de pull. Después de que el administrador de clúster recibe solicitudes de recursos del rastreador de trabajos, devuelve las subvenciones de recursos al rastreador de trabajos. Además, una vez que el rastreador de trabajos obtiene subvenciones de recursos, crea tareas y luego empuja estas tareas a los rastreadores de tareas para su ejecución. No hay latidos cardíacos periódicos involucrados en esta programación, por lo que se minimiza la latencia de programación. Ref: Under the Hood: Programando trabajos MapReduce más eficientemente con Corona

HBase: HBase es una base de datos distribuida, no relacional y de código abierto, inspirada en BigTable de Google y escrita en Java. Se desarrolla como parte del proyecto Apache Hadoop de Apache Software Foundation y se ejecuta sobre HDFS (Hadoop Distributed Filesystem), proporcionando capacidades similares a BigTable para Hadoop. Es decir, proporciona una forma tolerante a fallas de almacenar grandes cantidades de datos dispersos (pequeñas cantidades de información capturadas dentro de una gran colección de datos vacíos o sin importancia, como encontrar los 50 elementos más grandes en un grupo de 2 mil millones de registros, o encontrar el elementos distintos de cero que representan menos del 0.1% de una gran colección).

Zookeeper – Apache ZooKeeper es un proyecto de software de Apache Software Foundation, que proporciona un servicio de configuración distribuida de código abierto, servicio de sincronización y registro de nombres para grandes sistemas distribuidos. [ aclaración necesaria ] ZooKeeper era un subproyecto de Hadoop pero ahora es un proyecto de nivel superior por derecho propio.

Hive: Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar resumen, consulta y análisis de datos. Aunque inicialmente fue desarrollado por Facebook, Apache Hive ahora es utilizado y desarrollado por otras compañías como Netflix. Amazon mantiene una bifurcación de software de Apache Hive que se incluye en Amazon Elastic MapReduce en Amazon Web Services.

Mahout – Apache Mahout es un proyecto de Apache Software Foundation para producir implementaciones gratuitas de algoritmos de aprendizaje automático distribuidos u otros escalables enfocados principalmente en las áreas de filtrado colaborativo, agrupación y clasificación. Muchas de las implementaciones usan la plataforma Apache Hadoop. Mahout también proporciona bibliotecas Java para operaciones matemáticas comunes (centradas en álgebra lineal y estadística) y colecciones primitivas de Java. Mahout es un trabajo en progreso; el número de algoritmos implementados ha crecido rápidamente, [3] pero todavía faltan varios algoritmos.

Lucene es un conjunto de herramientas relacionadas con la búsqueda y PNL, pero su característica principal es ser un índice de búsqueda y un sistema de recuperación. Toma datos de una tienda como HBase y los indexa para una recuperación rápida de una consulta de búsqueda. Solr usa Lucene debajo del capó para proporcionar una API REST conveniente para indexar y buscar datos. ElasticSearch es similar a Solr.

Sqoop es una interfaz de línea de comandos para respaldar datos SQL en un almacén distribuido. Es lo que puede usar para tomar instantáneas y copiar las tablas de su base de datos en un almacén de Hive todas las noches.

Hue es una GUI basada en web para un subconjunto de las herramientas anteriores. Hue agrega los componentes más comunes de Apache Hadoop en una sola interfaz y apunta a la experiencia del usuario. Su objetivo principal es hacer que los usuarios “solo usen” Hadoop sin preocuparse por la complejidad subyacente o usando una línea de comando

Pregel y su código abierto gemelo Giraph es una forma de hacer algoritmos gráficos en miles de millones de nodos y billones de bordes en un grupo de máquinas. En particular, el modelo MapReduce no es adecuado para el procesamiento de gráficos, por lo que Hadoop / MapReduce se evitan en este modelo, pero HDFS / GFS todavía se usa como un almacén de datos.

NLTK: el Kit de herramientas de lenguaje natural , o más comúnmente NLTK , es un conjunto de bibliotecas y programas para el procesamiento de lenguaje natural simbólico y estadístico (NLP) para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Está acompañado por un libro que explica los conceptos subyacentes detrás de las tareas de procesamiento de lenguaje admitidas por el kit de herramientas, además de un libro de cocina.

NLTK está destinado a apoyar la investigación y la enseñanza en PNL o áreas estrechamente relacionadas, incluida la lingüística empírica, la ciencia cognitiva, la inteligencia artificial, la recuperación de información y el aprendizaje automático.

Para Python
Scikit Learn

Numpy

Scipy

Freebase: Freebase es una gran base de conocimiento colaborativo que consta de metadatos compuestos principalmente por los miembros de su comunidad. Es una colección en línea de datos estructurados recolectados de muchas fuentes, incluidas las contribuciones individuales ‘wiki’.

DBPedia : DBpedia (de “DB” para “base de datos”) es un proyecto cuyo objetivo es extraer contenido estructurado de la información creada como parte del proyecto Wikipedia. Esta información estructurada se pone a disposición en la World Wide Web. DBpedia permite a los usuarios consultar las relaciones y propiedades asociadas con los recursos de Wikipedia, incluidos los enlaces a otros conjuntos de datos relacionados. Tim Berners-Lee ha descrito a DBpedia como una de las partes más famosas del esfuerzo descentralizado de Linked Data.

Herramienta de visualización
ggplot en R
Tableu
Qlikview

Matemáticas : )

Cálculo, estadística, probabilidad, álgebra lineal y geometría coordinada

El reconocimiento de entidad con nombre (NER) NER etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y compañías, o nombres de genes y proteínas.

Búsqueda por facetas: la búsqueda por facetas, también llamada navegación por facetas o navegación por facetas, es una técnica para acceder a la información organizada según un sistema de clasificación por facetas, lo que permite a los usuarios explorar una colección de información mediante la aplicación de múltiples filtros. Un sistema de clasificación por facetas clasifica cada elemento de información a lo largo de múltiples dimensiones explícitas, llamadas facetas, lo que permite acceder a las clasificaciones y ordenarlas de varias maneras en lugar de en un solo orden taxonómico predeterminado.

Fuente: Wikipedia, la enciclopedia libre.

Hay muchos por supuesto que puedes resolver:

  1. Análisis de sentimientos para twitter, artículos web : identifique todos los sentimientos para artículos web, revisión de productos, revisión de películas, tweets. Se puede utilizar un enfoque basado en léxico o técnicas de aprendizaje automático
  2. Clasificación / resumen de artículos web : utilice la técnica de agrupación / clasificación para clasificar el artículo web, realice análisis semánticos para resumir los artículos
  3. Sistema de recomendaciones basado en los perfiles de redes sociales del usuario : utilice la API de redes sociales, recopile el interés del usuario de Facebook, Twitter, etc. implemente el sistema de recomendación para el interés del usuario
  4. Clasificación de tweets y detección de tendencias: clasifique los tweets para deportes, negocios, política, entretenimiento, etc. y detecte tweets de tendencias en esos dominios
  5. Predicción de revisión de películas: use críticas de películas en línea para predecir críticas de nuevas películas.
  6. Resumir reseñas de restaurantes: tome una lista de reseñas sobre un restaurante y genere un único resumen en inglés para ese restaurante.
  7. AutoBot: crea un sistema que pueda mantener una conversación contigo. El usuario escribe mensajes y su sistema responde en función del texto del usuario. Muchos enfoques aquí … podría usar un gran corpus de Twitter y hacer similitud de lenguaje
  8. Sistema de noticias basado en Twitter : recopile tweets para varias categorías cada hora, base diaria, identifique debates de tendencias, realice análisis semánticos y cree un sistema de noticias (consulte el producto Frrole)

Pocos conjuntos de datos utilizados para la aplicación bigdata que puede utilizar:

  1. Página de inicio para el conjunto de datos de 20 grupos de noticias: el conjunto de datos de 20 grupos de noticias es una colección de aproximadamente 20,000 documentos de grupos de noticias, divididos (casi) de manera uniforme en 20 grupos de noticias diferentes.
  2. Descargar Trec (= Conferencia de recuperación de texto) Conjunto de datos: conjuntos de datos de texto utilizados en la recuperación de información y el aprendizaje en dominios de texto.
  3. World Factbook Download 2013- El World Factbook proporciona información sobre la historia, las personas, el gobierno, la economía, la geografía, las comunicaciones, el transporte, los asuntos militares y transnacionales para 267 entidades mundiales.
  4. DBpedia “Lanzamiento del conjunto de datos: el conjunto de datos de DBpedia utiliza una gran ontología multidominio derivada de Wikipedia. La versión en inglés del conjunto de datos de DBpedia 2014 describe actualmente 4.58 millones de” cosas “con 583 millones de” hechos “. Además, nosotros proporcionan versiones localizadas de DBpedia en 125 idiomas. Todas estas versiones juntas describen 38.3 millones de cosas, de las cuales 23.8 millones se superponen (están interrelacionadas) con conceptos de la DBpedia en inglés.
  5. http://konect.uni-koblenz.de/net … – KONECT (Koblenz Network Collection) es un proyecto para recopilar grandes conjuntos de datos de red de todo tipo para realizar investigaciones en ciencias de redes y campos relacionados,
  6. Max-Planck-Institut für Informatik: YAGO – YAGO (Yet Another Great Ontology) es una base de conocimiento desarrollada en el Instituto Max Planck de Ciencias de la Computación en Sarrebruck. Se extrae automáticamente de Wikipedia y otras fuentes.
  7. Reuters-21578 Conjunto de datos de recopilación de categorización de texto: repositorio de aprendizaje automático
  8. Página CSTR en ed.ac.uk – CSTR se ocupa de la investigación en todas las áreas de la tecnología del habla, incluido el reconocimiento de voz, síntesis de voz, procesamiento de señales de voz, acceso a la información, interfaces multimodales y sistemas de diálogo. Tenemos muchas colaboraciones con la comunidad más amplia de investigadores en ciencias del habla, lenguaje, cognición y aprendizaje automático por las que Edimburgo es reconocida.
  9. ConceptNet: ConceptNet es una base de conocimiento de sentido común y un kit de herramientas de procesamiento del lenguaje natural disponibles de forma gratuita que admite muchas tareas prácticas de razonamiento textual sobre documentos del mundo real listos para usar (sin capacitación estadística adicional)

Otros conjuntos de datos bien conocidos son: MNIST, CIFAR e ImageNet.

Al ser un principiante, hay ciertos aspectos que primero debe considerar antes de ingresar en la ciencia de datos.

La EDUCACIÓN

  • Técnico
  • Matemáticas (por ejemplo, álgebra lineal, cálculo y probabilidad) y Estadística (32%) (por ejemplo, pruebas de hipótesis y estadísticas resumidas)
  • Ciencias de la computación (19%)
  • Ingeniería (16%) (por ejemplo, computación distribuida, algoritmos y estructuras de datos) Minería de datos y visualización de datos, etc.
  • Habilidades no técnicas
    • Conocimiento de la industria
    • Curiosidad intelectual
    • Visión para los negocios
    • Habilidades de comunicación

    Las habilidades:

    • Estadística
    • Estadísticas básicas
    • análisis estadístico
  • Análisis predictivo usando R y Python
    • Analítica predictiva
    • Programación R y Python
    • Análisis exploratorio de datos
    • Análisis de valor perdido
    • Análisis de valores atípicos
    • Escalado de características
    • Técnicas de muestreo, R y Python
    • Aprendizaje automático
    • Árbol de decisión
    • Métrica de error
    • Bosque al azar
    • Regresión lineal
    • Regresión logística
    • Visualizaciones
    • KNN
    • Bayes ingenuos
    • Análisis de conglomerados
    • Extracción de textos
    • Modelos de implementación
  • Herramientas de visualización
    • Cuadro
  • Bases de datos
    • MongoDB

    Los científicos de datos no nacen, ¡están hechos!

    Entonces, ¿qué puedo hacer para desarrollar estas habilidades?

    • Aprende las habilidades necesarias para ser un científico de datos
    • Trabajar en proyectos de ciencia de datos.
    • Ser contratado como científico de datos.

    ¿Dónde puedo aprender estas habilidades?

    Hay muchos recursos en línea en Internet, pero no tengo la impresión errónea de que el camino hacia la ciencia de datos es tan simple como tomar algunos MOOC. A menos que ya tenga una sólida formación cuantitativa, el camino para convertirse en un científico de datos será un desafío, pero vale la pena.

    • Desafíos de codificación en línea : los desafíos en línea pueden ayudarlo a identificar dónde le faltan las habilidades, esto le brinda una autosatisfacción. por ejemplo, HackerEarth y HackerRank
    • Crea un proyecto en GitHub y Kaggle .

    Por otro lado, hay una plataforma, edWisor. Puede aprender ciencia de datos completa aquí mientras trabaja en proyectos de ciencia de datos. También tienen una cartera de proyectos basada para que uno pueda mostrar las habilidades al reclutador, etc. Además, edwisor también ayuda a los aspirantes a científicos de datos a ser contratados en compañías basadas en productos.

    Además de edWisor, también tiene Udacity, Udemy, Simplilearn, etc. para aprender estas habilidades, pero no hay confiabilidad en la garantía de empleo. Prueba tu suerte.

    Espero que estas respuestas completen tu respuesta.

    ¡La mejor de las suertes!

    ¿CÓMO PUEDO SER UN CIENTÍFICO DE DATOS?

    ¿Alguna vez se ha preguntado cómo las empresas pueden predecir qué clientes probablemente dejarán a sus competidores y se acercarán a ellos y qué clientes probablemente se volverán contra ellos e irán a sus competidores? Bueno, las empresas tienen sus propios científicos especiales que analizan grandes datos y les permiten no solo analizar y presentar sus datos, sino también desarrollar estrategias efectivas basadas en el análisis científico proporcionado por un científico de datos. William S. Cleveland acuñó el término científico de datos en 2001, cuando promovió la idea de la integración de la informática y las estadísticas para crear mejores herramientas analíticas. En teoría, los científicos de datos utilizan sus habilidades y conocimientos aplicados para convertir los datos en ideas que podrían ayudar a las empresas a desarrollar estrategias que van desde el desarrollo de productos hasta la retención de clientes y la búsqueda de nuevas oportunidades de negocio.

    La ciencia de datos se ocupa de la disposición de los datos obtenidos de varias fuentes utilizando diferentes habilidades en programación, matemáticas, estadísticas y otros para organizarlos. Si tiene interés y pasión por los datos, es posible que desee examinar este campo.

    A lo largo de los años, la demanda de científicos de datos ha ido en aumento con más personas encontrando su camino en esta área. La primera pregunta que se me ocurre es: ¿Quién es un científico de datos? ¡Buena pregunta! En términos simples, un científico de datos es una persona que toma una gran cantidad de puntos de datos estructurados y no estructurados, aplica estadísticas de habilidades, programación y matemáticas para reorganizarlos y organizarlos para una mejor comprensión. También encuentran soluciones a los desafíos del negocio mediante la aplicación de razonamiento contextual, conocimiento de la industria y el análisis adecuado de los supuestos preexistentes. Por lo tanto, podemos decir que el trabajo del científico de datos es importante.

    Para que consigas un trabajo en este campo, primero necesitas ciertas calificaciones.

    ¿Necesito un título para ser un científico de datos?

    Bueno, tener un título es muy importante. De hecho, los estudios muestran que los científicos de datos con un título de maestría son alrededor del 88%, mientras que los que tienen un doctorado. son 46%. Dichos títulos están en áreas técnicas, cuantitativas y científicas de estudios como informática e ingeniería, estadística y matemáticas.

    Esto responde a la pregunta sobre la necesidad de un título para trabajar como científico de datos. Sin embargo, debe tener ciertas habilidades para respaldar su título porque esto es lo que la mayoría de las empresas realmente buscan. Esto nos lleva a nuestra siguiente pregunta.

    Leer más: ¿Cuál es el mejor instituto de capacitación en análisis de datos?

    ¿Cuáles son las habilidades exactas necesarias para convertirse en un científico de datos?

    Dado que los científicos de datos utilizan ciertas áreas de conocimiento para encontrar soluciones a problemas industriales y comerciales, las habilidades técnicas y comerciales definitivamente serían imprescindibles.

    Las habilidades técnicas incluyen: Matemáticas, herramientas de aprendizaje automático, estadísticas, habilidades en ingeniería de software, limpieza de datos, minería de datos, visualización de datos, habilidades de herramientas en la nube, Python, bases de datos SQL, técnicas en datos no estructurados y muchos otros.

    Se requieren habilidades comerciales, y esto incluye áreas como:

    1. Comunicación efectiva: Esto es necesario al presentar sus descubrimientos y técnicas a audiencias que pueden ser técnicas o no técnicas en esta área. La presentación debería hacerse en un idioma que comprendan.

    2. Solución analítica de problemas: existen desafíos de naturaleza de alto nivel que deben abordarse adecuadamente mediante el uso de los métodos correctos para utilizar los recursos humanos y el tiempo óptimos.

    3. Conocimiento de la industria: Esto es necesario para saber cómo funciona la industria en la que se encuentra y cómo debe recopilar, analizar y utilizar los datos.

    4. Curiosidad del intelecto: debe descubrir formas nuevas, inusuales y creativas para encontrar soluciones a los problemas.

    Habilidades técnicas

    En términos de habilidades técnicas, los científicos de datos podrían necesitar una amplia gama de herramientas y habilidades técnicas y analíticas, algunas de las cuales son:

    • Algoritmos Avanzados

    Los científicos de datos necesitan desarrollar y poder utilizar algoritmos avanzados existentes para analizar datos de manera efectiva, especialmente en big data.

    • Lenguaje de programadores

    Los científicos de datos necesitan comprender el lenguaje de programación para poder crear programas para un análisis efectivo y también pueden usar herramientas y aplicaciones como Python, R, Hadoop, SPSS Tableau y SQL, etc.

    • Habilidades visuales

    Esta es más un área de conocimiento, pero también podría tener habilidades técnicas, los científicos de datos deben tener un conocimiento profundo de las matemáticas y las herramientas estadísticas para no solo visualizar los resultados, sino también presentarlos en formatos gráficos fáciles de entender, etc.

    Leer más: ¿Cuáles son las habilidades necesarias para convertirse en analista de datos?

    ¿Qué hay de las certificaciones?

    Esta también es una muy buena manera de convertirse en un científico de datos, pero debe asegurarse de estar haciendo la certificación correcta. Puede buscar asesoramiento de mentores, buscar listados de trabajo o leer y escribir por escrito en el campo. Uno de los cursos de certificación de análisis de datos está dirigido por vidya digital, que es un programa de capacitación en vivo en línea dirigido por los mejores expertos de la industria.

    Puntos destacados del programa de capacitación:

    • Curso diseñado y dirigido por IIT / IIM Faculty
    • Tareas semanales
    • Soporte de colocación del 100%
    • 15 días de trabajo del proyecto
    • Acceso de por vida a videos

    Leer más: Asista a un seminario web gratuito realizado por vidya digital para obtener más información sobre la certificación en análisis de datos.

    Si su sueño es para un científico de datos, ¡ahora es el momento de hacer un movimiento!

    Mirando el número de seguidores, creo que esta es la pregunta más popular que está molestando a bastantes técnicos, ingenieros, estadísticos y empresarios. Déjame arrojar algo de luz sobre esta pregunta!

    Para convertirse en un científico de datos, es un viaje seguro y desafiante.

    Comenzaré esto asumiendo que eres más nuevo, por lo que si planeas comenzar tu carrera en Data Science, hay una estadía prolongada.
    Las siguientes son las preguntas que creo que son las más importantes siempre que piense en convertirse en “CIENTÍFICO DE DATOS”.

    • ¿Por qué deberías ir a Data Science o convertirte en científico de datos?
    • ¿De dónde debería comenzar?
    • ¿Cuál es mi hoja de ruta de aprendizaje?
    • ¿Cuáles son las herramientas y técnicas que necesito saber?
    • ¿Cuáles son las funciones y responsabilidades de un científico de datos?

    En esta respuesta, abordaré todas estas preguntas.

    En primer lugar, analicemos por qué debería optar por la ciencia de datos o por qué convertirse en un científico de datos.

    Primero , está probado por Harvard Business Review . Es considerado como el profesional de alto rango con la formación y la curiosidad para hacer descubrimientos en el mundo de Big Data. Por lo tanto, no sorprende que los científicos de datos sean profesionales en Big Data Analytics y en la industria de TI.

    En segundo lugar , la ciencia de datos y el análisis no están sujetos a un fondo o campo en particular. Los profesionales de todos los sectores verticales (como atención médica, viajes, finanzas, redes sociales, etc.) se están moviendo al análisis aprendiendo Data Science.

    En tercer lugar, ¿ puede pensar en una cifra de cuánto le costaría un trabajo de ciencia de datos? Bueno, el salario promedio de un científico de datos en los Estados Unidos es de aproximadamente 120,000 $. Bueno, puede apostar en él comparando con los salarios de cualquier otro trabajo de TI.

    Ahora, echemos un vistazo a la hoja de ruta para convertirse en un científico de datos.

    Permítanme enumerar todas las habilidades necesarias para convertirse en un Data Scientist:

    1. Estadística
    2. Programación
    3. Aprendizaje automático y aprendizaje profundo
    4. Conocimiento de base de datos
    5. Big Data
    6. Ingestión de datos y Munging
    7. Visualización de datos
    8. Solución de problemas basada en datos

    Una vez que adquiera estas habilidades, ¡felicidades! Eres un científico de datos.

    ¿Quieres saber más sobre estas habilidades?

    Puedes ver el siguiente video que incluye todas las habilidades necesarias para convertirte en un Data Scientist moderno. Deje sus comentarios a continuación. ¡Feliz aprendizaje! 🙂

    Una vez que esté bien versado en las diversas herramientas y técnicas, debe conocer los diversos roles y responsabilidades de un científico de datos:

    Como hemos discutido, convertirse en un científico de datos, ¡ es un viaje!

    • El científico de datos no solo es responsable del análisis de negocios, sino que también participa en la creación de productos de datos y plataformas de software, junto con el desarrollo de visualizaciones y algoritmos de aprendizaje automático.
    • Experiencia práctica en técnicas de minería de datos
    • Desarrollar modelos operativos
    • Realizar acondicionamiento de datos

    ¡Entonces un investigador de datos investigará, analizará, ejecutará y presentará métodos estadísticos para obtener información! Además, aprender y equiparse con las habilidades y la tecnología de la ciencia de datos no solo satisfará la necesidad de científicos de datos, sino que también los convertirá en todos los “superhéroes de TI”.

    Puede leer más aquí: 10 habilidades para dominar para convertirse en un científico de datos

    ¡Para convertirse en un científico de datos, todo lo que necesita es practicar y practicar! Si realmente quiere entrar en este campo, necesita tener más y más experiencia práctica. Para eso, puede ir y construir su propio proyecto, participar en las diversas competiciones que está organizando Kaggle en varios otros sitios web también. ¡También puedes ir a un entrenamiento en línea por Edureka! con soporte 24 * 7 y acceso de por vida.

    ¡Entonces un científico de datos tendrá todos los requisitos relativos de la industria y es lo suficientemente capaz como para hacer el trabajo!

    Espero poder responder a tu pregunta y motivarte a convertirte en uno.

    ¡Todo lo mejor para su viaje en convertirse en un Científico de Datos! 🙂

    Aquí están los mejores cursos en general para cada uno de estos temas. Juntos, forman un plan de estudios integral de ciencias de datos.

    Los mejores cursos de ciencia de datos en Internet, clasificados por revisiones

    Asunto # 1: Introducción a la programación

    Aprenda a programar: los fundamentos (LPT1) y el Código de calidad de fabricación (LPT2) por la Universidad de Toronto a través de Coursera

    La serie Learn to Program de la Universidad de Toronto tiene una excelente combinación de dificultad de contenido y alcance para el científico de datos principiante. Enseñada en Python, la serie tiene una calificación promedio ponderada de 4.71 estrellas sobre 284 reseñas.

    Una introducción a la programación interactiva en Python (Parte 1) y (Parte 2) por Rice University a través de Coursera

    La serie de Programación interactiva en Python de la Universidad de Rice contiene dos de los mejores cursos en línea de la historia. Se inclinan hacia juegos y aplicaciones interactivas, que son temas menos aplicables en ciencia de datos. La serie tiene una calificación promedio ponderada de 4.93 estrellas en más de 6,069 comentarios.

    R Rastreo de programación por DataCamp

    Si está configurado para aprender R, la pista de programación R de DataCamp combina efectivamente los fundamentos de programación y la instrucción de sintaxis R. Tiene una calificación promedio ponderada de 4.29 estrellas en más de 14 reseñas.

    Tema # 2: Estadísticas y Probabilidad

    Fundamentos del análisis de datos – Parte 1 : Estadísticas usando R y Parte 2: Estadísticas inferenciales por la Universidad de Texas en Austin a través de edX

    Los cursos de la serie Fundamentos del análisis de datos de UT Austin son dos de los pocos con excelentes revisiones que también enseñan estadísticas y probabilidad con un enfoque en la codificación de ejemplos. La serie tiene una calificación promedio ponderada de 4.61 estrellas sobre 28 reseñas.

    Estadísticas con especialización R por la Universidad de Duke a través de Coursera

    Duke’s Statistics with R Specialization, que se divide en cinco cursos, tiene un programa de estudios integral con secciones completas dedicadas a la probabilidad. Tiene una calificación promedio ponderada de 3.6 estrellas sobre 5 reseñas, pero el curso en el que se basó tiene una calificación promedio ponderada de 4.77 estrellas sobre 60 reseñas.

    Introducción a la probabilidad – La ciencia de la incertidumbre por el Instituto de Tecnología de Massachusetts (MIT) a través de edX

    El curso de Introducción a la probabilidad del MIT tiene, con mucho, las calificaciones más altas de los cursos considerados en la guía de estadísticas y probabilidad. Es exclusivamente probable en gran detalle, además es más largo (15 semanas) y más desafiante que la mayoría de los MOOC. Tiene una calificación promedio ponderada de 4.82 estrellas sobre 38 comentarios.

    Tema # 3: Introducción a la ciencia de datos

    Data Science AZ: ejercicios de ciencia de datos de la vida real incluidos por Kirill Eremenko y el equipo SuperDataScience a través de Udemy

    Data Science AZ de Kirill Eremenko sobresale en la amplitud y profundidad de la cobertura del proceso de ciencia de datos. Los revisores elogian con frecuencia la capacidad de enseñanza natural del instructor. Tiene una calificación promedio ponderada de 4.5 estrellas sobre 5.078 comentarios.

    Introducción al análisis de datos por Udacity

    La Introducción al análisis de datos de Udacity cubre el proceso de ciencia de datos de manera coherente utilizando Python. Tiene una calificación promedio ponderada de 5 estrellas en 2 reseñas.

    Fundamentos de la ciencia de datos por la Universidad de Big Data

    Los fundamentos de ciencia de datos de Big Data University cubren el proceso completo de ciencia de datos e introduce Python, R y varias otras herramientas de código abierto. No hay revisiones para este curso en los sitios de revisión utilizados para este análisis.

    Tema # 4: Visualización de datos

    Visualización de datos con Tableau Specialization por la Universidad de California, Davis a través de Coursera

    Una serie de cinco cursos, la Visualización de datos de UC Davis con Especialización en Tableau se sumerge profundamente en la teoría de visualización. Se brindan oportunidades para practicar Tableau a través de tutoriales y un proyecto final. Tiene una calificación promedio ponderada de 4 estrellas en 2 reseñas.

    Visualización de datos con la serie ggplot2 por DataCamp

    Avalado por el creador de ggplot2 Hadley Wickham, una gran cantidad de teoría está cubierta en la Visualización de datos de DataCamp con la serie ggplot2. Conocerás R y su peculiar sintaxis bastante bien al abandonar estos cursos. No hay revisiones para estos cursos en los sitios de revisión utilizados para este análisis.

    Tableau 10 Series (Tableau 10 AZ y Tableau 10 Advanced Training) de Kirill Eremenko y el equipo SuperDataScience en Udemy

    Una introducción práctica efectiva, la serie Tableau 10 de Kirill Eremenko se centra principalmente en la cobertura de herramientas (Tableau) en lugar de la teoría de visualización de datos. Juntos, los dos cursos tienen una calificación promedio ponderada de 4.6 estrellas sobre 3,724 comentarios.

    Tema # 5: Aprendizaje automático

    Machine Learning por la Universidad de Stanford a través de Coursera

    Impartido por el famoso Andrew Ng, fundador de Google Brain y ex científico jefe de Baidu, el aprendizaje automático de la Universidad de Stanford cubre todos los aspectos del flujo de trabajo del aprendizaje automático y varios algoritmos. Enseñado en MATLAB u Octave, tiene una calificación promedio ponderada de 4.7 estrellas sobre 422 comentarios.

    Aprendizaje automático de la Universidad de Columbia a través de edX

    Una introducción más avanzada que la de Stanford, el Machine Learning de la Universidad de CoIumbia es un curso más nuevo con revisiones excepcionales y un instructor venerado. Las tareas del curso se pueden completar con Python, MATLAB u Octave. Tiene una calificación promedio ponderada de 4.8 estrellas sobre 10 comentarios.

    Machine Learning AZ: Python práctico y R en ciencia de datos por Kirill Eremenko y Hadelin de Ponteves a través de Udemy

    Kirill Eremenko y Hadelin de Ponteves ‘Machine Learning AZ’ es una oferta impresionantemente detallada que proporciona instrucción tanto en Python como en R, lo cual es raro y no se puede decir de ninguno de los otros cursos principales. Tiene una calificación promedio ponderada de 4.5 estrellas sobre 8,119 comentarios.

    Tema # 6: Aprendizaje profundo

    Aplicaciones creativas de aprendizaje profundo con TensorFlow de Kadenze

    Las aplicaciones creativas de aprendizaje profundo de Parag Mital con Tensorflow agregan un toque único a un tema técnico. Las “aplicaciones creativas” son inspiradoras, el curso se produce profesionalmente y el instructor sabe lo que hace. Enseñado en Python, tiene una calificación promedio ponderada de 4.75 estrellas en más de 16 reseñas.

    Redes neuronales para el aprendizaje automático de la Universidad de Toronto a través de Coursera

    Aprende de una leyenda. Geoffrey Hinton es conocido como el “padrino del aprendizaje profundo” y se distingue internacionalmente por su trabajo en redes neuronales artificiales. Sus redes neuronales para el aprendizaje automático es una clase avanzada. Impartido en Python, tiene una calificación promedio ponderada de 4.11 estrellas en más de 35 reseñas.

    Deep Learning AZ: Redes neuronales artificiales prácticas por Kirill Eremenko y Hadelin de Ponteves a través de Udemy

    Deep Learning AZ es una introducción accesible al aprendizaje profundo, con explicaciones intuitivas de Kirill Eremenko y demostraciones de código útiles de Hadelin de Ponteves. Enseñado en Python, tiene una calificación promedio ponderada de 4.6 estrellas sobre 1,314 comentarios.

    Y aquí está nuestra selección de cursos superior para cada una de las materias complementarias dentro de la ciencia de datos.

    Python y sus herramientas

    Python Programming Track de DataCamp , más sus cursos individuales de pandas:

    fundaciones pandas

    Manipulación de marcos de datos con pandas

    Fusionar marcos de datos con pandas

    El estilo de instrucción de código pesado de DataCamp y el entorno de programación en el navegador son excelentes para aprender la sintaxis. Sus cursos de Python tienen una calificación promedio ponderada de 4.64 estrellas en más de 14 reseñas. La Introducción al análisis de datos de Udacity, una de nuestras recomendaciones para la introducción a los cursos de ciencia de datos, también incluye NumPy y pandas.

    Habilidades necesarias para convertirse en un científico de datos

    Los científicos de datos son grandes expertos en datos. Toman una gran cantidad de puntos de datos desordenados (no estructurados y estructurados) y los limpian, masajean y organizan con sus formidables habilidades en matemáticas, estadísticas y programación. Luego aplican todos sus poderes analíticos para descubrir soluciones ocultas a los desafíos del negocio y presentarlo al negocio. En otras palabras, los científicos de datos utilizan su conocimiento de estadísticas y modelos para convertir los datos en información práctica sobre todo, desde el desarrollo de productos hasta la retención de clientes y nuevas oportunidades de negocio.

    Data Scientist necesita tener habilidades técnicas y no técnicas para realizar su trabajo de manera efectiva. Las habilidades técnicas están involucradas en 3 etapas en Data Science. Incluyen:

    1. Captura de datos y preprocesamiento
    2. Análisis de datos y reconocimiento de patrones
    3. Presentación y visualización

    Para realizar las 3 etapas anteriores, se necesitan 3 categorías de herramientas: herramientas para extraer datos, herramientas para analizar los datos y herramientas para presentar los resultados. Estas son las diferentes herramientas disponibles para realizar lo mismo:

    Herramientas para extracción de datos y preprocesamiento

    a. SQL

    Esta es una habilidad imprescindible para todos los científicos de datos, independientemente de si está utilizando datos estructurados o no estructurados. Las empresas están utilizando los últimos motores SQL como Apache Hive, Spark-SQL, Flink-SQL, Impala, etc.

    si. Tecnologías de Big Data

    Esta es la necesidad de las habilidades necesarias para convertirse en un científico de datos. El científico de datos necesita saber sobre diferentes tecnologías de big data: 1

    S t

    Tecnologías de Gen como Apache Hadoop y su ecosistema (colmena, cerdo, canal, etc.), Next Gen como – Apache Spark y Apache Flink (Apache Flink está reemplazando a Apache Spark rápidamente ya que Flink es un motor de Big Data de propósito general, que puede manejar objetos reales -time también, para obtener más detalles sobre Flink, siga este tutorial completo).

    do. UNIX

    Como la mayoría de los datos sin procesar se almacenan en un servidor UNIX o Linux antes de ponerlos en un almacén de datos, es bueno poder acceder a los datos sin la dependencia de una base de datos. Entonces, el conocimiento de Unix es bueno para los científicos de datos. Siga esta guía de comandos para practicar los comandos de Linux.

    re. Pitón

    Python es el lenguaje más popular para el científico de datos. Python es un lenguaje de programación orientado a objetos interpretado con semántica dinámica. Es un lenguaje de alto nivel con enlace dinámico y escritura.

    Herramientas para análisis de datos y coincidencia de patrones

    Esto depende de su nivel de conocimiento estadístico. Algunas herramientas se utilizan para estadísticas más avanzadas y otras para estadísticas más básicas.

    a. SAS

    Muchas empresas usan SAS, por lo que es bueno tener un conocimiento básico de SAS. Puedes manipular ecuaciones fácilmente.

    si. R

    R es más popular en el mundo estadístico. R es una herramienta de código abierto y un lenguaje orientado a objetos, por lo que puede usarlo en cualquier lugar. Es la primera opción de cualquier científico de datos, ya que la mayoría de las cosas se implementan en R. Para obtener la comparación entre las principales herramientas de análisis de datos, siga esta guía de comparación entre R vs SAS y SPSS.

    Continúa leyendo aquí para obtener más habilidades.

    ¿Quién es un científico de datos?

    Un científico de datos es básicamente un estadístico que puede programar. La ciencia de datos es el arte de utilizar las últimas técnicas informáticas y técnicas estadísticas para recopilar, analizar, visualizar y, de lo contrario, sacar conclusiones de los datos. La mayoría de los temas espinosos que se discuten en estos días sobre el sesgo, la calidad de los datos, el modelado, el aprendizaje y la limpieza de datos provienen del cuerpo sano de estadísticas que hemos construido en los últimos 100 años.

    La novedad de la ciencia de los datos proviene de la necesidad técnica de poder manejar el volumen de datos ahora disponible y cambiarlo de muchas formas dispares a un formato limpio y utilizable. Más allá de eso, todas las otras habilidades atribuidas a un científico de datos (habilidades de comunicación visual, buenas habilidades escritas, experiencia en el tema) son válidas para cualquiera que haga ciencia, desde biología hasta antropología.

    Lo que es interesante notar es que las habilidades que necesita un verdadero “científico de datos” son extremadamente raras. Usando el diagrama de Venn de ciencia de datos de Drew Conway, uno necesita tener:

    • Habilidades de piratería: estas son habilidades de programación y secuencias de comandos, pero a menudo no se enseñan en las universidades o incluso en la industria. El lenguaje de programación recomendado es Python, pero otros también serán buenos hasta cierto punto.
    • Experiencia estadística: no muchas personas están capacitadas en estadística formal más allá de la simple regresión lineal. Un buen científico de datos debe ser un experto en cuestiones de sesgo, modelado avanzado e inferencia causal.
    • Aprendizaje automático: voy a destacar las habilidades de aprendizaje automático, ya que no todas las personas hacker + stats las tienen. Se necesita un conjunto de habilidades especiales para construir redes neuronales eficientes y comprender cómo funcionan / no funcionan.
    • Experiencia sustantiva: es posible que el científico de datos no necesite ser un experto en el campo, pero si no lo es, es mejor que aprenda lo suficiente de un experto para poder interpretar resultados o pensar creativamente.

    Muchas personas que conozco provienen de entornos matemáticos y luego aprendieron programación y ciencias de la computación para poder construir modelos más avanzados. No importa cómo llegue allí, deberá desarrollar sus habilidades de programación y estadísticas y no perder de vista sus habilidades blandas de comunicación y creatividad.

    Para obtener más información sobre los caminos de los científicos de datos, también recomiendo un gran libro, Sebastian Gutiérrez, uno de los moderadores de / r / datascience, llamado Data Scientists at Work. Pero el problema es que hay muchas vías que puede seguir, por lo que puede ser abrumador descubrir cómo comenzar.

    Internet ahora está lleno de cursos en línea para enseñarle ciencia de datos. Puedes ver algunos de estos ->

    • Coursera (debería ser tu primera opción)
    • Becas de Incubadora de Datos e Información
    • Datos inteligentes de John Foreman

    Por supuesto, la mejor manera de aprender es: Echa un vistazo a las competencias en línea a través de Kaggle o DrivenData para participar en competencias de aprendizaje automático. Comience con poco y mire las preguntas que realmente le interesan.

    Por último, no subestimes el poder de conocer gente en persona. Sumérgete en la comunidad de ciencia de datos lo mejor que puedas. Asista a reuniones locales, consulte seminarios web o conferencias locales, y siga publicando preguntas en / r / datascience, por supuesto, y pronto estará bien en su propio camino de la ciencia de datos.

    No importa cómo llegues allí, disfruta del viaje. La ciencia de datos es un campo emocionante y emocionante, y si usted sabe Álgebra lineal hacia atrás y hacia adelante o no, no es tan importante como arremangarse y divertirse excavando donde sea que esté. ¡¡¡Buena suerte!!!

    Fuente: ¿Cómo me convierto en un científico de datos?

    Si está buscando una carrera que pueda aplicarse a múltiples industrias y pueda conducir a una amplia gama de proyectos interesantes y únicos, no busque más que la ciencia de datos.

    Apodado por Harvard Business Review como “el trabajo más sexy del siglo XXI”, la ciencia de datos es un campo que impulsa la innovación, alimenta su chispa creativa y tiene la capacidad de iluminar el mundo que nos rodea. Estas características, más la compensación superior al promedio que proporciona el trabajo, son probablemente los principales factores contribuyentes que hacen que la ciencia de datos se ubique en la lista de trabajos deseables cada año.

    Trabajos que los científicos de datos realmente hacen
    Existe mucho debate sobre cómo definir con precisión el trabajo de un científico de datos, en gran parte porque los requisitos para los científicos de datos varían mucho según el enfoque de la industria que elijan.

    “MÁS QUE NADA, LO QUE HACEN LOS CIENTÍFICOS DE DATOS ES DESCUBRIR MIENTRAS NADAN EN LOS DATOS. ES SU MÉTODO PREFERIDO DE NAVEGAR POR EL MUNDO ALREDEDOR DE ELLOS. AL FACILIDAD EN EL REINO DIGITAL, PUEDEN TRAER LA ESTRUCTURA A GRANDES CANTIDADES DE DATOS SIN FORMA Y HACER ANÁLISIS POSIBLE. IDENTIFICAN FUENTES DE DATOS RICOS, SE UNEN CON OTROS, FUENTES DE DATOS POTENCIALMENTE INCOMPLETAS Y LIMPIAN EL CONJUNTO RESULTANTE. EN UN PAISAJE COMPETITIVO DONDE LOS DESAFÍOS SIGUEN CAMBIANDO Y LOS DATOS NUNCA DEJAN DE FLUIR, LOS CIENTÍFICOS DE DATOS AYUDAN A LOS TOMADORES DE DECISIONES A CAMBIAR DEL ANÁLISIS AD HOC A UNA CONVERSACIÓN CONTINUA CON LOS DATOS “.

    Algunos trabajos que se le puede pedir a un científico de datos que realicen incluyen:

    • Enmarcar preguntas abiertas y realizar investigaciones para responder esas preguntas.
    • Extracción de grandes cantidades de datos de fuentes internas y externas.
    • Preparación de datos para el modelado predictivo y prescriptivo a través de programas analíticos, aprendizaje automático y metodologías estadísticas.
    • Explorar y examinar datos para determinar tendencias y patrones que pueden conducir a ideas procesables.
    • Inventar nuevos algoritmos para resolver problemas y nuevas herramientas para automatizar el trabajo.

    Existen diferentes tipos de científicos de datos, algunos de ellos son:

    Científicos de datos cuantitativos y exploratorios: estos científicos de datos combinan la teoría y la investigación exploratoria para mejorar los productos. Por lo general, los científicos de datos de este tipo tienen doctorados y pueden tener una sólida formación en física o aprendizaje automático.

    Científicos de datos operativos: trabajando en campos como finanzas, ventas u operaciones, estos científicos de datos tienen una sólida formación en análisis y estadísticas. Pueden concentrarse en áreas como la inteligencia de negocios, definir patrones y tendencias y usar análisis predictivos para producir ideas procesables.

    Científicos de datos de productos: estos profesionales se centran en comprender las formas en que los usuarios interactúan con un producto y en encontrar formas de mejorar o mejorar el producto en consecuencia. Trabajan estrechamente o actúan como gerentes de producto e ingenieros.

    El campo de la ciencia de datos, entonces, cubre una gran cantidad de terreno, abarcando desde los analistas que usan herramientas de inteligencia de negocios hasta los físicos que escriben código para tecnologías innovadoras, tales como automóviles autónomos y similares.

    Habilidades comunes y requisitos educativos para científicos de datos

    • Habilidades matemáticas como álgebra lineal, cálculo, probabilidad y estadística.
    • Herramientas y técnicas de aprendizaje automático.
    • Habilidades de ingeniería de software
    • Habilidades de gestión de bases de datos
    • Lenguajes y aplicaciones como Python, R, SQL, Java, C, C ++, SPSS, Tableau y Hadoop

    También hay tres partes educativas para convertirse en un científico de datos:

    Los títulos y certificados de posgrado brindan estructura, pasantías, redes y calificaciones académicas reconocidas para su currículum. Las especialidades que encajan perfectamente en carreras comunes de ciencia de datos incluyen: estadística, matemáticas, economía, investigación de operaciones e informática.

    Los MOOC y los cursos de aprendizaje autoguiado le permiten completar proyectos en su propio tiempo, pero requieren que estructurar su propio camino académico. Elegir este método de aprendizaje requiere que hagas tu propia red cuando sea el momento de encontrar un trabajo.

    Los bootcamps pueden ser enseñados por científicos de datos en ejercicio y pueden ser una forma rápida de adquirir algunas de las habilidades que necesita. El modelo de bootcamp se basa en el aprendizaje experimental y presenta algunas oportunidades de establecer contactos para ayudarlo con la colocación laboral. [1]

    Notas al pie

    [1] Cómo convertirse en un científico de datos

    El campo como su importancia seguirá creciendo en los próximos años. Mencionan además que obtener habilidades de científico de datos no solo ayuda al equipo interesado a vender y comercializar, sino que también devuelve ese valor a las empresas.

    “Se siente como una ciencia pura. Es una gran cantidad de noticias sorprendentes para usted: el número de ofertas de trabajo en el campo está creciendo notablemente a medida que más y más empleadores buscan contratar científicos de datos, analistas de datos y muchos más perfiles de trabajo. 2016 se perfila como el año de excelentes oportunidades laborales si de alguna manera relacionas tus habilidades con el análisis de big data. Big Data, Data Science – Clases de entrenamiento de cursos combinados en línea | Big Data, Data Science – Cursos combinados de cursos en línea

    El mundo de hoy se está volviendo loco por ‘Big Data’, y el científico de datos es el mejor trabajo una vez más este año. Pero el dilema es elegir qué habilidades lo identificarán entre los mejores empleadores. Una de las principales preocupaciones de los principales profesionales y estudiantes es que si conocen Java, ¿será útil conducir la carrera al nivel de Data Scientist? ¿Cuáles son esas ciertas habilidades que aumentan aún más su credibilidad y obligan a los empleadores a elegirlo sobre los demás?

    Recientemente, Crowd Flower Inc., especialista en abastecimiento colectivo de Data Science, encuestó para identificar cuáles son las habilidades de Data Science más buscadas que le darán el boleto de la fila superior en la compañía de sus sueños. Los expertos analizaron más de 3500 puestos de trabajo en el popular sitio web profesional, para trabajos de ciencia de datos y crearon un informe con los datos en tiempo real. Enumeró las principales 21 habilidades individuales que se esperan con mayor frecuencia de un profesional de la ciencia de datos. Los resultados ofrecen lo mejor para guiarlo en la adquisición de trabajos brillantes con altos salarios e incluso prepararse para su Curso de Certificación Profesional, es increíble ”, menciona uno de los Científicos de Datos de Sensis en el artículo de Business Today, a principios de este año. Más recientemente, como parte integral del ámbito de la ciencia de datos, estamos profundizando en las técnicas y herramientas de visualización de datos. Un científico de datos representa una evolución desde el rol comercial o analista de datos. La capacitación formal es similar, con una base sólida típicamente en informática y aplicaciones, modelado, estadística, análisis y matemáticas. Habilidades de ciencia de datos más buscadas para 2016

    . Lo que distingue al científico de datos es la perspicacia empresarial fuerte, junto con la capacidad de comunicar los hallazgos a los líderes empresariales y de TI de una manera que puede influir en la forma en que una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas comerciales, sino que elegirán los problemas correctos que tengan el mayor valor para la organización.

    El rol del científico de datos ha sido descrito como “analista en parte, artista en parte”. Un científico de datos es alguien que es inquisitivo, que puede observar los datos y detectar tendencias. Es casi como un individuo del Renacimiento que realmente quiere aprender y aportar cambios a una organización “.

    Mientras que un analista de datos tradicional puede mirar solo los datos de una sola fuente, por ejemplo, un sistema CRM, un científico de datos probablemente explorará y examinará datos de múltiples fuentes dispares. El científico de datos examinará todos los datos entrantes con el objetivo de descubrir una información previamente oculta, que a su vez puede proporcionar una ventaja competitiva o abordar un problema empresarial urgente. Un científico de datos no solo recopila e informa sobre los datos, sino que también los mira desde muchos ángulos, determina lo que significa y luego recomienda formas de aplicar los datos.

    Los científicos de datos son inquisitivos: exploran, hacen preguntas, hacen análisis de “qué pasaría si”, cuestionan los supuestos y procesos existentes

    Los datos se duplican cada dos años, y todos han oído hablar de los números de crecimiento absurdos indicados en los informes. En este contexto, el resultado inevitable es la aparición del Data Scientist. Un científico de datos necesita analizar grandes cantidades de datos y proyectar el mapa tecnológico para hacer posible la transición de datos a ideas. El alcance del trabajo de un científico de datos incluye la identificación de las fuentes de datos, la calidad de los datos, las correlaciones entre los puntos de datos y la difusión a los usuarios de la información.

    Por el momento, el papel de un científico de datos lo desempeña una combinación de personas en el equipo de BI, como el arquitecto del almacén de datos, el analista de negocios y otros de esa clase. A medida que la situación evoluciona, el científico de datos trabajará por encima de estos profesionales para descubrir nuevas tendencias y asociaciones que puedan estar más allá del ámbito de los modelos actuales y los problemas comerciales. El analista de negocios trabajaría en los datos que ha recopilado el científico de datos. James Kobielus, un analista senior de Forrester, en su negocio, llega a comparar el trabajo de un científico de datos con el trabajo de científicos en ciencias naturales y ciencias sociales, afirmando que necesitarían datos de observación y datos experimentales para funcionar. con. “Históricamente ( los científicos de datos ) han tenido que contentarse con meros ejemplos”. Con el surgimiento de una carrera de pleno derecho, esto pronto cambiará.

    Las discusiones sobre quién está calificado exactamente para ser un científico de datos no varían demasiado del debate que se sostuvo anteriormente sobre si, sin embargo, al principio, los expertos de la industria han indicado que un científico de datos debe tener una maestría en matemáticas o estadísticas. Mientras tanto, el CTO del grupo en Shoppers Stop dice: “Hay una escasez de profesionales a los que se les puede llamar científicos de datos. Por el momento, quien tiene pasión por trabajar con datos está llenando el vacío ”.

    Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que de otro modo permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía y definitivamente necesita una docena o más de experiencia trabajando con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

    un proveedor de servicios de análisis y ciencia de decisiones dice: “Los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán.

    Con el advenimiento de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un ambiente agradable para la toma de decisiones. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica preventiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

    La curva de evolución se está moviendo del apoyo a la toma de decisiones a ser cada vez más operativo, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. BI entró en escena hace quince años y TI poseía estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI.

    Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando “.

    En respuesta a este problema, Analytics as a Service se presenta como una alternativa factible. La analítica como servicio aún es incipiente y evoluciona; A medida que crece la complejidad y emergen modelos de servicio maduros que están vinculados con los resultados y el éxito, la tasa de adopción aumentará. La posibilidad de contratar a un científico de datos a través de un proveedor de servicios de análisis es un paso intermedio para muchas EMPRESAS medianas y pequeñas

    More Interesting

    ¿Puede un estudiante que abandona la escuela secundaria inteligente, bien educado y con buena audición, escritura y habla en inglés conseguir un trabajo justo?

    ¿Qué debo hacer, trabajar independientemente o un trabajo normal?

    ¿Qué salario recibe un desarrollador de Java?

    ¿Qué base de datos debo aprender para un buen trabajo?

    ¿Cuánto pagarías por un buen entrenador de responsabilidad?

    Recientemente me mudé a Australia desde Pakistán, pero las cosas no son tan buenas como había previsto aquí. El mercado de la ingeniería está caído, por lo que no puedo encontrar un trabajo y no puedo continuar mi educación porque no tengo dinero. ¿Qué tengo que hacer?

    ¿Cuáles son los aspectos positivos de ser un profesional de TI en la India?

    ¿Cuáles son sus objetivos profesionales en los próximos 5 años como ingeniero de software?

    ¿Debo hacer un MBA solo porque quiero explorar mis talentos?

    ¿Cuál es mejor Finlandia o Bélgica para empleos e inmigración, viviendo?

    ¿Qué se debe leer para un profesional de desarrollo corporativo?

    ¿Cambiar a php afectará mis futuras perspectivas laborales?

    ¿Me pueden ayudar a comparar la planificación urbana y el derecho como profesiones?

    ¿Qué le gusta más a la gente, el método de diagrama de Gantt o Trello para la gestión de proyectos?

    Como solicitante de empleo, ¿cuáles son las mejores prácticas para responder a una presentación por correo electrónico a un posible empleador sin una oferta de trabajo específica?