¿Es posible ser un científico de datos cuando tienes 50 años? ¿Puedes encontrar un trabajo?

¿Demasiado tarde? De ningún modo. Los científicos de datos provienen de todo tipo de entornos y edades. Hace un tiempo, escribí sobre algunos recursos gratuitos que puedes usar para aprender ciencia de datos por tu cuenta. Esto estaba orientado principalmente a las personas que querían postularse a la Data Science Fellowship gratuita de The Data Incubator como una guía útil para comenzar, pero es un lugar útil para comenzar, independientemente de dónde quieran postularse para ser científicos de datos. Romperé mi respuesta en dos partes:

  1. Recursos gratuitos desglosados ​​por tema: si bien se trata de esto con una experiencia en aprendizaje automático, hay otros aspectos útiles de la ciencia de datos para aprender. La respuesta es de interés más general.
  2. Fuentes de datos gratuitas con las que puede obtener experiencia práctica. Uno de los pilares de nuestra comunidad de ciencia de datos es la construcción de un proyecto final que se utiliza para mostrar sus nuevos conocimientos de ciencia de datos.

# 1: Nuevos temas para aprender [publicación original]

Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchos de ellos.

  1. Desguace : hay una gran cantidad de datos disponibles, por lo que deberá aprender cómo acceder a ellos. Ya sea JSON, HTML o algún formato homebrew, debería poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, mire paquetes como urllib2, solicitudes, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen manejo de errores (reintentos) y paralelización (multiprocesamiento).
  2. SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlos y procesarlos. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que hay interfaces de consulta SQL para todo, desde sqldf para marcos de datos R hasta Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de forma interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL fácil de instalar.
  3. Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje automático y visualización. Por lo tanto, el flujo de trabajo a menudo es utilizar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos usando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó los pandas, tiene un gran video tutorial en youtube. Míralo aquí y sigue leyendo el código de Github.
  4. Aprendizaje automático : se puede hacer mucha ciencia de datos con seleccionar, unir y agrupar (o, de forma equivalente, asignar y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regularizada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glm y gbml. Debes asegurarte de entender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización : la ciencia de datos se trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si carece ascéticamente. R ofrece ggplot, que es más bonito. Por supuesto, si realmente te tomas en serio las visualizaciones dinámicas, pruebad3.

Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y reducción de mapas), este es un gran comienzo. Para obtener una lista más detallada de temas, puede consultar esta gran infografía:

# 2: Fuentes de datos interesantes: [publicación original]

En The Data Incubator, llevamos a cabo una beca gratuita de seis semanas de ciencia de datos para ayudar a nuestros Fellows a trabajar en la industria de la tierra. A nuestros socios de contratación les encanta considerar a los Fellows a quienes no les importa ensuciarse las manos con los datos. Es por eso que nuestros Fellows trabajan en proyectos geniales que muestran esas habilidades. Uno de los mayores obstáculos para proyectos exitosos ha sido obtener acceso a datos interesantes. Aquí hay algunas fuentes de datos públicos interesantes que puede usar para su próximo proyecto:

Datos económicos:

  1. Datos de mercado negociados públicamente : Quandl es una fuente sorprendente de datos financieros. Google Finance y Yahoo Finance son buenas fuentes adicionales de datos. Las presentaciones corporativas ante la SEC están disponibles en Edgar.
  2. Datos del precio de la vivienda: puede utilizar la API de Trulia o la API de Zillow. En el Reino Unido, puede encontrar el precio pagado en las ventas de viviendas y el precio medio histórico de la vivienda por región (use esta herramienta para traducir entre código postal y lat / long).
  3. Datos de préstamos: puede encontrar los impagos de préstamos estudiantiles por universidad y la colección completa de préstamos entre pares de Lending Club y Prosper, las dos plataformas más grandes en el espacio.
  4. Datos de la hipoteca de la vivienda: la Ley de Divulgación de Hipotecas de Vivienda pone a disposición datos y hay muchos datos de la Agencia Federal de Financiación de la Vivienda disponibles aquí.

Datos de contenido:

  1. Revise el contenido: puede obtener reseñas de restaurantes y lugares físicos de Foursquare y Yelp (ver geodatos). Amazon tiene un gran repositorio de reseñas de productos. Las reseñas de cerveza de Beer Advocate se pueden encontrar aquí. Rotten Tomatoes Los comentarios de películas están disponibles en Kaggle.
  2. Contenido web: ¿ busca contenido web? Wikipedia proporciona volcados de sus artículos. Common Crawl tiene un gran corpus de internet disponible. ArXiv mantiene todos sus datos disponibles a través de la descarga masiva de AWS S3. ¿Quieres saber qué URL son maliciosas? Hay un conjunto de datos para eso. Los datos de música están disponibles en la Base de datos Million Songs. Puede analizar los patrones de preguntas y respuestas en sitios como Stack Exchange (incluido Stack Overflow).
  3. Datos de los medios: hay artículos anotados abiertos del New York Times, Reuters Dataset y el proyecto GDELT (una consolidación de muchas fuentes de noticias diferentes). Google Books ha publicado NGrams para libros que se remontan a 1800.
  4. Datos de comunicaciones: hay acceso a mensajes públicos de Apache Software Foundation y de comunicaciones entre ex ejecutivos de Enron.

Datos del gobierno:

  1. Datos municipales: los datos sobre delitos están disponibles para la ciudad de Chicago y Washington DC. Los datos de inspección del restaurante están disponibles para Chicago y la ciudad de Nueva York.
  2. Datos de transporte: los viajes en taxi de Nueva York en 2013 están disponibles por cortesía de la Ley de Libertad de Información. Hay datos de bicicletas compartidas de Nueva York, Washington DC y SF. También hay datos de retraso de vuelo de la FAA.
  3. Datos del censo: datos del censo japonés. Datos del censo de EE. UU. De 2010, 2000, 1990. De los datos del censo, el gobierno también ha derivado datos sobre el uso del tiempo. Datos del censo de la UE. Vea los nombres populares de bebés masculinos / femeninos que se remontan al siglo XIX de la Administración del Seguro Social.
  4. Banco Mundial: tienen muchos datos disponibles en su sitio web.
  5. Datos electorales: los datos de contribución política de las últimas elecciones estadounidenses se pueden descargar de la FEC aquí y aquí. Los datos de las encuestas están disponibles en Real Clear Politics.
  6. Datos de alimentos, medicamentos y dispositivos: El USDA proporciona información basada en la ubicación sobre el entorno alimentario en su Atlas de alimentos. La FDA también proporciona una serie de conjuntos de datos públicos de alto valor.

Datos con una causa:

  1. Datos ambientales: los datos sobre el uso de energía en el hogar están disponibles, así como los datos climáticos de la NASA.
  2. Datos médicos y biológicos: puede obtener cualquier cosa, desde registros médicos anónimos, lectura remota de sensores para individuos, hasta datos sobre los genomas de 1000 individuos.

Diverso:

  1. Datos geográficos: intente buscar en estos conjuntos de datos de Yelp lugares cercanos a las principales universidades y uno para las principales ciudades del suroeste. La API de Foursquare es otra buena fuente. Open Street Map también tiene datos abiertos sobre lugares.
  2. Datos de Twitter: puede obtener acceso a los Datos de Twitter utilizados para el análisis de sentimientos, los Datos de Twitter de la red y los datos sociales de Twitter, además de su API.
  3. Datos de juegos: se encuentran disponibles conjuntos de datos para juegos, que incluyen un gran conjunto de datos de manos de póker, un conjunto de datos de Domion Games en línea y conjuntos de datos de juegos de ajedrez. Gaming Unplugged Since 2000 también tiene una gran base de datos de juegos, precios, artistas, etc.
  4. Datos de uso de la web : los datos de uso de la web son un conjunto de datos común que las empresas buscan para comprender el compromiso. Los conjuntos de datos disponibles incluyen datos de uso anónimos para MSNBC, el historial de compras de Amazon (también anónimo) y el tráfico de Wikipedia.

Metasources: estas son excelentes fuentes para otras páginas web.

  1. Datos de la red de Stanford: http://snap.stanford.edu/index.html
  2. Cada año, el ACM lleva a cabo una competencia para el aprendizaje automático llamada KDD Cup. Sus datos están disponibles en línea.
  3. UCI mantiene archivos de datos para el aprendizaje automático.
  4. Datos del censo de EE. UU.
  5. Amazon aloja conjuntos de datos públicos en s3.
  6. Kaggle alberga desafíos de aprendizaje automático y muchos de sus conjuntos de datos están disponibles públicamente.
  7. Las ciudades de Chicago, Nueva York, Washington DC y SF mantienen almacenes de datos públicos.
  8. Yahoo mantiene muchos datos sobre sus propiedades web que pueden obtenerse escribiéndolos.
  9. BigML es un blog que mantiene una lista de conjuntos de datos públicos para la comunidad de aprendizaje automático.
  10. GroupLens Research ha recopilado y puesto a disposición conjuntos de datos de calificación del sitio web MovieLens.
  11. Finalmente, si hay un sitio web con datos que le interesen, ¡búsquelo!

El activo clave que posee cualquier científico de datos es la experiencia en el dominio empresarial. Dada la posibilidad de elegir entre una persona bastante nueva en la práctica de la ciencia de datos y 20 años de experiencia en banca, y una persona con habilidades de ciencia de datos afiladas y bastante nueva en la banca, y todas las demás cosas iguales, preferiría la primera.

La ciencia de datos es solo una práctica. Se basa en el concepto de que se pueden poner a disposición de un analista más datos de varios tipos. Las herramientas y técnicas para extraer esos datos, con la esperanza de descubrir un nuevo valor para un negocio, son solo los medios de la ciencia de datos.

Lo que realmente quiere de un científico de datos es suficiente experiencia para intuir formas prometedoras de explorar y descubrir nuevos valores. ¿Por qué? Porque esa persona tiene que convencer a alguien de que probablemente valga la pena el tiempo y los gastos para ir a buscarlo.

Cualquiera llame a perder el tiempo con un gran conjunto de datos o dos y aprender las herramientas. Pero si no tienes idea de lo que crees que podrías encontrar, dado el tiempo para hacerlo, entonces es un ejercicio abstracto.

Convertirse en un científico de datos tiene poco que ver con la edad, y todo con la perspectiva. ¿Eres curioso? ¿Se pregunta por qué las cosas son como son, y qué palancas se podrían tirar para cambiarlas? ¿Es su primera respuesta a alguna pregunta “Depende …”?

La ciencia de datos es simplemente una disciplina para convertir grandes cantidades de información en información procesable. Si puede obtener información de lo que lee y experimenta, agregar el conjunto de herramientas de ciencia de datos en la parte superior lo convertirá en un activo valioso en su dominio de experiencia.

La otra cara es si desea cambiar las industrias y las carreras. Esa es una venta más difícil para las empresas, ya que no tendrá experiencia en el dominio. Muchos científicos de datos recién graduados están siendo despedidos ahora, ya que las compañías desesperadas por ayuda con sus datos contrataron a cualquiera que pudieran obtener. Estas personas pueden construir hermosos modelos de datos, pero carecen de la experiencia del mundo real para convertir la información en sabiduría.

El científico de datos o cualquier otro trabajo no tiene nada que ver con la edad.

Habiendo mencionado que hay una prueba simple para determinar si estás hecho para ser un científico de datos.

busque en su casa una PC o computadora portátil vieja. preferiblemente doble núcleo, memoria de 2 GB con ventanas antiguas. cargar ubuntu cualquier versión

ahora tenga en sus manos datos comerciales financieros en tiempo real (tick por tick).

Yahoo, Google y hay muchos sitios que proporcionan datos gratuitos

si puede manejar una cantidad tan grande de datos y obtener resultados significativos, no puede hacerlo,

Saludos

Parag

¿Pregunta sobre convertirse en un científico de datos o encontrar un trabajo?

Trabajé con dos científicos de datos de más de 50 años. Uno era mi compañero de equipo y otro era el jefe del equipo. El compañero de equipo se unió al equipo cuando tenía 49 años y me dijo que nunca sintió ninguna discriminación basada en la edad cuando estaba buscando trabajo. Ambos “veteranos” tienen un doctorado relevante y han estado trabajando en el campo del análisis de datos durante años.

Supongo que la actitud hacia la edad difiere de un país a otro. Vivo y trabajo en Israel.

¡De ningún modo! ¡Nuestro estudiante más viejo aquí en Data ScienceTech Institute tiene 53 años!

Dicho esto, sin embargo, probablemente sea más recomendable orientarse más hacia el lado de “Big Data Analytics” / gestión en lugar de la vía técnica, ya que es la progresión más natural de la carrera en este paso de la vida.

Eche un vistazo a nuestros empleos y carreras para nuestro programa de analista ejecutivo de Big Data de maestría