¿Puedo ser analista de datos en una empresa tecnológica sin un título en CS?

¡Por supuesto! Puede comenzar su carrera en análisis de datos incluso si no es un graduado de CS o no es experto en lenguajes de programación. Desde entonces, el 90% de los datos del mundo se han creado en los últimos 2 años y se espera que crezca 50 veces para 2020. La capacidad de analizar estos datos no aumenta proporcionalmente, lo que lleva a una gran escasez de candidatos calificados en este espacio. Por lo tanto, existe una gran demanda de expertos en análisis de datos.

Principales recursos útiles para la carrera de análisis de datos:

1. Kaggle: una de las mejores fuentes donde puede aprender, practicar, mejorar sus habilidades con datos del mundo real y abordar problemas comerciales reales.

2. Grupos de Linkedin : los 5 grupos principales de análisis de datos de linkedin:

  • Big Data y Analytics
  • Big Data / Analytics / Estrategia / FP&A / S&OP …
  • Análisis empresarial avanzado, minería de datos y modelado predictivo
  • Data Science Central
  • Análisis de negocio

3. Data Science Central y KDnuggets : Data Science Central y KDnuggets son buenos recursos para mantenerse a la vanguardia de las tendencias de la industria en ciencia de datos.

4. Salarios de los científicos de datosCientífico de datos, salario de TI (India)

5. Curso de análisis de datos:

Si está buscando un curso de análisis de datos, le recomendaría que se una al curso de certificación de análisis de datos digital de Vidya, que es una certificación del gobierno. Este curso de certificación se ofrece en asociación con Vskills (iniciativa del Gobierno de India). Después de tu entrenamiento, aparecerás en un examen y obtendrás este Gobierno. Certificado.

Beneficios del aprendizaje de análisis de datos de Vidya digital:

El curso presenta Data Analytics al usuario y proporciona una capacitación práctica integral basada en ejemplos comerciales reales .

Para cualquier otra consulta no dude en preguntar!

¡Absolutamente! Tenemos graduados con experiencia en biología, química, física, ingeniería, matemáticas, ciencias sociales y más que se han convertido en analistas de datos y científicos exitosos. Los analistas de datos provienen de entornos muy diferentes y tener empleados con esa variedad de entornos fortalece una organización.

Si está interesado en ser un analista o científico de datos, hay muchos recursos gratuitos disponibles en línea y también le recomendaría que se postule a la beca gratuita de ciencia de datos de The Data Incubator. El resto de mi respuesta se divide en tres partes:

  1. Recursos gratuitos desglosados ​​por tema: si bien se trata de esto con una experiencia en aprendizaje automático, hay otros aspectos útiles de la ciencia de datos para aprender. La respuesta es de interés más general.
  2. Fuentes de datos gratuitas con las que puede obtener experiencia práctica. Uno de los pilares de nuestra comunidad de ciencia de datos es la construcción de un proyecto final que se utiliza para mostrar sus nuevos conocimientos de ciencia de datos.
  3. Los becarios de la Incubadora de datos (de una variedad de antecedentes, no solo de ciencias de la computación) que ahora trabajan con científicos de datos sobre lo que pensaban de la beca y su transición a la ciencia de datos.

# 1: Nuevos temas para aprender [publicación original]

Aquí hay cinco habilidades importantes para desarrollar y algunos recursos sobre cómo ayudarlo a desarrollarlas. Si bien no esperamos que nuestros solicitantes posean todas estas habilidades, la mayoría de los solicitantes ya tienen una sólida formación en muchos de ellos.

  1. Desguace : hay una gran cantidad de datos disponibles, por lo que deberá aprender cómo acceder a ellos. Ya sea JSON, HTML o algún formato homebrew, debería poder manejarlos con facilidad. Los lenguajes de script modernos como Python son ideales para esto. En Python, mire paquetes como urllib2, solicitudes, simplejson, re y beautiful soup para facilitar el manejo de solicitudes web y formatos de datos. Los temas más avanzados incluyen manejo de errores (reintentos) y paralelización (multiprocesamiento).
  2. SQL : una vez que tenga una gran cantidad de datos estructurados, querrá almacenarlos y procesarlos. SQL es el lenguaje de consulta original y su sintaxis es tan frecuente que hay interfaces de consulta SQL para todo, desde sqldf para marcos de datos R hasta Hive para Mapreduce. Normalmente, tendría que pasar por un proceso de instalación doloroso para jugar con SQL. Afortunadamente, hay un buen tutorial interactivo en línea disponible donde puede enviar sus consultas y aprender de forma interactiva. Además, Mode Analytics tiene un gran tutorial dirigido a científicos de datos, aunque no es interactivo. Cuando esté listo para usar SQL localmente, SQLite ofrece una versión de SQL fácil de instalar.
  3. Marcos de datos : SQL es excelente para manejar grandes cantidades de datos, pero desafortunadamente carece de aprendizaje automático y visualización. Por lo tanto, el flujo de trabajo a menudo es utilizar SQL o mapreduce para obtener datos a un tamaño manejable y luego procesarlos usando bibliotecas como los marcos de datos de R o los pandas de Python. Para Pandas, Wes McKinney, quien creó los pandas, tiene un gran video tutorial en youtube. Míralo aquí y sigue leyendo el código de Github.
  4. Aprendizaje automático : se puede hacer mucha ciencia de datos con seleccionar, unir y agrupar (o, de forma equivalente, asignar y reducir), pero a veces es necesario realizar un aprendizaje automático no trivial. Antes de saltar a algoritmos más sofisticados, pruebe algoritmos más simples como Naive Bayes y regresión lineal regularizada. En Python, estos se implementan en scikit learn. En R, se implementan en las bibliotecas glmandgbml. Debes asegurarte de entender los conceptos básicos realmente bien antes de probar algoritmos más sofisticados.
  5. Visualización : la ciencia de datos se trata de comunicar sus hallazgos, y la visualización de datos es una parte increíblemente valiosa de eso. Python ofrece un trazado similar a Matlab a través de matplotlib, que es funcional, incluso si carece ascéticamente. R ofrece ggplot, que es más bonito. Por supuesto, si realmente te tomas en serio las visualizaciones dinámicas, pruebad3.

Estas son algunas de las habilidades fundamentales que serán invaluables para su carrera como científico de datos. Si bien solo cubren un subconjunto de lo que hablamos en The Data Incubator (hay mucho más que cubrir en estadísticas, aprendizaje automático y reducción de mapas), este es un gran comienzo. Para obtener una lista más detallada de temas, puede consultar esta gran infografía:

# 2: Fuentes de datos interesantes: [publicación original]

En The Data Incubator, llevamos a cabo una beca gratuita de seis semanas de ciencia de datos para ayudar a nuestros Fellows a trabajar en la industria de la tierra. A nuestros socios de contratación les encanta considerar a los Fellows a quienes no les importa ensuciarse las manos con los datos. Es por eso que nuestros Fellows trabajan en proyectos geniales que muestran esas habilidades. Uno de los mayores obstáculos para proyectos exitosos ha sido obtener acceso a datos interesantes. Aquí hay algunas fuentes de datos públicos interesantes que puede usar para su próximo proyecto:

Datos económicos:

  1. Datos de mercado negociados públicamente : Quandl es una fuente sorprendente de datos financieros. Google Finance y Yahoo Finance son buenas fuentes adicionales de datos. Las presentaciones corporativas ante la SEC están disponibles en Edgar.
  2. Datos del precio de la vivienda: puede utilizar la API de Trulia o la API de Zillow. En el Reino Unido, puede encontrar el precio pagado en las ventas de viviendas y el precio medio histórico de la vivienda por región (use esta herramienta para traducir entre código postal y lat / long).
  3. Datos de préstamos: puede encontrar los impagos de préstamos estudiantiles por universidad y la colección completa de préstamos entre pares de Lending Club y Prosper, las dos plataformas más grandes en el espacio.
  4. Datos de la hipoteca de la vivienda: la Ley de Divulgación de Hipotecas de Vivienda pone a disposición datos y hay muchos datos de la Agencia Federal de Financiación de la Vivienda disponibles aquí.

Datos de contenido:

  1. Revise el contenido: puede obtener reseñas de restaurantes y lugares físicos de Foursquare y Yelp (ver geodatos). Amazon tiene un gran repositorio de reseñas de productos. Las reseñas de cerveza de Beer Advocate se pueden encontrar aquí. Rotten Tomatoes Los comentarios de películas están disponibles en Kaggle.
  2. Contenido web: ¿ busca contenido web? Wikipedia proporciona volcados de sus artículos. Common Crawl tiene un gran corpus de internet disponible. ArXiv mantiene todos sus datos disponibles a través de la descarga masiva de AWS S3. ¿Quieres saber qué URL son maliciosas? Hay un conjunto de datos para eso. Los datos de música están disponibles en la Base de datos Million Songs. Puede analizar los patrones de preguntas y respuestas en sitios como Stack Exchange (incluido Stack Overflow).
  3. Datos de los medios: hay artículos anotados abiertos del New York Times, Reuters Dataset y el proyecto GDELT (una consolidación de muchas fuentes de noticias diferentes). Google Books ha publicado NGrams para libros que se remontan a 1800.
  4. Datos de comunicaciones: hay acceso a mensajes públicos de Apache Software Foundation y de comunicaciones entre ex ejecutivos de Enron.

Datos del gobierno:

  1. Datos municipales: los datos sobre delitos están disponibles para la ciudad de Chicago y Washington DC. Los datos de inspección del restaurante están disponibles para Chicago y la ciudad de Nueva York.
  2. Datos de transporte: los viajes en taxi de Nueva York en 2013 están disponibles por cortesía de la Ley de Libertad de Información. Hay datos de bicicletas compartidas de Nueva York, Washington DC y SF. También hay datos de retraso de vuelo de la FAA.
  3. Datos del censo: datos del censo japonés. Datos del censo de EE. UU. De 2010,2000,1990. De los datos del censo, el gobierno también ha derivado datos sobre el uso del tiempo. Datos del censo de la UE. Vea los nombres populares de bebés masculinos / femeninos que se remontan al siglo XIX de la Administración del Seguro Social.
  4. Banco Mundial: tienen muchos datos disponibles en su sitio web.
  5. Datos electorales: los datos de contribución política de las últimas elecciones estadounidenses se pueden descargar de la FEC aquí y aquí. Los datos de las encuestas están disponibles en Real Clear Politics.
  6. Datos de alimentos, medicamentos y dispositivos: El USDA proporciona información basada en la ubicación sobre el entorno alimentario en su Atlas de alimentos. La FDA también proporciona una serie de conjuntos de datos públicos de alto valor.

Datos con una causa:

  1. Datos ambientales: los datos sobre el uso de energía en el hogar están disponibles, así como los datos climáticos de la NASA.
  2. Datos médicos y biológicos: puede obtener cualquier cosa, desde registros médicos anónimos, lectura remota de sensores para individuos, hasta datos sobre los genomas de 1000 individuos.

Diverso:

  1. Datos geográficos: intente buscar en estos conjuntos de datos de Yelp lugares cercanos a las principales universidades y uno para las principales ciudades del suroeste. La API de Foursquare es otra buena fuente. Open Street Map también tiene datos abiertos sobre lugares.
  2. Datos de Twitter: puede obtener acceso a los Datos de Twitter utilizados para el análisis de sentimientos, los Datos de Twitter de la red y los datos sociales de Twitter, además de su API.
  3. Datos de juegos: se encuentran disponibles conjuntos de datos para juegos, que incluyen un gran conjunto de datos de manos de póker, un conjunto de datos de Domion Games en línea y conjuntos de datos de juegos de ajedrez. Gaming Unplugged Since 2000 también tiene una gran base de datos de juegos, precios, artistas, etc.
  4. Datos de uso de la web : los datos de uso de la web son un conjunto de datos común que las empresas buscan para comprender el compromiso. Los conjuntos de datos disponibles incluyen datos de uso anónimos para MSNBC, el historial de compras de Amazon (también anónimo) y el tráfico de Wikipedia.

Metasources: estas son excelentes fuentes para otras páginas web.

  1. Datos de la red de Stanford: http://snap.stanford.edu/index.html
  2. Cada año, el ACM lleva a cabo una competencia para el aprendizaje automático llamada KDD Cup. Sus datos están disponibles en línea.
  3. UCI mantiene archivos de datos para el aprendizaje automático.
  4. Datos del censo de EE. UU.
  5. Amazon aloja conjuntos de datos públicos en s3.
  6. Kaggle alberga desafíos de aprendizaje automático y muchos de sus conjuntos de datos están disponibles públicamente.
  7. Las ciudades de Chicago, Nueva York, Washington DC y SF mantienen almacenes de datos públicos.
  8. Yahoo mantiene muchos datos sobre sus propiedades web que pueden obtenerse escribiéndolos.
  9. BigML es un blog que mantiene una lista de conjuntos de datos públicos para la comunidad de aprendizaje automático.
  10. GroupLens Research ha recopilado y puesto a disposición conjuntos de datos de calificación del sitio web MovieLens.
  11. Finalmente, si hay un sitio web con datos que le interesen, ¡búsquelo!

# 3: Esto es lo que nuestros compañeros dicen sobre nosotros:

  • Dorian Goldman (Mathematics to NYTimes) : “El equipo de Data Incubator hizo un trabajo increíble al enfatizar los conceptos más importantes y fundamentales que un científico de datos necesita saber en su carrera. Lo sé, porque todas estas cosas se confirmaron en mi primera semana en mi nuevo trabajo “.
  • Justin Bush (Mathematics to Palantir) : “Ya en la segunda y tercera semana de la Incubadora de datos había empresas que se comunicaban conmigo y que de lo contrario no habrían notado mi currículum tan fácilmente. También tuve una tremenda exposición a la variedad de trabajos de ciencia de datos. allí, algo que no hubiera sucedido si hubiera tomado un trabajo directamente de la escuela de posgrado “.
  • Brian Farris (Astrophysics to Capital One) : “… fue una forma extremadamente eficiente de hacer muchas redes en un corto período de tiempo, lo que aumenta en gran medida la posibilidad de encontrar un trabajo. Es mucho más fácil iniciar un diálogo con un contratar a un socio si ya conoció a alguien de la compañía en persona “.
  • Yash Shah (Ingeniería para AppNexus) : “En The Data Incubator hay tantas compañías de contratación que buscan un conjunto variado de habilidades, hay muchas oportunidades para encontrar la pareja perfecta.
  • Sam Swift (Social Science to Betterment) : “La intensa experiencia de incubadora también fue una excelente manera de hacer una transición rápida de mi pensamiento y lenguaje de la abstracción académica al pragmatismo empresarial. Al igual que la falta de comunicación entre dos campos, descubrí que había muchos puntos en común en ideas, pero que fue ofuscado por jerga especializada en ambos lados “.

tl; dr: Sí, no es imprescindible. Echemos un vistazo a los pros y los contras de tener un título de CS y luego usted decide dónde caer.

Ventajas de tener un título de CS:

  • Si el puesto requiere que tengas este grado, ¡entonces calificas! Por lo general, dice que se requiere una licenciatura en cs, administración de empresas o un campo relacionado, por lo que siempre que tenga licenciaturas para los puestos que lo requieren, entonces debería estar bien
  • Es posible que ya tenga las habilidades técnicas básicas que se necesitan para los trabajos de análisis de datos y que el título de CS se pueda usar para validar eso.
  • puede elegir nuevos conceptos y herramientas de tecnología rápidamente (er), con el fondo cs, es más fácil elegir nuevos conceptos y herramientas, y debe hacerlo continuamente para mantenerse relevante.

Contras de tener un título de CS:

  • No hay suficiente experiencia en la resolución de problemas comerciales y / o falta de conocimiento de los negocios, por lo que si tiene un título en negocios, ¡adelante! Especialmente si su fondo se alinea con el rol. Por ejemplo: si se centró en el marketing en sus licenciaturas y el rol se centra en el análisis de marketing, entonces podría tener una ventaja
  • Tengo un título de CS y luego lo seguí con una maestría de una “escuela de negocios”, por lo que esto se basa solo en mi experiencia, pero pocos estudiantes de CS (sin experiencia en el mundo real) tienden a centrarse en la “automatización” y el “sangrado”. -edge ”en lugar de centrarse en lo que necesita el problema. Muchos análisis de datos no necesitan ser automatizados o no deberían ser automatizados y no todas las empresas necesitan << insertar aquí la última tendencia tecnológica: big data, aprendizaje profundo >>, pero los estudiantes de CS tienden a hacer eso. Eso es con lo que se sienten más cómodos, así que si bien eso no impide obtener el trabajo, esto impediría su crecimiento dentro de la organización.

Entonces, como puede ver, incluso si no tiene un título de CS, aún puede encontrar roles que se alineen con sus otras habilidades y, de hecho, podría salir adelante si puede demostrar que tiene tecnología cuantitativa y tecnológica básica habilidades necesarias para hacer el trabajo.

Relacionado: la respuesta de Paras Doshi a ¿Cómo me preparo para ser un analista de datos?

¡Absolutamente! Soy un científico de datos en una empresa de tecnología sin haber tomado un curso de CS. Concéntrese en las habilidades y la resolución de problemas: algunos lugares imponen requisitos estrictos a las credenciales, pero creo que esos lugares son opciones de carrera menos deseables, por lo que se equilibra.

En general, sí, debería ser capaz de ser un analista de datos sin un título de CS. Necesita habilidades analíticas que parece que tiene. Si desea verificar, busque en varios sitios de trabajo y mire las descripciones de trabajo para ver si requieren títulos de CS.