¿Alguien está siguiendo una carrera en ciencia de datos después de un doctorado en química computacional o áreas STEM similares? ¿Qué consejo le darías a los estudiantes graduados interesados ​​en la ciencia de datos?

La química computacional es un excelente doctorado para proporcionar una sólida formación en informática científica. Por supuesto … soy parcial, ya que gran parte de mi experiencia está en esta área. Pero como Data Scientist senior, describiré las superposiciones entre estos campos y terminaré con algunos consejos generales para aquellos que buscan ingresar en Data Science desde una variedad de antecedentes.

Data Science es computación científica e involucra el desarrollo de algoritmos, análisis sobre grandes conjuntos de datos, aplicación de aprendizaje automático, comprensión de enfoques estadísticos, conocimiento profundo de abstracciones matemáticas y la capacidad de escribir código de computación científica para descubrir información.

Por supuesto, esto está bien cubierto en química computacional como lo está con otros campos de computación científica.

Algunos ejemplos de las superposiciones entre la química computacional y los enfoques utilizados en Data Science incluyen:

  • Big Data cumple con las aproximaciones de la química cuántica: el enfoque de aprendizaje automático Δ http://bit.ly/1Kvdaue
  • Aprendizaje automático de parámetros para cálculos químicos cuánticos semiempíricos precisos http://bit.ly/1Isldco
  • Cómo la química cuántica con aprendizaje automático permite simulaciones atómicas que predicen las propiedades de la página de nuevos materiales en wiley.com
  • Enseñar a las computadoras a leer el lenguaje molecular http://bit.ly/1yPgzin
  • Aprendizaje automático de propiedades electrónicas moleculares en el espacio compuesto químico http://bit.ly/1EmbsHM
  • Evaluación y validación de métodos de aprendizaje automático para predecir las energías de atomización molecular http://bit.ly/1dUiLA8

Para ver superposiciones más específicas entre la química computacional y la ciencia de datos, echemos un vistazo a los enfoques / habilidades centrales utilizados en la ciencia de datos, y veamos cómo se usa la química computacional en estos contextos.

Aunque estos ejemplos son para Química Computacional, cualquiera que evalúe un fondo diferente puede usar estas categorías generales para ver dónde un campo de estudio podría superponerse con la Ciencia de Datos.

El flujo de trabajo de ciencia de datos

Los esfuerzos principales de Data Science están relacionados con el flujo de trabajo de Data Science que en general consiste en la limpieza de datos, preparación de datos, desarrollo de modelos, validación de modelos y despliegue de modelos.

Aquí hay algunos artículos centrados en enfoques específicos de aprendizaje automático utilizados en química computacional. Leerlos le dará una idea de cómo se limpiaron y prepararon los datos, y cómo se construyeron y validaron los modelos. Discutiré brevemente la implementación del modelo cuando hable sobre el software adaptativo hacia el final.

kNN : Novela Selección de variables Estructura cuantitativa – Enfoque de relación de propiedad basado en el principio k-vecino más cercano
http://bit.ly/1H5wVYS

Bayes ingenuos : búsqueda de similitud molecular utilizando entornos atómicos, selección de características basada en información y un clasificador bayesiano ingenuo
http://bit.ly/1QwLp8C

Redes neuronales : predicción de interacciones proteína-proteína utilizando invariantes de gráficos y una red neuronal
http://bit.ly/1Kvxews

Aprendizaje profundo : Aprendizaje profundo de las propiedades moleculares en el espacio compuesto químico
Página en bit.ly

Regresión no lineal : modelado rápido y preciso de energías de atomización molecular con aprendizaje automático
http://bit.ly/1FWiWpC

Máquinas de vectores de soporte : aplicaciones de máquinas de vectores de soporte en química http://bit.ly/1IoA3SR

Agrupación : métodos de agrupación y sus usos en química computacional
http://bit.ly/1Kvx1tm

Consulte también esta tesis sobre nuevos métodos de aprendizaje automático para la química computacional
http://bit.ly/1FWhxPH

Trabajando con grandes conjuntos de datos y sistemas distribuidos

Los científicos de datos a menudo tienen que trabajar con grandes conjuntos de datos para encontrar patrones interesantes y desarrollar modelos que conduzcan a una buena precisión predictiva. En química computacional hay conjuntos de datos extremadamente grandes y complejos generados por muchos procesos moleculares. Vea el artículo de IEEE sobre cuestiones de Big Data en química computacional
http://ieeexplore.ieee.org/xpl/a…

La informática distribuida es algo que los científicos de datos a menudo encuentran al escalar sus modelos a aplicaciones del mundo real. La computación distribuida también se analiza en la química computacional como se muestra en el proyecto [protegido por correo electrónico] .
http://en.wikipedia.org/wiki/QMC…

Hardware de computación científica

El software no es lo único considerado cuando se trata de rendimiento. Los científicos de datos también prestan atención a diferentes hardware y arquitecturas que pueden ayudar a acelerar sus descubrimientos. Esto es igualmente cierto en química computacional. Como ejemplo, las GPU a menudo se explotan para la química computacional.
http://www.nvidia.com/object/com…

Construyendo Software Adaptativo

Como científicos de datos, a menudo queremos que los patrones que descubrimos vivan dentro del software para ejecutar su visión del mundo real. El software basado en modelos de química computacional incluye herramientas como Gaussian, Schrödinger y muchas otras.
http://en.wikipedia.org/wiki/Cat…

Este software a menudo se usa para construir modelos e investigar, mientras que en Data Science buscamos la automatización de ciertas características del software. Sin embargo, herramientas como esta están diseñadas para la detección automática de moléculas candidatas de interés para diversas industrias. En el descubrimiento de fármacos, el software de próxima generación incorpora modelos creados con química computacional para ayudar a acelerar el proceso de descubrimiento de fármacos.
http://www.technologyreview.com/…

Consejos para estudiantes graduados interesados ​​en ciencia de datos

Lo más importante a considerar es un título que le permita aplicar estas habilidades de computación científica a un área que le interese. Busque un programa que requiera un análisis profundo y desarrollo de modelos. Lo más importante es buscar un programa que le enseñe cómo realizar investigaciones científicas utilizando computadoras y análisis avanzados. El término científico está en nuestro título por una razón. Las habilidades de un científico de datos son un subproducto de la pasión por la informática científica y la resolución de problemas.

Es un momento emocionante para ser un científico experto en informática científica. Elija su área de interés y ayude a resolver algunos de los desafíos más difíciles de la actualidad.

Q1) ¿Alguien sigue una carrera en ciencia de datos después de un doctorado en un área STEM?
A1) Sí, muchos lo son.

P2) ¿Qué consejo le darías a los estudiantes graduados interesados ​​en la ciencia de datos?
A2) Aprenda a hacer su propia investigación de escritorio y sea autosuficiente para empezar. Podría haber respondido a su propia pregunta y haber encontrado ejemplos de apoyo para la respuesta a la Q1 a través de búsquedas en la web.

Además, deje de ser anónimo en Quora y aprenda a responder las preguntas que vale la pena responder aquí de una manera útil. Hay muchos más beneficios de ser un donante que solo un tomador en Quora y en otros lugares.