¿Cómo debo aprender más para prepararme para un trabajo de aprendizaje automático en la industria?

Acabo de notar tu invitación a esta pregunta. Disculpas por no volver antes, y más aún por no ser el que pregunta. Mis intereses en el aprendizaje automático son puramente a nivel personal y solo por un único interés en un proyecto en el que estoy trabajando. El concepto completo de las máquinas de enseñanza para comprender el lenguaje a nivel humano es increíble para mí. Reuní una lista de empresas que están involucradas con big data y machine learning. Puede descargar la lista completa de mi cuenta de Google Fusion en Google Fusion Tables

He leído en la lista a continuación muchas sugerencias sobre programas e idiomas para aprender. Lo que sugeriré es que primero encuentre el proyecto que le interesa, aprenda todo lo que pueda sobre quién lo está ejecutando, qué están haciendo y cómo, antes de tomar decisiones comprometidas que van a succionar unos meses dedicados aprendizaje.

Donde pasaría las próximas semanas / meses es ir a las áreas de la universidad y descubrir qué están haciendo y CÓMO. El área que está preguntando es enorme. Incluso las subáreas son enormes. El análisis semántico, por ejemplo, ya se está ramificando en cinco tipos y objetivos diferentes. Tropes: Text Analysis and Semantics es una gran herramienta que encontré útil para mis propósitos y probablemente un buen proyecto para profundizar en el tuyo.

Luego está Ontology, y luego Ontology Programming http://www.doc.ic.ac.uk/~klc/Dis… – completamente diferente

… y se están moviendo rápido. Más rápido que la tecnología de las velocidades de la computadora y las velocidades de conexión a través de los años 90. Simplemente mantenerse al día con el vocabulario es un trabajo. Comencé con la tecnología en el 91. En el 92 sabía que iba a tener que elegir entre Software y Hardware, si iba a seguir con uno de ellos y estar al límite. A los 93 ‘tuve que elegir entre Datos y Procesamiento, porque las bases de datos y el diseño de las aplicaciones estaban explotando. Fui con bases de datos. 94 fue entre la administración del sistema y el desarrollo. Elijo el administrador del sistema, con la esperanza de poder volver al desarrollo entendiendo el uso como administrador. Luego fue Windows o Unix, y luego estaba Linux y luego Internet explotó en todas nuestras caras y en 2005 después de trabajar para Google dije “Es hora de escribir esas novelas que siempre quise hacer”. 🙂

Soñamos, en los años 90, hacer lo que están haciendo ahora, pero la tecnología no estaba allí, sin embargo, no impidió que Gibson nos impulsara con sus libros. Aún así, solo era Vaporware en ese entonces. Ahora, obviamente tienen la tecnología, porque tan rápido como se les ocurre una idea, obtienen el financiamiento y comienzan a hackear y publicar. Entonces, ingrese a Google Scholar, comience a buscar. Mantenga sus búsquedas de documentos que son de 2013 en adelante, porque casi cualquier cosa anterior no se usa mucho ahora. GitHub es un buen lugar para saltar algunas veces al mes también. ORCID, SSRN, https://ideas.repec.org/ – IDEAS sería bueno para analizar, porque el dinero siempre comienza con ‘ el dinero ‘ Dataverse.org también es un buen recurso.

Mi última sugerencia es buscar en los recursos de OpenEd y tomar algunos cursos en esta área. Coursera – Cursos gratuitos en línea de las mejores universidades Tiene algunos buenos que te pueden interesar en la primera página. El EDx de MITx es otro. Encuentra cursos
Yo recomendaría máquinas virtuales. VMware es el mejor, pero no puedes ir allí, entonces Oracle tiene una máquina virtual. Microsoft también, aunque nunca he usado el suyo. He tenido la suerte de poder pagar la aplicación de VMware y la de Oracles es … bueno … si no puedes decir algo bueno … pero usar Máquinas virtuales para explorar algunas de estas áreas evitará que tu máquina se agriete bajo la presión del sistema de 5 diferentes versiones de java, tres bases de datos diferentes y ocho servidores web diferentes.

El mapa mental también es una buena idea, aunque buscaría a Docear y también le daría una mirada a Qiqqa. Gerente de referencia gratuito y gerente de investigación

… café … mucho, mucho café …

Espero que ayude.

Depende en gran medida del tipo de científico de datos que desee ser. Si no está muy interesado en la investigación, básicamente tiene dos extremos del espectro. Revisaré brevemente los dos puntos finales y luego discutiré cómo combinar para hacer cosas intermedias.

A: SAS y R: estas son herramientas utilizadas por lo que tradicionalmente se llamaba “analistas”, en términos de habilidad matemática y de ingeniería, probablemente tienen la barrera de entrada más baja. Tienes cientos de bibliotecas donde básicamente puedes decir “¡Haz una computadora de aprendizaje automático!” y lo hará.

Pros: Probablemente el mayor número de empleos. La barrera más baja para la entrada / curva de aprendizaje. Rápidamente podrá poner una gran lista de algoritmos y métodos en su CV. Amplio conjunto de conocimiento de ciencia de datos crecerá.

Contras: aplicación limitada a análisis principalmente, informes únicos, prototipos y datos pequeños. Es poco probable que crezca la profundidad de las habilidades matemáticas, de ingeniería y codificación.

En pocas palabras: usted es un usuario de los métodos y herramientas existentes para combinar rápidamente los conocimientos empresariales.

B: Scala, iScala (y C ++ / Java) – Tradicionalmente, estas herramientas se usaban principalmente para desarrolladores, excepto que Scala también ha atraído mucha atención de matemáticos puros, el mundo de la programación funcional y el mundo de Big Data. El resultado es que Scala se está utilizando para innovar nuevos métodos y algoritmos que idealmente pueden utilizar procesadores modernos de múltiples núcleos y RAM barata. Si el rendimiento es una preocupación o el tamaño de los datos, debe pensar funcionalmente: debe pensar como un matemático puro, no como un programador de procedimientos. En este espacio necesitará tener una base sólida de teoría de la probabilidad, idealmente funcional, programación y teoría de la información, ya que la tarea a menudo será diseñar nuevos algoritmos que sean muy específicos para un dominio.

Pros: Una vez que se domina Scala, la velocidad a la que puede producir es, literalmente, pedidos mayores que otros idiomas. Por lo general, necesita 5 veces menos código que otros lenguajes, como Python, pero en comparación con Java o C, es más como 10 veces menos código. Las tareas son a menudo altamente innovadoras y desafiantes. Scala se puede utilizar para crear prototipos * y * para producir y crear aplicaciones.

Contras: con mucho, uno de los idiomas más difíciles de aprender con una curva de aprendizaje casi vertical (a menos que tenga un fondo matemático puro, en cuyo caso será más fácil de aprender que otros idiomas). Mercado más pequeño, menos empleos. Espere cubrir menos algoritmos / técnicas preexistentes. También puede tener una barrera de entrada de ingeniería debido a que es una compilación no interpretada.

En pocas palabras: lenguaje utilizado para crear nuevos algoritmos y tecnología, especialmente en el espacio Big Data.

Ahora Python es más un intermediario, ya que tiene muchas API que se encuentran en la parte superior del código en Scala, Java y C ++. Por lo tanto, hay cierto margen para hacer Big Data y posiblemente incluso escribir una aplicación MVP. Desafortunadamente, Python es notoriamente difícil de depurar debido a que es de procedimiento. ¡No esperes poder construir algo particularmente complicado en Python, a menos que quieras pasar más del 25% de tu vida depurando!

Puede ser útil combinar habilidades de diferentes extremos del espectro en lugar de especializarse. Piensa en qué tipo de Data Scientist quieres ser, es un área bastante amplia.

Habilidades generales necesarias: las necesitará sin importar qué. Yo pienso 🙂
ETL (extracción, transformación, carga): necesitará SQL, nosql – map reduce, PIG, Hive incluso si tiene ingenieros de datos. Tome una clase de Excel, está en todas partes: conozca algunas de las características moderadas a avanzadas (incluso un poco de macro scripting ayudaría).

Obtenga una cuenta pública de Tableau y descargue la versión gratuita. Aprenda los conceptos básicos de la visualización. Big Data Revenue: 2012 Big Data Revenue Circles [datos de muestra]: jeje – Te llamó la atención 🙂
Por qué Tableau y Excel, porque después de construir su gran estudio en R, SAS, Matlab, necesita explicar los hallazgos a los usuarios comerciales. Los humanos son personas visuales.

Luego aprenda R, SAS I, II y DM y termínelo con Python – Mathlab.
[Puedes comenzar incluso mientras buscas trabajo]. El punto es que he estado aprendiendo R durante 7 años, todavía estoy aprendiendo cosas nuevas y divertidas. Echa un vistazo a los paquetes Swirl () y Caret ().

Pensamiento final, no BS el gerente de contratación – Sin embargo, sepa que puede hacer un gran trabajo en ML con habilidades básicas y una comprensión profunda del problema comercial que está tratando de resolver 🙂 Best -GS

Creo que tienes lo que se necesita para conseguir un buen trabajo en la industria.

Es posible que desee aprender algunas “R” para realizar tareas analíticas básicas.
Es posible que desee aprender algo sobre la computación en clúster, específicamente Apache Spark, que está recibiendo cada vez más atención para tareas de procesamiento de datos masivas.
Es posible que desee probar algunas competencias de kaggle para refrescar sus habilidades, practicar y generar código que realmente funcione con datos reales.
Es posible que desee mojarse los pies con los algoritmos de Deep Learning, ya que hoy son una papa caliente.

Esas son solo algunas sugerencias simples, por lo que ha descrito, creo que pronto tendrá un buen trabajo. ¡Trabaja duro!

Luis.

genial, tienes una buena experiencia en aprendizaje automático.
1 、 Como ml tiene muchas subáreas, debe elegir 1 ~ 2 (puede ser más) en el que se centraría , aplicar la teoría y los algoritmos a los temas especificados, por ejemplo, PNL, DL.
2 、 continúa puliendo tu capacidad de programación
3 、 piénsalo más profundo y ámalo, hazlo mejor

Desafortunadamente, si está interesado en ser un científico de datos, esto probablemente significa que necesitará un título superior (es decir, un doctorado). Muchas de las habilidades requeridas para hacer bien la ciencia de datos no solo se limitan a la programación: hay una gran cantidad de habilidades basadas en la investigación (por ejemplo, estadísticas, diseño experimental, manejo de una gran cantidad de datos y características y saber qué estadísticas las pruebas son más útiles para probar sus hipótesis). Probablemente podría aprender sobre esto en un libro de texto, pero supongo que la mejor manera de aprender habilidades de investigación es pasar algún tiempo haciéndolas.

Otra opción puede ser encontrar científicos de datos actuales, mirar sus currículums y ver qué hicieron para llegar a su posición actual. Y luego puedes emular eso.

Python, para pruebas rápidas de varias ideas, si tiene que mejorar / improvisar algoritmos de ML. Luego Java y Scala, para trabajar en Hadoop o Spark; Linux, ya que es una mejor plataforma de programación que Windows (no sé nada sobre lo amigable que es un OsX).

Una de las mejores cosas que puede hacer en estos días para prepararse para una carrera en informática o inteligencia artificial es obtener una sólida formación de laboratorio en biología molecular, química orgánica, física cuántica, neurociencia o disciplina relacionada. La industria del aprendizaje automático realmente quiere construir algoritmos y capacidades exóticas de aprendizaje automático para innovar verdaderamente en el aprendizaje automático. Por otro lado, la mejor manera de prepararse para una carrera en biología es aprender java y python.

puede unirse como pasante en una empresa de análisis central después de haber aprendido las habilidades en análisis básico. Esto te preparará.

Saludos

Mohan Rai

haz clic para unirte al grupo de WhatsApp

Consejería de imurgencia

Divulgación: Soy el cofundador de Imurgence – Un Instituto de Capacitación en Análisis y Director en Simple & Real Analytics – Una empresa de productos Big Data / Analytics / Machine Learning

Parece que tienes los conceptos básicos cubiertos. Respaldaría la sugerencia de aprender R ya que la mayoría de los estadísticos que he conocido usan SAS o esto. R en acción es un buen libro para ponerte al día rápidamente. Además, asegúrese de poder construir un modelo en su lenguaje de programación de elección para convencer a los entrevistadores de que realmente sabe cómo construir cosas, ya que se le puede pedir que haga esto durante una entrevista. Elija un algoritmo tradicional y algo más sofisticado como GBM o bosques aleatorios que conozca por dentro y por fuera y que debería estar más que listo.

Gracias por A2A. No soy un científico de datos, pero después de leer otras respuestas, creo que deberías echar un vistazo a esta pregunta y sus respuestas ¿Cómo me convierto en un científico de datos?

Si realmente aprendió la mayoría de los algoritmos en el libro de Bishop (¿ya tiene 10 años? Cómo vuela el tiempo …), puede aprender matemáticas avanzadas y quiere trabajar en el aprendizaje automático, creo que también debe considerar los roles de tipo investigador.

Por favor mira:
Tech Talk @ eHarmony

LA Machine Learning

Aprendizaje automático en citas en línea

pero..

“Romper la barrera del sonido de citas en línea”