¿Cómo debe comenzar un principiante en Kaggle?

Kaggle es una excelente manera de comenzar para aquellos que prefieren aprender haciendo (en lugar de aprender leyendo libros o viendo conferencias).

Para aquellos que quieren un problema con un problema muy claramente definido, sugiero comenzar con una de nuestras competiciones de “Primeros pasos”. Nuestra competencia más fácil consiste en predecir quién sobrevivió al Titanic por género, clase de boleto, etc.

Si no tiene una configuración de entorno Python o R en su computadora, tenemos una herramienta llamada Kernels, que es un editor de scripts en línea que le permite ejecutar código sin instalar R o Python (y tiene los datos ya conectados).

Sugiero comenzar por “bifurcar” (el codificador habla por clonar) el Kernel de otra persona y editar su trabajo en lugar de comenzar desde cero. Si desea comenzar con Python (mi recomendación), le sugiero el Kernel de Omar El Gabry, que es un buen flujo de trabajo de principio a fin que comienza con la exploración de los datos y termina con algunos modelos básicos de aprendizaje automático. Si prefiere R, entonces le recomiendo el Kernel de Megan Risdal. Si no está listo para comenzar con Python o R, tenemos un sencillo tutorial de Excel.

Si desea realizar una exploración gratuita o si le parece desagradable la idea de una competencia, le sugiero que consulte los conjuntos de datos abiertos que alojamos. Estos conjuntos de datos no están asociados con una competencia, pero aún así facilitan el aprendizaje mediante el intercambio de código y las discusiones en foros. Un conjunto de datos simple y divertido para comenzar es US Baby Names, que explora las tendencias en los nombres de bebés en los EE. UU. Durante los últimos 100 años. Nuevamente, sugiero comenzar bifurcando el Kernel de otra persona. Es menos intimidante que comenzar con un cursor parpadeante.

Primero, aprenda un lenguaje de programación para la ciencia de datos:

Si no tiene experiencia con Python o R, debe aprender uno de ellos o ambos.

Existen numerosos cursos / tutoriales en línea que pueden ayudarlo.

  • Introducción a Python para Data Science
  • Introducción a R para Data Science

Segundo : aprenda sobre el aprendizaje automático. El curso de aprendizaje automático Andrew NG es, sin duda, el lugar perfecto para comenzar.

  • Aprendizaje automático – Universidad de Stanford | Coursera

Tercero: Ahora, estás listo para comenzar a hacer cosas reales en Kaggle. Te recomendaría que leas esto Primeros pasos | Artículo de Kaggle sobre cómo comenzar, luego puedes ir a la cabeza y unirte a una competencia. Las competiciones en Kaggle se clasifican en diferentes tipos según su recompensa: conocimiento, trabajos, dinero. Las competencias de conocimiento están destinadas a principiantes que buscan comenzar. Estos son una buena opción para un principiante, porque puede encontrar muchos artículos y ejemplos de soluciones que explican cómo obtener una buena puntuación.

Actualmente están disponibles las siguientes competencias de conocimiento: Reconocimiento de dígitos, Titanic: aprendizaje automático de desastres y detección de puntos clave faciales. Elija uno e intente obtener la mayor puntuación posible. Sería muy útil mirar otras soluciones o tutoriales en línea e intentar reproducir sus resultados usted mismo.

Después de familiarizarse con la plataforma y cómo resolver una competencia, ahora es el momento de divertirse. Ve a una competencia real en vivo y participa. Aquí hay una estrategia que recomendaría para una competencia:

  • Dedique tiempo a explorar el conjunto de datos y comprenderlos lo mejor que pueda. Esto le ayudará mucho.
  • Comprueba si hay competiciones pasadas similares a las que estás resolviendo. Kaggle generalmente publica entrevistas con los ganadores anteriores de la competencia en su blog (No Free Hunch). Vea si puede aplicar un método similar a su problema o no. Además, los ganadores suelen publicar sus códigos de solución en github como proyectos de código abierto.
  • Manténgase atento al foro de la competencia para cualquier publicación o discusión útil.
  • Las competiciones de Kaggle requieren un esfuerzo y compromiso continuos. Debe seguir trabajando para mejorar sus presentaciones hasta el final. Si te mantienes alejado por un tiempo, otros mejorarán y tu rango disminuirá.

Hay varias formas de comenzar.

Primero, debe obtener una comprensión básica del aprendizaje automático y hacer un curso introductorio. Hay muchos disponibles en línea. Recomiendo Andrew Ng “Machine Learning” en coursera [1], “Probabilistic Graphical Models” también en coursera [2] o “Learning from data” [3].

Entonces, tan pronto como sepas, algunos conceptos básicos toman medidas. Comience a hacer los ejercicios de introducción en kaggle, como el ejemplo Titanic [4]. También son muy interesantes en kaggle las entrevistas, donde los kagglers exitosos hablan sobre lo que hacen y cómo abordan ciertos problemas [5]. Intente replicar su trabajo y vea, si obtiene sus resultados.

Además, únete a las competiciones desde el principio y no tengas miedo al fracaso. Mejor aprende haciendo y necesitarás la experiencia más tarde de todos modos.

¡Buena suerte!

[1] Aprendizaje automático – Universidad de Stanford | Coursera

[2] Modelos gráficos probabilísticos 1: Representación – Universidad de Stanford | Coursera

[3] Aprendiendo de los datos – Curso en línea (MOOC)

[4] Titanic: Aprendizaje automático del desastre

[5] Entrevistas de los ganadores | Sin corazonada gratis

Te diré como perspectiva del rol del científico de datos:

Kaggle te ayudará mucho en tu compañía. Puedes comunicarte con tus compañeros y conocerás otras ideas sobre la misma pregunta. Primero comenzarás a explorar otra presentación. Te ayudará mucho y cómo abordar el problema y preguntar lo correcto pregunta:-

Puede comenzar con esta predicción de quién sobrevivió en Titanic en función del género, la clase de boletos, etc. y la base de datos de películas TMBD

Titanic: Aprendizaje automático del desastre

Conjunto de datos de películas TMDB 5000

Esta es mi solución de sobreviviente Titatnic

https://github.com/mynamerahulku

He analizado la base de datos de películas TMDB. Este conjunto de datos contiene información sobre 10,000 películas recopiladas de The Movie Database (TMDb), incluidas las calificaciones de los usuarios y los ingresos.

mynamerahulkumar / Data_Science

Descripción sobre la investigación

Estas son las habilidades clave necesarias para comenzar en kaggle o convertirse en científico de datos.

1.Programación: – Deberías comenzar a aprender Python o R. Estos son actualmente lenguajes populares en ciencia de datos. No te preocupes si no te preocupas por la programación. Te daré los mejores enlaces para aprender programación. Todo lo que necesitas es inglés y matemáticas de décima clase. 2.Habilidades cuantitativas: – Deberías comenzar a aprender álgebra lineal y cálculo multivariable y álgebra lineal y matricial. También debes comenzar a aprender probabilidad y estadísticas. Te daré los mejores enlaces para aprender esto.

3.Múltiples tecnologías: – Debería comenzar a explorar otras tecnologías que se utilizan hoy en día, aparte de la programación de Python o R. Estas son las principales tecnologías que se utilizan: -A nivel empresarial, SPSS, Cognos, SAS, MATLAB son importantes para aprender como son Python, Scala, Linux, Hadoop y HIVE .

4.-Comprenda el negocio y los resultados: – Como científico de datos, ha entendido el negocio y el resultado de su empresa. Debido a que está aquí para el crecimiento financiero de la empresa. Tiene que hablar con el CFO o el equipo comercial para saber más acerca de su EMPRESA .IT te ayudará a hacer una buena pregunta.

5: Interpretación de los datos: es una combinación de arte y ciencia de datos. Es necesario conocer las matemáticas y la programación, así como la creatividad, el ingenio y la curiosidad. La mayoría de los empleados no sabe acerca de la empresa. Hay que explorar los detalles. datos y hacer la pregunta correcta: –

6: Aprendizaje automático: -No es necesario que conozca las matemáticas detrás del aprendizaje automático. Solo necesita conocer los conceptos básicos del Aprendizaje automático y cómo implementar usando Pyhton.

Conclusión: – Todas estas cinco habilidades son muy importantes. Si tiene conocimiento de negocios, será más útil.

Para aprender Pyhton (No se requiere experiencia en programación): – https://in.udacity.com/course/py

Para aprender lo básico de la ciencia de datos (no se requiere experiencia en programación): esto tiene casi todo para comenzar a ser operador en ciencia de datos desde lo básico

https://in.udacity.com/course/da

Para los conceptos básicos de aprendizaje del aprendizaje automático (requisito previo de Python): –

Ingeniero de aprendizaje automático | Udacity

Recomendaría participar en competiciones que sean más adecuadas para principiantes:

  1. Clasificación binaria: Titanic: Machine Learning from Disaster
  2. Clasificación de múltiples clases: predicción del tipo de cubierta forestal
  3. Regresión temporal: demanda de bicicletas compartidas
  4. Redes de convección: reconocimiento de dígitos
  5. Denoising Autoencoders: Denoising Dirty Documents
  6. Predicción de sentimientos: análisis de sentimientos en críticas de películas
  7. Word2Vec: Bolsa de palabras y bolsas de palomitas de maíz

Recomiendo echar un vistazo al desafío tutorial Titanic: Machine Learning from Disaster. No se preocupe por la precisión, concéntrese en crear una presentación de extremo a extremo. En el proceso, aprenderá los conceptos básicos de la función de pérdida, variación de sesgo, validación, etc.

Comienza a aprender primero. Hay tantas cosas que aprender.

Por mucho que aprenda, no le resultará difícil, incluso los problemas de kaggle.

O puede hacer una cosa, llegar a 100 soluciones del mismo problema. Intente maximizar su precisión o minimizar su error cuadrático medio. Practica con un solo problema 1000 veces.

Créeme, te ayudará.

También soy un novato en ciencia de datos. Sigo este camino y me está ayudando mucho.

Larga vida a la revolución de los datos.

More Interesting

¿Cuánta programación debe saber un experto en matemáticas para un trabajo en la industria?

¿Cuál es el camino profesional para que un ingeniero se convierta en CEO?

Para un ingeniero en electrónica y telecomunicaciones, ¿cuáles son las futuras opciones de estudio en el campo de la gestión?

Si tengo una licenciatura en biología, ¿cómo puedo conseguir un trabajo en la NASA?

Si estuviera contratando, ¿qué candidato elegiría: (1) NITian con un GPA de 6 puntos (2) un WBUTian (considere cualquier buena universidad bajo WBUT como Heritage, IEM, Inhouse, cuero / cerámica con un puntero de 9?

¿Es posible convertirse en un oficial de policía sin servir en el ejército o tener un título universitario?

¿Necesito un título en informática para convertirme en robotista?

Tengo 25 años, Mech Eng, terminé un año de retraso debido a algunos problemas médicos. Estoy trabajando en MNC por contrato. ¿Qué certificaciones adicionales debo elegir?

¿Qué formularios debo llenar para ser un estudiante de ciencias? Quiero estudiar ingeniería, pero también quiero saber algo más

¿Es este un ejemplo de discriminación laboral?

¿Cuáles son algunos trabajos que puede hacer un matemático?

¿Necesito una oferta de trabajo de un empleador australiano para solicitar una RP australiana?

¿Qué tipo de trabajo puedo obtener después de hacer una Maestría en Comunicación de Masas de la Universidad Central de South Bihar?

Cómo convertirse en bombero

¿Qué compañías de software ofrecen pasantías para estudiantes de tercer año de ingeniería informática en Hyderabad?