Mi colega hizo la lista de proyectos de ciencia de datos simples pero ilustrativos para crear un CV de científico de datos sin experiencia laboral: https://blog.statsbot.co/data-sc…
Dejaré la descripción de uno de estos proyectos solo para tener la idea de si vale la pena seguir el enlace.
Spam o jamón
El spam vive donde sea posible dejar mensajes. Uno de los problemas clásicos de la ciencia de datos es la detección de spam. Puede entrenar un modelo para detectar correos electrónicos no deseados, mensajes de spam y comentarios de usuarios de spam para ocultarlos en el navegador.
- ¿Qué debo elegir como prueba de software automatizada: Selenium o ETL basado en Java?
- ¿Cuál es la mejor opción para una mejor carrera: una licenciatura en matemáticas e informática de la Universidad de Punjab, una licenciatura en matemáticas solo de la Universidad de Punjab o una licenciatura en economía y finanzas de la ISBF?
- ¿Debería un graduado de ciencias de la computación comenzar su carrera en una conocida empresa de programación de sistemas o como ingeniero de back-end de alto nivel (Javascript / Python) en una startup bien financiada?
- ¿Qué clase en la universidad te ha ayudado más en tu carrera hasta ahora?
- Tengo un mes para prepararme para una pasantía en una agencia digital de ritmo rápido en posproducción. ¿Qué puedo hacer el próximo mes para ayudar a prepararme para que esta transición sea exitosa y demostrar mi valía ante la empresa?
Un motor de aprendizaje automático define el spam en función de la probabilidad de encontrar palabras como “venta” y “compra” en los mensajes de spam. Como resultado, puede obtener un prototipo funcional de AdBlock en aproximadamente una semana.
Problema de ML: clasificación de texto
Algoritmos: ingenuos bayes, clasificadores lineales, clasificadores de árboles, clasificadores de lo que quieras
Tecnologías: sklearn, nltk, scrapy
Datos: conjunto de datos de spam de SMS, conjunto de datos de spam de correo electrónico, conjunto de datos de spam de comentarios de YouTube
Implementación: extensión del navegador
Referencias: AdBlock, Adguard
Guías: Cómo construir un clasificador simple de aprendizaje automático de detección de spam, Primeros pasos: construcción de una extensión de Chrome
Otros problemas de ML son:
- No hotdog
- Recomendaciones de películas de Netflix
- Lentes originales de Snapchat
- Transmisión de Twitter
- Apuestas de tenis
- Predicción del precio de las acciones
Espero que sea útil!