¿En qué proyectos reales han trabajado los científicos de datos? ¿Qué herramientas y técnicas analíticas se utilizaron y qué errores se cometieron?

Primero, para algunos antecedentes …

Producto: pagos móviles, facturación directa al operador (compre algo en línea con su número de teléfono y el cargo aparecerá en la factura de su teléfono celular).

Problema: las personas con cuentas prepagas fallan en las transacciones por tener fondos insuficientes.

Posible optimización: envíe a los clientes un mensaje de texto después de fallar diciéndoles que recarguen e intenten nuevamente.

¿Es efectivo? Parece un gran lugar para una prueba A / B. El 50% de los usuarios recibirán el mensaje.

Para analizar esta prueba, no podemos confiar en simples conversiones o números de ingresos. Esta es una optimización altamente específica y merece un análisis altamente específico. El primer paso es identificar qué métrica comparar entre los dos grupos:

  • ¿Qué porcentaje de clientes que fracasan por fondos insuficientes posteriormente realizan transacciones con éxito?

Genial: si nuestro mensaje de texto funciona, más personas volverán después de completarlo. Inmediatamente, nos encontramos con algunos problemas.

  1. Segmentación: clientes nuevos vs. clientes recurrentes.
  2. Si un cliente regresa 3 semanas después, ¿es realmente debido a nuestro mensaje de texto?

Entonces, comenzamos mirando agregar “… dentro de N horas” a la pregunta original, y procedemos a trazar la distribución resultante para cada segmento (nuevo, regresando) y grupo (control, prueba) y ver qué encontramos.

Hmm, eso es extraño. El 30% de los usuarios que regresan tienen éxito en 1 minuto. ¿Cómo se llena tanta gente tan rápido? Después de investigar un poco más, nos damos cuenta de que hay dos formas en que un cliente puede cumplir con nuestros criterios de éxito:

  1. Recargan su cuenta y regresan
  2. Compran algo más barato

De nuevo, ahora hacemos la pregunta dos veces, para cada una de esas posibilidades, para tener una mejor idea de cómo nuestro mensaje de texto impacta el comportamiento del cliente.

Obtenemos una estimación de la elevación y le asignamos un valor de ingresos. Luego, compare eso con el costo de enviar el mensaje de texto. ¿Vale realmente un aumento del 2%? Desde aquí realmente no puedo compartir detalles exactos de implementación, pero la solución ideal es enviar el mensaje de texto en algunos escenarios y no en otros, y considerar optimizaciones completamente diferentes en función de lo que aprendimos.

En cuanto a las técnicas, esto es principalmente SQL, Python y Excel.

  1. Primero, identifique las transacciones con insuficiencia de fondos insuficientes.
  2. Ejecute consultas en ese usuario para determinar su segmento y grupo, y cuándo su próxima transacción exitosa fue al mismo precio o más alto, y a un precio más bajo.
  3. Cada una de esas consultas es fácil y rápida, pero desea iterar en miles o millones de transacciones. Por lo tanto, use python para encontrar primero las transacciones para iterar, ponerlas en una lista e iterar a través de esa lista para ejecutar las pequeñas consultas.
  4. Cada iteración, almacena los resultados. Redondee el intervalo de tiempo en minutos para simplificar.
  5. Tenga cuidado con los usuarios que fallan varias veces: solo cuente su primera falla.
  6. Una vez que tenga resultados, use un contador para determinar cuántas personas de cada segmento / grupo / grupo de precios regresan en N minutos
  7. Escribir resultados a CSV
  8. Analice visual y analíticamente en Excel: los datos ya no son demasiado grandes.

Lo sentimos, no hay aprendizaje automático sofisticado ni modelos estadísticos rigurosos: nuestro equipo está resolviendo problemas comerciales aplicables y haciendo recomendaciones sobre un ciclo de respuesta rápido. Una vez que se ejecute la prueba A / B, esperaría que este proyecto demore de 1 a 2 días (además de todo lo que está sucediendo).

Elegí este ejemplo de los cientos de análisis que hice en Boku en los últimos años porque era relativamente detallado, con suerte fácil de entender, y no revela nada demasiado secreto (puede darse cuenta de que lo hacemos al utilizando nuestro servicio …). ¡Espero que hayas disfrutado!

Parece que está buscando el proyecto completo de un proyecto de ciencia de datos, completo con código, razonamiento, procesos de pensamiento y callejones sin salida.

Es difícil encontrar proyectos de la industria que puedan compartirse hasta ese grado (la mía ciertamente no puede). Pero quizás puedas encontrar algunos proyectos de estudiantes.

Quería compartir el proyecto realizado por el equipo Buffalo Capital Management (Yo, Sebastian Chiu, Salena Cui, Carl Gao) para el curso de Harvard Data Science 2013 impartido por Joe Blitzstein y Hanspeter Pfister.

Nuestro proyecto fue predecir el movimiento direccional de los precios de las acciones . Si bien no es un problema estándar de ciencia de datos, encaja muy bien con el proceso de ciencia de datos y le dará una idea de cómo se completa un proyecto de ciencia de datos de principio a fin.


Finalmente, descubrimos que el movimiento direccional de los precios de las acciones de primera clase era altamente predecible dado el precio de apertura de hoy y los precios de apertura / cierre de los últimos 9 días . El movimiento direccional fue predecible con más del 90% de AUC. Pudimos ganar una competencia de modelado predictivo (2013 Boston Data Week) con nuestro modelo combinado Ridge-RF.


Nuestro video resume brevemente nuestras motivaciones, resultados y conclusiones principales.

Nuestro cuaderno de procesos IPython describe completamente nuestros procesos de razonamiento y pensamiento detrás de cada paso.

Nuestro GitHub contiene todo nuestro código.

Y finalmente nuestro sitio web une todo

Para más proyectos como estos de nuestros compañeros de clase, ¡simplemente busque en YouTube CS109 !

Espero que sea lo que estabas buscando. ¡Buena suerte en tus ambiciones de ciencia de datos!

Si bien he realizado muchos pequeños proyectos para Uber (compañía), algunos de los cuales publico en su Blog de Uber (#uberdata), a los fines de esta pregunta, creo que mi proyecto brainSCANr probablemente se adapte mejor. Tenga en cuenta que Uber, brainSCANr y mi investigación experimental real de neurociencia realmente se informan entre sí de maneras increíblemente maravillosas.

  • Sitio web de brainSCANr
  • Construcción automatizada de cognomas y generación de hipótesis semiautomatizada.

El problema

Las primeras líneas del artículo:

El método científico comienza con una hipótesis sobre nuestra realidad que se puede probar a través de la observación experimental. La formación de hipótesis es iterativa, construyendo conocimiento científico previo. Antes de poder formular una hipótesis, uno debe tener un conocimiento profundo de la investigación previa para garantizar que el camino de la investigación se base en una base estable de hechos establecidos. Pero, ¿cómo puede un investigador realizar una revisión exhaustiva e imparcial de la literatura cuando se publican anualmente más de un millón de artículos científicos? La tasa de descubrimiento científico ha superado nuestra capacidad de integrar el conocimiento de una manera imparcial y basada en principios. Una solución puede ser a través de la agregación de información automatizada. En este manuscrito mostramos que, al calcular asociaciones entre conceptos en la literatura revisada por pares, podemos sintetizar algorítmicamente información científica y usar ese conocimiento para ayudar a formular hipótesis plausibles de bajo nivel.

Etapa de inicio

En mayo de 2010 fui invitado a hablar en la Conferencia de la Asociación de Estudiantes de Ciencias Cognitivas de Berkeley (CSSA). En esa conferencia me senté en un panel de preguntas y respuestas con un grupo infernal de científicos, incluido mi amigo y colega George Lakoff y el (entonces) presidente del departamento de psicología de Stanford, James McClelland, que ayudó a ser pionero en el procesamiento distribuido paralelo.

En ese panel, obtuve muchas preguntas, una de las cuales era una pregunta de alto nivel sobre el desafío de integrar la gran cantidad de datos ocultos en la literatura neurocientífica. Era una variante en la línea clásica de que la neurociencia es “rica en datos pero pobre en teoría”. Este es un problema con el que he estado luchando durante mucho tiempo y tuve algunas ideas.

En mi respuesta, dije que uno de nuestros problemas como campo era que teníamos tantas personas diferentes con diferentes antecedentes que hablaban diferentes jergas que no se comunicaban de manera efectiva. Seguí con un comentario indirecto de que “The Literature” era realmente bastante inteligente cuando se tomaba como un sistema, pero que nosotros, los cerebros débiles individuales, no éramos lo suficientemente brillantes como para integrarlo todo.

Continué afirmando que, si hubiera alguna forma de integrar automáticamente la información de la literatura de revisión por pares, probablemente podríamos obtener muchas nuevas ideas. James McClelland realmente parecía estar en desacuerdo conmigo, pero la idea siguió dando vueltas en mi cerebro por un tiempo.

Creación

Una noche, varios meses después (mientras veía Battlestar Galactica (serie 2003–2009) con mi esposa Jessica Bolger Voytek), me volví hacia ella y le expliqué mi idea. Me preguntó cómo planeaba codificarlo y, después de explicarlo, me desafió diciendo que definitivamente podía codificar eso más rápido que yo.

Avance rápido un par de horas hasta alrededor de las 2 am y ella tuvo sus resultados. No lo hice.

Bah.

La idea que discutí con ella era muy simple (y probablemente simplista) y se basaba en la suposición de que cuanto más frecuentemente aparecen dos términos neurocientíficos en el título o en los resúmenes de artículos revisados ​​por pares, es más probable que esos términos estén asociados con unos y otros.

Por ejemplo, si “aprendizaje” y todos sus sinónimos aparecen en 100 documentos con “memoria” y todos sus sinónimos, mientras que ambos términos aparecen en un total de 1000 documentos sin el otro, entonces la probabilidad de que esos dos términos estén asociados es 100/1000, o 0.1.

Calculamos tales probabilidades para cada par de términos usando un diccionario que seleccionamos manualmente . Contenía 124 regiones cerebrales, 291 funciones cognitivas y 47 enfermedades. Los nombres de las regiones del cerebro y los sinónimos asociados se seleccionaron de la base de datos NeuroNames, las funciones cognitivas se obtuvieron del Atlas cognitivo de Russ Poldrack y los nombres de las enfermedades son de los NIH. La población inicial del diccionario estaba destinada a representar los términos de búsqueda más amplios y plausiblemente comunes que también eran relativamente únicos (y, por lo tanto, probablemente no condujeran a conexiones espurias). Tenga en cuenta que este proceso requiere algún conocimiento experto, pero también podría automatizarse con relativa facilidad ordenando n -gramas (por frecuencia) de todos esos documentos e incluyendo cualquiera que aparezca más de x veces, por ejemplo.

Herramientas utilizadas

Contamos el número de artículos publicados que contienen pares de términos usando la utilidad ESearch de la Biblioteca Nacional de Medicina (su API) y el tipo de retorno de conteo . Aquí está el ejemplo de “corteza prefrontal” y “cuerpo estriado”:

  • Conjunción : Página sobre Nih
  • Disyunciones : Página sobre Nih y Página sobre Nih

Este proceso se repitió para cada par de términos utilizando una secuencia de comandos rápida de Python para llenar una matriz con los pesos de asociación resultantes.

Así es como se ve el método:

Observamos en nuestro manuscrito que este método está plagado de advertencias, pero esto no pretende ser un punto final, sino más bien un comienzo de prueba de concepto.

Al final obtenemos una matriz completa de 175528 pares de términos. Una vez que obtuvimos esta base de datos, (está bien, mi esposa) pirateamos el sitio web brainSCANr para permitir que las personas jueguen con los términos y sus relaciones. Queríamos crear una herramienta para que los investigadores y el público lo usaran para ayudar a simplificar las complejidades de la neurociencia.

Ingresa un término de búsqueda, muestra las relaciones y le brinda enlaces a los documentos relevantes revisados ​​por pares. Como ejemplo, aquí está el Alzheimer:

El sitio web fue creado usando Google App Engine. El trazado de la conectividad gráfica se realizó utilizando el Kit de herramientas JavaScript InfoVis.

Mi esposa y yo lanzamos la primera versión juntos (con la ayuda de mi amigo de Uber (compañía) Curtis Chambers) durante aproximadamente una semana. Realmente hicimos esto durante nuestras vacaciones de Año Nuevo, donde lo usamos como una forma de ocultar a nuestros amigos el hecho de que mi esposa estaba embarazada de nuestro primer hijo (nos habíamos enterado el día antes de que se suponía que nos íbamos).

Los análisis de datos se realizaron finalmente en MATLAB y Python (lenguaje de programación). La agrupación de pesos se realizó utilizando la agrupación k-means y la agrupación jerárquica.

Resultados

Me gusta bromear que esto nos llevó una semana y alrededor de $ 11.75 en comparación con el Proyecto de Conectoma Humano de 3 años de $ 8.5M.

Primero queríamos ver si los grupos resultantes tenían algún sentido. Enseñé neuroanatomía en Berkeley durante 3 semestres, así que tendrás que confiar en mí de alguna manera cuando digo que las relaciones entre regiones cerebrales que extraemos algorítmicamente puramente de relaciones textuales en la literatura de revisión por pares se correlacionan muy estrechamente con las conexiones conocidas entre estos cerebros. regiones.

Honestamente, estaba tan ridículamente emocionado cuando vi los resultados por primera vez. Cuando realizamos una agrupación simple en estos términos, fue sorprendente lo que estaba asociado. Ninguno de los resultados fue terriblemente sorprendente, pero es realmente genial que cosas como el sistema visual simplemente caigan en la literatura: LGN, V1, pulvinar, colículo superior y extraestriado visual, por ejemplo, todos se colocan en un grupo juntos.

Pero aún así, ¿y qué?

Pasé mucho tiempo luchando para encontrar algo que pudiéramos hacer con estos datos. Al final me decidí por un algoritmo para tratar de encontrar relaciones perdidas. Imagina que tienes dos amigos muy cercanos. Lo más probable es, estadísticamente hablando, que esas dos personas se conozcan. De hecho, sería sorprendente si no lo hicieran. Además, si terminaran reuniéndose, probablemente se llevarían bastante bien porque son muy buenos amigos con cada uno de ellos.

Esa es la analogía del algoritmo que uso para descubrir posibles relaciones entre ideas que deberían existir en la neurociencia, pero que no existen.

Un amigo de un amigo debe ser un amigo. Básicamente, el algoritmo de recomendación de Facebook (producto) o LinkedIn (producto), súper simplificado.

Aquí está esa analogía, visualizada:


Yo llamo a esto “generación de hipótesis semiautomatizada”. En este ejemplo, puede ver en el panel D que el término “serotonina” aparece en 4782 artículos con la región del cerebro “estriado”. La serotonina también aparece en 2943 artículos con “migraña”. Resulta que sabemos mucho sobre la neuroquímica, la fisiología y la distribución de la serotonina en el cerebro.

Eso está del lado de la neurociencia.

Aparentemente, y no sabía esto antes de ejecutar este algoritmo, existe una literatura médica muy rica sobre la hipótesis de la serotonina para las migrañas. Teniendo en cuenta estos dos datos, es estadísticamente sorprendente que solo haya 16 publicaciones que analicen el cuerpo estriado, una región del cerebro que expresa fuertemente la serotonina, y las migrañas, que están fuertemente asociadas con la serotonina.

Tal vez nos estamos perdiendo una conexión aquí. Tal vez los médicos que estudian migrañas no están hablando con los neurocientíficos. Esta no es necesariamente una asociación correcta, solo una que valga la pena explorar. Y ahora tenemos una forma algorítmica de hacer algo que muchos investigadores hacen de todos modos.

Por ejemplo, cuando tengo lo que creo que es una idea nueva, lo primero que hago es recurrir a PubMed y comenzar a buscar para ver si realmente es novedoso.

Pero, ¿qué pasaría si ocasionalmente pudiera omitir ese paso donde necesito tener la idea en primer lugar?

No estoy diciendo que la creatividad y la generación de ideas orgánicas no tengan un lugar, sino que ahora podemos aumentar ese proceso. Dimos algunos pasos para intentar verificar la validez de los datos. Por ejemplo, observamos cómo las asociaciones entre los términos de neurotransmisores y las regiones cerebrales en nuestra base de datos se relacionaban con los valores reales de expresión génica para los genes asociados con esos neurotransmisores. Para hacer esto, integramos nuestros resultados con Allen Brain Atlas (¡quien gentilmente hace que sus datos estén disponibles gratuitamente en línea!)


También utilizamos el ABA para encontrar regiones cerebrales que expresan fuertemente un gen relacionado con neurotransmisores, pero que están estadísticamente poco estudiadas. Esta es otra forma de encontrar lagunas en la literatura. En el ejemplo anterior, puede ver en el panel C que hay una gran cantidad de documentos que analizan la serotonina y el núcleo accumbens (nAcc), pero la región que expresa más fuertemente los genes relacionados con la serotonina, la zona incerta, es lamentablemente poco estudiado (probablemente porque es una región tan difícil de examinar).

También observamos que nuestras presuntas relaciones se correlacionan significativamente con los valores reales de expresión génica. Aunque la asociación era débil, respalda nuestro argumento de que las relaciones textuales reflejan el conocimiento del mundo real al menos hasta cierto punto.


Direcciones futuras

Este proyecto se suspendió durante dos años mientras mi esposa y yo nos adaptamos a la paternidad y me concentré en mi trabajo con Uber (compañía) y terminé mi investigación postdoctoral. Pero ahora que pronto comenzaré mi propio laboratorio en la Universidad de California, San Diego, mi esposa y yo esperamos otorgar una subvención para intentar llevar estas cosas al siguiente nivel.

Terminaré con el párrafo final del documento en sí:

Podemos aprovechar el poder de millones de publicaciones para impulsar las relaciones informativas y descubrir el “metaconocimiento” científico … Al extraer estas relaciones, mostramos que es posible agregar una capa de automatización inteligente al método científico como se ha demostrado para el modelado de datos etapa (Schmidt y Lipson, 2009). Al implementar un algoritmo de búsqueda de conexiones, creemos que podemos acelerar el proceso de descubrir nuevas relaciones. Entonces, si bien el futuro de la investigación científica no depende de estas herramientas, creemos que serán de gran ayuda. Este es un pequeño paso hacia un futuro de investigación científica algorítmica semiautomática.

Ver también:

  • ¿Qué descubrimientos o ideas han surgido de brainSCANr?
  • En qué se parecen brainSCANr y Allen Brain Atlas; ¿en qué se diferencian?
  • ¿Qué tecnologías de análisis y visualización de datos subyacen a brainSCANr?

Gran pregunta Hay muchos detalles que los científicos de datos no pueden compartir en un foro público, pero puedo compartir algunos de mis pensamientos sobre un proyecto reciente.

  1. Todos los proyectos de ciencia de datos comienzan con una pregunta comercial o de investigación. La declaración del problema de este proyecto es predecir la probabilidad de cancelaciones y devoluciones de productos vendidos a través de la plataforma de comercio electrónico.
  2. Con el problema comercial en mente, comenzamos a examinar los datos disponibles, la solución actual que tenemos, la precisión a la que apuntamos y el cronograma del proyecto.
  3. Inicialmente, vi esto como una pregunta bastante estándar y directa. Tomé datos históricos, entrené varios modelos (árboles potenciados, bosque aleatorio, modelos lineales) y elegí el que tenía la mayor precisión de validación cruzada (árboles potenciados). Para mejorar aún más la precisión, creé nuevas características que aportaron las tasas de retorno históricas del producto y el comprador.
  4. El modelo fue 4 veces más rápido y 2 veces más preciso que la solución actual que teníamos. Así que presenté el modelo y viví feliz para siempre … no realmente. Si tan solo la vida fuera tan fácil.
  5. Lo que no te enseñaron en la escuela y Kaggle es que el despliegue del modelo es difícil.
  • A través del proceso de construcción del modelo, tuve que cambiar de base de datos varias veces debido a la migración interna. Los datos, si bien son similares, no son idénticos en las bases de datos debido a los esquemas, la frecuencia de actualización y una gran cantidad de problemas. Lo arreglamos creando una tabla virtual o provisional para contener las columnas que necesita el modelo. También verificamos minuciosamente las fuentes de datos para garantizar la coherencia.
  • Luego, la precisión del modelo fluctúa entre los diferentes países en los que operamos. Algunos países tienen un tiempo de entrega más largo que da como resultado una mayor cancelación. Algunos tienen una gran cantidad de pedidos contra reembolso que son propensos a la cancelación. En esencia, cada país no solo estaba separado geográficamente, sino que también eran diferentes con respecto a factores externos como el comportamiento de compra, la tasa de penetración de la tarjeta de crédito, las promociones locales, etc. Por lo tanto, tuvimos que extender el modelo para incluir un factor de descomposición para artículos de envío largos , incorpore reglas comerciales para ajustar la predicción específicamente para el pago contra reembolso y entrene modelos separados para cada país.
  • Finalmente, la parte más difícil es manejar tiempos de inactividad inesperados. Las bases de datos pueden caer. La conexión puede fallar. El servidor puede quedarse sin recursos. Las consultas pueden expirar. Como dijo un sabio, la mejor manera de lidiar con los errores es registrar todo y eso es lo que hicimos. También agregamos la función de reinicio automático en el script y la copia de seguridad de las predicciones en archivos planos para que nunca perdamos ningún dato.

Con todo, el trabajo de un científico de datos no es solo crear modelos sofisticados.

Si le gusta escuchar más historias de guerra, muchas compañías tienen blogs técnicos detallados de científicos de datos, aquí están algunos de los mejores que conozco:

  • Blog de investigación de Facebook
  • Archivos de datos de Uber – Blog de ingeniería de Uber
  • Data @ Quora
  • Archivos de datos – Airbnb Engineering
  • El blog no oficial de ciencia de datos de Google
  • investigación | Blogs de Twitter
  • Yahoo Research
  • Ingeniería de Yahoo

Al principio, los siguientes son aspectos clave

  1. Definir un problema de negocios.
  2. Convierta el problema empresarial en un problema técnico
  3. Define la solución
  4. Ejecute la solución

Si bien 1 y 2 son desafíos importantes, 3 y 4 son igualmente desafiantes, pero debido al avance de la tecnología y la disponibilidad de recursos en línea no es tan desafiante como 1 y 2.

He estado trabajando en 2, 3 y 4. Los siguientes son algunos de los proyectos en los que he trabajado

  1. Creación de un motor de predicción de acciones basado en artículos de noticias
  2. Generación Automatizada de Perfiles de Autor (Investigador) usando artículos Pubmed para la Compañía Tech basada en Farmacia.
  3. Motor de búsqueda basado en música y comercio electrónico (motor de recomendación)
  4. Inteligencia competitiva
  5. Noticias, agregador de video
  6. Analizando el documento de Word y generando la Tabla de Contenidos
  7. Identificación del código SIC
  8. Detección duplicada en gran volumen de documentos.

Dado que la mayor parte del trabajo es de código cerrado, no puedo señalar las técnicas o el proceso de pensamiento a cada producto aquí. Sin embargo, el proceso de pensamiento básico generalmente se basa en el objetivo comercial y qué solución se ajusta a la factura. Principalmente se utilizaron los diferentes algoritmos que van desde reglas basadas en NLP, IR, Machine Learning, Bayesian, SVM, Regresión lineal, K-medias, aglomerativo, sistemas distribuidos utilizando técnicas de teoría de grafos.

La tecnología inteligente Java, Lucene, Solr, Nutch se utilizaron a principios de la década de 2010. En estos días se trata de Spark, AWS, Python, Elastic Search.

Algunos de ellos son productos grandes que abarcan más de 3 a 4 años y otros han tomado alrededor de 4 a 6 meses.

Hay muchos aprendizajes,

  • Brecha de conocimiento : existe una gran brecha de conocimiento sobre lo que existe hoy y lo que la gente sabe. Hacerlos conscientes es el mayor desafío
  • Líder comercial / Propietario del producto : necesita un gran líder comercial para definir un problema y que pueda pensar con anticipación para decir que este producto funcionará 2-3 años más adelante
  • Conversión de negocio a técnico : otro desafío que necesita una gran visión técnica para allanar el camino para que los científicos de datos resuelvan. He estado intentando convertir algunos en los últimos años.
  • No determinista : la solución que existe no es determinista en la mayoría de los casos, que son problemas más nuevos, aunque parece que las cosas se pueden resolver en menor tiempo. Ser iterativo es la única solución o un experto en ciencia de datos que tenga una inmensa experiencia con doctorado será útil.

Espero que esto ayude.

Hola:

La ciencia de datos es el arte y la ciencia de extraer ideas accionables a partir de los datos .

Data Science + Business Knowledge = Impacto / Creación de valor para el negocio.

Implica seguir los siguientes pasos:

  1. Comprender el problema comercial que estamos tratando de resolver
  2. Obtenga y prepare los datos para resolver el problema comercial.
  3. Realice minería de datos, análisis estadístico, aprendizaje automático, etc. para construir modelos y paneles
  4. Dibuja ideas y crea mazos / visualizaciones
  5. Compartir y convencer a los interesados

En términos generales, los científicos de datos y los profesionales de análisis intentan responder las siguientes preguntas a través de su análisis:

  1. Análisis descriptivo (¿Qué ha pasado?)
  2. Análisis de diagnóstico (¿Por qué ha sucedido?)
  3. Análisis predictivo (¿Qué puede suceder en el futuro?)
  4. Análisis prescriptivo (¿Qué plan de acción debemos seguir?)

Las herramientas y técnicas que usamos con mayor frecuencia son:

  • SAS
  • R
  • Pyhton
  • Herramientas de visualización como Qlikview, Tableau, etc.
  • Modelado estadístico y otros conceptos clave
  • Chispa – chispear
  • Infraestructura Hadoop
  • Algoritmos de aprendizaje automático
  • Olvidemos Excel 🙂

Data Analytics se está utilizando en todas las áreas de la vida. Es imperativo que todas las empresas hagan un gran trabajo en análisis y ciencia de datos; de lo contrario, la competencia los ignorará. Aquí hay algunas aplicaciones de muestra.

Las industrias son

Minorista, banco, comercio electrónico, atención médica, telecomunicaciones, Web 2.0 en el dibujo a continuación.

Creo que la ciencia de datos está aquí para quedarse para siempre con nosotros. No me sorprenderá incluso si se convierte en el aspecto más importante para determinar el éxito de cualquier negocio, independientemente de en qué industria operen.

He aquí por qué creo que sí.

¡Según IBM, el 90% de los datos que tenemos en el mundo hoy se han generado en los últimos 2 años! Todos los días estamos generando 2,5 bytes quintilianos (2,500,000 terabytes) de datos. Estos datos provienen de todas partes, como redes sociales, sensores, transacciones, imágenes, videos, etc. Se espera que el crecimiento de estos datos crezca exponencialmente en las próximas décadas.

La conclusión es que Data Science está aquí para quedarse y requerirá una gran cantidad de científicos de datos y máquinas para obtener estos datos para obtener información e inteligencia procesables.

¿Qué significa para ti?

  • Si busca empleo con habilidades de Data Science, ML / AI y Big Data, al menos los próximos 10-15 años serán un período de auge para usted, donde gigantes tecnológicos como Google, Facebook, Microsoft, IBM y otras compañías de todo verticales y nuevas empresas en todo el mundo estarán igualmente interesadas en contratar a un talento como usted.
  • Si es un emprendedor con una buena idea relacionada con Data Science, ML / AI, Big Data, tendrá muchas oportunidades para recaudar dinero para impulsar el crecimiento de su negocio. Según una estadística de Kalaari, ¡las empresas de IA han recaudado $ 6B USD desde 2014!

Cualquiera que todavía esté sentado en la cerca y no esté convencido de Data Science, será impulsado por la competencia.

Espero que esto ayude.

Descargo de responsabilidad: Las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada.

Este es uno de los proyectos que nuestros científicos de datos llevaron a cabo en Romexsoft: cómo la ciencia de datos puede aumentar las ganancias del comercio electrónico.

Recientemente, un minorista en línea nos contactó con los siguientes problemas. Tiene una amplia línea de ropa y calzado casual y deportivo para personas de todas las edades, para ambos sexos y para preferencias de estilo.

Lo que estaba descubriendo era esto: podía conseguir un cliente “en la puerta” y, a menudo, obtener una compra. Pero la mayoría de los clientes no “regresaban por más” y / o compraban otros productos que les convenían.

Lo que quería de Romexsoft era un análisis completo de lo que podía hacer para cambiar el comportamiento de sus clientes y hacer que compraran más.

Nuestro proceso implicó varios pasos y, al final, pudimos hacer recomendaciones que, cuando se implementaron, aumentaron sus ventas casi de inmediato. Aquí estaba el proceso:

Análisis de la estructura del sitio en sí

Cuando nuestro equipo ingresó al sitio web, pudimos hacer algunas sugerencias después de una investigación detallada. Mediante el análisis básico, pudimos ubicar aquellas páginas que obviamente eran menos populares, aquellas que resultaron en las tasas de rebote más, la mayoría y los productos menos populares, basados ​​en la correlación entre las vistas y las compras reales.

Por ejemplo, había varios productos de calzado que el minorista estaba considerando descartar. Si bien hubo muchos puntos de vista, la proporción de compras fue bastante baja. Lo que descubrimos a través de nuestro análisis fue que el problema no era el producto, sino el precio.

Nuestros desarrolladores pudieron remodelar la estructura del sitio, revisar agrupaciones de productos y recomendar los puntos de precio correctos para productos de “baja venta”.

Pero el verdadero trabajo para resolver el problema apenas comenzaba.

Generando los datos de prueba

Para prepararnos para un análisis profundo, primero teníamos que organizar los productos según el tipo (p. Ej., Camisa, zapatos), sexo, grupos de edad, su propósito (casual o deportivo), marcas / precios, y un historial completo de los números de vistas de cada uno. página del producto y la información que se proporcionó en esa página. Generamos más de 150,000 registros de datos para probar.

Análisis estadístico y aprendizaje automático

Utilizando la ciencia de datos con Java y Apache Spark, aplicamos un sistema de filtrado de correlación de artículo a artículo recomendado por Amazon. Lo que esto significa es lo siguiente:

  • Cada producto fue descrito por su tipo, sexo, edad, marca y propósito.
  • Filtramos por tres variantes: el código del artículo, el código del producto y la “tasa” que definimos como clics para ese producto.

Establecimiento de predicciones para tarifas de clientes basadas en tarifas reales

Luego, queríamos generar datos que nos indicaran la tasa prevista (clics) de los clientes que vieron más de un producto, si se les mostraran productos similares.

Predicciones de presentaciones / clasificaciones de productos basadas en grupos de clientes

Después de que el minorista sabe que presentará productos similares a sus clientes, el próximo desafío de la ciencia de datos es determinar los productos a presentar. Nuevamente, el aprendizaje automático toma el control en función de los grupos de clientes y las tasas de productos anteriores de esos grupos, y luego genera una lista de los productos similares a los que los clientes deben estar expuestos.

El concepto es simple: los clientes que han completado compras específicas en el pasado y esas compras han sido similares a las de un grupo de clientes, entonces se pueden predecir futuras compras. Utilizando datos reales de estas compras y aplicando el aprendizaje automático para la ciencia de datos, el propietario del negocio puede personalizar y personalizar (y dirigir) la experiencia y el viaje de cada cliente en su sitio.

Cómo la ciencia de datos puede aumentar las ganancias del comercio electrónico: aquí puede encontrar un caso de estudio detallado con tablas para una mejor comprensión del modelo.

Uso del algoritmo de aprendizaje automático (el análisis de conglomerados para ser exactos) para identificar las brechas de datos en los datos de syslog:

¿Qué hace un científico de datos? Una entrevista con el Dr. Liv Aleen Remez, científico de datos