Los salarios de la gran cantidad de datos son realmente altos, soy un beneficiario de lo mismo. ¿Cuál es el estado de la industria? ¿Se exagera el big data? ¿Se paga en exceso?

Al defender Big Data del argumento “es más de lo mismo”, algunos han tratado de tomar una visión general de Big Data diciendo que va a revolucionar el método científico. En resumen: no pierdas el tiempo en teorías e hipótesis, solo mira lo que te dicen los datos. Este es el tipo de publicidad sobre Wired Magazine demasiado simplificada que fue derribada incluso antes de la locura de Big Data, al señalar la cantidad de patrones falsos que estos métodos “descubren”.

Sin embargo, lo que no se informa es que alguien intentó algo muy similar a Big Data hace décadas. Y fallaron .
“Ellos” eran la organización británica de observación masiva, que desde 1937 trató de grabar lo más posible sobre las actividades ordinarias de la gente común. Sus conversaciones, horarios de trabajo y juego, anécdotas, charlas, opiniones. Justo el tipo de datos que Facebook, Twitter y otros están engullendo en masa hoy.

Como señaló P. G Medawar en un discurso en 1964, la organización estaba motivada por la gran pregunta de deducción vs inducción en la ciencia. La deducción es cuando tienes una teoría, algunos axiomas y deduces algo de ellos. Como usar la teoría de la relatividad de Einsteins para deducir cómo se comporta un agujero negro, por ejemplo. Sus deducciones son ciertas dado que la teoría con la que comenzó era correcta, como una prueba matemática. Si bien esto puede conducir a descubrimientos, nunca puede revelar nada que no estuviera realmente presente en la teoría desde el principio, por lo que está limitado en lo que nos puede decir sobre el mundo real.

El razonamiento inductivo, por otro lado, es cuando se argumenta a partir de observaciones del mundo real, haciendo afirmaciones que probablemente sean ciertas. Es menos seguro, pero podría revelar cosas no mencionadas en su teoría. Este es también un gran reclamo de Big Data, que puede avanzar nuestro conocimiento al descubrir patrones en los datos del mundo real y hacer proposiciones y predicciones al respecto. Lejos de ser una idea revolucionaria sobre la ciencia, en realidad está repitiendo la convicción de John Stuart Mill (1806-1873), un influyente filósofo británico que sostenía que el razonamiento inductivo era el verdadero camino de la ciencia.

La organización de observación masiva tomó su palabra y trató de aplicar la inducción a la investigación social. A través de 500 informantes voluntarios no capacitados, registraron la vida cotidiana en Gran Bretaña desde 1937 hasta los años 60. Al igual que las estadísticas de Twitter sobre el sentimiento y los “temas de tendencia” en torno a los principales eventos, Mass-Observation capturó el sentimiento de los británicos comunes el 12 de mayo de 1937, el día de la coronación del rey Jorge VI. Durante la Segunda Guerra Mundial, sus estadísticas sobre hábitos de ahorro influyeron en la política fiscal. La observación masiva también ayudó a dar forma a los carteles de propaganda del Ministerio de Información, de forma similar a cómo una empresa hoy podría modificar su campaña publicitaria en función de las reacciones mineras en las redes sociales. Los problemas de privacidad fueron tan grandes o más grandes con la observación masiva como lo son hoy en día, con los informantes contando los argumentos y la vida amorosa de sus vecinos.

Si bien de alto perfil y exitoso, las repetidas críticas a la validez de sus métodos parecen haberlos desvanecido, hasta que la Observación masiva finalmente se cerró, siendo absorbida por una compañía de publicidad menos ambiciosa. Al igual que los prolíficos carteles de Twitter, sus informantes no eran una muestra representativa de la población. Tampoco se materializaron las promesas del ingenuo razonamiento inductivo. En palabras de Medawar:

Las creencias que subyacen a la observación masiva aparentemente fueron las siguientes: que si
uno solo podía registrar y establecer los hechos crudos reales sobre lo que las personas hacen y lo que dicen en pubs, en trenes, cuando se hacen el amor, cuando juegan, etc., de alguna manera, de esta riqueza de información, inevitablemente surgiría una gran generalización.
Bueno, de hecho, nada importante surgió de este enfoque, a menos que alguien me haya estado ocultando. Creo que los pioneros de la observación masiva fueron ornitólogos. Ciertamente observaban a los hombres, aplicaban a la sociología los mismos métodos que habían hecho tanto para desacreditar a la ornitología. [1]

Casi cincuenta años después del discurso de Medawar, es como escucharlo reprender a los evangelistas de Big Data. En el panorama general, del libro de 1843 de Mill A System of Logic En el último punto de venta en un piso de exhibición abarrotado, hay un péndulo que oscila entre el razonamiento inductivo y deductivo y simplemente nos dirigimos hacia el extremo inductivo en este momento.

[1] \ Medawar, PB ¿El artículo científico es un fraude? Experimento: una serie de casos científicos

Al igual que cualquier producto o tecnología que desafía la “forma antigua” de hacer las cosas, Big Data y las tecnologías que lo acompañan enfrentarán acusaciones de ser una moda, exagerar, etc. (Solo mire las respuestas recientes al lanzamiento de Apple Ver) Pero en realidad, la era de Big Data está sobre nosotros (gracias a las tecnologías que la acompañan, como Hadoop y Spark) y las empresas que aprenden a participar en esta era obtendrán los beneficios.

Primero, necesito responder a la afirmación hecha en otra respuesta a esta misma pregunta: “El mayor problema con las herramientas de Big Data es que la mayoría de las compañías no tienen un problema de Big Data. Piense en compañías como Proctor & Gamble o Caterpillar o incluso Oracle. ¿Qué fuentes reales de big data tienen? ¿Qué problemas de datos no pueden resolver con las soluciones existentes? Incluso una empresa como Apple no ha hecho una gran inversión en herramientas de Big Data “. No estoy de acuerdo: Caterpillar ha realizado importantes inversiones en Hadoop para registrar y analizar los datos de los sensores del equipo para impulsar el análisis de mantenimiento; P&G está utilizando Hadoop para impulsar de manera más efectiva la cadena de suministro y las decisiones de fijación de precios; Apple ha realizado grandes inversiones en Hadoop en múltiples líneas comerciales (mapas, iAds, dispositivos) y está aumentando significativamente esta inversión. (Nota: estoy 100% de acuerdo con Chris en que estas tecnologías aún están madurando y son difíciles de implementar, y que el futuro producirá más servicios empaquetados, etc.)

Yo respondería a esta pregunta de manera diferente: Big Data no está sobrevalorado o es una moda pasajera, pero aún es temprano en su ciclo de vida. Según lo que he visto por mi experiencia (trabajando en el corazón de las operaciones de datos de Yahoo! Cuando nació Hadoop, trabajando con clientes de Enterprise durante mi gestión de productos en Pivotal, y ahora, ejecutando la gestión de productos en http: / /www.atscale.com ), el verdadero desafío es cerrar la brecha entre las capacidades que Hadoop puede proporcionar y los usuarios en “el negocio” para que estas capacidades puedan usarse para impulsar mejores decisiones y crear valor comercial.

Creo que hay varias tendencias que llevarán la tendencia del Big Data a través de la depresión y la adopción de la empresa:
1 – El software Big Data continuará madurando. Las herramientas de administración, las interfaces y los estándares continuarán evolucionando, lo que facilitará la implementación, la administración y el uso del software Big Data.
2 – Big Data será más accesible para el negocio. Así como el auge de Business Intelligence de principios de los 90 hizo que las inversiones de RDBMS de los 80 fueran accesibles para las masas, está ocurriendo una tendencia similar en el espacio de Big Data (y eso es lo que estamos habilitando con http://www.atscale.com ) .
3 – El ecosistema SI entrará en la corriente principal. Los Big SI (Accenture, etc.) continuarán madurando sus prácticas de Big Data, y estas prácticas estimularán un crecimiento significativo y la adopción de la tecnología Big Data.

En cualquier caso, Big Data es algo real. No es bombo ni una moda pasajera. ¡Personalmente, estoy haciendo una gran apuesta en esto!

Big Data se exagera por varias razones; Una de las razones es porque muchas empresas intentan vender sus viejas tecnologías renombradas como tecnologías de Big Data. Otra razón es la primera parte de la definición tradicional de big data, que es 3V, que se centra más en las características de los datos.
Leí muchos libros, artículos, publicaciones de blog, … muchos de ellos están dedicados a esta “revolución de datos”; cómo las diferentes fuentes de datos (actividad humana, sensores, servidores, máquinas, …) generan una gran cantidad de datos y cómo nuestra vida está cambiando (o cambiará) en función del valor extraído de los datos.
No creo que sea una revolución, sino una evolución.
Intenta responder a esta pregunta: ¿Qué hay de nuevo en el big data? datos enormes (volumen), varias fuentes de datos (variedad), alta velocidad a la que los datos están cambiando o generando (velocidad), incertidumbre en los datos (veracidad) o información útil e información extraída de los datos (valor) o …
Muchas industrias y campos científicos han estado tratando con datos con las características anteriores durante muchos años. Por lo tanto, no hay nada nuevo en la definición anterior. Por lo tanto, si solo nos enfocamos en las características de los datos (o los datos en sí), nada es nuevo en Big Data. Desafortunadamente, este es el caso con el big data exagerado hoy.

Así que “big data” no se trata solo de datos. Más bien se trata más de la tecnología y el costo de usarla.
La realidad es que hay otras cosas que son relativamente nuevas en la era de los grandes datos. Me gustaría definirlos con Rs:

1-Fuentes de datos relativamente nuevas como redes sociales, sensores, … (Sé que no son nuevos): estas fuentes de datos han existido durante varios años, por lo que no son nuevas. La capacidad de almacenar estos datos a gran escala en entornos relativamente económicos es relativamente nueva.

2- Modelos computacionales relativamente nuevos (llevar la computación a los datos en lugar de llevar los datos a la computación): esta idea en sí misma no es nueva, pero su implementación en la configuración económica (usando un grupo de servidores básicos) es relativamente nueva. De hecho, la idea de Hadoop o Spark o cualquier otra implementación de Map / Reduce no es nueva. Lo nuevo es la capacidad de algunos productos como Hadoop y Spark para almacenar y analizar datos sin usar hardware costoso y complejo.

3- Conciencia relativamente nueva: el uso de métodos de ciencia de datos (minería de datos, aprendizaje automático, aprendizaje estadístico, …) no es nuevo. Sin embargo, hoy más que nunca en la historia de las tecnologías digitales estamos utilizando estos métodos directamente o (la mayoría de las veces) indirectamente. Hoy cuando buscamos usando cualquier motor de búsqueda, cuando usamos nuestras tarjetas de fidelidad en tiendas, cuando compramos algo usando sitios web de compras en línea, cuando planificamos nuestras vacaciones en línea, … sabemos que estas actividades generan datos y nos brindan algunas sugerencias para nuestras actividades futuras. Muchos de nosotros no necesariamente entendemos los métodos y enfoques, pero lo usamos. Esto es relativamente nuevo.

Línea de fondo:
En mi humilde opinión, los grandes datos no son solo datos. Desde el punto de vista técnico, es una evolución de las tecnologías para almacenar y analizar datos. Un aspecto importante de estas tecnologías es: la escalabilidad horizontal utilizando hardware básico.
Se exagera porque es una forma de ganar dinero con productos existentes (capaces) usando un nuevo nombre. ¡Y se exagera porque muchas personas piensan que es un fenómeno revolucionario!

Es por eso que casi cualquier experto en aspectos técnicos de big data (con el que hablé) odiaba el término “big data” y a muchos de ellos les gusta el término al mismo tiempo (porque este término es la fuente de nuevos clientes, presupuestos, fondos , …)!

Según un abeto de reclutamiento global, Randstad, los salarios promedio de los profesionales analíticos de big data son un 50% más que los de otros profesionales de TI.

El salario promedio de los profesionales analíticos de big data en el rol no administrativo es de 8.5 lakhs INR, mientras que los gerentes pueden ganar un promedio de la friolera de 16 lakhs. Estos salarios promedio son meramente habilidades de big data como hadoop y spark. Para los profesionales calificados con un profundo talento analítico, los salarios son científicos de datos aún más altos bajo roles no gerenciales que ganan un salario promedio de 12 Lakhs, mientras que los gerentes ganan un salario promedio de 18 http://lakhs.IT profesionales con habilidades analíticas se acercan a 250% de aumento en sus salarios. Muchas empresas en la India están dispuestas a igualar las enormes alzas en la industria que buscan los candidatos, al cambiar de carrera para contratar talentos expertos en el espacio de big data.

Ahora, una aplicación de noticias basada en big data para India. 7 de junio de 2016. http://Gizmodo.in

23 mil empleos para análisis de big data en Bangalore. 23 de febrero de 2016. Times of India.

Las empresas de análisis de datos se preparan para atraer al mejor talento a medida que aumenta la demanda de talento especializado. 22 de junio de 2016. Economic Times.

TCS se asocia con cuatro universidades para ofrecer cursos en Big Data. 22 de junio de 2016. Tiempos económicos

Academia para la ciencia de datos que se lanzará. 16 de junio de 2016. TimesofIndia

Infosys invierte USD 4 millones en Waterline Data Science. 28 de enero de 2016. TheHindu.

Todos estos titulares en las noticias demuestran claramente que la esfera del análisis de big data en los próximos años es la gran clave para desarrollar la carrera de los profesionales de TI en análisis de datos. El creciente número de nuevas empresas, el auge en la industria del comercio electrónico, el mercado impulsado por el consumidor y la creciente economía están listos para crear grandes oportunidades de trabajo de big data en el espacio analítico con salarios dominantes en la India. India tiene la segunda mayor demanda de profesionales de big data, data science y analytics, siendo Estados Unidos el primero. Esta publicación de blog ofrece una visión general sobre el crecimiento del mercado de trabajo de análisis de big data en India, lo que ayudará a los lectores a comprender las tendencias actuales en los trabajos de big data y hadoop y los grandes salarios que las compañías están dispuestas a pagar para contratar desarrolladores expertos de Hadoop.

Para 2017-2018, solo India será un importante accionista del mercado global de análisis de big data por un valor de $ 2.3 mil millones. Las principales industrias que impulsan la demanda de talento analítico en la India son: comercio electrónico y venta minorista, seguros, finanzas, manufactura e informática, y el comercio electrónico es el principal proveedor de salarios de Hadoop en India. Muchas organizaciones en estas industrias han comenzado a aumentar la conciencia sobre las nuevas herramientas de big data y están tomando medidas para desarrollar el grupo de talentos de big data para impulsar la industrialización del segmento de análisis en la India.

Aditya Narain Mishra, Presidenta de la Unidad India de la firma de reclutamiento global, Randstad dijo: “Hasta el 20% de los trabajos de análisis de datos no se realizan o se están llenando de dificultades”.

Sí, los datos grandes están sobrevalorados en algunos aspectos. Las plataformas son reales y las posibilidades están ahí. Pero la brecha real está en: a) el alcance en las aplicaciones industriales es específico y mucho más limitado de lo que afirman las empresas, b) las empresas continúan subrayando la experiencia en el dominio y parecen preferir contratar a los 10 mejores MBA de la escuela sobre los profesionales de la industria experimentados (un gran error en aplicaciones enfocadas de big data) c) los costos reales de implementación son a menudo más de lo que el mercado soportará.

(a) – Sobre el alcance: el enfoque en las empresas será mucho más centrado y menos expansivo. Una sola aplicación resolverá un solo problema. Los días de “nuestra plataforma resuelve todos sus problemas logísticos” se reducirán.

(b) – Experiencia de dominio: eventualmente, esto cambiará por necesidades. Las empresas y los inversores han realizado grandes inversiones en el espacio. Cuando la realidad golpee, el personal menos experimentado obtendrá el hacha y se hará espacio para expertos de dominio muy experimentados.

(c) – Costos de implementación: estos continuarán bajando a medida que las plataformas y herramientas de nivel de sistemas se vuelvan más avanzadas y requieran menos soporte / personalización para incorporarse a las soluciones de Big Data. Eventualmente, los costos / precios estarán en un nivel donde los entregables finales prometidos pueden ser más modestos (y cumplir con (a)).

Ciertamente siento que está sobrevalorado. Hay muchas razones para eso

  1. La mayoría de los tomadores de decisiones en las grandes empresas siguen siendo personas que realmente no internalizan los datos en la toma de decisiones. Quiero decir que miran los informes, etc. Pero la mayoría de ellos realmente no pueden pensar más allá de la suma o los promedios. Si van a predicar incluso conceptos estadísticos elementales como la regresión, les llevará mucho tiempo entenderlos. Y olvídate de que lo usan día tras día. Esta observación abarca muchas industrias en las que he trabajado
  2. La mayoría de las decisiones comerciales no necesitan demasiados datos. Para ser un buen tomador de decisiones, necesita mirar algunos datos, hacer inferencias, aplicar algunas ideas sobre cómo va a evolucionar el mercado y luego atender una llamada. La respuesta a todas las preguntas comerciales u operativas no está dentro de los datos. Si ese fuera el caso, nunca hubiéramos visto productos exitosos como iPhone o Spotify o automóviles como Tesla o incluso bicicletas como Bajaj Pulsar
  3. Hay áreas específicas donde los grandes datos y la ciencia de datos serán muy relevantes. Digamos, analizando el tráfico de búsqueda, los experimentos en la industria farmacéutica (datos estructurados, pero necesitan muchas matemáticas), la banca (nuevamente datos estructurados, pero computacionalmente intensivos). El problema con los vendedores de big data es que continúan evangelizándolo a cualquier situación o industria como la píldora mágica para todos los problemas. En la mayoría de estas situaciones, no hay retorno de la inversión en la creación de una gran infraestructura para analizar grandes volúmenes de datos
  4. Los resultados de muchos casos de uso que muestran los especialistas en marketing de big data son básicos y ya son conocidos por las personas que trabajan en los datos. Lo más frecuente que arrojan es cómo segmentar a los clientes de diferentes maneras mediante la extracción de gran cantidad de datos. Estos ya son conocidos e intentados de muchas maneras en la mayoría de las industrias.
  5. Los especialistas en marketing de Big Data necesitan identificar problemas reales que justifiquen estas inversiones en infraestructura de Big Data y comenzar a abordar esos problemas. Y los ejecutivos deben recordar que las respuestas a todas sus preguntas no están presentes solo en los datos. Podría estar dentro de una cantidad razonable de datos, pensamiento innovador y sentido común.

Hoy se gasta demasiado dinero persiguiendo el valor evasivo detrás de los datos.

Si los ejecutivos gastan una cuarta parte de ese dinero en educar a su fuerza de trabajo para mejorar sus decisiones básicas basadas en datos (en lugar de intuirlas), las industrias y las empresas realmente podrían transformarse.

Voy a comenzar esta respuesta con una advertencia, donde no soy un científico de datos, así que tome esta respuesta con un grano de sal.

No creo que los grandes datos estén sobrevalorados, pero sí creo que el público en general los malinterpreta extremadamente. Este es un efecto que se ve en las personas que no tienen una buena conciencia de la profundidad de su conocimiento, es decir, piensan que tienen una perspectiva para interpretar el significado de algo cuando no lo tienen. Un gran ejemplo de esto es este cómic xkcd:

Big Data es INSANELAMENTE poderoso, y cuando trato de imaginar todas las cosas que podremos hacer con él, especialmente en lo que respecta a cómo cambiará la vida diaria de una gran parte de la población de la tierra, me aturde. mente.

Pero, todavía hay cosas en las que los grandes datos serán buenos, y las cosas en las que los grandes datos no serán tan buenos. Además, si bien Big Data parece este recuadro negro en el que podremos conectar cosas y encontrará automáticamente estos conocimientos profundos. Este tampoco es, en general, el caso.

El big data y el aprendizaje automático son técnicas increíblemente poderosas que pueden aprovechar el procesamiento de la computadora para extraer información difícil de encontrar de enormes cantidades de datos que simplemente no hay suficiente trabajo humano para extraer manualmente, SIN EMBARGO estructurar el análisis de big data es una forma de arte dibujada por un científico , y necesita personas excepcionalmente brillantes para crear una solución de big data que sea efectiva y útil.

Espero que esto ayude un poco, no saqué ejemplos específicos de mi punto porque, sinceramente, no quería que uno de esos brillantes artistas de big data que mencioné viniera y me hiciera parecer tonto señalando agujeros en mi analogía 🙂 ¡Espero que esto ayude!

-Greg

TLDR: los datos grandes son probablemente más poderosos de lo que la gente dice que son, pero su espacio de aplicación es probablemente más estrecho, y se necesitan magos (científicos) expertos para que funcione bien.

Bueno, esta pregunta es un poco general para posiblemente tener una respuesta singular. Sugerir que algo está sobrevalorado sugeriría que el valor atribuido a algo es mayor que su valor real. En mi experiencia, en realidad no me he encontrado con un vendedor o un cliente que atribuya un mayor valor a su solución individual de lo que merecía. Sin embargo, lo que sucedió es que, en lugar de desarrollar una ontología más segmentada, la industria está agrupando diferentes tipos de soluciones y aplicaciones, todo en un solo cubo llamado “big data”, y eso genera cierta confusión entre los consumidores finales. Por ejemplo, la frase “big data” se aplica al hardware, a las plataformas de datos, a las plataformas de middleware, a las plataformas de análisis. Se aplica a soluciones cuyo beneficio clave es la velocidad extrema, así como a soluciones cuyo beneficio clave es la escala extrema. Se aplica a soluciones cuyo uso principal es transaccional versus transformacional versus analítico. Y se aplica para resolver problemas que pueden implicar impulsar el crecimiento de las ganancias a través de mayores ingresos y menor rotación, reducir costos a través de telemetría e inspección, reducir riesgos mediante la detección temprana de patrones y generar nuevas oportunidades a través de nuevos descubrimientos. Cada una de estas dimensiones es real y, por lo general, bastante justa. El desafío con “big data” no es que se exagere, sino que se usa en exceso y se sobrecarga. Y en la medida en que la etiqueta está adherida a tantas cosas, inherentemente no tiene sentido describir algo singular.

Los influyentes de la industria, los académicos y otras partes interesadas prominentes ciertamente están de acuerdo en que los grandes datos se han convertido en un gran cambio en la mayoría, si no en todos, los tipos de industrias modernas en los últimos años. A medida que los grandes datos continúan impregnando nuestra vida cotidiana, ha habido un cambio significativo de enfoque de la publicidad que lo rodea a encontrar un valor real en su uso.

1. Comprender y apuntar a los clientes

Esta es una de las áreas más grandes y más publicitadas del uso de big data en la actualidad. Aquí, big data se utiliza para comprender mejor a los clientes y sus comportamientos y preferencias. Las empresas desean expandir sus conjuntos de datos tradicionales con datos de redes sociales, registros del navegador, así como análisis de texto y datos de sensores para obtener una imagen más completa de sus clientes. El gran objetivo, en muchos casos, es crear modelos predictivos.

2. Proveedores de servicios de salud

El sector de la atención médica tiene acceso a grandes cantidades de datos, pero ha estado plagado de fallas en la utilización de los datos para frenar el costo del aumento de la atención médica y por sistemas ineficientes que sofocan los beneficios de atención médica más rápidos y mejores en todos los ámbitos.

3. educación

Desde un punto de vista técnico, un desafío importante en la industria de la educación es incorporar grandes datos de diferentes fuentes y proveedores y utilizarlos en plataformas que no fueron diseñadas para los diferentes datos. Desde un punto de vista práctico, el personal y las instituciones tienen que aprender las nuevas herramientas de gestión y análisis de datos.

4. Comercio al por menor y venta total

Desde los minoristas y mayoristas tradicionales de ladrillo y mortero hasta los comerciantes actuales de comercio electrónico, la industria ha reunido una gran cantidad de datos a lo largo del tiempo. Estos datos, derivados de tarjetas de fidelización de clientes, escáneres POS, RFID, etc., no se utilizan lo suficiente como para mejorar la experiencia del cliente en general. Cualquier cambio y mejora realizado ha sido bastante lento.

5. Mejorando la ciencia y la investigación

La ciencia y la investigación se están transformando actualmente por las nuevas posibilidades que brinda el big data. Tomemos, por ejemplo, el CERN, el laboratorio de física nuclear con su Gran Colisionador de Hadrones, el acelerador de partículas más grande y poderoso del mundo. Los experimentos para desbloquear los secretos de nuestro universo, cómo comenzó y funciona, generan enormes cantidades de datos.

Sí, está exagerado. Pero su bombo no importa. Lo que importa es que está resolviendo un problema real. Problema de procesamiento de datos a escala. Con Internet convirtiéndose en un producto básico en todo el mundo, cada vez más personas se conectan, más aplicaciones están surgiendo para facilitar la vida de las personas al hacer uso de esta conectividad (como uber, airbnb, zite, quora, etc., etc.) . La gran escala es el núcleo de estas aplicaciones de consumo basadas en Internet. Esto está comenzando, el procesamiento de datos a escala será cada vez más necesario aquí en adelante.

Big data es uno de los peldaños en los avances tecnológicos que ocurren alrededor y ha sucedido hasta ahora. Las tecnologías futuras se construirán con Big Data como base. La computación en la nube era un término exagerado hace unos años, esa exageración ha desaparecido ahora, pero la computación en la nube está en todas partes. Se ha quedado y ha hecho la vida fácil para muchos. Lo mismo es con Big Data.

Uno de los propósitos (diría más importante) de la evolución de la informática ha sido facilitar la vida de las personas mediante la automatización de las cosas. El futuro de esta automatización será el aprendizaje automático y la inteligencia artificial (que ya comenzó a cierto nivel, ya que las recomendaciones que ve en Amazon o IMDB se aprenden a través del aprendizaje automático y eso lo ayuda a tomar mejores decisiones). Para que el aprendizaje automático sea preciso necesita muchos datos de entrenamiento. Los grandes datos harán posible en el futuro tener un aprendizaje preciso.

Así que Big Data está aquí para establecerse y quedarse.

Piense también en que los grandes datos dependen de que el volumen de datos impulsado por la variedad y la velocidad sea de buena calidad. Sin estandarización, metadatos compartidos, desduplicación, ¿cómo se llenarían las tablas de hechos y dimensiones analíticas para generar informes confiables y análisis predictivos? Esto requiere una limpieza y un gobierno continuo para mantenerlo limpio, idealmente a nivel de origen. Además, si bien los grandes datos son una buena publicidad en este momento, han existido en muchas industrias que dependen de grandes volúmenes de muchas fuentes heredadas durante años, por ejemplo, telecomunicaciones, servicios públicos, petróleo y gas y banca de inversión. Por último, a menudo es posible que necesite muy pocos datos para tomar decisiones adecuadas, por lo que antes de lanzar los conceptos de big data, el caso de uso de la empresa debe entenderse lo suficiente.

Como me pidieron que respondiera esto, daré mi perspectiva.

Cuando estaba haciendo el trabajo de almacenamiento de datos en Facebook, el gerente a cargo y hablé sobre el movimiento de big data y lo que realmente significa. En su opinión, los grandes datos son “simplemente más de los mismos datos”. No hay nada particularmente único sobre el tipo de datos que Facebook o cualquier otra compañía que aprovecha las nuevas tecnologías recopila y analiza. Hay mucho más (el clúster de Hadoop en el que trabajé tenía más de 100 petabytes), pero en su mayoría eran datos de registro web. Agentes de usuario, direcciones IP, etc. Lo que era único es que teníamos una plataforma que podía ejecutar nuestro código en miles de nodos.

Mi experiencia personal con Big Data refleja la opinión de Gartner. Muchas compañías lo han investigado, algunas han creado pequeñas soluciones, pero algunas han adoptado verdaderamente. Fuera de las principales empresas web (Facebook, Google, LinkedIn, Yahoo, Twitter, Amazon y Ebay), muy pocas han realizado inversiones significativas en este espacio. De hecho, también he escrito un poco sobre esto en mi respuesta ¿Cuáles son los 10 principales problemas en Big Data para 2013?

El mayor problema con las herramientas de Big Data es que la mayoría de las empresas no tienen un problema de Big Data. Piense en compañías como Proctor & Gamble o Caterpillar o incluso Oracle. ¿Qué fuentes reales de big data tienen? ¿Qué problemas de datos no pueden resolver con las soluciones existentes? Incluso una compañía como Apple no ha hecho una gran inversión en herramientas de Big Data. Utilizan principalmente Teradata para almacenar y procesar grandes cantidades de datos porque es bastante fácil de usar y funciona. Sinceramente, no veo que estas compañías tengan cantidades masivas de datos no estructurados, de gran volumen y de alta velocidad. Pueden tener algunos, pero ciertamente no a la escala de incluso una décima parte de Yahoo o Google. Y en realidad, crear una solución de Big Data es increíblemente costoso.

Invertir en cientos de servidores y pagar el mejor precio para ingenieros de software altamente calificados (de los cuales muy pocos son expertos en herramientas de big data) para construir sus aplicaciones personalizadas no es barato. Entonces, ¿cuál es el retorno de la inversión para estas empresas? Algunos llaman a esto la cuarta “V”, valor, además de las tradicionales “3V”. Eche un vistazo a mi respuesta ¿Cómo aprendo sobre la implementación del análisis de big data? para obtener más información sobre lo que creo que se necesita para ponerse al día con estas tecnologías.

Sostengo que las herramientas de big data que vemos hoy (Hadoop y NoSQL por el bien de los argumentos) siguen siendo mejores para resolver los problemas en las industrias para las que fueron creadas originalmente: empresas web y proveedores de servicios. De hecho, ya he visto esto. Recientemente he trabajado con varios clientes que aprovechan las soluciones de la industria de terceros, en quienes ellos mismos confían en las herramientas de Big Data. Ejemplos de esto son compañías como oPower, DataRaker e incluso Splunk. Incluso he estado involucrado recientemente con clientes que evaluaron las características de algunas herramientas de big data para el software de almacenamiento tradicional para crear nuevas funciones de análisis. La lista corta no incluía una sola tecnología de big data y fueron con un proveedor tradicional.

En resumen, no veo que su compañía o empresa promedio haga inversiones significativas en tecnología de big data en el futuro cercano. Es probable que aprovechen soluciones de industria / negocio de terceros que utilizan una gran tecnología para escalar su propia solución.

Cuando una frase ingresa al léxico de la industria de la tecnología a lo grande, y tiene una buena manera de cristalizar una tendencia aparentemente general, generalmente no pasa mucho tiempo antes de que la misma frase se convierta en víctima de su propio uso excesivo y se descarte como “todo bombo”.


El fenómeno es tan común que la firma de investigación de mercado Gartner tiene una frase y un informe anual oficial que lo resume. Se llama Hype Cycle, y la compañía lanzó su última versión. Eventualmente, esas tecnologías y sus frases asociadas vuelven a la respetabilidad, a medida que las expectativas exageradas colapsan y dan paso a una realidad de menor grado que mejora con el tiempo.
Se mencionan numerosos ejemplos, pero como tecnología útil, Big Data está, según el cálculo de Gartner, en el pico del ciclo de bombo o cerca de este, cuando las expectativas se inflan y no están sincronizadas con lo que se puede entregar en la realidad. Más aquí | ¿Es realmente útil Big Data?

No

Solo alguien que no entienda el big data lo llamaría sobrevalorado.

Big Data no es una navaja que podría resolver todos sus problemas. No es necesario cada vez que sigue resolviendo un problema. Se necesitan grandes datos solo para los problemas especializados en su negocio que no se pudieron resolver mediante el uso de datos que podrían caber en la memoria.

A veces tienes que resolver este tipo de problemas y otras no.

A veces las personas emplean técnicas de Big Data incluso cuando no tienen tales problemas y estas personas son las mismas personas que terminarían llamando a Big Data sobrevalorado.

Es como llamar a un cirujano cerebral para que se corte un dedo y luego decir que el cirujano cerebral está sobrevalorado.

El cirujano cerebral no está sobrevalorado.

Es solo que no necesitabas una cirugía cerebral esta vez.

Pero cuando aparentemente necesite una cirugía cerebral, llame solo al cirujano cerebral. Te aseguro que no está sobrevalorado.

Si hay algo que la historia nos ha enseñado es que con la información viene el poder. El poder de cambiar, el poder de crecer y el poder de triunfar.

Quiero decir, si los aliados pensaran que “es más de lo mismo” durante la Segunda Guerra Mundial, ¿qué tan diferente sería el mundo?

Mi respuesta puede ser una simplificación excesiva del mundo tan complejo de innovación tecnológica, pero eso no significa que las reglas no se apliquen.

Supongo que lo que estoy tratando de decir es que hay una razón por la cual Big Data está funcionando realmente bien en este momento. El hecho de que la mayoría de las empresas no lo recojan no significa que no lo harán en el futuro. Piense en la dirección en la que se dirigen AWS y Microsoft en este momento. Donde quiera que vaya, las personas y las empresas están haciendo del big data una parte de sus procesos y vidas. No estoy sobrevalorado. De hecho, creo que Big Data es una bestia que todavía se esfuerza por ser desatada.

En cuanto a su salario, amigo mío, prevalecerán las leyes de la demanda y la oferta.

Después de los EE. UU., India tiene la mayor demanda de profesionales de análisis / big data / data science.

En la actualidad, Big Data Analytics se ha convertido en una profesión profesional al rojo vivo que ha alcanzado una gran pasión entre los jóvenes. Según las estimaciones, la cuota de mercado de Big Data Analytics ha crecido de 6.400 millones en 2014 a 11.300 millones para finales de 2016. Las estimaciones predicen que para el final.

Informe salarial de Big Data Analytics en India – 5G Analytix

Big Data se refiere a todos los datos que se generan en todo el mundo a una velocidad sin precedentes. Estos datos pueden ser estructurados o no estructurados. Las empresas comerciales de hoy deben una gran parte de su éxito a una economía que está firmemente orientada al conocimiento. Los datos impulsan a las organizaciones modernas del mundo y, por lo tanto, dan sentido a estos datos y desentrañan los diversos patrones y revelan conexiones invisibles dentro del vasto mar de datos, se vuelven críticos y una gran recompensa Big Data Hadoop, Spark, Storm, Scala – Combo Training Classes Online El | Big Data Hadoop, Spark, Storm, Scala – Cursos combinados Realmente esfuerzo en línea. Mejores datos conducen a una mejor toma de decisiones y una mejor forma de crear estrategias para las organizaciones, independientemente de su tamaño, geografía, participación en el mercado, segmentación de clientes y otras categorizaciones. Las empresas más exitosas del mañana serán las que puedan dar sentido a todos esos datos a volúmenes y velocidades extremadamente altas para capturar mercados y bases de clientes más nuevos.

Big Data tiene ciertas características y, por lo tanto, se define utilizando 4V, a saber:

Volumen: la cantidad de datos que las empresas pueden recopilar es realmente enorme y, por lo tanto, el volumen de datos se convierte en un factor crítico en el análisis de Big Data. Entrenamiento de Big Data y Hadoop con certificación en línea

Velocidad: la velocidad a la que se generan nuevos datos, todo gracias a nuestra dependencia de Internet, los sensores, los datos de máquina a máquina también es importante para analizar Big Data de manera oportuna.

Variedad: los datos que se generan son completamente heterogéneos en el sentido de que podrían estar en varios formatos como video, texto, base de datos, datos numéricos, sensores, etc., y por lo tanto, comprender el tipo de Big Data es un factor clave para desbloquear su valor.

Veracidad: saber si los datos disponibles provienen de una fuente confiable es de suma importancia antes de descifrar e implementar Big Data para las necesidades comerciales.

Aquí hay una breve explicación de cómo exactamente las empresas están utilizando Big Data:

Una vez que Big Data se convierte en pepitas de información, se vuelve bastante sencillo para la mayoría de las empresas comerciales en el sentido de que ahora saben lo que quieren sus clientes, cuáles son los productos que se mueven rápidamente, cuáles son las expectativas de los usuarios del cliente servicio, cómo acelerar el tiempo de comercialización, formas de reducir costos y métodos para construir economías de escala de una manera altamente eficiente. Por lo tanto, Big Data conduce claramente a grandes beneficios para las organizaciones y, por lo tanto, naturalmente, existe un gran interés en todo el mundo.

Sí, es bastante común que cuando surge una nueva innovación, las personas crean una publicidad que la innovación resolverá mágicamente todos sus problemas comerciales. Por supuesto, no funciona de esa manera, porque siempre serán las personas inteligentes (en su organización) las que necesitarán para resolver sus problemas. La tecnología es simplemente un habilitador que aumenta el alcance / capacidad / eficiencia / etc.

La conclusión es que las empresas realmente necesitan personas inteligentes (que tengan mucha información, experiencia e internalización de problemas / dominios) que puedan * pensar *, * comprender *, * convencer a las partes interesadas * y luego * construir * la solución óptima, solo entonces puedes solucionar tus problemas de negocios.

Es mucho más fácil comprar soluciones de Big Data que conseguir personas inteligentes, y de ahí la exageración … 🙂

Es posible que aún no se haya sobrevalorado, pero creo que lo será, y eso nos traerá grandes problemas.

Tengo una predicción sobre a dónde va esto. Muchas aplicaciones y servicios en línea son gratuitos. Puede haber algo de publicidad, pero para muchos, el modelo de negocio se basa en recopilar y vender datos. Además, muchos servicios premium recopilarán datos como un flujo de ingresos alternativo. Entonces los datos tienen un valor.

Sin duda, muchos de estos datos son útiles y se utilizarán para mejorar nuestras vidas o predecir nuestros hábitos de compra y, como tal, ofrecerán un verdadero retorno de la inversión a quienes los compren o recojan.

Sin embargo, también se recopilarán muchos datos (es imposible decir qué proporción todavía) que servirán de poco o de nada.

El problema es que a medida que continúa el bombo de Big Data, la gente seguirá creyendo que todos los datos tienen valor. Las personas que no entienden (o no tienen interés) en el contenido de los datos llegarán a verlo como una oportunidad de inversión pura. Los datos inútiles se agruparán en grandes conjuntos y se venderán en los mercados de productos básicos. Los bancos invertirán en ellos. Las compañías de pensiones invertirán en ellos. Y las empresas que no invierten en ellos invertirán en las que sí lo hacen. El valor excesivamente inflado de los datos penetrará en toda la economía mundial.

Entonces, un día, la burbuja estallará. La gente de repente se dará cuenta de que la mayoría de los datos no tienen valor, y los inversores se apresurarán a salir. Se eliminarán enormes cantidades de dinero de los mercados bursátiles del mundo. Las corporaciones, las personas y los gobiernos quedarán en bancarrota. El Big Data Crash habrá comenzado.

Tan pronto como escuche a inversionistas y banqueros que nos dicen ‘no preocuparnos porque este es un nuevo tipo de economía’, entonces realmente debería comenzar a preocuparse.

Big data es una muy buena solución para obtener información significativa de una gran colección de datos no estructurados / estructurados.

Hay empresas que no necesitan aprovechar la información de tera bytes de datos. Pueden apegarse a las herramientas de BI y a la hoja de cálculo Excel que cumple su propósito.

Bigdata se metió en el tren ‘Hype’ ya que todo el mundo habla en foros, reuniones y grandes empresas que lo anuncian, y comenzó a venderlo como una solución / servicio, etc., en lugar de una plataforma.

Además, las personas de las empresas simplemente asignaron dinero para la tecnología futura sin saber de qué se trata y comenzaron a abusar de la tecnología.

¿Se exageran los DBA de RDBMS? Si por supuesto 🙂

Así que deje que los ingenieros de big data sean los protagonistas por algún tiempo (como los DBA).