Mejores prácticas para la implementación de Big Data y ciencias de la información para el análisis

técnicas para implementar el Big Data

Un aspecto de la transformación digital que las organizaciones luchan por corregir es la identificación, captura, gestión y análisis de grandes datos. En todas las industrias, las organizaciones están interesadas en utilizar estos datos y el trabajo de los científicos de datos para descubrir los conocimientos que impulsarán las decisiones estratégicas de negocios. Los CIOs de hoy en día necesitan conocimientos analíticos, así como una comprensión de las ciencias de datos y enfoques algorítmicos que proporcionarán analítica de datos a sus empresas.

Las organizaciones necesitan la claridad que ofrecen las grandes ciencias de la información y los datos para apoyar programas enfocados en misiones; proporcionar inteligencia apropiada; diseñar e implementar modelos predictivos, enfoques algorítmicos y modelos compartibles; y reducir costos mientras se producen resultados finales. Es una tarea difícil. Hay que tener mucho cuidado para hacer esto bien.

En su Top 10 Strategic Technology Trends para 2017, Gartner incluyó el aprendizaje automático y la inteligencia artificial incluyendo aplicaciones inteligentes y cosas inteligentes como aviones teledirigidos, vehículos autónomos y dispositivos inteligentes como factores que serán estratégicos para las empresas en el próximo año. Estas tecnologías pesadas en datos están impulsando una nueva era para la analítica.

¿Cómo pueden el CIO y su equipo introducir grandes datos en su flujo de trabajo, y cómo pueden traducir lo que parece ser jeroglíficos a ejecutivos de alto nivel en lenguaje sencillo? Y lo que es más importante, ¿cómo puede su organización saber qué datos son buenos y cuáles son malos (datos que no le proporcionan el nivel de información que necesita para tener éxito)? ¿Cómo puede implementar análisis en tiempo real de datos de streaming?

Comience con el Conocimiento

La primera cuestión a superar es definir lo que realmente significan los grandes datos o Biog Data. Un lenguaje de datos común fomentará el crecimiento de las mejores ideas compartidas entre diversos equipos internos y socios de confianza. Tomando este primer paso se determinará cómo una organización aprovechará el poder de la analítica avanzada y se beneficiará de los grandes datos.

Con eso, consideremos algunas de las definiciones prevalecientes de Big Data y ciencias de la información:

  • Datos demasiado grandes, demasiado rápidos o demasiado complejos para las herramientas tradicionales de procesamiento de datos.
  • Conjuntos de datos cuyas características incluyen veracidad, alto volumen, alta velocidad y una variedad de estructuras de datos.
  • Activos de datos que requieren nuevas formas de procesamiento para permitir una mejor toma de decisiones para la extracción de nuevos conocimientos o nuevos descubrimientos.
  • Un concepto evolutivo sobre el crecimiento de los datos y cómo curar, gestionar y procesar esos datos.

Hay muchos contribuyentes a la explosión de grandes datos, incluyendo redes sociales, sensores, máquinas a máquinas y IoT. Gran parte de ella es desestructurada, menos ordenada y más interrelacionada que los datos tradicionales. Esto significa que estos nuevos y masivos conjuntos de datos ya no pueden gestionarse o analizarse fácilmente con las herramientas, métodos e infraestructuras tradicionales de gestión de datos.

Los grandes datos abarcan todos los sectores, y sus efectos representan un cambio sísmico en la tecnología empresarial. Está cambiando rápidamente el panorama de la analítica de datos tradicional en todas las industrias. Para hacer frente a estos desafíos, las empresas han comenzado a implementar grandes tecnologías de datos, como Apache Spark y Storm. Una opción viable puede ser una arquitectura adecuada diseñada para complementar las bases de datos Spark y Hadoop/NoSQL como Cassandra y Hbase, que pueden utilizar computación en memoria y analítica interactiva.

Puntos de Dolor de la EDW

A lo que las organizaciones probablemente están acostumbradas es a un almacén de datos empresarial tradicional (EDW), que normalmente trabaja con datos abstractos que se han recopilado en una base de datos separada para análisis específicos. Las bases de datos de SEDA se basan en modelos de datos estables. Ingieren datos de aplicaciones empresariales como CRM, ERP y sistemas financieros. Varios procesos de Extracto, Transformación, Carga actualizan y mantienen estas bases de datos incrementalmente, típicamente en horarios por hora, semanales y mensuales. Un EDW típico va desde cientos de gigabytes a múltiples terabytes.

Sin embargo, ninguna solución es perfecta. Los puntos de dolor de un TCE incluyen:

  1. El cambio tiene un precio muy alto. Los cambios en el sistema y la configuración son costosos debido a los diseños rígidos e inflexibles.
  2. El acceso no es en tiempo real. La separación de la base de datos de las fuentes de datos operacionales causa problemas de disponibilidad de datos. Las limitaciones de la ventana de lotes también añaden latencia a los datos.
  3. Reduciendo la velocidad del sistema. La necesidad de realizar análisis ad-hoc de vez en cuando, además de los informes operativos regulares, degrada los tiempos de respuesta del sistema.

La EDW tradicional se ve diluida por el explosivo crecimiento de los datos. Los datos se presentan en todas las variedades y formatos, y los nuevos procesos de recopilación de datos ya no están centralizados.

Los grandes datos se vuelven reales

Hay que hacer preguntas importantes cuando las organizaciones comiencen a darse cuenta del gran volumen de datos que han recopilado:

  • ¿Qué datos son realmente relevantes y qué no lo son?
  • ¿Están los datos en reposo o en movimiento?
  • ¿Cuál es el objetivo final de los datos recogidos?
  • ¿Cómo ayudarán estos datos a alcanzar los objetivos, ya sea móvil, marketing o ventas?

Al tomar estos primeros pasos exploratorios, su empresa tiene una ventaja a la hora de determinar el mejor ajuste para extraer y utilizar estos datos y su lugar en la hoja de ruta general.

La ventaja radica en darse cuenta de que usted no tiene que comprar, como cuestión de rutina, aparatos de análisis de datos y software por valor de 10 millones de dólares. Considere esto: si hay un gran conjunto de datos, ¿cuánto de ellos es realmente relevante para lograr sus objetivos corporativos? De todo el conjunto de datos, la mitad puede ser relevante para ejecutar aplicaciones, que se basan en transacciones, y la otra mitad podría estar ubicada en hardware o software de bajo costo y baja latencia para el consumidor que proporcione información a investigadores o científicos. Este nivel de pensamiento le dará a su equipo un conjunto de datos manejable en lugar de tratar de ingerir y analizar años y años de datos valiosos.

Cree la plataforma de datos que funcione para usted

Se necesita claridad con respecto a la variedad de datos con los que está trabajando: típicamente una combinación de datos estructurados tradicionales y conjuntos de datos relativamente grandes no estructurados. Una vez que haya clasificado cómo debería ser su plataforma de datos, comprenderá mejor cómo gestionar y analizar los diferentes tipos de datos.

Las plataformas de datos no son “de un solo tamaño”, sino que necesitan crear una plataforma de datos que complemente las fortalezas de su organización y la huella tecnológica existente, y que utilice las herramientas más eficaces para satisfacer sus necesidades de ingesta de datos y análisis. Normalmente, esto será una combinación dinámica de legado y nueva tecnología, licenciamiento de código abierto y off-the-shore, y métodos de acceso a datos estáticos y fluidos.

Las muchas caras de los grandes datos

Los analistas de datos profesionales deben considerar, como mínimo, estos cinco aspectos de los datos:

  • Ingestión
  • Armonización
  • Análisis de Análisis
  • Visualización
  • Democratización

Algunas compañías pueden necesitar considerar los cinco aspectos, mientras que otras compañías pueden tener todo cubierto excepto la democratización o interoperabilidad de los datos. En otras palabras, asegúrese de que su plan incluya todos estos aspectos en una perspectiva integral y determine sus fortalezas y debilidades antes de seguir adelante.

Tres pasos a seguir en primer lugar

A medida que sus equipos se preparan para capturar, controlar, gestionar y visualizar los grandes datos que más importan a su organización, la implementación de estos tres elementos clave ayudará.

Evaluar y elaborar estrategias

Realice una evaluación para determinar una estrategia que funcione para su organización antes de pasar a los grandes datos. Considere la posibilidad de traer a un tercero o alguien de fuera de la organización para evaluar su situación actual. A través del apoyo y la retroalimentación interna y las evaluaciones y recomendaciones externas, usted podrá determinar mejor dónde se encuentra y qué necesita para avanzar el programa.

Asegurar la participación de las partes interesadas

Poner en práctica una visión y una misión claras trabajando con las partes interesadas adecuadas. ¿Qué intentas lograr? Muchas organizaciones están saltando sobre el gran carro de datos y están ingiriendo terabytes de datos, sólo para hacer la pregunta:”¿Ahora qué?”

Trabajar con aquellos que se beneficiarán de los conocimientos de datos garantizará la aceptación por parte de los usuarios, a la vez que proporcionará un plan conciso y bien pensado en lugar de implementar la tecnología sólo porque está disponible. En última instancia, si usted construye un programa que no encaja en su pila de tecnología existente o que no proporciona la información necesaria para avanzar en sus objetivos, la operación entera fracasará.

Dibujar un mapa claro

Desglose los resultados tácticos creando una hoja de ruta estratégica clara. Por ejemplo, una hoja de ruta estratégica de 36 meses le dará la oportunidad de revisar y cambiar el rumbo si es necesario. El resultado resultante cada trimestre le ayudará a evaluar mejor y a construir sus metas.

Desea crear una implementación que responda a sus necesidades. El modo reactivo puede llevar a soluciones que requieren parches o actualizaciones constantes, o peor aún, tratar de incorporar una nueva solución en una red heredada. En su lugar, al ser receptivo, la implementación de grandes datos o ciencias de la información puede convertirse en un proceso rápido y sin problemas.

Un enfoque medido de los grandes datos

Sólo porque puedas hacer algo no significa que debas hacerlo. Las capacidades actuales de recopilación de datos deben ser utilizadas con cuidado y consideración para prevenir la creación de un montón de información inútil. Las organizaciones deben ser estratégicas en la forma en que abordan la recopilación, gestión y análisis de sus datos si quieren encontrar las joyas de la perspicacia que les proporcionará una ventaja competitiva.

Nuestra Puntuación

Para ver la entrada completa haz click aquí: Mejores prácticas para la implementación de Big Data y ciencias de la información para el análisis - De nuestro Blog Tlcom



from TLCOM https://www.tlcom.mx/mejores-practicas-implementacion-big-data.html

Comentarios

Entradas más populares de este blog

Cámara IP Bullet, Hikvision DS-2XC6225G0-L

Guía para principiantes de la PBX virtual

Cámara IP Bullet, Hikvision DS-2CD5A26G0-IZHSY