¿Cuáles son los consejos para llevar a cabo un proyecto piloto de big data?

Si bien esta pregunta se relaciona con la “conducción” de un proyecto piloto de Big Data, también veo que hay una pregunta relacionada: “¿Cuáles son los consejos para planificar un proyecto piloto de big data?”. Ambas preguntas están relacionadas y esta respuesta es aplicable a ambas preguntas.

Cada proyecto de Big Data tiene sus propias complejidades y sutilezas. Además, no todas las categorías de problemas de Big Data se pueden agrupar en una sola. Dos enfoques valiosos para resolver los problemas de Big Data son ‘Top Down’ y ‘Bottoms Up’ y, por consiguiente, mirar su pila de Data o Technology será su punto de partida. Si su organización aún no ha invertido en una pila de Tecnología, el primer paso correcto es atacar los Datos.

Los siguientes pasos efectivos son:

Formando el equipo del proyecto :

Una organización exitosa del proyecto Big Data estará formada por los siguientes tres equipos de especialistas:

  1. Equipo “Big Data”: problemas de “Big Data” que serán atacados por sus ingenieros de datos y abordarán la escala, velocidad y elasticidad de la solución técnica. Cuando se haga correctamente, esto incluirá un conjunto de activos reutilizables que se pueden usar en muchos de sus proyectos de Big Data posteriores. Este marco reutilizable se volverá inútil cuando los datos sean pequeños.
  2. Equipo “Ciencia de datos”: los problemas de datos que resolverán sus científicos de datos esencialmente definirán la IP básica del producto o la solución que está intentando crear. Este es un problema que está presente incluso cuando sus datos son pequeños.
  3. Equipo de “solución”: los arquitectos / diseñadores de su equipo deben poder construir una arquitectura de plug and play donde los activos de Big Data y Data Science se puedan ensamblar de manera modular para construir una solución de trabajo conforme a un contrato.

Por supuesto, encontrar los activos perfectamente conectables y reutilizables es un sueño utópico. Pero, comenzando con esa mentalidad desde el inicio, su solución se mantendrá bastante cerca de eso. ¡Y te ahorrará muchos dólares en el camino!

Entendiendo los datos:

  1. Fuentes de datos – ¿Tiene todas las fuentes de datos? ¿Cuántos son de su propiedad, cuántos están en el dominio público y cuál es la frecuencia con la que necesita reponer su almacén de datos para estar actualizado?
  2. Recopilación: recopilación de datos y revisión de la estructura de los datos. Muchos problemas de big data son con datos semiestructurados y, por lo tanto, este es un paso muy importante. A menudo encontramos que esto determina la tasa de éxito de los proyectos de Big Data.
  3. Análisis: analice los datos para descubrir relaciones obvias y no obvias.

Diseño de la solución : este es el paso central donde Big Data comienza a jugar. Hasta ahora, el enfoque estaba en los datos, pero a partir de aquí debemos entender cómo los productos y marcos de Big Data se han simplificado y nos han ayudado a proporcionar soluciones que están más allá del ámbito de las bases de datos heredadas y los productos de BI. Llamamos a esto aplicando una solución de “Big Data”. Al diseñar, necesitamos tener en cuenta la velocidad de datos, el crecimiento futuro del volumen de datos y la variedad de datos al seleccionar la pila de tecnología y una revisión honesta final sobre si realmente aprovechamos el pensamiento de Big Data cuando diseñamos la solución.

Ejecutando y escalando la solución: Aquí es donde finalmente elegimos la plataforma de Big Data y la pila de tecnología. Realizamos un prototipo de los componentes y finalizamos los productos que se ajustan al diseño, los integramos con los componentes de la empresa (ejemplo: autenticación y autorización, etc.), finalizamos el modelo de entrega de datos y, por último, el costo, el recurso y los plazos para la implementación.

Uno de los principales problemas que puede enfrentar al crear un producto de datos a escala de producción es que no obtiene los resultados deseados después de poner muchos esfuerzos en construir la infraestructura.

Primero, debe determinar el tamaño óptimo de la submuestra que necesita para crear un POC que represente el resultado que va a ver. Tenga en cuenta que algunas de las técnicas que puede aplicar a datos pequeños no se escalarán.

Hervirlo en varios consejos:

  • Construye un POC rápido y barato que haga lo mismo.
  • Utilice SCRUM y evalúe cuidadosamente todas las métricas de rendimiento
  • Piensa en la escalabilidad.