¿Qué es una mejor herramienta analítica de big data, entre Actian y Datameer, y por qué?

Este es un poco difícil de comparar porque las herramientas son algo diferentes. Comenzaré con una descripción de alto nivel de ellos.

Datameer
En pocas palabras, es una herramienta analítica basada en la web que se parece a excel y ejecuta funciones “excel like” a través del código de reducción de mapa y Tez en un clúster de Hadoop. También tiene algunas capacidades de visualización. También (según mi conocimiento actual, no dude en corregirme) no tiene capacidades analíticas avanzadas integradas, como el aprendizaje automático.

Plataforma de analítica Actian
Supongo que se refiere a la edición de Hadoop SQL ya que es más comparable a Datameer (también tienen una versión que se ejecuta fuera de Hadoop). La plataforma de Actian incluye:

  • Una base de datos orientada a columnas, vectorizada, ANSI SQL y ACID que se ejecuta en Hadoop YARN (Vector)
  • Una herramienta de análisis de mezcla de datos y análisis avanzado (DataFlow), que aprovecha la interfaz KNIME.
  • Herramienta ETL (Data Connect)

Actian no tiene una oferta de visualización de datos, y se basa en arquitecturas de procesamiento propietarias en lugar de map-reduce, Tez, Spark, etc.

¿Cual es mejor?
En realidad, es la misma respuesta, independientemente de la tecnología que esté preguntando. Depende de sus casos de uso. Estas dos herramientas hacen cosas muy diferentes y atienden a multitudes muy diferentes.

Creo que Datameer está mucho más orientado hacia un analista de negocios que está familiarizado con Excel pero que desea procesar datos en Hadoop. Fueron una de las primeras compañías en ofrecer una solución orientada al usuario final que se ejecuta completamente en Hadoop. Básicamente, si sabes cómo usar Excel, probablemente puedas aumentar tu nivel de Datemeer con relativa rapidez.

Actian está más orientado hacia el analista de datos y científico de datos. Para usar su plataforma directamente (es decir, no a través de una herramienta de BI), necesitaría algunas habilidades de análisis de datos y SQL. Su oferta de SQL en Hadoop es, con mucho, la más madura y rápida disponible, y me siento cómodo al decir que he probado casi todas las ofertas de Hadoop SQL que existen. DataFlow es una herramienta de análisis y combinación de datos visuales que realiza sus operaciones en un clúster (YARN). Se ve y funciona como una herramienta ETL tradicional, excepto que también hace cosas como el aprendizaje automático.

Datameer, por supuesto 🙂 Sí, trabajo en Datameer.

Chris creó un buen resumen de alto nivel que establece las principales distinciones. La única excepción que llevaría a su resumen es que Datameer ofrece algunos análisis avanzados, en forma de agrupamiento (K-Means), árboles de decisión (CART), un motor de correlación (basado en el algoritmo de información mutua) motor de recomendación , funciones de minería de texto (incluido el análisis de opiniones) y capacidades de análisis de rutas. Los primeros cuatro están empaquetados en un módulo opcional llamado “Smart Analytics”.

La diferencia es que, para Chris, no es necesario ser un científico de datos para usarlos. Con simples diálogos de apuntar y hacer clic, puede invocar estos algoritmos de manera WYSIWYG contra datos sin procesar o preparados, después de unir cualquier combinación de 270 funciones de manipulación de datos en una hoja de cálculo basada en el navegador.

Lo que agregaría a la respuesta de Paige es que Datameer de hecho incluye capacidades muy robustas de preparación de datos (Uniones / Uniones, XML / JSON / URL y transformaciones de texto y binarios, limpieza de datos y capacidades de perfiles de datos visuales). La preparación de datos ha sido una fuerte demanda de Datameer desde 2010, al igual que la integración de datos, con más de 60 conectores para ingesta / egreso de datos escalables dirigidos por asistentes (usando YARN) de RDBMS, EDW, sistemas de archivos, servicios web y SaaS. Aplicaciones como Salesforce, Zendesk y Marketo.

Finalmente, por mi parte, no puedo enfatizar lo suficiente sobre el esquema de lectura suficiente. No todos entramos en el nuevo mundo valiente de NoSQL y Hadoop para abofetear una caja rectangular alrededor de nuestros datos y dejar que TI tome las decisiones con esquemas rígidos y BI impulsado por SQL (que requiere un acto divino para moverse). Ese enfoque se parece técnica y culturalmente al mundo del almacenamiento de datos clásico, y si bien puede abordar el volumen y el costo (una vez que se le paga al administrador de Hive y al desarrollador de Pig), no aborda la estructura / aplicación / flujo de estructura múltiple y en continua evolución. data, el alma de las implementaciones de big data de verdad. Y, lo que es más importante, en realidad no le permite al negocio hacer más, de manera de autoservicio.

Actian Vortex es mejor, por supuesto! Entonces, sí, trabajo en Actian y, por lo tanto, podría ser un poco parcial en esa opinión. Además, mi conocimiento de Datameer es considerablemente menos extenso que mi conocimiento de Actian Vortex. Le sugiero que también le pida a la gente de Datameer que entienda el otro lado de la historia, pero haré todo lo posible para contrastar los dos productos.

Realmente, creo que Chris Schrader se dio en el clavo en la cabeza. Depende de a lo que estés acostumbrado y de lo que estés tratando de hacer. Sé que ‘depende’ es la respuesta más molesta para cualquier pregunta en el mundo, así que intentaré dar algunos ejemplos.

Solo quiero echar un vistazo a mis datos de Hadoop para ver lo que tengo, explorarlos un poco y una interfaz de estilo de hoja de cálculo funcionaría muy bien. – Utilice Datameer. Es el único producto en el mercado que hace esto.

Quiero usar mis herramientas de BI normales como Tableau, Microstrategy, Yellowfin, etc. pero con conjuntos de datos masivos de Hadoop, y no esperar para siempre cada vez que hago clic en algo para profundizar: use Actian. Es la única opción en el mercado ahora que hace esto.

Quiero poder lanzar consultas SQL aleatorias a mis datos de Hadoop a medida que surjan las necesidades empresariales, y obtener una respuesta, y lanzar otra consulta. No sé qué preguntas voy a querer hacer, así que no puedo planear mi estructura de datos, ni construir cubos o vistas proyectadas o lo que sea antes de tiempo, para ajustarme a las consultas. Solo quiero poder preguntarles cuando surja la necesidad de una respuesta y obtener una respuesta rápidamente. – Actian.

Quiero poder hacer matemáticas, manipular y visualizar datos de Hadoop como lo haría con datos más pequeños en una hoja de cálculo de Excel. – Datameer.

Sé un poco sobre el aprendizaje automático y el análisis avanzado, pero no lo suficiente como para sentarme y escribir mis propios algoritmos distribuidos de aprendizaje automático. Solo quiero poder aplicar los algoritmos estándar existentes a mis datos de Hadoop de forma rápida y sencilla, y recuperar un modelo que pueda, con la misma facilidad, aplicar a los nuevos datos para predecir patrones. – Actian.

Necesito poder actualizar, eliminar e insertar datos en Hadoop y lanzar consultas de análisis al mismo tiempo, sin que mis consultas se atasquen o devuelvan resultados inexactos. – Actian

Tengo que ingresar múltiples fuentes de datos en Hadoop, unirme a ellos, eliminarlos y luego hacer un montón de preparación de los datos antes de que estén listos para el análisis. – Actian

Mi jefe me matará si nos volvemos a encerrar con un solo proveedor. Debo tener la libertad de acceder a mis datos con diferentes aplicaciones, cambiar sistemas operativos o hardware o distribuciones de Hadoop, y usar el mejor software para cualquier trabajo que esté tratando de hacer. – Actian o Datameer. Ninguno de los dos te encierra. Usar uno no significa que no puedas usar el otro si tienes una necesidad que se ajuste.

¿Eso ayuda?

Paige