¿Cuál es el mejor sitio web para videos / ebooks / blogs / sitios web de Big Data Scientist?

Big Data Analytics es para ayudar a las empresas a tomar decisiones comerciales más informadas al permitir que DATA Scientist, modeladores predictivos y otros profesionales de análisis analicen grandes volúmenes de datos de transacciones, así como otras formas de datos que pueden ser aprovechadas por los programas convencionales de inteligencia empresarial (BI) . Capacitación en Big Data y Hadoop con certificación en línea. Eso podría incluir registros de servidores web y datos de Internet Click Stream, contenido de redes sociales e informes de actividad de redes sociales, texto de correos electrónicos de clientes y respuestas de encuestas, registros detallados de llamadas de teléfonos móviles y datos de máquinas capturados por sensores conectados a INTERNET Cosas Algunas personas asocian exclusivamente Big Data con datos semiestructurados y no trucados de ese tipo, pero las firmas consultoras como Gartner Inc. y Forrester Research Inc. también consideran que las transacciones y otros datos estructurados son componentes válidos de las aplicaciones de análisis de Big Data. . Los grandes datos se pueden analizar con las herramientas de software comúnmente utilizadas como parte de las disciplinas de Advance Analytics, como la minería de datos de análisis preventivo, el análisis de texto y el método estático. El software de BI convencional y las herramientas de visualización también pueden desempeñar un papel en el proceso de análisis. Pero los datos semiestructurados y no estructurados pueden no encajar bien en el Data Warehouse tradicional basado en la base de datos relacional. Además, es posible que los almacenes de datos no puedan manejar las demandas de procesamiento que plantean los conjuntos de grandes datos que deben actualizarse con frecuencia o incluso continuamente, por ejemplo, datos en tiempo real sobre el rendimiento de aplicaciones móviles o de oleoductos y gasoductos. Como resultado, muchas organizaciones que buscan recopilar, procesar y analizar grandes datos han recurrido a una nueva clase de tecnologías que incluye Hadoop y herramientas relacionadas como Yarn Spook, Spark y Pig, así como bases de datos No Sql. Esas tecnologías forman el núcleo de un marco de software de código abierto que admite el procesamiento de conjuntos de datos grandes y diversos en sistemas en clúster.

En algunos casos, los sistemas Hadoop Cluster y No SQL se están utilizando como pistas de aterrizaje y áreas de preparación de datos antes de que se carguen en un almacén de datos para su análisis, a menudo en forma resumida que es más propicio para las estructuras relacionales. Sin embargo, cada vez más, los proveedores de big data están impulsando el concepto de una toma de datos de Hadoop que sirve como el depósito central para los flujos entrantes de datos sin procesar de una organización. En tales arquitecturas, los subconjuntos de datos se pueden filtrar para su análisis en almacenes de datos y bases de datos de análisis, o se pueden analizar directamente en Hadoop utilizando herramientas de consulta por lotes, software de procesamiento de flujo y tecnologías SQL y Hdoop que ejecutan consultas interactivas y ad hoc escritas en SQL Las posibles trampas que pueden hacer tropezar a las organizaciones en iniciativas de análisis de big data incluyen la falta de habilidades analíticas internas y el alto costo de contratar profesionales analíticos experimentados. La cantidad de información que generalmente está involucrada, y su variedad, también pueden causar dolores de cabeza en la gestión de datos, incluidos la calidad de los datos y los problemas de coherencia. Además, integrar sistemas Hadoop y almacenes de datos puede ser un desafío, aunque varios proveedores ahora ofrecen conectores de software entre Hadoop y bases de datos relacionales, así como otras herramientas de integración de datos con capacidades de big data.

Las empresas están utilizando el poder de los conocimientos proporcionados por Big Data para establecer instantáneamente quién hizo qué, cuándo y dónde. El mayor valor creado por estos conocimientos oportunos y significativos de grandes conjuntos de datos es a menudo la toma de decisiones empresariales efectivas que permiten los conocimientos.

Extrapolar información valiosa de grandes cantidades de datos estructurados y no estructurados de fuentes dispares en diferentes formatos requiere la estructura adecuada y las herramientas adecuadas. Para obtener el máximo impacto comercial, este proceso también requiere una combinación precisa de personas, procesos y herramientas analíticas.

Apache Hadoop es una plataforma de software que surgió de la Apache Software Foundation. Hadoop es un proyecto de software de código abierto que es ampliamente utilizado por algunas de las organizaciones más grandes del mundo para el almacenamiento distribuido y el procesamiento de datos en un nivel que es enorme en términos de volumen. Esa es la razón por la que Apache Hadoop ejecuta su procesamiento en grandes grupos de computadoras construidos en hardware básico. Algunas de las características de la plataforma Apache Hadoop son que puede usarse de manera eficiente para el almacenamiento, procesamiento, acceso, análisis, gobierno, seguridad, operaciones e implementación de datos.

Hadoop es un proyecto de alto nivel que está siendo construido y utilizado por un grupo diverso de desarrolladores, usuarios y contribuyentes que atraviesan nacionalidades bajo los auspicios de la Fundación Apache. Hadoop se rige actualmente bajo la licencia Apache 2.0.

Hadoop opera en miles de nodos que involucran grandes cantidades de datos y, por lo tanto, durante tal escenario, la falla de un nodo es una alta probabilidad. Por lo tanto, la plataforma Hadoop es resistente en el sentido de que los sistemas de archivos distribuidos inmediatamente al detectar un fallo de nodo desvían los datos entre otros nodos, lo que permite que toda la plataforma funcione sin interrupciones.

La idea de Apache Hadoop en realidad nació de un proyecto de Google llamado Map Reduce, que es un marco para dividir una aplicación en fragmentos más pequeños que luego se pueden analizar en un nivel mucho más pequeño y granular. Cada uno de los bloques más pequeños se opera individualmente en nodos que luego se conectan al clúster principal. El marco actual de Hadoop consta de sus componentes principales, a saber, Map Reduce, Hadoop Kernel y HDFS (Hadoop Distributed File System). Luego hay otros proyectos relacionados como Apache H Base, Sqoop, Hive, Pig, etc.

No te limites con solo unos pocos sitios web y contenido. Tecnologías como Big data, data science e Internet of Things requieren más que solo leer y comprender contenido. Si usted es serio en hacer ciencia de datos como una carrera (nueva carrera) encuentre un mentor (muchos serán mentores en línea en LinkedIn) y busque sugerencias y crecimiento profesional.

Estos dos enlaces (que figuran a continuación) tienen muchas novedades / mashups de blog, que se actualizan diariamente. Lea durante unos días y sabrá qué blogs / sitios web funcionan para usted. Luego puede detenerse en estos y usar sus sitios / blogs favoritos. Hay personas interesantes en LinkedIn y Twitter, síguelas y prepara sus blogs.

The Data Science Daily

Big Data Daily

Otros enlaces de bonificación

¿Cómo utilizar las tecnologías emergentes para crear una futura carrera relevante?

5 errores importantes que los desarrolladores de software indios continúan cometiendo