¿Qué piensa de los artículos de Gartner sobre la automatización del 40% del trabajo de los científicos de datos para 2020?

Creo que muestra lo estrecha que es la visión de Data Science, por parte de quienes miran desde afuera. El trabajo de los científicos de datos es mucho más que limpiar datos y construir modelos. Los resultados que producimos son decisiones, no simples predicciones para ser puestas en producción. La ciencia de datos lucha contra décadas de una mentalidad de ingeniería tradicional, basada en resultados deterministas y patrones de diseño rígidos. La visión estrecha de DS proviene de este malentendido.

El científico de datos no está allí para limpiar los datos con el propósito de ayudar a construir líneas de datos que no se rompan. Están ahí para converger las necesidades comerciales con la tecnología adaptativa, de una manera que exige un enfoque orgánico mucho más suave que el esperado por los ingenieros de software. Cuando las salidas que produce son decisiones (en lugar de salidas tradicionales como listas clasificables y fotos indexadas), se superponen directamente con las necesidades de alto nivel de los usuarios. Esto coloca a la ciencia de datos en un nivel mucho más alto de abstracción que los practicantes más tradicionales. La gran ciencia de los datos ocurre cuando entendemos a las personas, y cuando vemos la validación del modelo como algo más que estadísticas; algo hecho de manera holística con un producto que usan las personas reales. Se necesita mucha creatividad y estrategia para crear una pieza de software inteligente, y va mucho más allá de la información y el ajuste de los hiper-parámetros.

Solo hay una cosa que dice “la automatización del trabajo de un científico de datos” sobre su organización; tiene una visión muy limitada de lo que la ciencia de los datos puede hacer por su empresa y es probable que se esté quedando muy por detrás de la competencia para convertir los datos en productos inteligentes que importan.

Ahora, ¿autoamating 40% del Data Scientist estrechamente definido? Sí por favor. Esto liberaría al científico de datos para enfocarse en la creatividad y la estrategia que realmente define su rol.

El arte de hacer máquinas inteligentes – Sean McClure – Medio

No estoy de acuerdo con el análisis.

El problema con la ciencia de datos la mayoría de las veces no es la aplicabilidad del algoritmo o el tiempo que lleva implementarlo. Hay muchas implementaciones de algoritmos de código abierto suficientemente complejas disponibles y cualquier programador o, como el artículo las llama “científico de datos ciudadanos” que vale la pena, podrá usar y generar resultados.

El problema es que los datos no siempre se ajustan a sus suposiciones o no sabe cómo imputar los valores faltantes o los datos disponibles pueden ser basura pura (violando muchas consideraciones de integridad). Como mi supervisor a menudo dice, muchas veces en estos días en el caso del modelado de aprendizaje automático – es basura en basura.

Además, muchos datos, excepto los datos bien capturados y estructurados, no están fácilmente disponibles. La responsabilidad recae generalmente en el científico de datos para identificar los datos que serán más útiles y realmente obtenerlos. Por ejemplo, en mi campo se realiza una gran cantidad de análisis en las métricas del código fuente y no se encuentran las métricas del código fuente de los proyectos de sus empresas que se encuentran en las bases de datos.

Luego está la tarea de selección de características, evitación de multicolinealidad, interpretación de modelos, ajuste de parámetros hiperactivos .. Blah .. Blah ..

En resumen, incluso con cosas tan sofisticadas como AutoML: 40%? No, hermano

El informe tiene razón sobre la tendencia de que las tareas de ciencia de datos se automatizarán con el tiempo, pero los números son discutibles.

Mi respuesta (de regreso a 2015) a ¿Cuál es el futuro de la ciencia de datos?

La automatización liberará a los científicos de datos de tareas repetitivas, para que puedan dedicar más tiempo a tareas que son difíciles de automatizar o que requieren experiencia específica, por ejemplo, comunicación, ingeniería de características y ajuste de modelos.

El verdadero desafío no es la automatización, pero evitar que estas herramientas avanzadas y cada vez más complejas se conviertan en una caja negra pura para los científicos de datos. Realmente espero que la comunidad de investigación y la industria se centren más en mejorar la interpretabilidad del modelo como [1] en el futuro.

  1. “¿Por qué debería confiar en usted ?: Explicando las predicciones de cualquier clasificador”

¡Espero que estén bien!

Las primeras partes del campo que serán automatizadas serán las más aburridas y tediosas. Limpieza de datos, verificación de datos, mantenimiento, etc. ¡Si una computadora pudiera hacer esto, los científicos de datos podrían hacer el trabajo más interesante (y más valioso) de analizar realmente los datos y aplicar los resultados!

Espero que sea verdad. Cuanto menos tiempo dedico a munging, más tiempo puedo dedicar a pensar en cómo mejorar un modelo o una característica del producto.