¿Qué lenguaje de programación será más útil con respecto al futuro de la minería de datos?

Los que tienen un gran ecosistema. En otras palabras, Java, debido a herramientas como Solr, OpenNLP, UIMA, Hadoop, HBase, Nutch, etc. Puede conectar casi cualquier cosa con cualquier cosa en Java. Por ejemplo, cree un motor de búsqueda simple de preguntas y respuestas conectando Solr y OpenNLP y bríndele una interfaz web RESTful agradable con Play Framework. Puede hacer el rastreo de fondo y el procesamiento de texto usando Nutch y hacer que el rastreo y el procesamiento sean asíncronos usando RabbitMQ. Si está atascado, puede acceder a la lista de correo, responder su pregunta y hacer el trabajo en unos días. Aquí hay un desafío: ¿cuántos idiomas pueden ayudarlo a hacer eso con un esfuerzo mínimo en tan poco tiempo? [1]
Dicho esto, hay una creciente adopción de Python en el espacio de minería de datos, con herramientas como SciPy, enlaces de Hadoop, MatplotLib y otros. [2]
También apostaría por Haskell, que es conciso, cuyo paradigma es adecuado para la programación de grandes datos (piense en funcional ~ reducción de mapa) y PNL [3] [4].

1 – [Haskell-cafe] Re: Bibliotecas para usuarios comerciales
2 – La respuesta de Lakshmi Narasimhan Parthasarathy a ¿Cuáles son los mejores módulos Python 2.7 para minería de datos? Estoy cambiando de PHP y Perl a Python, y no estoy familiarizado con las mejores herramientas para la minería de datos. Me llevó años desarrollar mi propio arsenal de PHP / Perl.
3 – PNL: el marco faltante
4 – Uso de tipos para analizar el lenguaje natural

Creo que los idiomas serán menos importantes que las plataformas. Como ejemplo, Hadoop es actualmente el favorito para realizar el procesamiento de datos a gran escala. Mi sensación es que Spark comenzará a ganar más y más tracción.

Con respecto a los lenguajes, espero que R y Python sigan siendo populares para la exploración y análisis de datos. Creo que Julia eventualmente podría obtener una adopción a gran escala. También sospecho que Hive (y otras variantes de SQL) y Pig ganará más usuarios.

Soy escéptico, Clojure ganará una importante cuota de mercado. Creo que es un gran lenguaje, pero no tiene tanto ecosistema como herramientas de datos y libros.

Pitón. Eche un vistazo a los módulos de Python que serían útiles en la minería de datos, los mejores módulos de Python para la minería de datos.

Scala Clojure. Haskell

Solía ​​pensar en Python, pero:

* Julia: tiene una velocidad C, una comunidad en crecimiento, que rápidamente está generando nuevas bibliotecas científicas. Todo el código está en Julia misma -> fácil de mantener
* Haskell: se asienta bien para el procesamiento de datos. Código limpio y fácil de razonar (gracias al sistema de tipos). Deseo que el ecosistema sea más grande y más estandarizado.

Python carece de la velocidad de Julia y Haskell. La mayoría de las bibliotecas son principalmente código C. Para mí, este es un enfoque incorrecto para TI en> 2010.

Lo mejor está por venir.

Cuando habla de minería de datos, habla de big data.
Creo que es posible argumentar que todavía hay una necesidad insatisfecha de integrar el análisis de datos en el entorno de la base de datos nativa. Creo que este pensamiento aún no hecho será el más importante. Dicho esto, probablemente tendría tanto Python como R API. : O