Los que tienen un gran ecosistema. En otras palabras, Java, debido a herramientas como Solr, OpenNLP, UIMA, Hadoop, HBase, Nutch, etc. Puede conectar casi cualquier cosa con cualquier cosa en Java. Por ejemplo, cree un motor de búsqueda simple de preguntas y respuestas conectando Solr y OpenNLP y bríndele una interfaz web RESTful agradable con Play Framework. Puede hacer el rastreo de fondo y el procesamiento de texto usando Nutch y hacer que el rastreo y el procesamiento sean asíncronos usando RabbitMQ. Si está atascado, puede acceder a la lista de correo, responder su pregunta y hacer el trabajo en unos días. Aquí hay un desafío: ¿cuántos idiomas pueden ayudarlo a hacer eso con un esfuerzo mínimo en tan poco tiempo? [1]
Dicho esto, hay una creciente adopción de Python en el espacio de minería de datos, con herramientas como SciPy, enlaces de Hadoop, MatplotLib y otros. [2]
También apostaría por Haskell, que es conciso, cuyo paradigma es adecuado para la programación de grandes datos (piense en funcional ~ reducción de mapa) y PNL [3] [4].
1 – [Haskell-cafe] Re: Bibliotecas para usuarios comerciales
2 – La respuesta de Lakshmi Narasimhan Parthasarathy a ¿Cuáles son los mejores módulos Python 2.7 para minería de datos? Estoy cambiando de PHP y Perl a Python, y no estoy familiarizado con las mejores herramientas para la minería de datos. Me llevó años desarrollar mi propio arsenal de PHP / Perl.
3 – PNL: el marco faltante
4 – Uso de tipos para analizar el lenguaje natural