¿Cuáles son los mejores paquetes de Python para la minería de datos?

Recientemente hemos publicado una lista de las mejores bibliotecas de Python.

Aquí está la lista (junto con los datos de confirmaciones y colaboradores de Github)

Bibliotecas básicas.

1. NumPy (Compromisos: 15980, colaboradores: 522)

2. SciPy (Commits: 17213, colaboradores: 489)

3. Pandas (Commits: 15089, Contribuidores: 762)

Visualización.

4.Matplotlib (Commits: 21754, Contributors: 588)

5. Seaborn (Commits: 1699, Contributors: 71)

6. Bokeh (Commits: 15724, Contribuidores: 223)

7. Plotly (Compromisos: 2486, colaboradores: 33)

Aprendizaje automático.

8. SciKit-Learn (Commits: 21793, Contributors: 842)

Aprendizaje Profundo – Keras / TensorFlow / Theano

En el aspecto de Aprendizaje Profundo, una de las bibliotecas más destacadas y convenientes para Python en este campo es Keras, que puede funcionar ya sea sobre TensorFlow o Theano. Vamos a revelar algunos detalles sobre todos ellos.

9. Theano. (Compromisos: 25870, colaboradores: 300)

10. TensorFlow. (Compromisos: 16785, colaboradores: 795)

11. Keras. (Compromisos: 3519, colaboradores: 428)

Procesamiento natural del lenguaje.

12. NLTK (Compromisos: 12449, colaboradores: 196)

13. Gensim (Commits: 2878, contribuidores: 179)

Algunos de nuestros lectores también recomendaron Spacy lib, que se posicionó como una biblioteca de Procesamiento de Lenguaje Natural de Fuerza Industrial

Minería de datos. Estadística.

14. Scrapy (Commits: 6325, colaboradores: 243)

15. Statsmodels (Commits: 8960, contribuidores: 119)

Aquí hay una lista:

  • Dos paquetes, scikit-learn y Statsmodels, para el esfuerzo de minería de datos.
  • Hay algunos procedimientos que todavía necesitan NumPy o SciPy.
  • Pandas para munging de datos y manipulación de datos.
  • mrjob para mapreduce.
  • Matplotlib, rpy / ggplot2 y Bokeh para visualización de datos.
  • IPython o Spyder (+ otro editor de texto favorito) para un editor interactivo.

Para instalar todo: la anaconda.

Me enseñaron a usar pandas y scikit-learn, y creo que esos dos son el lugar para comenzar.