Quiero hacer proyectos en Data Science (en R, Python) que puedo mostrar en mi currículum. ¿Cómo colaboro con personas / empresas para ello?

A2A. Supongo que esto no se trata solo de obtener un proyecto de ciencia de datos a corto plazo, sino también un trabajo de ciencia de datos a largo plazo.

Si está en la universidad, necesita aprender por sí mismo lo suficiente a través de los MOOC y concursos de que su currículum es lo suficientemente bueno para obtener una pasantía. Muchas empresas están dispuestas a participar en pasantes de pregrado inteligentes para proyectos de análisis de datos de 6 meses; sería más difícil para los proyectos de 3 meses, ya que cualquier empresa tendría que “invertir” en el pasante a través de la capacitación y la tutoría, y 3 meses simplemente no es lo suficientemente largo como para obtener un resultado útil. La compañía también apostaría a que el estudiante sea lo suficientemente bueno como para “convertir” la pasantía en una oferta de trabajo: eso termina en un ganar-ganar para la compañía y para el estudiante.

Si ya está trabajando en un trabajo de ciencia no de datos, su mejor opción es encontrar un proyecto que tenga el potencial de aplicar algunos análisis de datos o ciencia de datos más allá del alcance o del deber. Solicite un proyecto de este tipo, convenza a su gerente para que lo asigne a usted y luego trabaje para lograr no solo el alcance prometido sino también la genial idea de ciencia de datos que tuvo. Ahora bien, o su empresa está lo suficientemente impresionada como para que se acerque un paso más a la función de la ciencia de la información, o tiene algo bueno que poner en su currículum para ayudarlo a solicitar un trabajo de análisis de datos en otro lugar. Y lo más importante, ¡ha aprendido una pieza de ciencia de datos trabajando en un problema del mundo real!

Pasar de un rol de ciencia no de datos a un rol de ciencia de datos requerirá pasos pequeños y persistencia. Tiene que hacerlo bien en su función real, además de poder mostrar esa salida “adicional” que configura sus credenciales de científico de datos.

Otra opción es aplicar a las compañías de análisis de datos puros / ciencia de datos como Mu Sigma que aceptan personas de cualquier origen, siempre que puedan demostrar sus aptitudes y habilidades matemáticas. Pero, tales oportunidades son pocas y pueden no pagar muy bien en el corto plazo.

Mi colega hizo la lista de proyectos de ciencia de datos simples, pero ilustrativos, diseñados para construir un CV de científico de datos sin experiencia laboral: https://blog.statsbot.co/data-sc

Dejaré la descripción de uno de estos proyectos solo para tener una idea de si vale la pena que sigas el enlace.

Spam o jamón
Spam vive donde sea posible dejar mensajes. Uno de los problemas clásicos de la ciencia de datos es la detección de spam. Puede entrenar un modelo para detectar correos electrónicos no deseados, mensajes de spam y comentarios de usuarios de spam para ocultarlos en el navegador.

Un motor de aprendizaje automático define el spam en función de la probabilidad de cumplir con palabras como “venta” y “comprar” en los mensajes de spam. Como resultado, puede obtener un prototipo funcional de AdBlock en aproximadamente una semana.

Problema de ML: clasificación de texto
Algoritmos: bayes ingenuos, clasificadores lineales, clasificadores de árbol, clasificadores lo que quieras
Tecnologías: sklearn, nltk, scrapy
Datos: conjunto de datos de spam de SMS, conjunto de datos de spam de correo electrónico, conjunto de datos de spam de comentarios de youtube
Implementación: extensión del navegador
Referencias: AdBlock, Adguard
Guías: Cómo construir un clasificador de aprendizaje automático de detección de spam simple, Cómo comenzar: Cómo construir una extensión de Chrome

Otros problemas de ML son:

  • No hotdog
  • Recomendaciones de películas de Netflix.
  • Lentes originales de Snapchat
  • Flujo de Twitter
  • Apostador de tenis
  • Predicción del precio de las acciones

Espero que sea de ayuda!

Estoy seguro de que habrías leído sobre Kaggle (quizás también hayas participado). Siempre hay muchos problemas presentados por las empresas para trabajar. Incluso puedes ganar un gran premio también.

Actualmente, puedes trabajar en estos 3 problemas:

  1. Santander Satisfacción del cliente
  2. BNP Paribas Cardif Gestión de Reclamaciones
  3. Yelp Restaurante Clasificación de fotos

Kaggle tiene una gran comunidad donde puedes colaborar con otras personas. Si está interesado, también puede trabajar para agregar y mejorar las características de las bibliotecas estadísticas y de aprendizaje automático en Github.

Algunos de estos son:

  1. scikit-learn
  2. pandas
  3. signo de intercalación

Espero que esto ayude.

A2A. Para colaborar con personas / empresas prueba estos pasos:

  1. ¡Crea una cuenta Kaggle y comienza a participar en competiciones, una a la vez! Participe activamente en los foros y haga que sus scripts sean lo más abiertos posible. Intente dar algunas ideas sobre los datos y podría terminar haciendo que un buen grupo de personas trabajen para futuras competiciones / proyectos.
  2. Habrá algunos MeetUps de personas afines en las grandes ciudades. Puedes buscar allí reuniones de científicos de datos y asistir a ellas.
  3. También puede estar activo en StackOverflow para encontrar personas afines.

Estas cosas (junto con un buen perfil vinculado) pueden atraer a las compañías a contratarle como científico de datos.