Cómo motivarse para estudiar datos científicos.

Estudiar la ciencia de la información a veces puede ser una tarea desafiante: hay una base amplia que necesita dominar (estadísticas, matemáticas, aprendizaje automático, bases de datos, fundamentos de la informática, …) y también está el conocimiento del dominio que también necesita desarrollar. .

¡Afortunadamente, hay una cantidad considerable de recursos disponibles en Internet y más allá para mantenerlo motivado! Estas son algunas de las cosas que me mantienen motivado:

Tomaré el aprendizaje automático como ejemplo aquí, pero creo que lo mismo podría valer para otros temas de ciencia de datos.

  • Invertir en la base. Tomarse el tiempo para dominar las cosas que constituyen la base de la ciencia de datos no es una estupidez, sino todo lo contrario. Descubrí que la mayor parte de mi frustración surgió de no dominar las estadísticas y las matemáticas correctamente. Tómese su tiempo para ir a través de estos dos temas con cuidado. Use la Academia Khan, los videos de YouTube, … Continúe aprendiendo estos temas aplicándolos también a través de, por ejemplo, más de 40 Estadísticas de Python para Recursos de Ciencia de Datos y Estadísticas con R Track | DataCamp.
  • Variedad. Es necesario leer artículos científicos para mantenerse al día con la investigación actual, pero si el tema trata sobre algo que está más o menos establecido, también puede intentar ver algunos videos sobre el tema. Por ejemplo, cuando leía artículos sobre aprendizaje automático / redes neuronales, también veía conferencias de Aprendizaje automático de Andrew Ng – Stanford University | Coursera. Alternativamente, también puede alternar entre recursos escritos: libros como Aprendizaje automático: El arte y la ciencia de los algoritmos que dan sentido a los datos: Peter Flach: 9781107422223: Amazon.com: los libros a veces son más accesibles que los documentos científicos Aprendiendo el anhelo!
  • Aprender haciendo: cursos y ejercicios. Leer y mirar es genial, pero la ciencia de los datos es una disciplina muy aplicada. ¿Por qué no aplicar el aprendizaje automático que has estudiado con Python o R? ¡Los resultados te sorprenderán y definitivamente te motivarán a ir aún más lejos! Considere los siguientes tutoriales Machine Learning en R para principiantes, Python Machine Learning: Scikit-Learn Tutorial o los siguientes cursos: Supervised Learning con scikit-learn (con Andreas Müller), Nonupervised Learning en Python (con Benjamin Wilson) o R: Nonupervised Learning (Con Hank Roark).
  • Aprender haciendo: proyectos. Otra forma de aprender haciendo es haciendo proyectos. Los tutoriales y los cursos anteriores ya le brindan una forma guiada de realizarlos, pero también podrían estar interesados ​​en ir a Your Home for Data Science (Kaggle) y desafiarse a sí mismos. Considere tomar el Tutorial Kaggle Python sobre Aprendizaje Automático o el Tutorial Kaggle R sobre Aprendizaje Automático antes de comenzar con Kaggle.
  • Aprender haciendo: pistas. La composición de su propio plan de estudios de ciencias de la información puede llevar mucho tiempo y esfuerzo, y definitivamente es un desafío seguir haciendo esto en cada paso del camino. Quizás necesites una pista que puedas seguir. Considere una pista de aprendizaje a su propio ritmo (Tracks | DataCamp), tomar un bootcamp (Top Data Science Bootcamps – The Comprehensive 2017 Guide and Rankings) o seguir un programa universitario (10 programas de Maestría en Análisis / Data Science por las mejores universidades en los EE. UU.).
  • Busca ejemplos en la vida real. La teoría es la teoría, pero lo que me fascina son los ejemplos que se encuentran en la vida real, como los autos que conducen o el reconocimiento facial. Encuentro que cuando estoy aprendiendo sobre algo que puedo relacionar con una situación de la vida real, me ayuda a mantenerme motivado. Aquí, leyendo sobre estudios de casos o haciendo estudios de casos de forma guiada como DrivenData: Curso de aprendizaje automático, Minería de textos: Bolsa de palabras, Minería de textos en R: ¿Están las menciones de GO de Pokémon realmente elevando los precios de las acciones? Una forma no guiada puede ayudarte.
  • Conéctate a lo que te interese. En relación con el consejo anterior, por supuesto, busque ejemplos que le interesen. Tal vez los autos que conducen solo están un poco lejos de su cama, ¡pero definitivamente hay otros ejemplos de uso de aprendizaje automático en la industria o área que le interesa!
  • Comunidad. La comunidad puede ser un gran motivador en su viaje de ciencia de datos. Asista a conferencias, únase a grupos de encuentros, conéctese con compañeros en LinkedIn, Facebook, Whatsapp, Slack, … grupos para hablar sobre su progreso y aprender lo que otros están pasando. Ahora, unirse y mantenerse al día con la comunidad no solo significa participación estática: ¡puede hacer mucho más! Acepte un desafío y prepare un tutorial, charla o demostración breve cuando asista a una conferencia. Por lo general, hay muchos profesionales en estos grupos que pueden proporcionarle comentarios o que pueden motivarlo a mirar más allá de lo que ya ve.
  • Empleos, pasantías, … Puede parecer un poco exagerado, pero conseguir un trabajo en la industria de la ciencia de la información puede ser un gran motivador, incluso si no es un trabajo de científico de la información. Al principio me emplearon como desarrollador junior de big data y me pareció muy estimulante aprender cada día.

¡Espero que esto ayude!

Hmmm, creo que los conceptos son la parte más fácil pero los detalles de la implementación son difíciles.

Por ejemplo, hubo un documento sobre el etiquetado POS que observó que muchas implementaciones calculan p (etiqueta | palabra) en lugar de p (palabra | etiqueta). Postuló que esto se debía a que las personas estaban usando su intuición para diseñar su modelo en lugar de una base sólida en estadísticas. Intuitivamente “He visto la palabra y quiero saber la etiqueta “, pero desde una perspectiva estadística “¿Cuál es la probabilidad de que esté en el estado interno de la etiqueta dado que he observado la palabra?”. El documento continuó implementando ambos métodos y examinó el desempeño relativo de los dos enfoques. He olvidado al autor, creo que fue de alrededor del ’98.

El punto es que los documentos le brindan la base teórica necesaria para manejar estas herramientas de manera más efectiva. Usted sabrá no solo la visión general sino también dónde la técnica es inapropiada. Por ejemplo, con qué fuerza el anova se basa en la suposición normal. Sin esto, puede aprender de memoria que la regresión requiere que la entrada sea iid y, por lo tanto, descartar mecánicamente las entradas correlacionadas, pero no sabrá por qué y, por lo tanto, buscará formas de presentar la entrada de manera diferente (por ejemplo, utilizando una función de transformación).

En cuanto a la motivación … bueno, la ciencia de los datos me parece absolutamente increíble. No puedo pensar en nada que prefiera pasar el día haciendo, así que no tengo ningún problema con la motivación como tal, solo para leer. Ahí se vuelve más matizado, a lo que realmente me refiero es a una apreciación de que el conocimiento es difícil de obtener. Aprendí que para mí es mucho más efectivo aprender leyendo lo que otros han hecho de lo que podría haber logrado por mi cuenta.

Parte de eso surgió cuando estaba colaborando con alguien que era un experto en regresión: resolví algunos problemas usando una SVM, otros usando un árbol de decisiones y otros usando la regresión, mientras que él siempre iba por la regresión. Me hizo darme cuenta de que si hubiera pasado por la universidad unos años antes, habría perdido el aprendizaje de SVM y nunca habría pensado en aplicarla. Así que desde que me fui, he hecho todo lo posible para mantenerme al día con los nuevos avances. Por ejemplo, recuerdo que estudié que las máquinas de Boltzmann son un enfoque teórico interesante, pero debido a que el recocido lleva prácticamente para siempre, no tienen aplicaciones prácticas. ¡Intente decírselo a un nuevo graduado!

No es que necesariamente disfrute de la lectura; me resultan difíciles las matemáticas, especialmente ahora después de 10 años en la industria. Es que quiero poder hacer cosas asombrosas y la única manera de mantenerme al frente de los niños es aprendiendo estas cosas más profundamente que ellos. A veces tienes que hacer tareas difíciles y aburridas para llegar al oro …

Encuentre un dominio para trabajar en el que esté interesado. La ciencia de datos por sí sola no es útil sin un dominio aplicado.