¿Cuáles son los trucos para aprender en un entorno en línea con redes neuronales profundas?

En general, las redes profundas se entrenan mejor con mini lotes de datos.

Las actualizaciones en línea del descenso de gradiente estocástico (es decir, un ejemplo por actualización) introducen demasiado sesgo en la estimación y actualización del gradiente.

Una forma de hacerlo es ejecutar su red en línea sin actualizar, acumular los datos entrantes en cada paso de tiempo y actualizar periódicamente su red una vez que haya recopilado un lote de datos suficientes (por ejemplo, 32, 64, 128, etc. puntos de datos) .

Si desea actualizar su red en cada paso, otra forma es tener un grupo mucho mayor de bancos de datos / búfer, por ejemplo, 10.000 puntos de datos. En primer lugar, ejecute su red en línea sin actualizaciones para recopilar datos completos para llenar este banco de datos. Luego, en cada paso, entrena en este banco de datos (mini gradiente de gradiente estocástico de lote), expulsa el primer punto de datos del banco de datos y agrega los últimos datos al banco.