Text this: Fusión temprana de descriptores extraídos de mapas de prominencia multi-nivel para clasificar imágenes