Implementación de un sistema de Codificación Automática de Textos

Año: 2018
Origen: Servicio
Municipio/Servicio:
Integrantes
Descripción General
Indicadores
Integrantes
  • José Luis
  • Nicolás
  • Nicolás
  • Randy
Descripción General

Describa de manera general la iniciativa que está postulando:

Sistema en base a un programa de aprendizaje de máquinas, desarrollado en lenguaje R que permite convertir de forma automática un determinado texto a un código que lo clasifica. Se utiliza para procesar encuestas donde las respuestas de las personas a preguntas vinculadas a ocupación y sector económico, se registran como texto y son posteriormente clasificados según directrices internacionales. Reemplaza un proceso manual de codificación, de uso intensivo de horas de trabajo para su ejecución. Mejora eficiencia, eficacia y precisión del proceso de codificación de los clasificadores internacionales que utilizan los distintos productos del INE y del Sistema Estadístico Nacional (SEN). En definitiva, la iniciativa corresponde a la implementación de un shock tecnológico con impacto positivo en la calidad de los productos y en sus costos de producción. Alta escalabilidad. Desde 2019 se utilizará de manera transversal en el INE y es transferible a otros servicios y/o encuestas públicas.

¿Por qué considera que la iniciativa es innovadora? 

No existen otras soluciones de codificación automática de texto en organismos públicos de Chile y Sudamérica. En 2017, la ocupación ?Comerciante establecido?, se observó más de 1.500 veces en la Encuesta de Empleo. Fue codificada manualmente en el código correcto en un 83%, pues se codificó también en más de siete códigos diferentes. El sistema automático es más rápido y preciso, evita estos errores de codificación múltiple y elimina un consumo de más de 3.600 horas efectivas de trabajo al mes.

¿Cuál es el problema u oportunidad identificado del que se hace cargo esta innovación?

El sistema propuesto es la solución a la operación manual del proceso de clasificación y codificación de un gran volumen de textos que generan las preguntas referidas a rama de actividad económica y ocupación laboral. Todo, pensado para implementarse en los distintos productos del INE, tales como el Censo de población, las Encuestas de Empleo, de Seguridad Ciudadana, de Presupuestos Familiares, de Uso del Tiempo y para las Estadísticas Vitales.

¿Desde dónde se origina la iniciativa?

El proyecto fue desarrollado íntegramente por funcionarios del INE, desde su diseño, programación, marcha blanca, hasta funcionamiento. La aplicación a Censo fue escalada por una unidad especializada al resto de los productos consumidores de codificación. Posteriormente se determinó a nivel institucional, que el sistema debía ser ejecutado en un portal web como servicio compartido, transversal a todos los productos del INE que requieran codificación a través de un portal web.

Describa el proceso de gestión e implementación de la iniciativa. Incluya además si durante este proceso la iniciativa fue prototipada, testeada, evaluada y piloteada, antes de alcanzar su estado actual o final.

A partir de los primeros datos del Censo 2017, se obtuvo un set de cerca de 180 mil textos clasificados a mano. Dada la necesidad de codificar todos los textos que describen el sector económico de los más de 8 millones de ocupados que se pesquisarían en el mismo Censo, se desarrolló, como propuesta, un método que utilizó los casos ya codificados, para predecir matemáticamente su respectivo código, lo que se logró con una coincidencia de 85%. Posteriormente, el sistema es implementado en la Encuesta de Empleo, para los clasificadores internacionales de rama de actividad económica y ocupación, pero con mejoras en el proceso de predicción, a través del uso de algoritmos de vanguardia como el Support Vector Machine, cuyos resultados de coincidencia alcanzan hasta 95%.

¿A quién o a quiénes beneficia la iniciativa? Especifique si los usuarios son funcionarios/as  y/o ciudadanos/as. Adicionalmente, cuantifique la cantidad de usuarios/as que se ven beneficiados actualmente con la iniciativa.

Impacta positivamente en los usuarios al interior del INE, pues disminuye significativamente el tiempo y costo de procesamiento de la codificación: en términos concretos, en la ENE se pasa de utilizar 22 personas permanentes con jornada completa, a utilizar solo 4 personas, incluyendo validaciones posteriores incluidas. Eso representa un ahorro de más de 70% del costo mano de obra. La automatización permite reducir los tiempos de espera de procesamiento entre 4 a 6 días por mes.

¿Qué repercusiones positivas generó en los/as usuarios/as (funcionarios/as o usuarios/as-ciudadanos/as) la solución implementada?

Permitió cambiar el paradigma de una fase clave en la producción estadística, es decir, en la codificación. El cambio se vio reflejado en la conformación de un equipo de trabajo interno INE para potenciar y sofisticar los métodos de predicción para su posterior aplicación en los datos de empleo. Adicionalmente, la iniciativa escaló a las otras encuestas del INE, a través del desarrollo de una plataforma web para automatizar de manera transversal el proceso.

Indicadores
  • Nombre: Gasto en los procesos
  • Valor Antes: M$17.000 por mes
  • Valor Después: M$4.000 por mes
  • Comentarios: Ahorro financiero

 

  • Nombre: Horas-hombre en los procesos
  • Valor Antes: 700 horas efectivas al mes
  • Valor Después: 400 horas efectivas al mes
  • Comentarios: Ahorro en horas de trabajo

 

  • Nombre: Tiempo de espera para el usuario
  • Valor Antes: Un mes. Inicia y finaliza el día 22 de cada mes.
  • Valor Después: Un mes. Inicia y finaliza el día 15 de cada mes para anticipar la entrega
  • Comentarios: Disminución de los tiempos

 

  • Nombre: Cobertura
  • Valor Antes: Cero encuestas codificadas automaticamente
  • Valor Después: 5 productos INE codificados automáticamente a 2019
  • Comentarios: Mayor cobertura
Menú