Tecnología OCR, la oficina sin papeles

10 feb 2003

Las enormes cantidades de papel generado y conservado por las empresas hacen muy difícil su control, manejo y aprovechamiento. La tecnología OCR de captura automática digital es la solución más efectiva. El procesamiento manual de documentos y formularios representa un problema para muchas empresas. Incluso cuando éstas funcionan bien. Además de suponer una gran pérdida de tiempo, dinero y recursos, el almacenamiento tradicional de datos es menos seguro y su explotación, más compleja y menos efectiva.

“"La información sin estructurar ni indexar crece cerca de un 200% cada año, lo que hace imprescindible un sistema para archivarla y organizarla, sin que el espacio necesario para ello ahogue a la organización”", afirman desde la consultora The Yankee Group. “"Nuestra compañía podría ser hasta tres veces más eficaz si se aprovechara toda la información que atesoramos cada día"”, añade Lew Plat, ex presidente y director general de Hewlett Packard.

 

Digitalización de datos

Para dar solución a los problemas que acarrea el manejo de la documentación en papel, las tendencias actuales apuntan al desarrollo de sistemas de gestión documental, que consisten en la informatización y el archivo digital de la información manejada por la empresa.

La aplicación informática más adecuada en estos casos es la de captura automática: es más rápida y barata, e incrementa la calidad de los datos. Además, no se trata de una tecnología de futuro, sino que desde hace ya algunos años existe una serie de herramientas, tanto de hardware como de software, que se combinan con una eficacia más que demostrada.

El principal ejemplo de este tipo de sistemas es la tecnología de Reconocimiento Óptico de Caracteres, más conocida por las siglas OCR. Con ella es posible convertir documentos que anteriormente estaban en papel, en ficheros manipulables por cualquier procesador de textos.
 

¿Cómo funciona?

El primer paso es generar una imagen digital del documento con un escáner periférico. Una vez hecho esto, entra en juego la herramienta de OCR, que se encargará de analizar e interpretar la imagen para obtener, con un elevado grado de acierto, el texto que contiene. Después, lo trasladará a un procesador de textos.

En el proceso de interpretación, que es la esencia de todo OCR, las primeras aplicaciones organizaban los patrones de puntos formando caracteres, y utilizaban varias técnicas para determinar de qué letra se trataba. Sirva como nota anecdótica que el primer programa de OCR, presentado en 1959 por Intelligent Machine Corporation, tan sólo era capaz de leer un tipo de letra, con un tamaño fijo de punto.

En una línea de progresiva evolución, se introdujo un sistema de fuentes universales capaz de leer páginas complejas que mezclaban varias tipografías. Con este nuevo sistema, en lugar de usar reglas se pasó a la utilización de redes neuronales, es decir, algoritmos capaces de aprender a partir de ejemplos.

En la actualidad, se ha optado por incorporar una tecnología de reconocimiento óptico, basada en un sistema de red neuronal, que puede identificar las palabras sin necesidad de examinar cada una de las letras que la componen.

Este sistema es muy útil, ya que, en muchos casos, los caracteres individuales son ilegibles o están mal escritos, por lo que resultan difíciles de aislar y reconocer. A estas alturas, las aplicaciones OCR han alcanzado una precisión que pocos se hubieran atrevido a vaticinar hace pocos años.

¿Qué ofrece el mercado?
 

El de las aplicaciones OCR es otro claro ejemplo de que el mercado informático brinda cada vez más opciones interesantes, dependiendo de las necesidades y presupuestos de cada empresa. Así, compañías como Adobe Systems, IRIS o Scansoft, por citar algunos ejemplos, comercializan programas cuyo precio oscila entre los 150 y los 1.200 euros. Estos sistemas están destinados a empresas con necesidades generales, que requieren tratar gran cantidad de documentos en papel de formatos muy variados y fuentes diversas.

Además, estas aplicaciones permiten reconocer múltiples idiomas, hasta 114 en algunos casos, y generar documentos informáticos altamente compatibles con los procesadores de textos que se utilizan habitualmente en la mayoría de oficinas.

También existen otras herramientas informáticas más específicas y, por lo tanto, menos asequibles (a partir de 8.000 euros), que han sido diseñadas para resolver problemas concretos. Por ejemplo, la compañía ReadSoft tiene en el mercado un sistema destinado al reconocimiento de formularios. De esta forma, el papel acumulado se transforma en un práctico DVD, capaz de almacenar miles de páginas de información.

Fuente: Miguel G. Rodríguez. Artículo publicado en la revista de correos más cerca, nº 2 - Más información: www.readsoft.es / www.sdm.es


Máquinas inteligentes
 

Correos dispone de 21 equipos para el tratamiento de la correspondencia normalizada, capaces de clasificar 11 millones de envíos cada día, a una velocidad de 40.000 envíos/hora y por máquina. Cada uno consta de una línea OCR que identifica las direcciones de los envíos y las transforma en códigos de barras que se imprimen en las cartas, y una clasificadora con 400 salidas que lee los códigos de barras y posibilita la agrupación por código postal, itinerario del cartero, etc.

Para facilitar las operaciones de vaciado y cancelado del correo procedente de buzón antes de proceder a su clasificación, también se han comprado 15 máquinas de pretratamiento destinadas a los centros donde se están instalando los equipos de automatización. Y, a lo largo de 2003, Madrid, Barcelona, Valencia, Vitoria Y Sevilla contarán con los siete primeros equipos adquiridos para correo tamaño folio (flat).