La tendencia actual en las empresas es trabajar cada vez más con documentos digitales, ya sean PDF, Word, Excel o cualquier otro formato de archivo. Además, la cantidad de documentos que se manejan no para de aumentar. Es por ello que el uso de sistemas de gestión documental y de programas OCR está cada vez más extendido. Gracias a estos sistemas es mucho más fácil manejar grandes volúmenes de información, manteniéndola organizada y accesible.
Pero en una empresa no se trabaja solo con documentos digitales, con frecuencia se manejan documentos en formato físico: facturas, correo tradicional, libros, manuales, etc. Hay empresas que en un intento de digitalizar estos documentos utilizan un escáner para guardarlos en formato digital. Pero esta es solo una solución a medias, ya que esos archivos se guardan en formato imagen, y no se pueden editar.
Entonces, ¿qué hacer cuando esos documentos con los que se trabaja están en formato físico y no en formato digital? ¿Cómo integrarlos en el sistema de gestión documental ya existente? Es aquí cuando entra en juego el OCR.
En la Guía de Gestión Documental podrá acceder a una comparativa de las características y los precios de los programas más punteros.
Índice:
- ¿Qué es OCR?
- Organizaciones que utilizan un sistema OCR
- Funcionamiento de OCR
- Puntos positivos del OCR
- Puntos negativos del OCR
- Compatibilidad con gestores documentales
- Escáneres adequados
- Diferentes programas de OCR
- Coste del sistema
- Elección de un software conveniente
¿Qué es OCR?
El Reconocimiento Óptico de Caracteres o OCR en sus siglas en inglés (Optical Character Recognition) es una funcionalidad que permite convertir distintos tipos de documentos físicos en datos digitales editables.
Se abre la posibilidad de hacer accesibles a través de ordenador aquellos documentos impresos o escritos con máquina de escribir que antes solamente estaban disponibles en formato físico. También la de transformar todos aquellos documentos digitales que contienen texto que no se puede editar en documentos editables sobre los que poder trabajar. Puede que trabaje en una oficina en la que se manejan más de 500 documentos físicos al día. O quizá su empresa está pensando en hacer una transformación digital y trabajar menos con documentos en papel. En cualquiera de estos casos, los programas OCR son una solución a tener en cuenta.
Consejo: un paquete de gestión documental puede ofrecer muchas funcionalidades distintas, pero no todas las empresas necesitan lo mismo. Por tanto, es recomendable partir de lo que la empresa necesita de verdad y no de lo que ofrecen los paquetes que ya conoce. En el digiBook Gestión documental: funcionalidades clave los jefes de proyecto encuentran listas de control en las que se puede indicar los requisitos y los deseos que tienen para un gestor documental.
¿Qué empresas podrían sacar provecho de este tipo de programas?
Gracias a la versatilidad del reconocimiento óptico de caracteres o OCR, podemos encontrar multitud de usos para este tipo de programas.
La transformación de texto en imagen a texto editable puede ser una opción a tener en cuenta tanto para propietarios de PYMES como para grandes empresas. La conversión de un texto en PDF no editable en un PDF editable facilita la tarea de los trabajadores, acelerando el proceso de indexado y búsqueda en el mismo. Esto hace que el software OCR sea especialmente interesante para aquellas empresas que pretenden llevar a cabo su transformación digital. Pueden convertir sus oficinas en oficinas sin papel (paperless office), haciendo mucho más rápida su transición y facilitando considerablemente el flujo de trabajo.
Supongamos por ejemplo un despacho de abogados en el que se reciben mensualmente una gran variedad de documentos en papel o a través de fax. Esta empresa podría utilizar una solución OCR para crear una carpeta a la que van a parar todos los documentos que se escanean en cuanto llegan a la oficina, ya sean a través de formato físico o digital. Gracias al software OCR esos documentos se convertirían directamente en PDF editable, en archivo de Word o cualquiera que sea el formato con el que los trabajadores estén más familiarizados. Así se ofrece acceso instantáneo a todos los trabajadores de la oficina a los archivos, además de habilitar la función de búsqueda en los mismos para agilizar la búsqueda de información.
También se puede utilizar este tipo de software para la digitalización de libros o documentos históricos, lo que lo convierte en un software útil para bibliotecas y museos. Incluso aquellas empresas con una larga trayectoria que han acumulado grandes cantidades de documentación durante años, que permanece inaccesible archivada en cajas.
Es útil también para hacer accesibles los textos para personas con discapacidad visual o auditiva, para clasificar automáticamente imágenes que incluyen algún tipo de texto, etc. Hay incluso programas OCR capaces de reconocer y digitalizar partituras musicales, por lo que hasta una escuela de música podría beneficiarse del uso de este tipo de programa.
Pongamos como ejemplo un caso real en el que se podría aplicar un sistema OCR:
Una PYME recibe mensualmente un número elevado de facturas tanto en formato digital como en formato físico. Se comienza a plantear un sistema para digitalizarlas y mantenerlas organizadas, para más tarde acceder a ellas de manera rápida. Lo que esta empresa ha hecho hasta ahora para mantener un control de dichas facturas es escanearlas y almacenarlas mes a mes en formato imagen (PDF o JPG).
Es recomendable que la cantidad de documentos a digitalizar sea considerable para que la inversión necesaria para la instalación del software OCR sea rentable. La cantidad de documentos aproximada sería de unas 500 facturas al mes. Además, si las facturas tienen siempre un formato similar (por ejemplo, provienen siempre de los mismos proveedores), facilitará la labor de configuración del programa OCR. Si además la empresa tiene implantado un sistema de gestión documental, lo ideal sería que ambos programas pertenecieran al mismo proveedor. Así se facilitará la labor de integración de los documentos digitalizados en el CRM .
Imaginemos ahora que un trabajador de dicha PYME necesita buscar una determinada partida. Gracias a la labor de digitalización se podría realizar una búsqueda rápida de la palabra clave en lugar de leer de arriba abajo todas las facturas del proveedor.
¿Cómo funciona un sistema OCR?
El primer paso sería el escaneado del documento que se quiere convertir en texto digital editable. Una vez hecho esto, el documento se podría leer con total normalidad en la pantalla. En cambio, para el ordenador no sería más que una imagen, una serie de manchas blancas y negras que no contiene palabras reconocibles.
Partiendo de ese archivo, el programa OCR lo somete a una fase de preprocesado, fundamental ya que de ella depende la calidad del producto final. Primero se procede a la corrección de la inclinación de la página, la eliminación de imperfecciones del documento y la conversión de la imagen a blanco y negro. A continuación, el software zonifica el documento, lo que le permite distinguir entre tablas, columnas, párrafos, etc. Esto ayuda a mantener su formato original. Es ahora cuando se analiza la página píxel por píxel para detectar los símbolos y caracteres de manera individual.
En la fase de postprocesado se comparan las palabras detectadas por el software con un diccionario integrado. Es en esta fase cuando se detectan y corrigen errores, dando como resultado el documento editable sobre el que se podrá trabajar.
Ventajas del Reconocimiento Óptico de Caracteres
Tradicionalmente, el proceso de digitalización de textos ha sido llevado a cabo de manera manual por parte de un trabajador de la empresa. Como consecuencia, se invierte una cantidad considerable de tiempo y recursos. Además, se corre el riesgo de que se cometan errores humanos: cuando un trabajador realiza una tarea monótona y repetitiva, como puede ser la transcripción de textos, tiende a cometer un mayor número de errores.
En cambio, los programas OCR permiten simplificar el proceso, ahorrar tiempo y emplear al trabajador en otra tarea más productiva. Y no sólo se evitan errores derivados de la transcripción manual: la velocidad media de lectura de estos programas puede llegar a los 1.200 caracteres por segundo, reduciendo drásticamente la velocidad de conversión.
El archivo resultante sería un documento de texto digital editable, con el que se puede trabajar desde cualquier procesador de texto. Una vez digitalizado el texto, éste se puede copiar, editar e incluso realizar una búsqueda dentro del propio documento. A la hora de convertir el archivo, el software OCR permite el reconocimiento de diferentes fuentes y tipografías, incluso de las distintas secciones del documento (tablas, imágenes, textos, etc.) Esta característica hace de los programas OCR una tecnología versátil y aplicable a multitud de campos y sectores.
Este tipo de programas presenta una clara ventaja frente al simple escaneado: en este caso el documento se guardaría solo en formato de imagen. El trabajador tendría que navegar entre multitud de carpetas para más tarde leer todo el texto de los archivos que piense que puedan contener información relevante. Por el contrario, gracias a la conversión en documento digital, una simple búsqueda de la palabra clave en los documentos revelaría si la información necesaria se encuentra en él o no.
La tecnología OCR también ofrece la ventaja del ahorro de espacio en el disco duro de los ordenadores de la empresa. Un archivo en formato texto ocupa aproximadamente 1/3 menos que una imagen que contiene la misma información.
Inconvenientes del Reconocimiento Óptico de Caracteres
Los programas OCR también pueden presentar ciertas desventajas o limitaciones. A la hora de reconocer caracteres escritos a mano o distintos tipos de tipografías menos comunes o artísticas pueden cometer errores en el proceso de digitalización. También se pueden presentar problemas al convertir textos con muchas columnas o que incluyen encabezados o pies de página.
La imagen debe tener una resolución y calidad adecuada. Si es demasiado pequeña, el texto aparece borroso o el fondo es demasiado oscuro, la calidad de la conversión se verá considerablemente reducida. Normalmente, se requiere un mínimo de 300 ppp (puntos por pulgada), siendo a veces necesario hasta 600 ppp cuando la letra es muy pequeña. Las imágenes o textos en colores también pueden presentar problemas, es por ello que se obtienen mejores resultados con textos e imágenes en escala de grises.
Otro inconveniente a tener en cuenta es que si un texto tiene palabras en varios idiomas, el programa OCR sólo podrá ser programado para reconocer uno de ellos. Supongamos que el texto a convertir está escrito en su mayoría en español, pero hay varias palabras en inglés. El programa OCR utilizará su diccionario integrado en español, por lo que le sería imposible reconocer una segunda lengua simultáneamente. En estos casos habría que hacer una comprobación posterior y cambiar a mano las palabras que están en otro idioma.
En la Guía de Gestión Documental se habla con mayor detalle de cuáles son los parámetros de calidad mínimos que deben cumplir los documentos. Además de todo lo anterior, son necesarios unos conocimientos técnicos para la instalación del software OCR y su integración con el sistema informático de la empresa.
Integración de OCR y sistema de gestión documental
Especialmente útil para aquellas empresas que aún tienen una gran cantidad de documentación en formato físico. No sólo quieren convertir sus documentos a formato digital, sino además mantenerlos organizados y accesibles. Así no sólo se ahorrará tiempo y espacio en la organización de documentos, sino que se mejorará el flujo de trabajo (workflow) dentro de la organización. Al digitalizar los documentos de manera más eficaz conforme se van recibiendo en la oficina, la persona encargada sólo deberá clasificarlo de manera adecuada en el sistema de gestión documental, quedando directamente disponible para el resto de trabajadores de la empresa.
Hay muchos programas de sistema de gestión documental que incorporan la funcionalidad OCR. Es una opción a tener en cuenta si el objetivo final no es solo la digitalización de documentos, sino también la posterior gestión de los mismos. En la Guía de Gestión Documental puede encontrar una comparativa de programas indicando cuáles son los que incorporan dicha funcionalidad.
¿Es necesario un escáner especial?
Respecto al tipo de escáner que se debe utilizar para los documentos sobre los que más tarde se aplicará el software OCR, cualquiera puede funcionar. Tan solo debe cumplir los requisitos mínimos de resolución necesarios, para que la imagen obtenida tenga la calidad mínima requerida por el programa. No obstante, los escáneres con alimentación automática pueden ser más adecuados que los escáneres planos para este tipo de proyectos. Al no necesitar que haya una persona pendiente de poner una nueva página cada vez que se ha acabado de escanear la anterior, aceleran el proceso.
¿Sabías que? El software OCR es sólo una de las muchas tecnologías que existen para facilitar la digitalización. Acceda al Premium digiBook Digitalización y descubra qué otras tecnologías hay para digitalizar y cuáles son los pasos a seguir durante un proceso de digitalización.
Herramientas de software OCR en el mercado
Hay multitud de soluciones OCR, desde las más sencillas hasta algunas integradas en soluciones mucho más complejas. Existen incluso aplicaciones para móvil que ofrecen convertir cualquier texto al que se ha hecho una fotografía en un archivo de texto editable. Los resultados no serán los mismos que los que se pueden llegar a obtener con un programa OCR profesional.
Para ordenador, se ha de tener en cuenta antes de adquirir cualquier software el sistema operativo con el que trabaja la empresa. Algunos proveedores no ofrecen una herramienta OCR compatible con todos los sistemas operativos del mercado.
Por supuesto, también es necesario asegurarse de que el idioma en el que están los documentos con los que se va a trabajar está incluído entre los ofrecidos por el programa OCR.
Existen otro tipo de programas complementarios al software OCR, como pueden ser las herramientas ICR (Intelligent Character Recognition o Reconocimiento de Caracteres Inteligente), que se especializan en el reconocimiento de caracteres manuscritos. También son interesantes las herramientas OMR (Optical Mark Recognition o Reconocimiento Óptico de Marcas), que analizan capturas de marcas hechas por humanos, muy útiles en encuestas y formularios.
Algunos proveedores ofrecen soluciones integradas con todas las funcionalidades descritas. Obtenga la Guía de Gestión Documental para conocer las distintas opciones de software OCR disponibles en el mercado y las características de cada una de ellas.
¿Cuánto cuesta un software OCR?
El rango de precio de una herramienta OCR varía según su nivel de precisión y efectividad.
Dependiendo del proveedor elegido , se podría adquirir el software realizando un solo pago o a través de una suscripción mensual o anual. También variará el precio dependiendo del sistema operativo en el que se vaya a realizar la instalación.
El precio de las soluciones más populares varía entre los 48 € o 720 € al año, pero las licencias más completas pueden llegar hasta los 4000 €, realizando un único pago.
Es cierto que en la red también hay una gran oferta de soluciones gratuitas. Quizá estas puedan cubrir las necesidades de pequeños negocios o de aquellas personas que no necesiten garantizar una óptima conversión del texto digitalizado. También es posible hacer una comprobación exhaustiva del texto completo tras su conversión.
Para la gestión documental de PYMES y grandes empresas es muy importante tener en cuenta la seguridad en la manipulación de ciertos documentos que pueden contener datos delicados (perfiles de clientes, información confidencial, etc.) Sería arriesgado poner este tipo de información en manos de un software OCR gratuito.
Por lo tanto, para aquellas empresas interesadas en obtener los mejores resultados, fiables y de calidad, es recomendable adquirir una solución que se ajuste a sus necesidades reales. El software OCR de pago asegura una mejor usabilidad, permiten el reconocimiento de un mayor número de idiomas y de fuentes o tipografías. Garantiza un mejor mantenimiento de la estructura del texto original y lo que es más importante: una mayor precisión a la hora de convertir el texto. Además, estas soluciones de pago ofrecen un servicio de soporte técnico para la instalación del software y su posterior mantenimiento. Es especialmente conveniente contar con un servicio de este si aparece cualquier tipo de problema con el programa.
Obtenga la Guía de Gestión Documental para acceder a una comparativa detallada de los precios de las mejores soluciones OCR del mercado.
¿Qué software es el adecuado para mí?
El software OCR adecuado para su empresa variará dependiendo de necesidades que pretende cubrir con él, del sistema operativo en el que se instalará el programa, del presupuesto disponible, etc. También sería imprescindible, si ya se ha implantado un sistema de gestión documental en la empresa, comprobar que el software OCR sea compatible con él.
En el caso de no tener sistema de gestión documental, quizá quiera plantearse si en un futuro próximo implantará uno, ya que muchos de ellos ya incluyen la funcionalidad OCR.
En todo caso, siempre se podrá ajustar la configuración del programa para evitar en la medida de lo posible cualquier tipo de errores en la conversión de documento físico a documento digital.
Para averiguar cuál es la herramienta OCR que mejor se adapta a las necesidades de su empresa y cómo configurarla de manera óptima, puede descargar la Guía de Gestión Documental .