Blog do Bidela:+:Base de Conhecimento:: Tecnologia da informação:+:Alfresco – Permitindo Leitura de Texto em Imagens ou PDF com OCR

Olá, hoje traremos um recurso muito útil para implementarmos em nosso sistema de GED. Uma grande funcionalidade em gerenciar documentos é um gestor de documentos ter o recurso de pesquisar o seu conteúdo. Hoje há maioria dos editores/processadores de texto já disponibiliza o recurso .doc, .docx, .txt, .xls, .xlsx, odt, . ods, . odp entre outros.

Isso facilita para criar termos de pesquisa autônomas e de aprimorarmos as pesquisas de tais documentos, mas quando referimos a um arquivo PDF ou um arquivo de imagem a maioria dos arquivos escanceados não são aplicados o OCR, isso dificulta quando precisamos buscar um boleto, nota fiscal, carteira de trabalho, carteira de identidade, CPF entre outros tipos de documentos digitalizados que queiramos gerenciar em um GED.

O recurso que estamos nos referindo e o OCR, um acrónimo para o inglês “Optical Character Recognition” ou Reconhecimento Óptico de Caracteres. Após transformar nosso arquivo em PDF ou imagem (.jpg, .png, .bmp …) pelo OCR os campos em texto será destacáveis, perceptível e, em alguns casos, manipuláveis. Mais o melhor proveito para se tirar desse recursos é podermos fazer regras para organizar os arquivo de forma automatizada, podendo classifica-los, por Cliente, Fornecedor, vencimento e outras possibilidades que a pesquisa de texto nos possa oferecer em nosso Alfresco.

Veja as diferenças de um arquivo que foi realizado seu upload para o Alfresco sem o recurso OCR.

Esse é um arquivo em PDF sem o OCR.

Esse é um arquivo em PDF em OCR.

A segunda imagem do exemplo apresentado, se reparar no canto superior esquerdo temos icone do OCR, isso indica que o arquivos tem o recurso de pesquisa de texto.

Mesmo que um arquivo já com o recurso de OCR seja carregado no contêiner do Alfresco, esse símbolo não iria aparece, mais ainda sim o Alfresco conseguiria interpretar o seu texto. O símbolo só aparece quando o OCR é gerado pelo Alfresco.

Vamos começar a instalação e configuração A baixo segue o link do projeto e ode também baixaremos os arquivos para adicionar o recurso ao Alfresco.

Softwares que são dependência para o perfeito funcionamento OCR no Alfresco

Repositório Oficial Alfresco Simple OCR

Este addon fornece uma ação para extrair texto OCR de imagens ou PDFs simples no Alfresco.

Liberação de complemento atual de estado é 2.3.1

Compatibilidade: A versão atual foi desenvolvida usando o Alfresco 5.2 e o Alfresco SDK 3.0.2, embora também deva ser executada no Alfresco 5.1, 5.0 & 4.2 (como é desenvolvido usando o Alfresco SDK 3.0)

Compatibilidade do navegador: 100% suportado

Software OCR Suportado:

PDFSandwich
OCRmyPDF
Windows.Media.OCR como serviço local (o desenvolvedor não oferece o software, você deve criá-lo por conta própria)

A interface de ação Languages Share atualmente é fornecida em inglês e o comportamento interno em inglês, espanhol, português brasileiro, alemão e italiano. O catálogo de idiomas suportados por OCR depende diretamente do software OCR selecionado (Tesseract OCR ou Windows.Media.OCR)

Nenhum recurso original do Alfresco foi sobrescrito

Apesar de termos três AddOn para implementarmos o recursos do OCR em nosso GED, esse artigo vai tratar do PDFSandwich, por dois cruciais motivos:

Documentação mais simples e objetiva;
E pelo nome me dar fome de saber.

BeeCon 2016

Este addon foi apresentado um BeeCon 2016. Você pode encontrar detalhes adicionais em Integrating a simple OCR in Alfresco
Download do plugin pronto para implementação

A distribuição binária é feita de dois arquivos .jar para serem implementados no Alfresco como módulos, abaixo segue link para downloads:

Instalação

Você pode instalá-los colocando os arquivos jar na pasta do módulo:

Copy repo JAR to /opt/alfresco/modules/platform (crie o diretório caso ele não exista)
Copy share JAR to /opt/alfresco/modules/share

Reinicie o Alfresco depois de copiar os arquivos.

Construindo os artefatos

Se você é novo no Alfresco e no Alfresco Maven SDK, você deve começar lendo o tutorial de Jeff Potts sobre o assunto.

Você pode construir os artefatos a partir do código-fonte usando o pacote $ maven mvn clean

Dependências

OCR software para Linux depende de programas como GS ou ImageMagick, que também são dependências para Alfresco. Para evitar problemas, é recomendado instalar o Alfresco a partir do zero, deixando o sistema operacional a instalação dos pacotes.

Você pode encontrar instruções detalhadas para executar a instalação do Alfresco a partir do zero na Alfresco Documentation.

Se você estiver usando o Linux e o seu Alfresco estiver instalado usando assistentes padrão, deverá prestar atenção à execução do ambiente para programas iniciados dentro de sua JVM e deve ajustar as versões e a precedência do caminho.

Você pode encontrar mais opções para resolver este problema na página de FAQ.

Uso de regra

Incluindo uma regra em uma pasta, selecionando Extrair ação de OCR

Cada imagem solta nesta pasta será enviada ao software OCR para produzir um arquivo PDF pesquisável.
Para executar esta operação de forma assíncrona, basta usar a verificação fornecida pelo Alfresco para configurar a regra.
Para permitir que o Alfresco funcione em caso de erro de OCR, defina a verificação da regra Continue on error

Uso de ação

Pressione a ação OCR no navegador de documentos ou detalhes do documento
A ação será executada no modo assíncrono, então o resultado estará disponível após um tempo

Problemas Conhecidos

Ao usar o WebDAV para carregar documentos, somente a execução de regras assíncronas é permitida

Instalando o ImageMagick 7

Para continuar nesse artigo é excencial que realize a leitura da seguinte postagem

https://blog.bidela.com.br/debian/debian-copilando-e-instalando-imagemagick7/

Supondo que já tenha lindo o artigo acima ou já tenha o ImageMagick instalado e funcional em seu ambiente, vamos continua…

Instalando PDFSandwich

Para continuar nesse artigo é excencial que realize a leitura da seguinte postagem

https://blog.bidela.com.br/debian/debian-instalando-e-configurando-pdfsandwich-tesseract/

Supondo que já tenha lindo o artigo acima ou já tenha o PDFSnadwitch instalado e funcional em seu ambiente, vamos continua…

Configurando os parâmetros do PDFSandwich no arquivo de configuração do Alfresco

Se nenhuma mensagem de erro ocorrer, vamos para o passo seguinte que é configurar o arquivo alfresco-global.properties

Acessando o diretório do Alfresco.

cd /opt/alfresco-community/

Incluído as seguintes linhas no arquivo de configuração do Alfresco alfresco-global.properties.

vim ./tomcat/shared/classes/alfresco-global.properties

Iremos acrescentar as seguintes linhas:

ocr.command=/opt/alfresco-community/scripts/pdfsandwich #caminho do script para o pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang  por+spa+eng+fra
ocr.server.os=linux

Salve e sai da edição do arquivo.

Criando o script do pdfsandwich

vim ./scripts/pdfsandwich

Inclua as seguintes linhas:

#!/usr/bin/env bash
#set -o xtrace #Comando para depuração / solução de problemas
/usr/bin/pdfsandwich $@

Tornando o script executável

chmod +x ./scripts/pdfsandwich

reiniciando o alfresco

./alfresco.sh restart

Se está gostando das postagens, se inscreva em nosso site para receber mais materiais de nosso blog, é grátis, você vai ser notificado quando novas postagens forem publicadas, recebendo assim mais conteúdos de qualidades e ainda vai dar aquela força pra nossa comunidade. E não esquece de compartilhar em suas redes sociais os botões estão no final desse página.

No final dessa página temos um campo onde você é bem vindo para deixar seus comentários. Pode ser uma opinião, elogios, críticas ou correções. Pode ficar a vontade para tirar suas dúvidas ou colaborar acrescentando algo que tenhamos deixado passar desapercebido.

Sua visita e feedback é muito importante para o nosso espaço.