Esse é mais um artigo que vem embalado no artigo sobre a instalação e configuração do Afresco no Debian. O PDFSandwich é mais um software que é necessário para darmos mais funcionalidades (recursos) a sistema de GED. Caso queira saber mais sobre essa ferramenta é só ler esse conteúdo (aqui).
Vamos falar um pouco sobre o software PDFSandwitch.
Introdução ao PDFSandwitch
Confesso que quando li esse nome pera primeira vez, achei que fosse alguma brincadeira, mas depois lendo a documentação no site do software, percebi a analogia.
O Que É PDFSandwitch
PDFSandwich gera arquivos PDF por OCR “sanduíche”, ou seja, arquivos PDF que contêm apenas imagens (sem texto) serão processados por reconhecimento óptico de caracteres (OCR) e o texto será adicionado a cada página de forma invisível “atrás” das imagens.
PDFSandwich é uma ferramenta de linha de comando que deve ser útil para livros ou periódicos digitalizados por OCR. É capaz de reconhecer o layout da página mesmo para texto de várias colunas.
Essencialmente, PDFSandwich é um script wrapper que chama os seguintes binários: unpaper (desde a versão 0.0.9), convert, gs, hocr2pdf (para tesseract anterior à versão 3.03) e tesseract. É conhecido por rodar em sistemas Unix e foi testado em Linux e MacOS X. Ele suporta processamento paralelo em sistemas multiprocessadores.
Embora o PDFSandwich funcione com qualquer versão do tesseract a partir da versão 3.0, o tesseract 3.03 ou posterior é recomendado para melhor desempenho. Por padrão, o PDFSandwich é executado sem papel para melhorar a legibilidade das páginas digitalizadas e para melhorar o OCR. Por exemplo, páginas levemente giradas são automaticamente endireitadas e as bordas escuras removidas. Para arquivos PDF digitalizados de forma otimizada, isso pode ser desativado pela opção -nopreproc para acelerar o processamento.
Instalação do PDFSandwitch
Como a maioria dos sistema baseados em Unix, precisamos realizar as instalações de dependência.
Instalando dependências paraPDFSandwich
aptitude install libtesseract3 libtesseract-data libtesseract-dev tesseract-ocr-por tesseract-ocr-fra tesseract-ocr-eng tesseract-ocr-spa tesseract-ocr
Vamos realizar o download do Tesseract. Como de costume irei realizar o download do arquivos no diretório /tmp
cd /temp
wget gdebi tesseract-ocr_4.0.0-2_amd64.deb
realizando a instalação do pacote deb do tesseract.
gdebi tesseract-ocr_4.0.0-2_amd64.deb
Preparando a instalação do PDFSandwitch
vamos instalar a versão mais atualizada do PDFSandwich. Vamos fazer o downloads no diretório User/Downloads.
Link para downloads
- Repositório Linux: https://pkgs.org/download/pdfsandwich
- Repositório desenvolvedor: https://sourceforge.net/projects/pdfsandwich/
Criando diretório para receber o downloads e acessadno o direotiro.
mkdir /home/controlador/Downloads/pdfsandwich
cd /home/controlador/Downloads/pdfsandwich
Vou usar o repositório Linux, caso deseja usar o arquivo do repositório do desenvolvedor é só alterar o nome do arquivos nos comando seguintes.
- wget https://ufpr.dl.sourceforge.net/project/pdfsandwich/pdfsandwich%200.1.7/pdfsandwich_0.1.7_amd64.deb
- wget https://megalink.dl.sourceforge.net/project/pdfsandwich/pdfsandwich%200.1.7/pdfsandwich-0.1.7.tar.bz2
Realizando a instalação
Vamos usar o gdebi para realizar a instalação pacote dep PDFSandwich
gdebi /home/controlador/Downloads/pdfsandwich/pdfsandwich_0.1.7_amd64.deb
Verificando para verificar a instalação do PDFSandwich podemos realizar o seguinte comando.
pdfsandwich -version
Se tudo foi na mais pura excelências as seguintes informação deve ser exibidas na tela.
pdfsandwich version 0.1.7
Referências:
Site Desenvolvedores:
PDFSandwitch: tobias-elze.de
Tesseract: tesseract-ocr.github.io
Tesseract: github.com
Se está gostando das postagens, se inscreva em nosso site para receber mais materiais de nosso blog, é grátis, você vai ser notificado quando novas postagens forem publicadas, recebendo assim mais conteúdos de qualidades e ainda vai dar aquela força pra nossa comunidade. E não esquece de compartilhar em suas redes sociais os botões estão no final desse página.
No final dessa página temos um campo onde você é bem vindo para deixar seus comentários. Pode ser uma opinião, elogios, críticas ou correções. Pode ficar a vontade para tirar suas dúvidas ou colaborar acrescentando algo que tenhamos deixado passar desapercebido.
Sua visita e feedback é muito importante para o nosso espaço.