Olá,
@Junior Cyrino,
Espero que esteja bem.
Endereço abaixo alguns pontos de seu tópico, destacando o seu texto em itálico com fundo acinzentado:
Fiz a leitura utilizando o método "Google" como parâmetro para OCR. Ao tentar utilizar o "Abbyy", houve a seguinte notificação na tela "Abbyy doesnt support Document Dettection Yet".
O provedor de OCR ABBYY não está disponível para o comando
Extract PDF Text
e sua ferramenta auxiliar.
Há alguma maneira, com exceção da utilização do Google Cloud Vision que é pago, que eu consiga realizar a leitura de PDF escaneados com assertividade usando o IBM RPA /WDG?
Em geral, a assertividade do provedor de OCR depende de fatores como o tamanho, qualidade e disposição da imagem. O OCR pode não retornar os resultados esperados. Fontes que possuem caracteres de formatos similares, como os seguintes caracteres: l, I, |, podem confundir o reconhecimento.
As seguintes técnicas podem auxiliar no processo de reconhecimento de caracteres:
- Conhecimento prévio do tipo de dado
O conhecimento prévio do tipo de dado permite que você valide os reconhecimentos de caracteres realizados. Por exemplo, se o campo esperado é uma data, o retorno 2O de ju1h0
pode ser facilmente validado para 20 de julho
.
- Analisar apenas as seções relevantes
Analisar toda a página pode prejudicar o reconhecimento de caracteres, especialmente para documentos digitalizados de maneira torta, ou com páginas antigas ou descoloridas, ou muito ou pouco brilho, ou pouco contraste. Se possível, aplique o reconhecimento apenas na parte relevante do documento.
- Assertividade e validação
Utilize o retorno de confiança dos comandos de OCR do IBM RPA para validar a assertividade do reconhecimento. Defina um limiar, como "um reconhecimento deve possuir no mínimo 98% de confiança". Para reconhecimentos com confiança inferior ao limiar, considere implementar um processo de validação manual ou, se possível, aplicar transformações no texto com base no conhecimento prévio do tipo de dado para validar o texto.
Espero que os conceitos anteriores ajudem.
------------------------------
Gabriel Sanchez-WDG
------------------------------
Original Message:
Sent: Wed April 28, 2021 02:31 PM
From: Junior Cyrino
Subject: Problema com OCR
Estou enfrentando uma dificuldade na leitura de arquivos escaneados em formato PDF. Ao utilizar a ferramenta "Extract Pdf Text", o IBM RPA tem errado com frequência ao reconhecer os caracteres do arquivo. Inclusive quando realizei a leitura do mesmo arquivo, houve situações em que o resultado acabou sendo diferente, com a ferramenta acertando caracteres que antes havia errado mas em contrapartida errando novos que antes havia acertado.
Fiz a leitura utilizando o método "Google" como parâmetro para OCR. Ao tentar utilizar o "Abbyy", houve a seguinte notificação na tela "Abbyy doesnt support Document Dettection Yet".
Além disso, tentei realizar a leitura por outro meio, através do comando "Recognize Image Text or PDF". Por este comando a situação se inverteu, ao selecionar o parâmetro "Google", a ferramenta errou quase toda a leitura e resultou em um arquivo bastante inconsistente. Ao selecionar o "Abbyy" ele conseguiu reconhecer grande parte do arquivo, mas, ainda assim, trouxe alguns caracteres inconsistentes o que acaba sendo preocupante de toda forma.
Há alguma maneira, com exceção da utilização do Google Cloud Vision que é pago, que eu consiga realizar a leitura de PDF escaneados com assertividade usando o IBM RPA /WDG?
------------------------------
Junior Cyrino
------------------------------