Robotic Process Automation (RPA)

Come for answers. Stay for best practices. All we’re missing is you.

View Only

Back to discussions

Expand all | Collapse all

Problema com OCR

1. Problema com OCR

Like
Junior Cyrino
Posted Wed April 28, 2021 08:09 PM

Reply
Estou enfrentando uma dificuldade na leitura de arquivos escaneados em formato PDF. Ao utilizar a ferramenta "Extract Pdf Text", o IBM RPA tem errado com frequência ao reconhecer os caracteres do arquivo. Inclusive quando realizei a leitura do mesmo arquivo, houve situações em que o resultado acabou sendo diferente, com a ferramenta acertando caracteres que antes havia errado mas em contrapartida errando novos que antes havia acertado.

Fiz a leitura utilizando o método "Google" como parâmetro para OCR. Ao tentar utilizar o "Abbyy", houve a seguinte notificação na tela "Abbyy doesnt support Document Dettection Yet".

Além disso, tentei realizar a leitura por outro meio, através do comando "Recognize Image Text or PDF". Por este comando a situação se inverteu, ao selecionar o parâmetro "Google", a ferramenta errou quase toda a leitura e resultou em um arquivo bastante inconsistente. Ao selecionar o "Abbyy" ele conseguiu reconhecer grande parte do arquivo, mas, ainda assim, trouxe alguns caracteres inconsistentes o que acaba sendo preocupante de toda forma.

Há alguma maneira, com exceção da utilização do Google Cloud Vision que é pago, que eu consiga realizar a leitura de PDF escaneados com assertividade usando o IBM RPA /WDG?

------------------------------
Junior Cyrino
------------------------------
2. RE: Problema com OCR

Like
Angelo Alves
Posted Mon May 10, 2021 02:31 PM

Reply
Oi Junior, desculpe a demora.

Preciso de algumas informações:

Qual a versão do IBM RPA?
É versão Try?

Enviei uma mensagem com meu email para consegui te ajudar com este problema e caso necessario acionar o suporte.

------------------------------
Angelo Alves
------------------------------

Original Message
3. RE: Problema com OCR

Like
Gabriel Sanchez
Posted Tue July 06, 2021 09:25 PM

Reply
Olá, @Junior Cyrino,

Espero que esteja bem.

Endereço abaixo alguns pontos de seu tópico, destacando o seu texto em itálico com fundo acinzentado:

Fiz a leitura utilizando o método "Google" como parâmetro para OCR. Ao tentar utilizar o "Abbyy", houve a seguinte notificação na tela "Abbyy doesnt support Document Dettection Yet".

O provedor de OCR ABBYY não está disponível para o comando Extract PDF Text e sua ferramenta auxiliar.

Há alguma maneira, com exceção da utilização do Google Cloud Vision que é pago, que eu consiga realizar a leitura de PDF escaneados com assertividade usando o IBM RPA /WDG?

Em geral, a assertividade do provedor de OCR depende de fatores como o tamanho, qualidade e disposição da imagem. O OCR pode não retornar os resultados esperados. Fontes que possuem caracteres de formatos similares, como os seguintes caracteres: l, I, |, podem confundir o reconhecimento.

As seguintes técnicas podem auxiliar no processo de reconhecimento de caracteres:

Conhecimento prévio do tipo de dado

O conhecimento prévio do tipo de dado permite que você valide os reconhecimentos de caracteres realizados. Por exemplo, se o campo esperado é uma data, o retorno 2O de ju1h0 pode ser facilmente validado para 20 de julho.

Analisar apenas as seções relevantes

Analisar toda a página pode prejudicar o reconhecimento de caracteres, especialmente para documentos digitalizados de maneira torta, ou com páginas antigas ou descoloridas, ou muito ou pouco brilho, ou pouco contraste. Se possível, aplique o reconhecimento apenas na parte relevante do documento.

Assertividade e validação

Utilize o retorno de confiança dos comandos de OCR do IBM RPA para validar a assertividade do reconhecimento. Defina um limiar, como "um reconhecimento deve possuir no mínimo 98% de confiança". Para reconhecimentos com confiança inferior ao limiar, considere implementar um processo de validação manual ou, se possível, aplicar transformações no texto com base no conhecimento prévio do tipo de dado para validar o texto.

Espero que os conceitos anteriores ajudem.

------------------------------
Gabriel Sanchez-WDG
------------------------------

Original Message

Robotic Process Automation (RPA)

Robotic Process Automation (RPA)

Problema com OCR

Junior CyrinoWed April 28, 2021 08:09 PM

Angelo AlvesMon May 10, 2021 02:31 PM

Gabriel SanchezTue July 06, 2021 09:25 PM

1. Problema com OCR

2. RE: Problema com OCR

3. RE: Problema com OCR

Additional
Resources

Office

Quick Links

Robotic Process Automation (RPA)

Robotic Process Automation (RPA)

Problema com OCR

Junior CyrinoWed April 28, 2021 08:09 PM

Angelo AlvesMon May 10, 2021 02:31 PM

Gabriel SanchezTue July 06, 2021 09:25 PM

1. Problema com OCR

2. RE: Problema com OCR

3. RE: Problema com OCR

Related Content

How to Improve OCR Accuracy

OCR issues

GET PDF region with Abbyy

RE: GET PDF region with Abbyy

"OCR Click preview" doubt

Additional Resources

Office

Quick Links

Additional
Resources