Robotic Process Automation (RPA)

Robotic Process Automation (RPA)

Come for answers. Stay for best practices. All we’re missing is you.

 View Only
  • 1.  Problema com OCR

    Posted Wed April 28, 2021 08:09 PM

    Estou enfrentando uma dificuldade na leitura de arquivos escaneados em formato PDF. Ao utilizar a ferramenta "Extract Pdf Text", o IBM RPA tem errado com frequência ao reconhecer os caracteres do arquivo. Inclusive quando realizei a leitura do mesmo arquivo, houve situações em que o resultado acabou sendo diferente, com a ferramenta acertando caracteres que antes havia errado mas em contrapartida errando novos que antes havia acertado.

    Fiz a leitura utilizando o método "Google" como parâmetro para OCR. Ao tentar utilizar o "Abbyy", houve a seguinte notificação na tela "Abbyy doesnt support Document Dettection Yet".

    Além disso, tentei realizar a leitura por outro meio, através do comando "Recognize Image Text or PDF". Por este comando a situação se inverteu, ao selecionar o parâmetro "Google", a ferramenta errou quase toda a leitura e resultou em um arquivo bastante inconsistente. Ao selecionar o "Abbyy" ele conseguiu reconhecer grande parte do arquivo, mas, ainda assim, trouxe alguns caracteres inconsistentes o que acaba sendo preocupante de toda forma. 


    Há alguma maneira, com exceção da utilização do Google Cloud Vision que é pago, que eu consiga realizar a leitura de PDF escaneados com assertividade usando o IBM RPA /WDG? 



    ------------------------------
    Junior Cyrino
    ------------------------------


  • 2.  RE: Problema com OCR

    Posted Mon May 10, 2021 02:31 PM

    Oi Junior, desculpe a demora.

    Preciso de algumas informações:

    Qual a versão do IBM RPA?
    É versão Try?

    Enviei uma mensagem com meu email para consegui te ajudar com este problema e caso necessario acionar o suporte.



    ------------------------------
    Angelo Alves
    ------------------------------



  • 3.  RE: Problema com OCR

    Posted Tue July 06, 2021 09:25 PM
    Olá, @Junior Cyrino,

    Espero que esteja bem.

    Endereço abaixo alguns pontos de seu tópico, destacando o seu texto em itálico com fundo acinzentado:

    Fiz a leitura utilizando o método "Google" como parâmetro para OCR. Ao tentar utilizar o "Abbyy", houve a seguinte notificação na tela "Abbyy doesnt support Document Dettection Yet".


    O provedor de OCR ABBYY não está disponível para o comando Extract PDF Text e sua ferramenta auxiliar.

    Há alguma maneira, com exceção da utilização do Google Cloud Vision que é pago, que eu consiga realizar a leitura de PDF escaneados com assertividade usando o IBM RPA /WDG? 


    Em geral, a assertividade do provedor de OCR depende de fatores como o tamanho, qualidade e disposição da imagem. O OCR pode não retornar os resultados esperados. Fontes que possuem caracteres de formatos similares, como os seguintes caracteres: l, I, |, podem confundir o reconhecimento.

    As seguintes técnicas podem auxiliar no processo de reconhecimento de caracteres:

    • Conhecimento prévio do tipo de dado
    O conhecimento prévio do tipo de dado permite que você valide os reconhecimentos de caracteres realizados. Por exemplo, se o campo esperado é uma data, o retorno 2O de ju1h0 pode ser facilmente validado para 20 de julho.

    • Analisar apenas as seções relevantes
    Analisar toda a página pode prejudicar o reconhecimento de caracteres, especialmente para documentos digitalizados de maneira torta, ou com páginas antigas ou descoloridas, ou muito ou pouco brilho, ou pouco contraste. Se possível, aplique o reconhecimento apenas na parte relevante do documento.

    • Assertividade e validação
    Utilize o retorno de confiança dos comandos de OCR do IBM RPA para validar a assertividade do reconhecimento. Defina um limiar, como "um reconhecimento deve possuir no mínimo 98% de confiança". Para reconhecimentos com confiança inferior ao limiar, considere implementar um processo de validação manual ou, se possível, aplicar transformações no texto com base no conhecimento prévio do tipo de dado para validar o texto.


    Espero que os conceitos anteriores ajudem.​

    ------------------------------
    Gabriel Sanchez-WDG
    ------------------------------