1 - Quando um scanner lê a imagem de um documento, ele converte os elementos escuros — texto e partes gráficas — da página,
em um mapa de bits (bitmap), uma matriz de pixels quadrados que podem estar ativos (pretos) ou inativos (brancos). Como os
pixels são maiores que os detalhes da maior parte do texto, este processo degrada as extremidades mais finas dos caracteres,
assim como ocorre na máquina de fax. A degradação cria a maior parte dos problemas para os sistemas de reconhecimento óptico
de caracteres (OCR).
2 - O programa de OCR lê o bitmap gerado pelo scanner e pondera as áreas de pixels ativos e inativos da página, na realidade
ele mapeia o espaço em branco da página. Isto possibilita que o programa separe em blocos os parágrafos, colunas, títulos
e partes gráficas. O espaço em branco entre as linhas de texto contidos em um bloco define a base de cada linha, um detalhe
essencial para o reconhecimento de caracteres no texto.
3 - Na primeira etapa de conversão de imagens em texto, o programa tenta reconhecer cada caractere através de uma comparação
pixel a pixel com o modelo de caractere que o programa guarda na memória. Os modelos são compostos de conjuntos completos
— número, pontuação e caracteres estendidos — de fontes comuns como Courier de 12 pontos e o conjunto Selectric da IBM.
Como esta técnica demanda uma correspondência muito próxima, os atributos do caractere, tais como negrito e itálico, devem
ser idênticos para serem reconhecidos. Uma varredura de má qualidade não consegue bons resultados neste aspecto.
4 - Os caracteres não reconhecidos passam por um processo mais minucioso e demorado conhecido como extração de recursos. O
programa calcula a altura x do texto — relativa à altura da letra minúscula x — e analisa cada combinação das linhas retas,
curvas e áreas preenchidas de cada caractere, como no caso da letra o ou da b. Os programas OCR sabem, por exemplo, que o
caractere com uma curva descendente abaixo da linha de base e uma área preenchida acima tem grande possibilidade de ser um
g minúsculo. Como o programa elabora um alfabeto de trabalho de cada novo caractere encontrado, a velocidade de reconhecimento
aumenta.
5 - Como estes dois processos acabam por não decifrar todos os caracteres, os programas OCR usam dois métodos para reconhecer
os hieróglifos remanescentes. Alguns programas OCR marcam os caracteres não reconhecidos com um caractere especial — como ~,
#, ou @ — e desistem. Faz-se necessário então o uso de um processador de textos para localizar tais caracteres especiais,
corrigindo-os manualmente. Alguns programas de OCR são capazes de mostrar um bitmap em zoom na tela e pedir que seja
pressionada a tecla correspondente ao caractere em questão, que deverá ser substituído pelo bitmap.
6 - Outros programas de OCR ainda solicitam um corretor ortográfico especial para procurar erros óbvios e localizar as
possíveis alternativas para as palavras que contêm caracteres especiais não reconhecidos. Por exemplo, para os programas
de OCR, o número 1 e a letra l são muito similares, da mesma forma que o 5 e o S, ou ainda o cl e o d. Uma palavra como
aclimatar poderia transformar-se em adimatar. O corretor ortográfico reconhece esses erros típicos do OCR e os corrige.
7 - A maioria dos programas dc OCR permite que o documento convertido seja gravado em ASCII ou em um formato possível de
ser reconhecido pelos processadores de texto e planilhas eletrônicas mais conhecidos.
Fonte: Evolução dos Computadores
No comments:
Post a Comment