O que é reconhecimento óptico de caracteres (OCR)?

O reconhecimento óptico de caracteres (OCR) refere-se ao software que cria uma versão digital de um documento impresso, digitado ou manuscrito que os computadores podem ler sem a necessidade de digitar ou inserir o texto manualmente. OCR é geralmente usado em documentos digitalizados em formato PDF, mas também pode criar uma versão de texto legível por computador dentro de um arquivo de imagem.

O que é o OCR?

OCR, também conhecido como reconhecimento de texto, é uma tecnologia de software que transforma caracteres como números, letras e pontuação (também chamados de glifos) de documentos impressos ou escritos em um formato eletrônico mais facilmente reconhecido e lido por computadores e outros programas de software. Alguns programas de OCR fazem isso quando um documento é digitalizado ou fotografado com uma câmera digital e outros podem aplicar esse processo a documentos que foram previamente digitalizados ou fotografados sem OCR. OCR permite que os usuários pesquisem documentos PDF, editem texto e redigitem documentos.

O que é OCR usado para?

Para rápida, a cada dia necessidades de digitalização, o OCR pode não ser um grande negócio. Se você fizer uma grande quantidade de digitalizações, poder pesquisar em PDFs para encontrar a exata que precisa, pode poupar um pouco de tempo e tornar a funcionalidade do OCR no programa do scanner mais importante. Aqui estão algumas outras coisas que o OCR ajuda:

Processamento automatizado de dados e entrada de dados (exemplo: sistemas de rastreamento de candidatos a emprego para currículos)
Tornar os livros digitalizados pesquisáveis
Converter digitalizações manuscritas em texto legível por computador
Tornando os documentos mais utilizáveis por programas de leitura que auxiliam usuários com deficiências visuais
Preservar documentos e jornais históricos, além de torná-los pesquisáveis
Extração de dados e transferência para programas contábeis (exemplo: recibos e faturas)
Documentos de indexação para uso pelos mecanismos de pesquisa
Reconhecimento de placas de motorista por câmera de velocidade e software de câmera de luz vermelha
Sintetizadores de voz para pessoas que não sabem falar - o físico teórico Stephen Hawking é talvez o usuário mais conhecido de um programa de sintetizador de fala

Por que usar o OCR?

Por que não tirar uma foto, certo? Porque você não seria capaz de editar nada ou pesquisar o texto porque seria apenas uma imagem. Digitalizar o documento e executar o software OCR pode transformar esse arquivo em algo que você pode editar e poder pesquisar.

História do OCR

Embora o primeiro uso de reconhecimento de texto data de 1914, o amplo desenvolvimento e o uso de tecnologias relacionadas a OCR começaram a sério na década de 1950, especificamente com a criação de fontes muito simplificadas que eram mais fáceis de converter em texto legível digitalmente. A primeira dessas fontes simplificadas foi criada por David Shepard e mais conhecida como OCR-7B. OCR-7B ainda está em uso hoje na indústria financeira para a fonte padrão usada em cartões de crédito e cartões de débito. Na década de 1960, os serviços postais em vários países começaram a usar a tecnologia OCR para agilizar enormemente a classificação de correio, incluindo os Estados Unidos, a Grã-Bretanha, o Canadá e a Alemanha. OCR ainda é a principal tecnologia usada para classificar correio para serviços postais em todo o mundo. Em 2000, o conhecimento chave dos limites e capacidades da tecnologia OCR foi usado para desenvolver os programas CAPTCHA usados para parar bots e spammers.

Ao longo das décadas, o OCR se tornou mais preciso e sofisticado devido aos avanços em áreas tecnológicas relacionadas, como inteligência artificial, aprendizado de máquina e visão computacional. Hoje, o software OCR usa reconhecimento de padrões, detecção de recursos e mineração de texto para transformar documentos com mais rapidez e precisão do que nunca.