O reconhecimento óptico de caracteres (OCR) refere-se ao software que cria uma versão digital de um documento impresso, digitado ou manuscrito que os computadores podem ler sem a necessidade de digitar ou inserir o texto manualmente. OCR é geralmente usado em documentos digitalizados em formato PDF, mas também pode criar uma versão de texto legível por computador dentro de um arquivo de imagem.
O que é o OCR?
OCR, também conhecido como reconhecimento de texto, é uma tecnologia de software que transforma caracteres como números, letras e pontuação (também chamados de glifos) de documentos impressos ou escritos em um formato eletrônico mais facilmente reconhecido e lido por computadores e outros programas de software. Alguns programas de OCR fazem isso quando um documento é digitalizado ou fotografado com uma câmera digital e outros podem aplicar esse processo a documentos que foram previamente digitalizados ou fotografados sem OCR. OCR permite que os usuários pesquisem documentos PDF, editem texto e redigitem documentos.
O que é OCR usado para?
Para rápida, a cada dia necessidades de digitalização, o OCR pode não ser um grande negócio. Se você fizer uma grande quantidade de digitalizações, poder pesquisar em PDFs para encontrar a exata que precisa, pode poupar um pouco de tempo e tornar a funcionalidade do OCR no programa do scanner mais importante. Aqui estão algumas outras coisas que o OCR ajuda:
- Processamento automatizado de dados e entrada de dados (exemplo: sistemas de rastreamento de candidatos a emprego para currículos)
- Tornar os livros digitalizados pesquisáveis
- Converter digitalizações manuscritas em texto legível por computador
- Tornando os documentos mais utilizáveis por programas de leitura que auxiliam usuários com deficiências visuais
- Preservar documentos e jornais históricos, além de torná-los pesquisáveis
- Extração de dados e transferência para programas contábeis (exemplo: recibos e faturas)
- Documentos de indexação para uso pelos mecanismos de pesquisa
- Reconhecimento de placas de motorista por câmera de velocidade e software de câmera de luz vermelha
- Sintetizadores de voz para pessoas que não sabem falar - o físico teórico Stephen Hawking é talvez o usuário mais conhecido de um programa de sintetizador de fala
Por que usar o OCR?
Por que não tirar uma foto, certo? Porque você não seria capaz de editar nada ou pesquisar o texto porque seria apenas uma imagem. Digitalizar o documento e executar o software OCR pode transformar esse arquivo em algo que você pode editar e poder pesquisar.
História do OCR
Embora o primeiro uso de reconhecimento de texto data de 1914, o amplo desenvolvimento e o uso de tecnologias relacionadas a OCR começaram a sério na década de 1950, especificamente com a criação de fontes muito simplificadas que eram mais fáceis de converter em texto legível digitalmente. A primeira dessas fontes simplificadas foi criada por David Shepard e mais conhecida como OCR-7B. OCR-7B ainda está em uso hoje na indústria financeira para a fonte padrão usada em cartões de crédito e cartões de débito. Na década de 1960, os serviços postais em vários países começaram a usar a tecnologia OCR para agilizar enormemente a classificação de correio, incluindo os Estados Unidos, a Grã-Bretanha, o Canadá e a Alemanha. OCR ainda é a principal tecnologia usada para classificar correio para serviços postais em todo o mundo. Em 2000, o conhecimento chave dos limites e capacidades da tecnologia OCR foi usado para desenvolver os programas CAPTCHA usados para parar bots e spammers.
Ao longo das décadas, o OCR se tornou mais preciso e sofisticado devido aos avanços em áreas tecnológicas relacionadas, como inteligência artificial, aprendizado de máquina e visão computacional. Hoje, o software OCR usa reconhecimento de padrões, detecção de recursos e mineração de texto para transformar documentos com mais rapidez e precisão do que nunca.