OCR je skraćenica za optičko prepoznavanje znakova, izraz na engleskom jeziku koji se može prevesti kao optičko prepoznavanje znakova . Pojam se u računalnoj znanosti koristi za imenovanje postupka koji omogućuje digitalizaciju teksta pomoću skenera .
Slučaj OCR-a je vrlo specifičan, budući da daje računalu vještinu koja je osnovna za većinu ljudskih bića: čitanje. Vrijedno je spomenuti da nijedan od nas nije lak zadatak, iako u našem slučaju to obično učimo od najranije dobi, zbog čega stičemo veliku vještinu, čak i kad se moramo suočiti s kaligrafijom koju je teško razumjeti.Unatoč napredovanju tehnologije, OCR se još uvijek suočava s nekoliko problema. Primjerice, postavljanje digitalnog sustava na prepoznavanje rukopisnog teksta prilično je teško. Proces obično susreće neugodnosti za segmentiranje različitih tekstualnih jedinica. Isto se događa kada se riječi pojavljuju vrlo blizu.
Ostale greške OCR-a mogu se pojaviti kada nema dovoljno kontrasta između riječi i pozadine. Pretpostavimo da je tekst napisan crnim slovima otisnut na sivom listu: vjerojatno je da OCR proces ne može razlikovati slova i riječi .
Nemojmo zaboraviti da, baš kao što akcija koja je očigledno jednostavna poput hodanja ulicom zahtijeva niz komplementarnih akcija kako bi se izbjegli prepreke i zaštitio naš integritet, čitanje tiskanog teksta rezultat je nekoliko istovremenih izvidničkih zadataka koje nosimo. gotovo nesvjesno, ali nas vode na posao.
Kada se suočimo s tekstom, naš vlastiti OCR sustav je odgovoran za pretraživanje i prepoznavanje naslova, identificiranje odlomaka, interpunkcijskih znakova, razmaka između riječi i kratica, između ostalih elemenata, kao i nastojanje da se razumiju izvori previše ukrašeni ili neuredni te da biste dovršili informacije u regijama koje su pretrpjele bilo kakvu vrstu habanja, kao što je mrlja od tinte ili nestali komad papira.