Reconeixement òptic de caràcters

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca
Nota de desambiguació.svg Desambiguació : aquí es fa referència al "reconeixement òptic de caràcters". Si cerqueu el bloc Unicode del mateix nom, vegeu Reconeixement òptic de caràcters (Unicode) .
Exemple de text reconegut amb el programari OCR.

Els sistemes de reconeixement òptic de caràcters, també anomenats OCR (de l' anglès reconeixement òptic de caràcters), són programes dedicats a la detecció de caràcters continguts en un document i la seva transferència en text digital que pot ser llegit per una màquina. La conversió es fa normalment mitjançant un escàner . El text es pot convertir en format ASCII simple, Unicode o, en el cas de sistemes més avançats, en un format que també contingui la paginació del document. L'usuari pot modificar el resultat obtingut amb un editor de text normal.

OCR és un camp de recerca en intel·ligència artificial, visió artificial i reconeixement de patrons , relacionat amb el reconeixement d’ imatges.

Història

Optòfon de Fournier d'Albe.
One-Eyed Machine Stenographer de John B. Flowers.

El pioner de les tècniques per al reconeixement de personatges impresos va ser el físic irlandès Edmund Edward Fournier d'Albe que, el 1912 , va iniciar experiments en aquest sentit. En explotar les propietats fotoelèctriques d’alguns compostos, com el seleni, va construir una màquina, anomenada optòfon , capaç de detectar el negre d’una impressió i convertir-lo en un so que pogués ser interpretat per una persona cega [1] . Amb el descobriment de les cèl·lules de seleni hi va haver molts inventors i científics que es van aventurar en el camp del reconeixement òptic de caràcters, com l’italià Ciro Codelupi , professor de ciències físico-matemàtiques, que va patentar una “màquina de lectura” capaç de transformar les sensacions lluminoses en sensacions tàctils [2] .

El juny de 1916 , la revista científica italiana " Science for all " va publicar un article en què descrivia una màquina, molt probable, capaç de llegir i escriure un text. Només sabem que era una patent d'un jove enginyer nord-americà , John B. Flowers, però la " màquina que llegeix i escriu " es basava en un principi senzill i enginyós; consistia en l'observació que cada lletra de l'alfabet té en la seva forma un punt característic que no es confon amb cap altra lletra. Així, en superposar totes les lletres les unes sobre les altres, sempre era possible trobar almenys un punt que distingís cadascuna de les lletres. La utilitat de la invenció, encara que molt atrevida, ja era qüestionable en aquell moment a causa de problemes com les diverses mides i estils de lletra [3] .

A partir del 1943, durant uns 40 anys, sis empreses nord-americanes van treballar per desenvolupar "màquines de lectura" per a invidents, amb diversos tipus de suport del govern federal. Els registres es van dur a terme en benefici de veterans i civils cecs. RCA Laboratory va desenvolupar un optòfon actualitzat mitjançant fototubs i vàlvules anomenat A-2 Reader. Mentrestant, sota el patrocini de l’Administració de veterans i veterans, els laboratoris Battelle, Haskins i Mauch van ser encarregats respectivament de redissenyar el lector A-2 amb fotodíodes i transistors, desenvolupar un dispositiu de síntesi de veu i desenvolupar un dispositiu intermedi capaç de convertir lletres. sons vocals. El resultat va ser el desenvolupament d’una sèrie de prototips com l’ Optofono de Battelle Memorial Institute, el FM-Slit System de Haskins Laboratory i Cognodictor , Visotactor , Visotoner i Stereotoner de Mauch Laboratory.

Als anys setanta, Telesensory Systems Inc. va crear un dispositiu sofisticat i pràctic anomenat Optacon que podia reproduir la forma de qualsevol caràcter amb una font en relleu . En el mateix període es va desenvolupar la màquina de lectura de productes informàtics Kurzweil , el primer sistema basat en un programari de reconeixement de caràcters anomenat omni-font : un programa capaç de reconèixer text escrit amb qualsevol tipus de caràcter [4] .

Icona de la lupa mgx2.svg El mateix tema en detall: Optofono .

El 1974, Ray Kurzweil va desenvolupar un programari OCR omni-font, capaç de reconèixer el text imprès en pràcticament qualsevol tipus de lletra (Kurzweil és sovint considerat l’inventor de OCR omni-font, però en realitat el sistema ja estava en ús, des de finals dels anys seixanta, per empreses, inclosa CompuScan [5] ).

El sistema postal dels Estats Units d'Amèrica fa servir sistemes OCR des del 1965 . La necessitat de reconèixer les destinacions dels missatges i d’organitzar-los automàticament ha motivat la investigació en el sector de l’OCR. Els sistemes OCR llegeixen el codi postal escrit a les lletres i imprimeixen un codi de barres als missatges que representa el destí de la carta. Per evitar que el codi de barres pertorbi la lectura de l'adreça i, per tant, compliqui el treball dels carters, el codi de barres s'imprimeix amb una tinta que només és visible quan està il·luminada per una llum amb una longitud d'ona ultraviolada . El codi de barres s’utilitza mitjançant màquines de classificació per dirigir la correspondència a l’oficina de correus corresponent que s’encarregarà de lliurar-la al destinatari. L' oficina de correus italiana utilitza un mètode similar per a la gestió de la correspondència.

Lectura òptica vs. reconeixement de caràcters digitals

Originalment, les distincions entre la lectura de caràcters òptics (mitjançant tècniques òptiques com ara miralls i lents) i el reconeixement digital de caràcters (mitjançant algorismes de separació i anàlisi de text) eren grans i de fet es consideraven camps separats. Com que pràcticament no queda cap aplicació relacionada amb les tècniques de lectura òptica, el terme OCR s’ha ampliat, cosa que ara indica el reconeixement de caràcters digitals independentment de la font de les imatges.

Tècnica

Formació

Els sistemes OCR requereixen una fase de "formació" per funcionar correctament. Durant aquesta fase, es proporciona al sistema exemples d’imatges amb el text corresponent en format ASCII o similar per tal de calibrar els algorismes sobre el text que normalment analitzaran. Aquesta formació és essencial si tenim en compte que els elements que analitzen el text no són res més que xarxes neuronals i, com a tals, requereixen formació per funcionar. El programari OCR més recent utilitza algoritmes capaços de reconèixer els esquemes i capaços de reconstruir el format de la pàgina a més del text.

OCR de caràcters impresos

El reconeixement exacte d’un text escrit en alfabet llatí digitalment (que pot ser un text escrit per tipus i posteriorment escanejat) es considera ara un problema resolt, amb taxes de reconeixement superiors al 99%. El reconeixement de l'escriptura a mà alçada i el reconeixement d'alfabets no llatins és un problema que encara no ha trobat solucions realment satisfactòries i que encara és objecte d'estudis i investigacions.

OCR d’escriptura a mà alçada

Els sistemes per reconèixer l’escriptura a mà han tingut cert èxit comercial quan s’han integrat en productes com PDA o ordinadors portàtils. El precursor d’aquests dispositius va ser el dispositiu Newton fabricat per Apple . Els algoritmes d’aquests dispositius funcionen adequadament perquè requereixen que l’usuari aprengui a escriure cartes seguint un determinat patró predefinit per tal de minimitzar els possibles casos d’ambigüitat. Aquestes estratègies no es poden aplicar als documents escrits en paper: de fet, el reconeixement a mà alçada és un problema que encara no està resolt. Es poden aconseguir taxes de precisió del 80% al 90% en fonts manuscrites ordenades i ordenades amb relativa facilitat. Però una taxa d’exactitud tan baixa produeix diverses dotzenes d’errors per pàgina, cosa que fa que les tècniques d’escriptura a mà alçada siguin poc útils en la majoria dels casos.

OCR de cursiva

El reconeixement de text escrit en cursiva és un camp de cerca actiu i la precisió del reconeixement és fins i tot inferior a la d’un text escrit a mà: de fet, no es podran obtenir nivells més elevats de precisió fins que no s’utilitzin. Informació addicional derivada d’un context o anàlisi gramatical del text.

En primer lloc, reconèixer paraules senceres d’un diccionari és més fàcil que intentar analitzar els diferents personatges de manera individual: d’aquesta manera serà possible excloure moltes d’aquestes ambigüitats relacionades amb el reconeixement. Conèixer el context de l’escrit permet eliminar altres ambigüitats: un document que parla d’història, per exemple, probablement contindrà moltes dates; llavors una línia vertical seguida d’un símbol 9 ens permetria fer la hipòtesi que la línia és un 1 en lloc de minúscules o majúscules.

A més, el coneixement de la gramàtica de la llengua analitzada pot ajudar a determinar millor si una paraula és un verb o un substantiu, cosa que permet una major precisió. Tot i això, els caràcters cursius de moltes lletres no contenen prou informació per realitzar una anàlisi correcta (en realitat la precisió difícilment pot superar el 98%).

Àrees de recerca

Un problema particularment difícil per a ordinadors i humans és el de reconèixer documents danyats que contenen molts noms o informació que no es poden deduir del context. Les pàgines poden estar danyades per l’edat, l’aigua o el foc i els noms poden estar obsolets o contenir faltes d’ortografia. Les tècniques de processament d’imatges per ordinador poden ajudar els humans a llegir textos extremadament antics, com ara els documents que va deixar Arquimedes o els rotllos del Mar Mort . L’ús de l’ordinador com a suport per a l’home i viceversa és un camp de recerca molt interessant i potencialment prolífic.

El reconeixement de caràcters ha estat un àmbit objecte d’una intensa investigació des de finals dels anys cinquanta . Inicialment es va percebre com un problema simple, però amb el pas del temps va resultar ser un problema molt més complex. Passaran dècades d’estudi abans que l’ordinador pugui reconèixer un text amb la mateixa precisió que un ésser humà, si és possible.

MICR

Una aplicació on la precisió i la velocitat de reconeixement dels sistemes OCR en personatges supera la dels humans és la de MICR (Magnetic Ink Character Recognition), on la precisió és molt alta i els errors varien al voltant d’un error detectat en 20.000 - 30.000 controls. Aquesta precisió s’aconsegueix gràcies a l’ús de tintes especials que contenen material magnètic (òxid de ferro).

Nota

  1. ^ EE Fournier, The Type-Reading Optophone, Our Surplus, Our Ships, and Europe's Need, i molt més ( PDF ), a Scientific American , vol. 123, núm. 19, Nova York, Scientific American Publishing Co., 6 de novembre de 1920, pp. 463-465. Consultat el 6 de gener de 2014 (arxivat de l' original el 26 d'abril de 2012) .
  2. ^ Màquina de llegir per a invidents ( PDF ), a Ciència per a tothom , Any XXVIII, n. 2, Milà, editorial Sozogno, 15 de gener de 1921, pàg. 20.
  3. ^ La màquina que llegeix i escriu ( PDF ), a Science for all , Any XXIII, n. 11, Milà, editorial Sozogno, 1 de juny de 1916, pàg. 166.
  4. ^ (EN) J. Scott Hauger, Reading Machines for the Blind (PDF), Blacksburg, Virginia, Facultat de Virginia Tech, abril de 1995, pp. I-II, 11-13. Consultat el 6 de gener de 2014 (arxivat de l' original el 28 de desembre de 2013) .
  5. ^ Revista de processament de dades , vol. 12, 1970, pàg. 46.

Articles relacionats

Altres projectes

Enllaços externs

  • Projecte OCR LAperLA per a la recuperació de textos en mal estat de conservació de l’Institut de Lingüística Computacional
  • Exemple de bioemulació d’OCR en codi Visual Basic
  • MoreData Un programa de reconeixement de caràcters òptic gratuït que admet l'idioma italià per a la plataforma Windows: el motor utilitzat és tesseract (opensource by google, un projecte desenvolupat originalment per R + D d'HP)
  • MoreDataFast Evolució simplificada de MoreData i multithreading per a una velocitat més ràpida en grups d'imatges
  • FreeOCR Versió precompilada del motor Tesseract desenvolupat per Google.
Control de l'autoritat LCCN (EN) sh85095140 · GND (DE) 4310936-6
Informàtica Portal de TI : accediu a les entrades de Viquipèdia relacionades amb TI