La paradoxa de Sayre

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca

La paradoxa de Sayre és un dilema que es troba en el disseny de sistemes automàtics de reconeixement d’escriptura a mà . Una formulació típica de la paradoxa és que una paraula escrita en cursiva no es pot reconèixer sense segmentar-se i no es pot segmentar sense reconèixer-la. La paradoxa es va articular per primera vegada en una publicació de 1973 de Kenneth M. Sayre , de la qual va prendre el nom. [1]

Naturalesa del problema

És relativament fàcil dissenyar sistemes automàtics capaços de reconèixer paraules escrites en format imprès. Aquestes paraules es segmenten en lletres en el moment mateix d’escriure-les a la pàgina. Donats patrons que fan coincidir certes formes amb certes lletres, es poden identificar lletres individuals amb un alt grau de probabilitat. En casos d’ambigüitat, les seqüències de lletres considerades probables es poden comparar amb una selecció de paraules escrites correctament en la llengua en què s’escriu el document (l’anomenat "lèxic"). [2] Si cal, es poden aplicar les característiques sintàctiques de la llengua per obtenir una identificació generalment precisa de les paraules en qüestió. [3] Els sistemes de reconeixement de caràcters impresos s'utilitzen habitualment per processar documents governamentals estandarditzats, per ordenar el correu per codis postals, etc.

En l’escriptura cursiva, en canvi, les lletres que formen una paraula determinada normalment flueixen en seqüència sense espais que les divideixin. A diferència d’una seqüència de lletres impreses, les lletres escrites en cursiva no es segmenten a priori . Aquí entra en joc la paradoxa de Sayre: tret que una paraula ja estigui segmentada en lletres, no es poden aplicar les tècniques descrites anteriorment que combinen lletres amb patrons, ja que la segmentació a priori és necessària per al reconeixement de paraules; d'altra banda, no hi ha tècniques fiables per segmentar una paraula en lletres tret que la mateixa paraula ja s'hagi identificat anteriorment. El reconeixement de paraules requereix la segmentació de lletres i la segmentació de lletres requereix el reconeixement de paraules: cap sistema de reconeixement d’escriptura manual pot cursar ambdues tasques simultàniament mitjançant tècniques estàndard de concordança de lletres i patrons.

L’ús de sistemes automàtics de reconeixement cursiu inclouria l’ordenació del correu amb adreces manuscrites, la lectura de xecs bancaris escrits a mà i la digitalització automàtica de documents escrits a mà. [4] Aquests són incentius pràctics per trobar maneres d’entornar la paradoxa de Sayre.

Eviteu la paradoxa

Una manera de reduir els efectes negatius de la paradoxa és normalitzar les paraules a reconèixer. La normalització consisteix a eliminar les idiosincràsies presents a l’escriptura a mà de l’escriptor, per exemple, un pendent inusual de les lletres o una inclinació inusual de la línia cursiva. [2] Aquest procediment pot augmentar la probabilitat d'una coincidència correcta entre lletra i patró, cosa que condueix a un augment de la taxa d'èxit del sistema. Com que aquesta millora torna a dependre de la segmentació precisa, no obstant això, queda subjecta a les limitacions de la paradoxa de Sayre. [4] Els investigadors van concloure que l'única manera d'evitar la paradoxa no és confiar en una segmentació precisa. [4]

Línies d’investigació actuals

La segmentació és exacta en proporció a la precisió amb què distingeix les diferents lletres dels textos presentats al sistema (l'entrada); aquesta segmentació de vegades es denomina "segmentació explícita". [2] D'altra banda, la "segmentació implícita". és la divisió de la línia cursiva en un nombre de parts superior a les lletres presents a la mateixa línia cursiva: per processar aquestes "parts implícites" per obtenir la identificació final de les paraules es requereixen procediments estadístics específics que impliquen el model ocult de Markov (HMM).

Un model de Markov és una representació estadística d’un procés aleatori, és a dir, un procés en el qual les condicions futures són independents de les condicions anteriors a l’actual. En aquest procés, una condició determinada depèn només de la probabilitat condicional de seguir la condició immediatament anterior. Exemple: una sèrie de resultats obtinguts mitjançant el llançament d’un dau diverses vegades. Un model Markov ocult és un model Markov en el qual no es coneixen completament les condicions individuals. Les probabilitats condicionals entre les diferents condicions ja estan determinades, però les identitats de les condicions individuals no estan completament clares.

El reconeixement es produeix fent coincidir HMM de paraules per reconèixer a HMM prèviament preparades de paraules contingudes al lèxic. La millor coincidència en un cas determinat s’utilitza per indicar la identitat de la paraula manuscrita en qüestió. Igual que els sistemes basats en la segmentació explícita, els sistemes basats en la segmentació implícita es consideren més o menys fiables en funció del percentatge d’identificacions correctes que fan.

Avui en dia, la majoria dels sistemes de reconeixement de text escrit a mà utilitzen una segmentació implícita associada a procediments de coincidència basats en HMM. [4] Els problemes resumits a la paradoxa de Markov són en gran part els responsables d'aquest canvi d'enfocament.

Nota

  1. ^ (EN) Kenneth M. Sayre, Reconeixement automàtic de paraules manuscrites: un informe del projecte, a Reconeixement de patrons, V, 1973, pp. 213-228.
  2. ^ a b c Vinciarelli, Enquesta .
  3. ^ Vegeu Introducció a la informació estadística .
  4. ^ a b c d Vinciarelli, Escriptura cursiva fora de línia .

Bibliografia

Informàtica Portal de TI : accediu a les entrades de Viquipèdia relacionades amb TI