Lingüística computacional

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca

La lingüística computacional se centra en el desenvolupament de formalismes descriptius del funcionament d'un llenguatge natural , que són tals que es poden transformar en programes que poden ser executats per ordinadors .

Els problemes a què s’enfronta la lingüística computacional –com es pot endevinar pel nom de la disciplina– consisteixen a trobar una mediació entre el llenguatge humà, objecte d’estudi en constant evolució i la capacitat d’entendre la màquina, limitada a allò que es pot descriure per regles.

Història de la disciplina

A principis de la segona meitat del segle XX, dues línies de recerca diferents van construir els fonaments sobre els quals descansa avui la lingüística computacional:

a) Els estudis del pare Roberto Busa sobre l'ús de l'ordinador com a mitjà d'emmagatzematge i anàlisi del text (anys 50 i 60), el primer fruit del qual va ser el primer corpus electrònic de l'obra de Tomàs d'Aquino [1] .
b) l’aplicació de mètodes formals a les anàlisis textuals esmentades (anys seixanta i setanta), que anaven de la mà dels progressos realitzats en el camp de la intel·ligència artificial .

La indústria infantil del ' Processament del llenguatge natural (en anglès Natural Language Processing), va estar influïda durant molt de temps pels mètodes deductius utilitzats per la gramàtica generativa de Noam Chomsky : aquesta teoria lingüística, independentment de l'ús, busca identificar les regles abstractes que descriuen la competència de la llengua que posseeix un parlant.

Al costat de la tradició racionalista, es va desenvolupar una segona que va donar prioritat a la col·lecció de grans quantitats de textos: corpus . Aquesta adreça (prevalent a Gran Bretanya i els Estats Units) va aprofitar mètodes estadístics per extreure regularitats lingüístiques dels textos, punts de partida per a la descripció de l'estructura de la llengua. El primer gran èxit del "mètode empirista" es remunta al 1964, any de l'aparició del Brown Corpus de Francis i Kucera: és el primer exemple d'un corpus creat per a l'estudi d'una varietat lingüística contemporània, en aquest cas Anglès americà.

El creixement de la mida dels corpus –cada vegada més fonamental per verificar l’eficàcia de les eines– i el paral·lel de la web –amb els seus recursos textuals infinits– han sancionat la prevalença del segon enfocament. De fet, amb l’augment de la mida del material a analitzar, es necessitaven tecnologies que poguessin fer front a la immensa varietat de realitzacions lingüístiques: les abstraccions de l’ús de la metodologia racionalista, que havien conduït a la creació dels anomenats " models de joguines "(aplicacions d'anàlisi lingüístiques ineficaços en contextos reals), eren inadequats per a aquest propòsit. A més, van néixer llenguatges de marcatge estàndard com XML que van augmentar la facilitat d’ús i l’intercanvi recíproc de corpus i van permetre fer explícites les estructures de text.

Avui la lingüística computacional pot comptar amb nombrosos grups de recerca en el panorama científic internacional; un bon nombre de centres també estan presents al territori italià (per exemple, l' Institut de Lingüística Computacional del Consell Nacional d'Investigacions , fundat per Antonio Zampolli ) i més d'una universitat italiana ha situat la informàtica humanística com a assignatura fonamental dels cursos de I estudiar a mig camí entre la informàtica i les humanitats. Després d’un llarg contrast entre els enfocaments racionalistes i empiristes, ens orientem cada vegada més cap al desenvolupament d’eines que, alhora, incorporen coneixements representats com a regles abstractes i com a mòduls estadístics. Tot i això, encara estem lluny de simular una competència lingüística comparable a la humana amb tecnologies informàtiques, a causa de límits que no només són tècnics, sinó que també concerneixen la nostra comprensió de les formes en què el llenguatge és processat per la ment humana.

Analitza el text

El principal problema, quan volem iniciar l’anàlisi computacional del text, és establir criteris d’identificació de quina és la seva unitat bàsica: la paraula .

Fitxes

La tokenització , o l’operació mitjançant la qual es divideix el text en fitxes , és relativament senzilla per als idiomes que utilitzen espais per delimitar les paraules; molt complex per a idiomes amb un sistema ortogràfic continu (l'operació requereix algoritmes extremadament complicats). Si ens limitem al primer cas, el testimoni es pot definir simplement com qualsevol seqüència de caràcters delimitada per espais ; tanmateix, aquesta definició deixa lloc a diverses excepcions. Pensem, per exemple, en signes de puntuació, que apareixen units a les paraules: l’apòstrof sol aparèixer entre dues paraules diferents que, en virtut de la definició, s’identificarien per error com una sola paraula.

L’ambigüitat de la puntuació també és un problema quan hem d’identificar la unitat lingüística superior a la paraula, és a dir, l’ oració . Podríem definir frases –simplificant– com a seqüències de paraules separades per punts i espais i començant per majúscula; però també hi ha abreviatures com "Mr. Johnson" que, segons aquesta heurística, es dividirien en frases separades.

Cordes i expressions regulars

Com entenem dels exemples anteriors, la tokenització s’ha de basar en criteris de vegades complexos per tenir en compte possibles excepcions. La cerca de cadenes , és a dir, seqüències de caràcters que compleixen determinats criteris, es duu a terme mitjançant expressions regulars , notacions algebraiques que descriuen formalment patrons de cadenes. Diversosllenguatges de programació , com Perl , permeten especificar patrons de cadenes mitjançant la sintaxi d’expressió regular (en endavant ER) i comprovar si existeixen patrons coincidents en un text. Cada idioma retorna un resultat diferent, en cas que es verifiqui la coincidència: la cadena que satisfà el patró, la seva línia d’ocurrència, un valor booleà , etc.

A través del RE, podem formular heurístiques amb una estructura condicional, és a dir, basada en la verificació d’una sèrie de condicions. L'exemple següent mostra una heurística per situar el punt com a límit de frase.

/ \ b Harrapz-zz + \. \ s + markzzz /

Si el punt està precedit per una paraula en minúscula (\ b indica el límit del testimoni, la seqüència "[az] +" indica l'aparició d'una o més lletres minúscules), seguida d'un o més espais i finalment per un majúscula, llavors aquest punt és un límit de frase i es considerarà com a testimoni independent.

El cas de l’abreviatura (vegeu més amunt) no es resol així, per tant, caldrà perfeccionar aquesta heurística. L’important, però, és que, gràcies als RE, podem formalitzar fàcilment les regles per simbolitzar correctament el text, regles que poden llegir els programes que s’ocupen d’aquesta operació: els tokenitzadors .

Tipus de fitxes

Si ens interessa saber el ric que és un text tokenitzat des del punt de vista lèxic, pot ser útil classificar els tokens en tipus de tokens, és a dir, agrupar els tokens en classes amb algun tipus de semblança mútua. Per exemple, podríem agrupar-los segons la seva forma gràfica : dues fitxes pertanyen al mateix tipus si són idèntiques independentment de la seva posició al text. A continuació, hauríeu d'abstracte de la representació tipogràfica del text per excloure diferències com ara minúscules / majúscules, impresa / cursiva, etc. Quan es remunten diferents formes tipogràfiques d’una mateixa paraula a una forma estàndard, es diu que es remunta a una forma normalitzada .

El vocabulari d’un text es defineix com el conjunt de paraules estàndard que es produeixen al seu interior. Per fer-nos una idea de la riquesa lèxica d’un text, tenint en compte les diferents longituds possibles, calculem la proporció entre els tipus de fitxes -agrupades segons la seva forma normalitzada- i les unitats de fitxes ( Type token ratio o TTR ) :

El TTR sempre estarà entre 0 i 1: com més a prop del valor obtingut sigui 1, més variat i ric serà el text analitzat.

Un altre índex interessant de la riquesa lèxica d’un text és la relació entre el nombre d’ hapax present i la longitud del text, on “hapax” significa paraules que només es produeixen una vegada.

El valor obtingut ens indica en quin percentatge el text està compost de paraules "úniques"; els valors baixos corresponen a textos molt repetitius.


En funció de la seva freqüència , és a dir, del nombre d’ocurrències, podríem ordenar les paraules d’un text en una llista decreixent (de la més freqüent a la menys freqüent). Després, indicant amb un nombre creixent les posicions de les paraules, anomenaríem aquest número al rang de la paraula. Si observem quines són les paraules del text que apareixen amb més freqüència, notarem que a les primeres files hi ha les "paraules gramaticals", aproximadament definibles com aquelles paraules que no estan associades a un referent de realitat concreta o abstracta, però serveixen per expressar una sèrie de relacions internes amb el sistema lingüístic: els articles i les preposicions en són un exemple; aquestes paraules constitueixen el teixit connectiu de qualsevol text, independentment del tema. Al final de la llista hi haurà les "paraules lèxicament plenes", la presència de les quals depèn estrictament del tema. Cal recordar també que les paraules gramaticals són una classe tancada, és a dir, el seu nombre total en una llengua és baix i es manté més o menys constant al llarg del temps, un altre factor que determina la seva presència massiva en qualsevol tipus de text. Una llei interessant existent entre el rang de la paraula i la seva freqüència s’expressa per la llei de Zipf .

Tendència de vocabulari

La distribució de les paraules canvia a mesura que avança el text, de manera que ens pot interessar una visió més dinàmica del mateix, el que significa estudiar com varia la composició del seu lèxic al llarg del temps. Aquest interès es motiva fàcilment buscant certa regularitat estadística que ens permeti predir la distribució final de les paraules, basant-se només en observacions parcials de les dades. Intuïtivament, el vocabulari creix molt ràpidament al principi del text, però es ralentitza a mesura que les paraules comencen a repetir-se. Fins i tot en textos lèxicament molt variats, la repetició d'almenys paraules gramaticals és inevitable. Un altre factor favorable a la repetitivitat també és la coherència lèxica, perquè quan parlem d’un mateix tema tendim a reutilitzar sempre els mateixos termes.

La relació inversa amb el TTR, és a dir, la longitud del text dividida pel seu vocabulari, ens proporciona la freqüència mitjana de les paraules d’aquest text (f), un índex invers de la seva riquesa lèxica. Però si consideréssim les variacions de T i vT a mesura que avança el text, notaríem que inicialment la proporció T / vT és igual a 1, començant a créixer a mesura que reapareixen les paraules. En els textos amb contingut homogeni, la tendència és la de les funcions no decreixents: ; ocasionalment es pot produir una inversió de tendència, amb si en les últimes h paraules el vocabulari creix significativament, probablement reflectint certa discontinuïtat en el contingut.

Teorema del límit central

Les paraules curtes solen ser més difícils que les paraules llargues, de manera que pot ser interessant investigar com es distribueixen les paraules d’un text si les dividim pel paràmetre de longitud. La longitud mitjana de les paraules de tot el text tindrà inevitablement un valor baix, a causa de la incidència en les dades de les paraules gramaticals (breus i molt freqüents en qualsevol tipus de text). En el seu lloc, intentem comparar els valors de la longitud mitjana en una sèrie de mostres de text, per veure quant difereixen de la mitjana de tota la població: organitzant les mitjanes obtingudes en un gràfic, notarem que la seva distribució pren la forma de campana típica de la corba normal , i que el nombre d'ells que es desvien de la mitjana global disminueix quan més augmenta la desviació. L'observació és anticipada pel teorema del límit central , que permet establir com es pot generalitzar exactament les conclusions extretes de l'evidència quantitativa d'una mostra. Segons el teorema, donada una sèrie de mostres de mida n extretes d’una població, les seves mitjanes tendeixen a distribuir-se segons una corba normal; l'aproximació a aquesta corba millora a mesura que augmenta n, independentment de com es distribueixi la població inicial al voltant de la seva mitjana. Ho podem deduir

  • on les mitjanes estan més disperses al voltant de l'eix principal, no ens és possible generalitzar les observacions de la mostra a tota la població;
  • com més gran sigui la mida de la mostra, més fiables són les nostres generalitzacions.

De textos a corpus

Un corpus és un conjunt de textos que s’han seleccionat per ser funcionals per a l’anàlisi lingüística. Gràcies al creixent interès pels mètodes estadístics de la lingüística computacional i a la consciència de la importància de les dades lingüístiques reals als efectes de la investigació, els corpus constitueixen avui la principal font de dades de la disciplina. L'evolució dels ordinadors també ha tingut un paper fonamental, ja que l'ordinador ens permet emmagatzemar quantitats de text cada vegada més grans i explorar-les amb més rapidesa i eficàcia.

Els corpus es poden classificar en diversos tipus, en funció dels criteris utilitzats per seleccionar els textos que el componen. Existeix:

  • corpus especialitzats , dissenyats per estudiar un sector específic de la llengua (el de la medicina, la burocràcia, etc.) i corpus generals , els textos dels quals es seleccionen transversalment respecte a les diferents varietats d’una llengua, per poder explorar-la després com un tot;
  • corpus de llengua escrita, parlada o mixta;
  • corpus monolingües o multilingües;
  • corpus sincrònics , els textos dels quals pertanyen al mateix moment del temps, i "corpus diacrònics", inclosos textos pertanyents a períodes diferents;
  • corpus anotats i no anotats.

Els corpus anotats , cada vegada més estesos avui en dia, són corpus en què la informació sobre l’estructura lingüística del text es codifica a diversos nivells (sintàctic, semàntic, etc.).

Representativitat dels corpus

Els corpus han de servir com a font de dades a efectes d'investigació lingüística, però només poden incloure un subconjunt de tots els productes lingüístics en una llengua determinada. Per tal que les observacions realitzades sobre la base d’un corpus siguin generalitzables al conjunt més ampli de la llengua, aquest corpus ha de ser representatiu d’aquesta llengua (o d’aquest sector de la llengua) en un moment concret, és a dir, constitueix un "model a escala reduïda" de la llengua. 'objecte d'investigació. D'una banda, ha d'incloure el màxim nombre possible de textos, i, d'altra banda, els textos s'han de seleccionar de manera que es respectin les proporcions existents al conjunt principal. Com que la llengua parlada és més freqüent que la llengua escrita, per exemple, seria erroni generalitzar les observacions preses d’un corpus d’escrits al conjunt de la llengua. Si el corpus és capaç de reproduir tota la gamma de variabilitat dels trets i propietats d’un llenguatge, el podem considerar una mostra fiable per a aquest últim i treure conclusions generalitzables a partir de la seva observació. La disciplina que s’ocupa de la selecció científica dels textos que integraran un corpus és Corpus Linguistics .

L'anotació dels corpus

Com s’ha esmentat anteriorment, els corpus anotats són corpus en què la informació lingüística es codifica en associació amb el text. La codificació explícita de nivells d’informació com l’estructura sintàctica o els rols semàntics d’una frase fa que aquests nivells siguin accessibles a l’ordinador, cosa que ha determinat la importància de l’anotació lingüística en la lingüística computacional actual. Cadascun dels nivells de descripció del llenguatge planteja problemes específics en la representació de la informació:

  • a l’ anotació morfològica cal fer la lematització (la paraula es torna al seu propi lema ) de cada testimoni del text i assignar a cadascuna la respectiva categoria gramatical;
  • a l’ anotació sintàctica cal fer explícita l’anàlisi sintàctica de les frases del text, que es pot fer de manera diferent segons els diversos plantejaments teòrics. La representació per components –en la qual s’identifiquen les frases que formen la frase i s’analitzen les seves relacions de col·lecció– i la representació de dependència –que descriu la frase en termes de dependències entre paraules que indiquen relacions gramaticals (subjecte, objecte, etc.) - són els dos enfocaments fonamentals per a la representació del nivell sintàctic;
  • en l’anotació semàntica cal codificar explícitament el significat de les expressions lingüístiques del text. Les paraules lèxiques es podrien classificar segons una sèrie de categories conceptuals predefinides, com per captar els trets més importants del seu significat (PERSONA, LLOC, PROCÉS); en cas contrari, marqueu els rols semàntics , que descriuen la funció semàntica realitzada per un sintagma en el cas expressat pel verb;
  • l’anotació pragmàtica pot implicar diversos fenòmens sobre la funció comunicativa d’una oració o les relacions entre elements lingüístics que van més enllà de la frase única. Per exemple, en els corpus que contenen transcripcions de parla dialògica és útil identificar la funció il·lusionista dels enunciats (que es poden definir com el tipus d’acció que realitzem en emetre un enunciat concret: pregunta, sol·licitud, ordre, etc.). També és possible que haguem de ressaltar les relacions entre l’ anàfora i la catàfora , aquells fenòmens pels quals, per interpretar correctament un element, cal referir-se al context lingüístic anterior i posterior, respectivament.

A continuació, il·lustro breument com es pot representar aquest coneixement en els corpus.

Tot i que els possibles esquemes d’anotacions difereixen, hi ha constants, identificables en tres tipus bàsics d’informació. Aquests, individualment o combinats entre ells, constitueixen una mena de "columna vertebral" de qualsevol esquema:

1) informació categòrica , expressada com a etiquetes que associen categories a les unitats del text. Les anotacions de la categoria gramatical i el lema, o fins i tot dels rols semàntics, es fan normalment en forma d'informació categòrica. La forma més intuïtiva de representar aquest tipus d'informació en XML és mitjançant atributs associats a l'element de referència;

<phrase> Giovanni <token pos = "verb" lemma = "go back"> tornar </token> a casa </frase>

2) La informació estructural es refereix a la identificació d'unitats estructurals en el text i la seva organització en estructures jeràrquiques. La sintaxi és el nivell més vinculat a aquest tipus d'informació; les relacions jeràrquiques entre els components es representen en XML amb la inclusió d’elements més petits en elements més grans.

<phrase> <Cos> Giovanni </Cos> <Cos> <cos> torna </cos> <cos> a casa </cos> </Cos> </frase>

Els components etiquetats amb "cos" s'inclouen al component "Cos" de grau superior;

3) la informació relacional enllaça diferents unitats lingüístiques, cosa que permet explicar relacions recíproques (per exemple, les dependències entre subjecte i objecte, o entre pronom anafòric i pronom antecedent).

En XML, la informació relacional suposa que a cada element se li ha assignat un identificador únic en forma d'atribut ID, de manera que possiblement es pot recuperar mitjançant un atribut IDREF.

<text> <frase> <token ID = "n1"> Records </token> <token ID = "n2"> Luigi </token> <token ID = "n3">? </token> </frase> < sentence> <token ID = "n4"> No </token> <token ID = "n5" reference = "n2"> lo </token> <token ID = "n6"> veig </token> <ID de token = "n7"> de </token> <token ID = "n8"> anys </token> <token ID = "n9">. </token> </frase> </text>

Per al mateix nivell de descripció, òbviament es poden utilitzar més tipus d'informació; de fet, és estrany que es pugui descriure un nivell només amb un tipus d'informació. Els esquemes d'anotacions tendeixen a contaminar-los entre si, de manera que gairebé cap d'aquests tipus apareix en estat "pur" al corpus. D'altra banda, identificar com es codifiquen i avaluar fins a quin punt s'expressen descriptivament representen passos fonamentals per verificar la validesa dels esquemes d'anotacions.

La nova frontera

Ja s'ha dit que l'anotació fa que els nous nivells d'informació lingüística siguin accessibles a l'ordinador. No obstant això, l’anotació d’un text per part dels éssers humans requereix una gran quantitat de temps i energia i pot presentar problemes d’incongruència. Un enfocament completament oposat és el d’intentar enriquir l’ordinador amb els coneixements lingüístics necessaris per entendre l’estructura i el contingut del text , simulant el comportament d’un lector humà.

Les eines creades en aquesta perspectiva difereixen entre elles per la complexitat del coneixement que tenen i pel nivell d’abstracció de les representacions que produeixen. Només cal pensar en la diferència entre un stemmer i un analitzador morfològic . El primer inclou una llista de possibles finals en un idioma i l’ordre en què s’ordenen dins d’una paraula, però inevitablement no reconeix les arrels irregulars. Els analitzadors, en canvi, tenen un lèxic d’arrels lèxiques, un d’afixos, regles per combinar arrels i afixos i regles de normalització que poden conduir les diverses formes d’una mateixa arrel a un sol exponent lèxic; gràcies a aquest coneixement, són capaços de dur a terme de forma autònoma l’anàlisi morfològica d’una paraula.

Clarament, això només representa un primer pas per apropar l’ordinador a la comprensió del text, a causa de la presència d’ambigüitats (expressions lingüístiques que es poden interpretar de diverses maneres) a diversos nivells: un problema que requereix fins i tot aplicacions extremadament complexes per resoldre percentatges acceptables dins d’una col·lecció de textos. El camí de la lingüística computacional cap a màquines capaces d’interactuar com a éssers humans encara és llarg i complex i està estretament lligat a la nostra comprensió de l’eina lingüística: no és difícil imaginar-ho procedint de la mà d’altres disciplines com la lingüística general , psicologia i ciències cognitives.

Un ordinador expert en la producció i comprensió oral i escrita del llenguatge humà és, en primer lloc, un ordinador capaç de funcionar de la manera que coneixem actualment, a més de ser una de les principals innovacions i extensions de la informàtica actual, que és la filla d'eines, matemàtics de lògica clàssica i anàlisi estàndard. Per tant, entre les línies de recerca obertes i més prometedores per a una extensió innovadora de la informàtica com la lingüística computacional, trobem les extensions més innovadores de la lògica clàssica ( hipercub lògic ) i les matemàtiques ( topologia i anàlisi no estàndard , des de les renovacions de Markov fins a teoria d’espais probabilístics no commutatius).

Nota

  1. Armando Torno, El jesuïta que va posar Sant Tomàs al PC , a Corriere della Sera , 11 d'agost de 2011, pàg. 39.

Bibliografia

  • Lenci, Alessandro et al. , Text i ordinador. Elements of linguistics computational , Roma, Carocci, 2005.
  • Pierazzo, Elena , La codificació de textos. Una introducció , Roma, Carocci, 2005.
  • Jurafsky, Daniel i Martin, James H., Processament de la parla i el llenguatge. Una introducció al processament del llenguatge natural , Nova Jersey, Prentice Hall, 2000.
  • Garside, Roger et al. , Corpus Annotation: Linguistic Information from Computer Text Corpora , Londres, Longman, 1997.

Articles relacionats

Altres projectes

Enllaços externs

Controllo di autorità Thesaurus BNCF 17705 · LCCN ( EN ) sh85077224 · GND ( DE ) 4035843-4 · BNF ( FR ) cb11939297d (data)
Linguistica Portale Linguistica : accedi alle voci di Wikipedia che trattano di linguistica