Desambiguació

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca

Desambiguació (en anglès Word Sense Disambiguation o, abreujat, WSD ) és el procés mitjançant el qual s’especifica el significat d’una paraula o d’un conjunt de paraules ( frase ), que denota diferents significats segons els contextos , per evitar que sigui ambigu .

El problema de la desambiguació, mitjançant algoritmes específics, té una importància especial en la investigació sobre intel·ligència artificial i, en particular, en el processament del llenguatge natural . En concret, s’esperen beneficis de desambiguació en traducció automàtica , recuperació d’informació , programes d’extracció d’informació automatitzada, etc.

Els dos exemples següents cobreixen significats diferents de la paraula rombe :

  1. Vaig comprar un turbot fresc al mercat
  2. El rombe té quatre costats de la mateixa longitud

Tot i que és obvi per a un humà que la primera frase fa referència al significat dels peixos i la segona al de la figura geomètrica , el desenvolupament d'algoritmes per replicar aquesta capacitat humana sol ser difícil.

Problemes

Un problema fonamental de desambiguació es refereix a la identificació dels significats de les paraules ( inventaris de significats ). Quan una paraula pren diversos significats, s’anomena polisèmica . En casos com la paraula rombe , alguns dels significats apareixen clarament diferents. Aquests significats s’anomenen homònims . No obstant això, hi ha altres casos de significats diferents estretament relacionats. Un exemple és el d’un significat relacionat amb un altre significat per metàfora (per exemple, devorar una fortuna) o per metonímia (beure un got ). En aquests casos, la subdivisió de significats és molt més difícil: diferents diccionaris proporcionen diferents subdivisions de significats per a les paraules. Una solució adoptada pels investigadors va ser triar un diccionari concret de la llengua anglesa, WordNet , i utilitzar el seu conjunt de significats. Les cerques també es van fer utilitzant equivalents de WordNet en altres idiomes (per a l'italià, hi ha BabelNet [1] , ItalWordNet [2] i MultiWordNet [3] ). Malauradament, WordNet codifica distincions de significat massa refinades, cosa que condueix a una decebedora actuació de desambiguació. Darrerament, s'han creat distincions de significat menys refinades que han resultat en un rendiment de desambiguació per a la llengua anglesa entre el 80% i el 90% [4] .

Nota

  1. R. Navigli, SP Ponzetto. BabelNet: Construint una xarxa semàntica multilingüe molt gran . Procés de la 48a Reunió Anual de l'Associació per a la Lingüística Computacional (ACL 2010), Uppsala, Suècia, 11-16 de juliol de 2010, pp. 216-225.
  2. Roventini A., Alonge A., Calzolari N., Magnini B., Bertagna F. (2000), "ItalWordNet: a Large Semantic Database for Italian", Proc. De la 2a Conferència Internacional sobre Recursos i Avaluació de Llengües (LREC 2000 ), Atenes, Grècia, 2000, pp. 783-790.
  3. ^ E. Plant, L. Bentivogli, C. Girardi. MultiWordNet: desenvolupant una base de dades multilingüe alineada , Proc. De la primera conferència internacional sobre WordNet global, Mysore, Índia, del 21 al 25 de gener del 2002.
  4. R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Tasca 07: Tasca Anglès de gra gros Totes les paraules . Taller Proc. Of Semeval-2007 ( SemEval ), a la 45a Reunió Anual de l'Associació per a la Lingüística Computacional (ACL 2007), Praga, República Txeca, pp. 30-35.

Bibliografia

Articles relacionats

Altres projectes

Control de l'autoritat LCCN (EN) sh85119869 · GND (DE) 4233548-6