Indexació (motors de cerca)

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca

La indexació fa referència a la inserció d’un lloc web o blog a la base de dades d’un motor de cerca . La indexació d’un lloc web, és a dir, és la forma en què el lloc és adquirit i interpretat pels motors de cerca i, per tant, apareix a les seves pàgines de resposta a les consultes dels usuaris del web.

El posicionament és diferent, és a dir, una acció destinada a determinar que un lloc aparegui en una posició específica a les pàgines de resposta dels motors (és a dir, a les primeres posicions).

Operacions de motors de cerca

Registre del lloc

Icona de la lupa mgx2.svg El mateix tema en detall: protocol d'exclusió de robots .

Des del costat dels motors de cerca, la indexació de llocs web / blocs és la seva primera i fonamental operació. En realitat, aquesta fase és precedida per l’escaneig de pàgines web públiques, que es produeix periòdicament (i automàticament) pels motors principals, sempre que les pàgines compleixin determinats requisits de disseny i qualitat web. Posteriorment, pot tenir lloc la fase de posicionament, que és la que tracten els experts en Optimització . La indexació és només una de les tres fases necessàries (rastreig per trobar contingut web, indexació per assimilar-los i posicionament per determinar com i on es poden cercar), totes tres molt diferents entre si i és important no confondre’s a l’hora de considerar ells. Per exemple, la indexació només és la part necessària perquè les pàgines del lloc siguin visibles als motors, però no sol ser suficient perquè el lloc pugui ser cercat mitjançant una cerca arbitrària. [1]

Després de registrar-los, els motors de cerca analitzen periòdicament els llocs presents als seus arxius per comprovar si hi ha actualitzacions: a través de programes especials anomenats aranyes (literalment "aranyes", en el sentit que creuen la "teranyina" dels enllaços amb els quals la xarxa està simbòlicament representats), entren a un lloc i comencen a llegir el marcatge HTML , buscant qualsevol canvi en el contingut o l’estructura. Quan una aranya troba un enllaç a una altra pàgina del lloc o a un altre lloc, també analitza aquesta última en conseqüència.

Quan el motor de cerca finalitza la llarga operació d’escaneig dels llocs que ja hi ha a l’arxiu, comença a escanejar tots els llocs proposats pels administradors web a través del servei d’ addició d’ URL (informe d’un lloc) que es troba a tots els motors de cerca. Aquest sistema ja està obsolet: és preferible fer servir eines més modernes per supervisar el vostre lloc, com ara Google Search Console. [2]

El lloc no està indexat, totalment o parcialment, si hi ha instruccions al marcador HTML, com ara <meta name = "robots" content = "noindex"> o, en el cas de les fotos, <meta name = "robots "content =" noimageindex ">; si, en canvi, no s’especifica res al respecte, s’indexa tot el contingut de la pàgina web.
A excepció de les metaetiquetes ROBOTS , les metadades HTML tenen poc ús per classificar llocs als motors de cerca, que es basen "en el text contingut a la mateixa pàgina, la popularitat del lloc web i diversos altres paràmetres".

Classificació del lloc

Després d’haver escanejat la xarxa i indexar (en el sentit d’agrupar) una gran quantitat de pàgines web, el motor de cerca passa a la segona fase: classificar-les i situar-les en funció de paraules clau que reflecteixin el lloc al màxim. D’aquesta manera, els motors de cerca, mitjançant algoritmes concrets, asseguren als seus usuaris un contingut vàlid i actualitzat. Cada motor utilitza algoritmes especials, com PageRank de Google , que atorga importància a una pàgina que depèn del nombre d’enllaços que apunten a aquesta pàgina des d’altres llocs web.

Darrerament, els motors de cerca solen penalitzar, però no sempre, l’ús de referències / indexacions automàtiques a través de programari.

La indexació repetida de la mateixa pàgina es considera spam .

Els temps d’indexació d’un lloc web poden variar d’unes poques setmanes a tres mesos.

Dret italià

Una sentència del Tribunal de Roma del 23 de març de 2011 va condemnar un motor de cerca per publicar enllaços a llocs web d’igual a igual que permeten la transmissió de pel·lícules amb drets d’ autor . [3]

Factors de disseny de l’índex

Els principals factors en el disseny d’una arquitectura de motors de cerca són:

Combinar factors
Com entren les dades a l'índex o com s'afegeixen paraules o característiques de l'objecte a l'índex quan es travessa el cos del text i si diversos indexadors poden funcionar de manera asíncrona. Primer l’indexador ha de comprovar si actualitza contingut antic o afegeix contingut nou. La travessia sol estar relacionada amb la política de recollida de dades. La combinació de l’índex del motor de cerca és similar en concepte a l’ordre SQL Merge i a altres algorismes de combinació.
Tècniques d’arxiu
Com emmagatzemar les dades de l’índex, és a dir, si la informació s’ha de comprimir o filtrar.
Mida de l’índex
Quanta memòria d’ordinador es necessita per donar suport a l’índex.
Velocitat de cerca
La velocitat amb què es pot trobar una paraula a l’índex invertit. La velocitat de trobar una entrada en una estructura de dades, en comparació amb la velocitat amb què es pot actualitzar o eliminar, és un focus central de la informàtica.
Manteniment
Com es manté l’índex al llarg del temps.
Falta de tolerància
És important que el servei sigui fiable. Els problemes inclouen la manipulació de la corrupció de l’índex, la determinació de si les dades no vàlides es poden gestionar de forma aïllada, la manipulació de maquinari defectuós, la partició i els esquemes, com ara la partició basada en hash o la composició, així com la replicació.

Índex d’estructura de dades

Les arquitectures dels motors de cerca varien en la manera com es realitza la indexació i els mètodes d'emmagatzematge d'índexs per adaptar-se a diversos factors de disseny.

Sufix arbre
Estructurat figurativament com a arbre, dóna suport a la investigació temporal lineal. Construït memoritzant els sufixos de paraules. L’arbre del sufix és un tipus de trie. Els intents són compatibles amb el hash extensible, que és important per a la indexació de motors de cerca. S’utilitza per buscar patrons en seqüències d’ADN i en agrupacions. Un desavantatge important és que emmagatzemar una paraula a l’arbre pot ocupar espai més enllà del necessari per emmagatzemar la paraula mateixa. Una representació alternativa és una matriu de sufixos, que es creu que requereix menys memòria virtual i admet la compressió de dades com l'algorisme BWT [4] [5] .
Índex invertit
Emmagatzema una llista d’ocurrències de cada criteri de cerca atòmica, normalment en forma de taula de hash o arbre binari [6] [7] [8] .
Índex de citació
Emmagatzema cites o hipervincles entre documents per donar suport a l’anàlisi de cites, un tema de bibliometria.
Índex n- gram
Emmagatzema seqüències de longitud de dades per donar suport a altres tipus de recuperació o extracció de text [9] .
Matriu dels termes del document
Utilitzat en anàlisis semàntiques latents, emmagatzema les aparicions de paraules en documents en una matriu dispersa bidimensional.

Reptes en paral·lelisme

Un dels principals reptes del disseny de motors de cerca és gestionar els processos de processament en sèrie. Hi ha moltes oportunitats per obtenir condicions i errors consistents en la cursa. Per exemple, s’afegeix un document nou al corpus i s’ha d’actualitzar l’índex, però al mateix temps l’índex ha de continuar responent a les consultes de cerca. Es tracta d’una col·lisió entre dues empreses competidores. Penseu que els autors són productors d'informació i que un rastrejador web en consumeix, agafa el text i l'emmagatzema en una memòria cau (o corpus). L'índex forward és el consumidor de la informació produïda pel corpus i l'índex invertit és el consumidor de la informació produïda per l'índex forward. Es coneix habitualment com a model productor-consumidor . L'indexador és el productor d'informació que es pot cercar i els usuaris són els consumidors que han de fer cerques. El repte s’augmenta quan es treballa amb emmagatzematge distribuït i processament distribuït. En un esforç per escalar amb quantitats més grans d’informació indexada, l’arquitectura del motor de cerca pot implicar una computació distribuïda, on el motor de cerca està format per diverses màquines que funcionen a l’uníson. Això augmenta les possibilitats d’incongruència i fa més difícil mantenir una arquitectura paral·lela, distribuïda i totalment sincronitzada [10] .

Índexs invertits

Molts motors de cerca incorporen un índex invertit en avaluar una consulta de cerca per localitzar ràpidament els documents que contenen les paraules d’una consulta i, a continuació, classificar aquests documents en funció de la rellevància. Com que l'índex invertit emmagatzema una llista dels documents que contenen cada paraula, el motor de cerca pot utilitzar l'accés directe per trobar els documents associats a cada paraula de la consulta per recuperar ràpidament els documents coincidents. A continuació es mostra una il·lustració simplificada d’un índex invertit:

Índex invertit
paraula Documents
el Document 1, Document 3, Document 4, Document 5, Document 7
vaca Document 2, Document 3, Document 4
Ell diu Document 5
a continuació Document 7

Aquest índex només pot determinar si existeix una paraula dins d'un document concret, ja que no emmagatzema informació sobre la freqüència i la posició de la paraula; per tant, es considera un índex booleà. Aquest índex determina quins documents coincideixen amb una consulta però no classifica els documents coincidents. En alguns projectes, l'índex inclou informació addicional com la freqüència de cada paraula en cada document o la posició d'una paraula en cada document. la informació d’ubicació permet que l’algorisme de cerca identifiqui la proximitat de les paraules per donar suport a la cerca de frases; la freqüència es pot utilitzar per ajudar a classificar la rellevància dels documents per a la consulta. Aquests temes són el centre de la investigació de recuperació d’informació.

L'índex invertit és una matriu escassa, ja que no totes les paraules estan presents a tots els documents. Per reduir els requisits de memòria d'emmagatzematge de l'ordinador, s'emmagatzema de manera diferent que una matriu bidimensional. L'índex és similar al terme matrius de documents utilitzat per l'anàlisi semàntica latent. L'índex invertit es pot considerar una forma de taula de hash. En alguns casos, l’índex és una forma d’arbre binari, que requereix espai d’emmagatzematge addicional però pot reduir el temps de cerca. En índexs més grans, l'arquitectura sol ser una taula de hash distribuïda [11] .

Unió índex

L'índex invertit s'omple mitjançant una combinació o una reconstrucció. Una reconstrucció és similar a una combinació, però primer suprimeix el contingut de l’índex invertit. L'arquitectura es pot dissenyar per donar suport a la indexació incremental [12] , on una combinació identifica el document o documents que s'han d'afegir o actualitzar i després analitza cada document en paraules. Per ser precisos, una combinació combina documents recentment indexats, que solen residir a la memòria virtual, amb la memòria cau d'índex que resideix en un o més discs durs de l'ordinador.

Després d'analitzar, l'indexador afegeix el document de referència a la llista de documents per a les paraules adequades. En un motor de cerca més gran, el procés de trobar cada paraula a l’índex invertit (per tal de senyalitzar que s’ha produït dins d’un document) pot trigar massa, de manera que aquest procés sol dividir-se en dues parts, el desenvolupament d’un reenviament índex i un procés que ordena el contingut de l’índex directe a l’índex invertit. L’índex invertit s’anomena així perquè és una inversió de l’índex directe.

L’índex directe

L'índex directe emmagatzema una llista de paraules per a cada document. A continuació es mostra una forma simplificada de l’índex directe:

Índex de reenviament
Document Paraules
Document 1 la vaca diu moo
Document 2 el gat i el barret
Document 3 El plat fuig amb la cullera

El motiu darrere del desenvolupament d’un índex directe és que quan s’analitzen els documents, és millor emmagatzemar immediatament les paraules per document. La delimitació permet el processament de sistemes asíncrons, que obvia parcialment el coll d'ampolla de l'actualització de l'índex invertit [13] . L’índex directe s’ordena per convertir-lo en un índex invertit. L’índex directe és essencialment una llista de parells que consisteixen en un document i una paraula, recollits del document. Convertir l’índex directe en un índex invertit només és qüestió d’ordenar els parells en funció de les paraules. En aquest sentit, l’índex invertit és un índex directe ordenat per paraules.

Compressió

La generació o el manteniment d’un índex de motors de cerca a gran escala suposa un repte important d’emmagatzematge i processament. Molts motors de cerca utilitzen una forma de compressió per reduir la mida dels índexs del disc [14] . Penseu en el següent escenari per a un motor de cerca d’Internet de text complet.

  • Es necessiten 8 bits (o 1 byte) per emmagatzemar un sol caràcter. Algunes codificacions utilitzen 2 bytes per caràcter [15] [16]
  • El nombre mitjà de caràcters d'una paraula determinada d'una pàgina es pot estimar en 5

En aquest escenari, un índex sense comprimir (suposant un índex simple i no combinat) per a 2.000 milions de pàgines web hauria d'emmagatzemar 500.000 milions d'entrades de paraules. A 1 byte per caràcter o 5 bytes per paraula, caldria només 2500 gigabytes d’emmagatzematge. Aquest requisit d’espai pot ser encara més gran per a una arquitectura d’emmagatzematge distribuït tolerant a errors. Depenent de la tècnica de compressió escollida, l'índex es pot reduir a una fracció d'aquesta mida. La compensació és el temps i la potència de processament que es necessiten per realitzar la compressió i la descompressió.

En particular, els projectes de motors de cerca a gran escala incorporen el cost d’emmagatzematge i el cost de l’electricitat per a l’emmagatzematge d’energia. Per tant, la compressió és una mesura del cost.

Anàlisi de documents

L'anàlisi de documents separa els components (paraules) d'un document o una altra forma de suport per a la indexació directa i inversa. Les paraules trobades s’anomenen fitxes i, per tant, en el context de la indexació de motors de cerca i del processament del llenguatge natural, l’anàlisi es coneix més comunament com a "tokenització". De vegades també s’anomena desambiguació de paraules límit, etiquetatge, segmentació de text, anàlisi de contingut, anàlisi de text, mineria de text, generació de concordança, segmentació de la parla, lexing o anàlisi lèxica. Els termes "indexació", "anàlisi" i "tokenització" s'utilitzen indistintament en l'argot empresarial.

Reptes en el processament del llenguatge natural

Els parlants nadius d’anglès inicialment podrien considerar la tokenització una tasca senzilla, però no és així quan es dissenya un indexador multilingüe. En forma digital, els textos d'altres idiomes com el xinès, el japonès o l'àrab suposen un repte més gran, ja que les paraules no estan clarament delimitades amb espais en blanc. L’objectiu durant la tokenització és identificar les paraules que cercaran els usuaris. La lògica específica del llenguatge s’utilitza per identificar correctament els límits de les paraules, que sovint és el motiu darrere del disseny d’un analitzador per a cada idioma suportat (o per a grups de llengües amb marcadors de límits i sintaxi similars).
Ambigüitat lingüística
Per ajudar a classificar correctament els documents coincidents, molts motors de cerca recopilen informació addicional sobre cada paraula, com ara el seu idioma o la seva categoria lèxica (part del discurs). Aquestes tècniques depenen del llenguatge, ja que la sintaxi varia entre llengües. Els documents no sempre identifiquen clarament l’idioma del document ni el representen amb precisió. En la tokenització de documents, alguns motors de cerca intenten identificar automàticament l'idioma del document [17] .
Diferents formats de fitxer
Per identificar correctament quins bytes d’un document representen caràcters, s’ha de gestionar correctament el format del fitxer. Els motors de cerca que admeten diversos formats de fitxer han de poder obrir i accedir correctament al document i ser capaços de simbolitzar els caràcters del document.
Emmagatzematge defectuós
La qualitat de les dades en llenguatge natural no sempre és perfecta. Un nombre incalculable de documents, especialment a Internet, no compleixen estrictament el protocol de fitxers adequat. Els caràcters binaris es poden codificar incorrectament en diverses parts d’un document. Sense el reconeixement d’aquests caràcters i el maneig adequat, la qualitat de l’índex o el rendiment de l’índex es podrien degradar.

Tokenització

A diferència dels humans alfabetitzats, els ordinadors no entenen l’estructura d’un document de llenguatge natural i no poden reconèixer automàticament paraules i frases. Per a un ordinador, un document és només una seqüència de bytes. Els ordinadors no "saben" que un espai separa les paraules d'un document. En lloc d'això, els éssers humans han de programar l'ordinador per identificar allò que constitueix una paraula individual o diferent coneguda com a signe. Un programa d’aquest tipus se sol anomenar tokenizer, analitzador o lexer. Molts motors de cerca, així com altres programes de processament del llenguatge natural, incorporen programes especialitzats per a l'anàlisi, com ara YACC o Lex.

Durant la tokenització, l’analitzador identifica seqüències de caràcters que representen paraules i altres elements, com ara la puntuació, que es representen mitjançant codis numèrics, alguns dels quals són caràcters de control que no s’imprimeixen. L'analitzador també pot identificar entitats com adreces de correu electrònic, números de telèfon i URL. En identificar cada testimoni, és possible emmagatzemar diferents característiques, com ara el cas del testimoni (superior, inferior, mixt, correcte), idioma o codificació, categoria lèxica (part del discurs, com ara "nom" o "verb" ), posició, número de frase, posició de frase, longitud i número de línia.

Reconeixement de la llengua

Si el motor de cerca admet diversos idiomes, un pas inicial comú durant la tokenització és identificar l’idioma de cada document; molts dels passos següents depenen del llenguatge (com ara la derivació i part de l'etiquetatge de veu). El reconeixement d’idiomes és el procés mitjançant el qual un programa d’ordinador intenta identificar o classificar automàticament l’idioma d’un document. Altres noms per al reconeixement d’idiomes inclouen la classificació de l’idioma, l’anàlisi de la llengua, la identificació de la llengua i l’etiquetatge de la llengua. El reconeixement automàtic del llenguatge és objecte d’una investigació contínua sobre el processament del llenguatge natural. Trobar l’idioma al qual pertanyen les paraules pot implicar l’ús d’una taula de reconeixement d’idiomes.

Anàlisi de formats

Si el motor de cerca admet diversos formats de documents, els documents s'han de preparar per a la tokenització. El repte és que molts formats de documents contenen informació de format a més de contingut textual. Per exemple, els documents HTML contenen etiquetes HTML, que especifiquen informació de format, com ara l'inici d'una línia nova, negreta i la mida o l'estil de la font. Si el motor de cerca ignorés la diferència entre contingut i "etiquetatge", s'inclouria informació estranya a l'índex, cosa que provocaria resultats de cerca deficients. L’anàlisi de formats és la identificació i gestió del contingut de format incrustat en documents que controla com es mostra el document a la pantalla de l’ordinador o s’interpreta mitjançant un programa informàtic. L’anàlisi de formats també es coneix com anàlisi d’estructures, anàlisi de formats, eliminació d’etiquetes, eliminació de formats, normalització de text, neteja de text i preparació de text. El repte de l’anàlisi de formats es complica encara més per la complexitat dels diferents formats de fitxer. Alguns formats de fitxer són propietaris amb molt poca informació revelada, mentre que altres estan ben documentats. Els formats de fitxer més habituals i ben documentats que admeten molts motors de cerca inclouen:

  • HTML
  • Fitxer de text ASCII (un document de text sense format específic que l'ordinador pot llegir)
  • Format de document portàtil (PDF) d'Adobe
  • PostScript (PS)
  • LaTeX
  • Formats de servidor NetNews UseNet
  • XML i derivats com RSS
  • SGML
  • Formats de metadades multimèdia com ID3
  • Microsoft Word
  • Microsoft Excel
  • Microsoft Powerpoint
  • IBM Lotus Notes

Les opcions per gestionar diversos formats inclouen l’ús d’una eina d’anàlisi empresarial disponible públicament que ofereix l’organització que ha desenvolupat, manté o posseeix el format i escriure un analitzador personalitzat.

Alguns motors de cerca admeten la inspecció de fitxers emmagatzemats en format de fitxer comprimit o xifrat. Quan es treballa amb un format comprimit, l’índex descomprimeix primer el document; aquest pas pot generar un o més fitxers, cadascun dels quals s'ha d'indexar per separat. Els formats de fitxers comprimits més compatibles inclouen:

  • ZIP: fitxer arxiu zip
  • RAR: fitxer d’arxiu de Roshal
  • CAB: gabinet de fitxers de Microsoft Windows
  • Gzip: fitxer comprimit amb gzip
  • BZIP: fitxer comprimit mitjançant bzip2
  • Tape ARchive (TAR), fitxer d'arxiu Unix, no comprimit
  • TAR.Z, TAR.GZ o TAR.BZ2: fitxers d'arxiu Unix comprimits amb Compress, GZIP o BZIP2

L'anàlisi de formats pot implicar mètodes de millora de la qualitat per evitar incloure "informació incorrecta" a l'índex. El contingut pot manipular la informació de format per incloure contingut addicional. Exemples d'ús indegut de format de documents per a la reducció de contingut brossa:

  • Incloeu centenars o milers de paraules en una secció oculta a la pantalla de l'ordinador, però visible per a l'indexador, mitjançant l'ús de format (per exemple, l'etiqueta "div" oculta en HTML, que pot incorporar l'ús de CSS o JavaScript per Fes-ho).
  • Establiu el color de la lletra de primer pla de les paraules al mateix color que el fons, convertint les paraules amagades a la pantalla de l'ordinador en una persona que visualitzi el document, però no en l'indexador.

Reconeixement de seccions

Alguns motors de cerca incorporen el reconeixement de seccions, la identificació de les parts principals d’un document, abans de la tokenització. No tots els documents d’un corpus es poden llegir com un llibre ben escrit, dividit en capítols i pàgines organitzats. Molts documents del web, com ara butlletins de notícies i informes d’empreses, contenen contingut incorrecte i seccions laterals que no contenen material primari (de què tracta el document). Per exemple, aquest article mostra un menú lateral amb enllaços a altres pàgines web. Alguns formats de fitxer, com ara HTML o PDF, permeten mostrar contingut en columnes. Tot i que el contingut es mostra o es representa a diferents àrees de la vista, el contingut de marcatge en brut pot emmagatzemar aquesta informació seqüencialment. Les paraules que apareixen de manera seqüencial al contingut de la font bruta s’indexen de manera seqüencial, fins i tot si aquestes frases i paràgrafs es reprodueixen en diferents parts de la pantalla de l’ordinador. Si els motors de cerca indexen aquest contingut com si fos contingut normal, la qualitat de l’índex i la qualitat de la cerca es podrien degradar a causa del contingut mixt i de la proximitat incorrecta de les paraules.

  • El contingut de diferents seccions es tracta com correlacionat a l’índex, quan en realitat no ho és
  • El contingut de la "barra lateral" organitzativa s'inclou a l'índex, però el contingut de la barra lateral no contribueix al significat del document i l'índex s'omple amb una mala representació dels seus documents.

L'anàlisi de seccions pot requerir que el motor de cerca implementi la lògica de representació de cada document, essencialment una representació abstracta del document real, i després indexar la representació. Per exemple, alguns continguts a Internet es mostren mitjançant JavaScript. Si el motor de cerca no representa la pàgina i avalua el JavaScript dins de la pàgina, no "veuria" aquest contingut de la mateixa manera i indexaria el document de manera incorrecta. Com que alguns motors de cerca no es preocupen pels problemes de representació, molts dissenyadors de pàgines web eviten mostrar contingut mitjançant JavaScript o utilitzen l’etiqueta Noscript per assegurar-se que la pàgina web estigui indexada correctament. Al mateix temps, aquest fet també es pot aprofitar per fer que l'indexador del motor de cerca "vegi" contingut diferent del de l'espectador.

Indexació de metaetiquetes

Els documents específics solen contenir informació meta incorporada, com ara autor, paraules clau, descripció i idioma. Per a les pàgines HTML, la metaetiqueta conté paraules clau que també s'inclouen a l'índex. La tecnologia anterior del motor de cerca d'Internet només indexava paraules clau en metaetiquetes per a l'índex de reenviament; no s'analitzarà tot el document. En aquell moment, la indexació de text complet no estava tan ben establerta, ni el maquinari de l’ordinador era capaç de suportar aquesta tecnologia. El disseny del llenguatge de marques HTML incloïa inicialment suport per a metaetiquetes per indexar-les correctament i fàcilment, sense necessitat de tokenització [18] .

Amb el creixement d'Internet a la dècada de 1990, moltes empreses de maó i morter van anar "en línia" i van crear llocs web corporatius. Les paraules clau utilitzades per descriure pàgines web (moltes de les quals eren pàgines web orientades a l'empresa, semblants als fulletons de productes), han canviat de paraules clau descriptives a paraules clau orientades al màrqueting dissenyades per augmentar les vendes classificant la pàgina web en els resultats de cerca per a consultes de cerca específiques . El fet que aquestes paraules clau s’especifessin subjectivament va provocar el spamdexing , cosa que va provocar que molts motors de cerca adoptessin tecnologies d’indexació de text complet als anys noranta. Els dissenyadors i empreses de motors de cerca només podien inserir tantes "paraules clau de màrqueting" al contingut d'una pàgina web abans de drenar-la de tota la informació interessant i útil. Atès aquest conflicte d’interessos amb l’objectiu comercial de dissenyar llocs web orientats a l’usuari que fossin “enganxosos”, l’equació del valor de la vida del client s’ha modificat per incorporar contingut més útil al lloc web amb l’esperança de retenir el visitant. En aquest sentit, la indexació de text complet era més objectiva i augmentava la qualitat dels resultats dels motors de cerca, ja que representava un pas més del control subjectiu de la classificació dels motors de cerca, que al seu torn ha promogut la cerca de tecnologies d’indexació de text complet.

A la cerca d'escriptori, moltes solucions incorporen metaetiquetes per proporcionar als autors una manera de personalitzar encara més com el motor de cerca indexarà el contingut de diversos fitxers que no es desprèn del contingut del fitxer. La cerca a l’escriptori està més controlada per l’usuari, mentre que els motors de cerca d’Internet s’han de centrar més en l’índex de text complet.

Nota

  1. ^ Salvatore Capolupo, Com indexar un lloc , a capolooper.it . Consultat el 21 de setembre de 2019 .
  2. ^ Google, Google Search Console , a google.com , Google.it, 24 d'abril de 2018. Obtingut el 2 de juny de 2018 .
  3. ^ Marcello Tansini, Yahoo condemna el streaming il·legal i la descàrrega de pel·lícules a businessonline.it . Consultat el 26 de novembre de 2012 .
  4. ^ trie , Dictionary of Algorithms and Data Structures , Institut Nacional d'Estàndards i Tecnologia dels EUA .
  5. ^ trie , Dictionary of Algorithms and Data Structures , Institut Nacional d'Estàndards i Tecnologia dels EUA .
  6. Black, Paul E.,índex invertit , Dictionary of Algorithms and Data Structures , Institut Nacional d'Estàndards i Tecnologia dels Estats Units , octubre de 2006. Verificat des de 2006.
  7. CC Foster, Recuperació d'informació: emmagatzematge i recuperació d'informació mitjançant arbres AVL, Actes de la 20a conferència nacional de 1965, p.192-205, 24-26 d'agost de 1965, Cleveland, Ohio, Estats Units
  8. ^ Landauer, WI: L'arbre equilibrat i la seva utilització en la recuperació d'informació. IEEE Trans. sobre ordinadors electrònics, vol. EC-12, núm. 6, desembre de 1963.
  9. ^ Google Ngram Datasets Arxivat el 29 de setembre de 2013 a Internet Archive . a la venda al Catàleg de PMA
  10. Jeffrey Dean i Sanjay Ghemawat. MapReduce: processament de dades simplificat en clústers grans. Google, Inc. OSDI. 2004.
  11. ^ Tang, Hunqiang.Dwarkadas, Sandhya, "Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval" . University of Rochester, p 1.
  12. ^ Tomasic, A., et al.: Incremental Updates of Inverted Lists for Text Document Retrieval. Short Version of Stanford University Computer Science Technical Note STAN-CS-TN-93-1, December, 1993.
  13. ^ Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine . Stanford University . 1998. Verified Dec 2006.
  14. ^ HS Heaps. Storage analysis of a compression coding for a document database. 1NFOR, I0(i):47-61, February 1972.
  15. ^ The Unicode Standard - Frequently Asked Questions . Verified Dec 2006.
  16. ^ Storage estimates . Verified Dec 2006.
  17. ^ ( EN )Search Engine Optimization , su dtopseo.com . URL consultato il 21 settembre 2016 .
  18. ^ Berners-Lee, T., "Hypertext Markup Language - 2.0", RFC 1866 , Network Working Group, November 1995.

Voci correlate