Arxiu d'Internet

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca
Arxiu d'Internet
Logotip i wordmark.svg d'Internet Archive
Paio ONG
Fundació 1996
Oficina Estats Units San Francisco
Zona d’actuació Preservació digital
President Brewster Kahle
Lema accés universal a tot el coneixement
Lloc web
Arxiu d'Internet
lloc web
Logotip
URL archive.org/
Tipus de lloc Biblioteca digital
Llengua Anglès
Inscripció opcional
Benefici No
Creat per Brewster Kahle
Llançament Maig de 1996
Estat actual actiu
Eslògan accés universal a tot el coneixement
Internet Archive ha estat allotjat al Presidio de San Francisco , una antiga base militar dels Estats Units a San Francisco del 1996 al 2009
La nova seu de l'Internet Archive del novembre del 2009 a 300 Funston a San Francisco , un antic científic cristià de l' església
El logotip de Wayback Machine, utilitzat des del novembre del 2001
Mirall de l'arxiu d'Internet a la Bibliotheca Alexandrina ( Egipte )

Internet Archive és una biblioteca digital sense ànim de lucre que té el propòsit exprés de permetre un "accés universal al coneixement" [1] [2] . Ofereix un espai digital permanent per accedir a diversos tipus de recursos: per exemple, llocs web, àudio, imatges en moviment (vídeos) i llibres. Internet Archive va ser fundat per Brewster Kahle el 1996 i forma part de l'IIPC ( International Internet Preservation Consortium ). [3] A més de la seva funció principal d'emmagatzematge, Internet Archive és una organització que fa campanyes per Internet gratuïtament i obert, i és una organització sense ànim de lucre reconeguda oficialment als Estats Units .

Les oficines administratives tenen seu a San Francisco, mentre que els centres de dades es troben a San Francisco, Redwood City i Mountain View a Califòrnia . La col·lecció digital més massiva de la biblioteca és l'arxiu web, una mena de col·lecció de "imatges fixes" de la World Wide Web catalogades per data d'adquisició. Per garantir l'estabilitat i seguretat de les dades emmagatzemades, tota la col·lecció té un mirall al servidor Bibliotheca Alexandrina a Alexandria, Egipte . L'arxiu permet al públic carregar i descarregar material digital des dels seus servidors cap als seus servidors sense cap cost.

També permet accedir a un dels majors projectes d’arxiu digital de llibres existents, forma part de l’ American Library Association i està reconegut oficialment per l’estat de Califòrnia com a biblioteca pública. [4] L'empresa compta amb 200 empleats, molts dels quals participen en l' escaneig de volums de paper en centres especialitzats. L'oficina principal de San Francisco té trenta empleats. Internet Archive té un pressupost anual d’uns 10 milions de dòlars, provinent principalment de diverses fonts: els beneficis dels serveis relacionats amb el rastreig de webs , col·laboracions, subvencions, donacions i la Fundació Kahle-Austin. [5]

Segons el lloc web Internet Archive, "moltes societats donen importància a la preservació d'artefactes relacionats amb el seu patrimoni cultural. Sense aquests artefactes la civilització no té memòria i no té manera d'aprendre dels seus èxits i fracassos. La nostra cultura ara sempre produeix. Més productes en format digital. La missió de Internet Archive és ajudar a preservar aquests artefactes i crear una biblioteca digital a Internet per a investigadors, historiadors i erudits ".

Història

Brewster Kahle va fundar Internet Archive el 1996, el mateix període que va fundar l'empresa Alexa Internet , una empresa dedicada al rastreig de serveis web . Internet Archive ha començat a emmagatzemar la World Wide Web el 1996, però la col·lecció no va estar disponible fins al 2001 , quan es va desenvolupar la Wayback Machine. El 1999, l'arxiu d'Internet es va ampliar mitjançant l'addició de més col·leccions, inclòs l' Arxiu Prelinger . Actualment, l'Arxiu d'Internet inclou, entre d'altres, text, àudio, imatges en moviment i programari. Allotja una sèrie d'altres projectes, inclosos un arxiu d'imatges de la NASA , el servei d'indexació Archive-It i Open Library , un catàleg de volums editat per un programari similar a un wiki.

El 25 de març de 2020, després de la pandèmia COVID-19 , The Internet Archive va llançar la Biblioteca Nacional d’Emergències, una iniciativa que permet l’accés gratuït a text complet a tota la col·lecció digital de més d’un milió de títols del catàleg. [6] [7]

Projectes

Wayback Machine

Icona de la lupa mgx2.svg El mateix tema en detall: Wayback Machine .

Wayback Machine és la interfície web que utilitza Internet Archive per a l'extracció de dades dels llocs web dels arxius. Els llocs arxivats representen una mena de "imatges fixes" recollides en el moment de l'adquisició de les pàgines a través del programari d'indexació de l'Internet Archive. El nom "Wayback Machine" prové del terme "WABAC Machine" que s'utilitza en una de les històries de la sèrie animada Rocky and Bullwinkle . [8] El servei, gràcies a les aranyes d' Alexa , emmagatzema al llarg del temps els canvis i les tendències dels diferents llocs web . Per a llocs més petits, no té una memòria cau comuna o les pàgines rarament s’emmagatzemen.

És un servei útil en els casos següents:

  • estudi de l’evolució dels llocs web;
  • recuperació de pàgines i llocs perduts;
  • cerqueu proves un cop publicades i després suprimides.

El servei permet accedir a versions arxivades de pàgines web del passat, una mena d '"arxiu tridimensional", segons les paraules de l'Internet Archive. Milions de llocs web amb les seves dades (imatges, text, documents relacionats, etc.) s’emmagatzemen en una base de dades gegant . No tots els llocs web estan disponibles a causa de l'elecció de molts propietaris de llocs per excloure els seus llocs de la indexació. Com passa amb tots els llocs basats en dades de rastrejadors web, també falten grans àrees del web per diversos motius tècnics. Al llarg dels anys, finalment, s'han trobat diversos problemes legals relacionats amb l'arxiu i la cobertura o no dels llocs, tot i que no són el resultat d'accions deliberades. [9]

L'ús del terme "Wayback Machine" en el context de l'Internet Archive s'ha tornat tan habitual que "Wayback Machine" i "Internet Archive" s'han convertit en gairebé sinònims en la cultura popular ; per exemple, a la sèrie de televisió Law & Order: Criminal Intent (a l'episodi "Legacy", que es va emetre per primera vegada el 3 d'agost de 2008, titulat L'amor virtual a la contrapart italiana), un dels protagonistes de l'episodi utilitza la "Wayback Machine" per trobar una còpia arxivada d'un lloc web. La "instantània" dels llocs arxivats durant els diferents passos del rastrejador esdevé accessible públicament normalment després de 6-18 mesos.

Exemples de llocs web arxivats per Internet Archive i visualitzats a través de Wayback Machine:

Internet Archive utilitza el protocol Robots Exclusion Standard (a través del fitxer robots.txt ) per a l’exclusió voluntària de llocs de la seva base de dades. Internet Archive respecta les directrius del fitxer robots.txt assegurant-se que els seus robots no indexen les pàgines. Per aquest motiu, Internet Archive ha fet que diversos llocs web no estiguin disponibles i que siguin completament inaccessibles a través de Wayback Machine. En cas de llocs bloquejats, només emmagatzema el fitxer robots.txt .

L'Arxiu d'Internet s'aplica regles de robots.txt retroactivament si un lloc d'aranya bloqueja l'Arxiu d'Internet a través de l'arxiu robots.txt, llavors totes les pàgines que ja estan emmagatzemades per domini no estigui disponible. A més, es reserva el mateix comportament per a tots els llocs web que ho sol·liciten explícitament: per aquest motiu, cada vegada que el propietari d'un lloc sol·licita l'exclusió de l'índex, la sol·licitud és consentida [10] , ja que no és "Internet Arxiu [...] interessat en conservar o oferir accés a llocs web o altres documents a Internet propietat de persones que no volen els seus materials a la nostra col·lecció. " [11]

Per exemple, l'adreça https://web.archive.org/*/https://www.ubuntu-it.org , mostra les pàgines còpies de la pàgina

https://www.ubuntu-it.org,
dividit segons la data d’estalvi a Internet Archive.

Obre la biblioteca

Open Library , entre els fundadors de la qual també hi ha l’activista digital Aaron Swartz [12], és una biblioteca digital creada amb l’objectiu de recollir targetes per a tots els llibres publicats, i introduir-les en una única base de dades; una mena de versió de codi obert de WorldCat , nascuda en oposició al projecte de digitalització Google Books [13] (en italià, Google Books ). El projecte va néixer el 2007 i inclou uns quants milions de targetes de catàleg i llibres digitalitzats de domini públic que són totalment accessibles i descarregables. [14] Open Library és un projecte que es basa en programari lliure i de codi obert , el codi font és totalment accessible des del lloc de referència. Des de juny de 2010, Open Library també ofereix un llibre electrònic de servei de préstec realitzat en col·laboració amb el distribuïdor de contingut digital nord-americà OverDrive i les biblioteques americanes [15] .

Arxiu-It

Desenvolupat el 2006, Archive-It és un servei que permet a institucions i entitats individuals construir i conservar col·leccions de material digital. [16] Mitjançant una aplicació web, els subscriptors del servei poden recollir, catalogar, indexar i, durant 24 hores, accedir completament a l'arxiu. Les col·leccions s’allotgen a servidors i a l’arxiu d’Internet accessible al públic mitjançant cerques a text complet . Tot el material digital s’emmagatzema en dues còpies (una primària i una altra), s’indexa periòdicament a l’Arxiu general d’Internet i es pot enviar una còpia de les dades als subscriptors a petició. A 2009 Archive-It té 125 institucions associades en 42 estats dels EUA i en 11 països per un total de 1.500 milions d’URL i 963 col·leccions públiques. Les institucions que han signat el servei Archive-It són en gran mesura biblioteques acadèmiques i universitats, arxius estatals, institucions federals, museus i organitzacions culturals, incloses l' Organització de Literatura Electrònica , els Arxius de l'Estat de Carolina del Nord , la Biblioteca Estatal de Texas i la Comissió d'Arxius. , la Universitat de Stanford , la Biblioteca Nacional d'Austràlia , el Research Libraries Group (RLG) i molts altres.

Imatges de la NASA

El projecte NASA Images es va crear gràcies a un acord de Space Act entre Internet Archive i la NASA per fer accessibles al públic els arxius d’imatges, vídeos i àudio produïts per l’agència al llarg dels anys a través d’un únic arxiu totalment indexat i accessible mitjançant cerques. El lloc web es va llançar el juliol de 2008 i ha arribat a contenir més de 100.000 fitxers.

Col·leccions de recursos multimèdia

A més dels arxius web, Internet Archive manté grans col·leccions d’actius multimèdia digitals reconeguts per aquells que els han penjat al lloc, al domini públic dels Estats Units o distribuïts amb una llicència que permet la redistribució gratuïta, com ara les llicències Creative Commons . . Els actius es classifiquen segons el tipus de suports (imatges en moviment, àudio, text) i en altres subclasificacions segons diversos criteris.

Col·lecció de pel·lícules

La col·lecció d’imatges en moviment ( Col·lecció d’imatges en moviment) Internet Archive inclou: notícies; dibuixos animats clàssics; propaganda de guerra; l' arxiu Prelinger , un arxiu especial que conté material considerat "efímer" com una pel·lícula patrocinada per empreses i organitzacions, pel·lícules educatives i pel·lícules casolanes, anuncis i altres materials els drets d'autor dels quals han caducat. Les col·leccions de recursos digitals són nombroses i varien segons el tema i la font de recuperació; la col·lecció brickfilm , per exemple, conté una sèrie de pel·lícules realitzades en stop-motion amb maons Lego; una altra col·lecció es refereix a les eleccions presidencials dels EUA del 2004 i la campanya electoral relacionada. La col·lecció Independent News inclou una sèrie de col·leccions, inclosa la del concurs del 2001 World At War d'Internet Archive, per a la qual els concursants van crear curtmetratges per demostrar la importància de l'accés a la informació i la història. Els arxius sobre l'atac a les Torres Bessones de l'11 de setembre del 2001 contenen material d'arxiu produït per les principals cadenes de televisió i l'esdeveniment es va emetre en directe aquell dia.

Pel·lícula

A les col·leccions de pel·lícules cinematogràfiques també hi ha versions originals de pel·lícules famoses, com ara:

Col·lecció d’àudio

La col·lecció d’àudio inclou música, llibres d’àudio, notícies, retransmissions antigues de ràdio i una gran varietat d’altres fitxers d’àudio. La col·lecció Live Music Archive inclou més de 50.000 enregistraments de concerts d’artistes independents i artistes consolidats i conjunts musicals que adopten normes laxes sobre el registre dels seus concerts, com ara Grateful Dead i Smashing Pumpkins .

Recull de textos

Internet Archive Book Scanner

La col·lecció inclou textos de llibres digitalitzats de diverses biblioteques del món, a més de moltes col·leccions especials. L’Internet Archive té 23 centres d’escaneig a cinc països, que digitalitzen aproximadament 1.000 llibres al dia, finançats per biblioteques i fundacions. [17] El novembre de 2008, quan hi havia aproximadament un milió de textos, tota la col·lecció prenia aproximadament 0,5 petabytes , incloent imatges en brut, fitxers PDF, OCR i dades en brut. [18]

Entre el 2006 i el 2008, Microsoft Corporation col·labora amb Internet Archive mitjançant el seu projecte Live Search Books , escanejant més de 300.000 llibres que s’han afegit a la col·lecció, així com equips de suport i escaneig financers. El 23 de maig de 2008, Microsoft va anunciar que posaria fi al projecte Live Book Search i a l'escaneig de nous llibres. [19] Microsoft ha posat a disposició dels llibres digitalitzats sense restriccions contractuals i ha donat el seu equip d’escaneig al seu antic soci.

A l'octubre de 2007, els usuaris de l'Internet Archive van començar a penjar llibres de domini públic de Google Books . [20] Al gener de 2010 s'han recollit 900.000 llibres escanejats per Google , que representen més de la meitat del total de llibres disponibles a archive.org. Els llibres són idèntics a les còpies que es troben a Google i estan disponibles per a un ús i descàrrega il·limitats , com tots els materials de l’arxiu d’Internet.

Internet Archive és membre de l' Open Book Alliance , una organització que ha estat una de les més crítiques per a l'acord entre l'Associació dels Editors Americans i Google per digitalitzar els llibres.

El 2016, també després de l’escàndol de les eleccions presidencials , Internet Archive va iniciar una col·laboració amb les versions de Wikipedia en diversos idiomes preparant un programa per a la substitució automàtica dels enllaços trencats de la plantilla Citation. En la seva substitució, Internet Archive Bot [21] posa l' URL de la còpia digital d'aquesta font a Internet Archive, amb una vista prèvia de dues pàgines per contextualitzar la cita.[22]

Nota

  1. ^ (EN) Arxiu d'Internet Preguntes més freqüents Arxivat el 15 d'abril de 2013 a Wikiwix.
  2. ^ (EN) Internet Archive: accés universal a tot el coneixement Arxivat el 13 d'octubre de 2013 a Internet Archive .
  3. ^ (EN) Members Arxivat el 13 de juny de 2010 a Internet Archive . (International Internet Preservation Consortium)
  4. ^ (EN) "Arxiu d'Internet oficialment a la biblioteca" Arxivat l'1 de setembre de 2016 a Wikiwix., El 2 de maig de 2007.
  5. ^ (EN) CabinetMagazine.org Arxivat el 19 de març de 2013 a Internet Archive .
  6. ^ Palmer Haasch, The Internet Archive, va llançar una biblioteca digital digitalitzada sense espera de més d'un milió de llibres que normalment només estan disponibles per a escoles i biblioteques a insider.com.
  7. Anunciant la Biblioteca Nacional d'Emergències a archive.org. Consultat el 26 de març de 2020 ( arxivat el 26 de març de 2020).
  8. ^ (EN) Heather Green, Una biblioteca tan gran com el món: Brewster Kahle té la tecnologia per reunir el màxim arxiu de coneixement humà. Què l’atura? Lleis restrictives sobre drets d'autor , Business Week Online, 28 de febrer de 2002. Consultat el 25 de juny de 2007 ( arxivat l'1 de juny de 2002).
  9. ^ (EN) Thelwall, M. i Vaughan, L. (2004). Una història justa del web? Examinar el balanç de països a Internet Archive, Library & Information Science Research, 26 (2), 162-176.
  10. ^ (EN) Alguns llocs no estan disponibles a causa de Robots.txt o d'altres exclusions Arxivat el 15 d'abril de 2011 a Internet Archive ..
  11. ^ (CA) Com puc eliminar les pàgines del meu lloc de la màquina Wayback? Arxivat el 10 d'octubre de 2013 Arxiu d'Internet ..
  12. ^ Aaron Swartz El projecte Open Library a openlibrary.org. Consultat el 2 de maig de 2019 ( presentat el 27 de juny de 2015).
  13. ^ (EN) Antone Gonsalves, Avanç de les reclamacions d’arxius a Internet contra la iniciativa de Google Library , InformationWeek, 20 de desembre de 2006. Recuperat el 5 de gener de 2007 ( presentat el 14 d'octubre de 2007).
  14. ^ ( EN ) L’Open Library fa el seu debut en línia , Crònica d’educació superior, The Wired Campus, 19 de juliol de 2007. Obtingut el 26 de gener de 2013 (arxivat per "URL original el 30 de setembre de 2007).
  15. ^ Small Moves: Open Integrates Digital Library Lending , a blog.openlibrary.org. Consultat el 26 de gener de 2013.
  16. ^ (EN) Stefanie Olsen, Preserving the Web un grup a la vegada , CNet News.com, 1 de maig de 2006.
  17. ^ (ES) Llibres d'escanejat i així finançats amb fons públics Classificat 24 de setembre de 2009 al Internet Arxivi ., Anunci de Brewster Kahle 23 de maig del 2008.
  18. ^ (EN) "Accés massiu a OCR per a un milió de llibres" Arxivat el 6 de desembre de 2008 a Internet Archive ., Via Open Library Blog, per raj, 24 de novembre de 2008.
  19. ^ (EN) "Book search winding down" Arxivat el 20 d'agost de 2008 a Internet Archive ., Live Search Blog. Anunci oficial de Microsoft. Última consulta el 23 de maig de 2008.
  20. ^ (EN) Google Books a Internet Archive Arxivat el 3 d'octubre de 2013 Internet Archive ..
  21. ^ També podeu consultar el debat IABot blau que enllaça amb els llibres d' arxiu d'Internet del 14 de novembre de 2019, present a la versió anglesa de Wikipedia.
  22. ^ The Internet Archive Wikipedia is Making More Reliable , on wired.com, 11 de març de 2019. Consultat el 24 de novembre de 2019 ( arxivat el 24 de novembre de 2019).

Articles relacionats

Altres projectes

Enllaços externs

Altres projectes i recursos
Control de l'autoritat VIAF (EN) 123 343 900 · LCCN (EN) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (data) · NLA (EN) 54.3568 milions · WorldCat Identities (EN)lccn-n2001062537
Informàtica Portal de TI : accés a les entrades de Wikipedia tractar amb ella