Arxiu d'Internet

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca
Arxiu d'Internet
Logotip i wordmark.svg d'Internet Archive
Paio ONG
Fundació 1996
Oficina Estats Units San Francisco
Zona d’actuació Preservació digital
President Brewster Kahle
Lema accés universal a tot el coneixement
Lloc web
Arxiu d'Internet
lloc web
Logotip
URL archive.org/
Tipus de lloc Biblioteca digital
Llengua Anglès
Inscripció opcional
Benefici No
Creat per Brewster Kahle
Llançament Maig de 1996
Estat actual actiu
Eslògan accés universal a tot el coneixement
Internet Archive es va establir al Presidio de San Francisco , una antiga base militar dels EUA a San Francisco , des del 1996 fins al 2009
La nova seu d'Internet Archive des del novembre del 2009, a 300 Funston, a San Francisco , una església cristiana antiga científica
El logotip de Wayback Machine, utilitzat des del novembre del 2001
Mirall d’ arxiu d’Internet a la Bibliotheca Alexandrina , ( Egipte )

Internet Archive és una biblioteca digital sense ànim de lucre que té el propòsit declarat de permetre "l'accés universal al coneixement" [1] [2] . Ofereix un espai digital permanent per accedir a diversos tipus de recursos: per exemple, llocs web, àudio, imatges en moviment (vídeos) i llibres. L’Internet Archive va ser fundat per Brewster Kahle el 1996 i forma part de l’ International Internet Preservation Consortium (IIPC). [3] A més de la seva funció principal d'arxiu, Internet Archive és una organització que busca una Internet gratuïta i oberta i és una organització sense ànim de lucre reconeguda oficialment als Estats Units d'Amèrica .

Les oficines administratives es troben a San Francisco, mentre que els centres de processament de dades es troben a San Francisco, Redwood City i Mountain View , Califòrnia . La col·lecció digital més massiva de la biblioteca és l'arxiu web, una mena de col·lecció de "imatges fixes" de la World Wide Web catalogades per data d'adquisició. Per garantir l'estabilitat i la seguretat de les dades arxivades, tota la col·lecció té un mirall als servidors de la Bibliotheca Alexandrina a Alexandria, Egipte . L'arxiu permet al públic carregar i descarregar material digital des dels seus servidors cap als seus servidors sense cap cost.

També permet accedir a un dels projectes d’arxiu de llibres digitals més grans que existeix, forma part de l’ American Library Association i està reconegut oficialment per l’estat de Califòrnia com a biblioteca pública. [4] L'empresa compta amb 200 empleats, molts dels quals es dediquen a escanejar volums de paper en centres especialitzats. L'oficina principal de San Francisco té trenta empleats. Internet Archive té un pressupost anual d’aproximadament 10 milions de dòlars, derivat en gran part de diverses fonts: ingressos per serveis de rastreig web , associacions, subvencions, donacions i la Fundació Kahle-Austin. [5]

Segons el lloc web Internet Archive, "moltes societats donen importància a la preservació d'artefactes relacionats amb el seu patrimoni cultural. Sense aquests artefactes la civilització no té memòria i no té manera d'aprendre dels seus èxits i fracassos. La nostra cultura ara sempre produeix. Més productes en format digital. La missió de Internet Archive és ajudar a preservar aquests artefactes i crear una biblioteca digital a Internet per a investigadors, historiadors i erudits ".

Història

Brewster Kahle va fundar Internet Archive el 1996, al mateix temps que va fundar la companyia Alexa Internet , una empresa dedicada als serveis de rastreig web . Internet Archive va començar a arxivar la World Wide Web des del 1996, però la col·lecció no va ser accessible fins al 2001 , quan es va desenvolupar la Wayback Machine. El 1999, Internet Archive es va expandir afegint altres col·leccions, inclòs el Prelinger Archive . Actualment, l'Arxiu d'Internet inclou, entre d'altres, text, àudio, imatges en moviment i programari. Allotja una sèrie d’altres projectes, inclosos un arxiu d’imatges de la NASA , el servei d’indexació Archive-It i Open Library , un catàleg de volums que es poden editar mitjançant un programari tipus wiki.

El 25 de març de 2020, després de la pandèmia COVID-19 , The Internet Archive va llançar la Biblioteca Nacional d’Emergències, una iniciativa que permet l’accés gratuït a text complet a tota la col·lecció digital de més d’un milió de títols del catàleg. [6] [7]

Projectes

Wayback Machine

Icona de la lupa mgx2.svg Wayback Machine .

Wayback Machine és la interfície web que utilitza Internet Archive per a l'extracció de dades dels llocs web dels arxius. Els llocs arxivats representen una mena de "imatges fixes" recollides en el moment de l'adquisició de les pàgines a través del programari d'indexació de l'Internet Archive. El nom "Wayback Machine" prové del terme " WABAC Machine " que s'utilitza en una de les històries de la sèrie animada Rocky and Bullwinkle . [8] El servei, gràcies a l' aranya Alexa , memoritza els canvis i les evolucions dels diversos llocs web al llarg del temps . Per als llocs més petits, no té una memòria cau freqüent, és a dir, les pàgines només s’emmagatzemen poques vegades.

És un servei útil en els casos següents:

  • estudi de l’evolució dels llocs web;
  • recuperació de pàgines i llocs perduts;
  • cerqueu proves un cop publicades i després suprimides.

El servei permet accedir a versions arxivades de pàgines web del passat, una mena d '"arxiu tridimensional", segons les paraules de l'Internet Archive. Milions de llocs web amb les seves dades respectives (imatges, text, documents enllaçats, etc.) s’emmagatzemen en una base de dades gegant. No tots els llocs web estan disponibles a causa de l'elecció de molts propietaris de llocs per excloure els seus llocs de la indexació. A més, com passa amb tots els llocs basats en dades de rastrejadors web, falten grans àrees del web per diversos motius tècnics. Al llarg dels anys, finalment, s'han trobat diversos problemes legals relacionats amb l'arxiu i la cobertura o no dels llocs, tot i que no són el resultat d'accions deliberades. [9]

L'ús del terme "Wayback Machine" en el context de l'Internet Archive s'ha tornat tan habitual que "Wayback Machine" i "Internet Archive" s'han convertit en gairebé sinònims en la cultura de masses ; per exemple, a la sèrie de televisió Law & Order: Criminal Intent (a l'episodi "Legacy", que es va emetre per primera vegada el 3 d'agost de 2008, titulat L'amor virtual a la contrapart italiana), un dels protagonistes de l'episodi utilitza la "Wayback Machine" per trobar una còpia arxivada d'un lloc web. Les "instantànies" dels llocs arxivats durant els diferents passatges de rastreig esdevenen accessibles públicament normalment després de 6-18 mesos.

Exemples de llocs web arxivats per Internet Archive i visualitzats a través de Wayback Machine:

Internet Archive utilitza el protocol estàndard d’exclusió de robots (a través del fitxer robots.txt ) per a l’exclusió voluntària de llocs de la seva base de dades. Internet Archive respecta les directrius del fitxer robots.txt assegurant-se que els seus robots no indexen les pàgines. Per aquest motiu, Internet Archive ha fet que diversos llocs web no estiguin disponibles i que siguin completament inaccessibles a través de Wayback Machine. En cas de llocs bloquejats, només s’emmagatzema el fitxer robots.txt .

L'Arxiu d'Internet, aplica les regles de robots.txt de forma retroactiva: Si un lloc d'aranya bloqueja l'Arxiu d'Internet a través de l'arxiu robots.txt, llavors totes les pàgines ja arxivats pel domini d'estar disponibles. A més, es reserva el mateix comportament per a tots els llocs web que ho sol·liciten explícitament: per aquest motiu, cada vegada que el propietari d'un lloc sol·licita l'exclusió de l'índex, la sol·licitud és consentida [10] , ja que no és "Internet Arxiu [...] interessat en conservar o oferir accés a llocs web o altres documents a Internet propietat de persones que no volen els seus materials a la nostra col·lecció. " [11]

Per exemple, l'adreça https://web.archive.org/*/https://www.ubuntu-it.org , mostra les còpies de cerca de la pàgina

https://www.ubuntu-it.org ,
dividit segons la data d’estalvi a Internet Archive.

Obre la biblioteca

Open Library , entre els seus fundadors també hi ha l’activista digital Aaron Swartz [12], és una biblioteca digital creada amb l’objectiu de recollir targetes de tots els llibres publicats i catalogar-los en una única base de dades; una mena de versió de codi obert de WorldCat , creada en contrast amb el projecte de digitalització de Google Books [13] (en italià, Google Books ). El projecte va néixer el 2007 i inclou uns quants milions de targetes de catàleg i llibres digitalitzats de domini públic que són totalment accessibles i descarregables. [14] Open Library és un projecte basat en programari lliure i de codi obert , el codi font és totalment accessible des del lloc de referència. Des de juny de 2010, Open Library també ofereix un servei de préstec de llibres electrònics realitzat en col·laboració amb el distribuïdor de continguts digitals nord-americà OverDrive i les biblioteques dels Estats Units [15] .

Arxiu-It

Desenvolupat el 2006, Archive-It és un servei que permet a institucions i entitats individuals construir i conservar col·leccions de material digital. [16] Mitjançant una aplicació web, els subscriptors del servei poden recollir, catalogar, indexar i, en el transcurs de 24 hores, accedir completament a l'arxiu. Les col·leccions s’allotgen en servidors d’arxius d’Internet i són accessibles al públic mitjançant cerques de text complet . Tot el material digital s’emmagatzema en còpies duplicades (una primària i una altra ), s’indexa periòdicament a l’arxiu general de l’arxiu d’Internet i es pot enviar una còpia de les dades als subscriptors a petició. A partir del 2009, Archive-Tenia 125 institucions associades en 42 estats americans i 11 països, amb un total de 1.500 milions d’URL i 963 col·leccions públiques. Les institucions que s’han subscrit al servei Archive-It són en gran mesura biblioteques universitàries i universitàries , arxius estatals, institucions federals, museus i organitzacions culturals, incloses l’ Organització de Literatura Electrònica , els Arxius Estatal de Carolina del Nord , la Biblioteca Estatal de Texas i la Comissió d’Arxius , Universitat de Stanford , la Biblioteca Nacional d’Austràlia , el Research Libraries Group (RLG) i molts altres.

Imatges de la NASA

El projecte NASA Images es va crear gràcies a un acord de Space Act entre Internet Archive i la NASA per fer accessibles al públic els arxius d’imatges, vídeos i àudio produïts per l’agència al llarg dels anys a través d’un únic arxiu totalment indexat i accessible mitjançant cerques. El lloc web es va llançar el juliol del 2008 i ha arribat a contenir més de 100.000 fitxers.

Col·leccions de recursos multimèdia

A més dels arxius web, Internet Archive manté grans col·leccions d’actius multimèdia digitals reconeguts per aquells que els han penjat al lloc, al domini públic dels Estats Units o distribuïts amb una llicència que permet la redistribució gratuïta, com ara les llicències Creative Commons . . Els actius es classifiquen segons el tipus de suports (imatges en moviment, àudio, text) i en altres subclasificacions segons diversos criteris.

Col·lecció de pel·lícules

La col·lecció d’imatges en moviment de l’arxiu d’Internet inclou: notícies; dibuixos animats clàssics; propaganda de guerra; l' arxiu Prelinger , un arxiu especial que conté material considerat "efímer", com ara pel·lícules patrocinades per empreses i organitzacions, pel·lícules educatives i pel·lícules casolanes, anuncis i altres materials els drets d'autor dels quals han caducat. Les col·leccions de recursos digitals són nombroses i varien segons el tema i la font de recuperació; la col·lecció brickfilm , per exemple, conté nombroses pel·lícules stop-motion rodades amb maons Lego; una altra col·lecció es refereix a les eleccions presidencials dels EUA del 2004 i la campanya electoral relacionada. La col·lecció Independent News inclou diverses col·leccions, inclosa la del concurs World At War del 2001 Internet Archive , per al qual els concursants van crear curtmetratges per demostrar la importància de l'accés a la informació i la història. L'arxiu sobre l'atac a les Torres Bessones de l' 11 de setembre de 2001 conté material d'arxiu produït per les principals cadenes de televisió mundials de l'esdeveniment i emès en directe aquell dia.

Pel·lícula

A les col·leccions de pel·lícules cinematogràfiques també hi ha versions originals de pel·lícules famoses, com ara:

Col·lecció d’àudio

La col·lecció d’àudio inclou música, llibres d’àudio, notícies, retransmissions antigues de ràdio i una gran varietat d’altres fitxers d’àudio. La col·lecció Live Music Archive inclou més de 50.000 enregistraments de concerts d’artistes i conjunts musicals independents i consolidats que tenen una regulació laxa per gravar els seus concerts, com ara Grateful Dead i Smashing Pumpkins .

Recull de textos

Internet Archive Book Scanner

La col·lecció inclou textos de llibres digitalitzats de diverses biblioteques del món, a més de moltes col·leccions especials. L’Internet Archive té 23 centres d’exploració a cinc països, que digitalitzen aproximadament 1.000 llibres al dia, finançats per biblioteques i fundacions. [17] El novembre de 2008, quan hi havia aproximadament un milió de textos, tota la col·lecció ocupava uns 0,5 petabytes , incloent imatges en brut, fitxers PDF, OCR i dades en brut. [18]

Entre el 2006 i el 2008, Microsoft Corporation col·labora amb Internet Archive mitjançant el seu projecte Live Search Books , escanejant més de 300.000 llibres que s’han afegit a la col·lecció, així com equips de suport i escaneig financers. El 23 de maig de 2008, Microsoft va anunciar que posaria fi al projecte Live Book Search i a l'escaneig de nous llibres. [19] Microsoft va fer que els llibres escanejats estiguessin disponibles sense restriccions contractuals i va donar el seu equip d’escaneig al seu antic soci .

L'octubre de 2007, els usuaris d'Internet Archive van començar a penjar llibres de domini públic de Google Books . [20] Des del gener del 2010, s'han recollit 900.000 llibres escanejats per Google , que representen més de la meitat del total de llibres disponibles a archive.org. Els llibres són idèntics a les còpies que es troben a Google i estan disponibles per a un ús i descàrrega il·limitats, com tots els materials de l’arxiu d’Internet.

Internet Archive és membre de l' Open Book Alliance , una organització que ha estat una de les més crítiques per a l'acord entre la American Publishers Association i Google per a la digitalització de llibres.

El 2016, també després de l’escàndol de les eleccions presidencials , Internet Archive va iniciar una col·laboració amb versions de Wikipedia en diversos idiomes, desenvolupant un programa per substituir automàticament els enllaços trencats a les plantilles de citació. En la seva substitució, Internet Archive Bot [21] insereix l' URL de la còpia digital de les fonts presents a Internet Archive, amb una vista prèvia de dues pàgines per contextualitzar la cita.[22]

Nota

  1. ^ (EN) Arxiu d'Internet Preguntes més freqüents Arxivat el 15 d'abril de 2013 a Wikiwix.
  2. ^ (EN) Internet Archive: accés universal a tot el coneixement Arxivat el 13 d'octubre de 2013 a Internet Archive .
  3. ^ (EN) Members Arxivat el 13 de juny de 2010 a Internet Archive . (International Internet Preservation Consortium)
  4. ^ (EN) "Arxiu d'Internet oficialment a la biblioteca" Arxivat l'1 de setembre de 2016 a Wikiwix., El 2 de maig de 2007.
  5. ^ (EN) CabinetMagazine.org Arxivat el 19 de març de 2013 a Internet Archive .
  6. ^ Palmer Haasch, The Internet Archive, va llançar una biblioteca digital digitalitzada sense espera de més d'un milió de llibres que normalment només estan disponibles per a escoles i biblioteques , su insider.com .
  7. Anunciant la Biblioteca Nacional d'Emergències , a archive.org . Consultat el 26 de març de 2020 ( arxivat el 26 de març de 2020) .
  8. ^ (EN) Heather Green, Una biblioteca tan gran com el món: Brewster Kahle té la tecnologia per reunir el màxim arxiu de coneixement humà. Què l’atura? Lleis restrictives sobre drets d'autor , Business Week Online, 28 de febrer de 2002. Consultat el 25 de juny de 2007 ( arxivat l'1 de juny de 2002) .
  9. ^ (EN) Thelwall, M. i Vaughan, L. (2004). Una història justa del web? Examen del balanç de països a Internet Archive, Library & Information Science Research , 26 (2), 162-176.
  10. ^ (EN) Alguns llocs no estan disponibles a causa de Robots.txt o d'altres exclusions Arxivat el 15 d'abril de 2011 a Internet Archive ..
  11. ^ (CA) Com puc eliminar les pàgines del meu lloc de la màquina Wayback? Arxivat el 10 d'octubre de 2013 a Internet Archive.
  12. ^ Aaron Swartz The Open Library Project , a openlibrary.org . Consultat el 2 de maig de 2019 ( arxivat el 27 de juny de 2015) .
  13. ^ (EN) Antone Gonsalves, Avanç de les reclamacions d’arxius a Internet contra la iniciativa de Google Library , InformationWeek, 20 de desembre de 2006. Consultat el 5 de gener de 2007 ( arxivat el 14 d'octubre de 2007) .
  14. ^ ( EN ) L’Open Library fa el seu debut en línia , Crònica d’educació superior, The Wired Campus, 19 de juliol de 2007. Obtingut el 26 de gener de 2013 (arxivat de l’ original el 30 de setembre de 2007) .
  15. Small Moves: Open Library Integrates Digital Lending , a blog.openlibrary.org . Consultat el 26 de gener de 2013 .
  16. ^ (EN) Stefanie Olsen, Preserving the Web un grup a la vegada , CNet News.com, 1 de maig de 2006.
  17. ^ (ES) Llibres d'escanejat i així finançats amb fons públics Classificat 24 de setembre de 2009 al Internet Arxivi ., Anunci de Brewster Kahle 23 de maig del 2008.
  18. ^ (EN) "Accés massiu a OCR per a un milió de llibres" Arxivat el 6 de desembre de 2008 a Internet Archive ., Via Open Library Blog, per raj, 24 de novembre de 2008.
  19. ^ (EN) "Book search winding down" Arxivat el 20 d'agost de 2008 a Internet Archive ., Live Search Blog. Anunci oficial de Microsoft. Última consulta el 23 de maig de 2008.
  20. ^ (EN) Google Books a Internet Archive Arxivat el 3 d'octubre de 2013 Internet Archive ..
  21. ^ També podeu consultar el debat IABot blue linking to Internet archive books del 14 de novembre de 2019, present a la versió en anglès de Wikipedia.
  22. ^ L'arxiu d'Internet fa que la Viquipèdia sigui més fiable , a wired.com , 11 de març de 2019. Consultat el 24 de novembre de 2019 ( arxivat el 24 de novembre de 2019) .

Articles relacionats

Altres projectes

Enllaços externs

Altres projectes i recursos
Control de l'autoritat VIAF (EN) 123 343 900 · LCCN (EN) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (data) · NLA (EN) 54.3568 milions · WorldCat Identities (EN)lccn-n2001062537
Informàtica Portal de TI : accediu a les entrades de Viquipèdia relacionades amb TI