Arxiu d'Internet
Arxiu d'Internet | |
---|---|
Paio | ONG |
Fundació | 1996 |
Oficina | ![]() |
Zona d’actuació | Preservació digital |
President | Brewster Kahle |
Lema | accés universal a tot el coneixement |
Lloc web | |
Arxiu d'Internet lloc web | |
---|---|
URL | archive.org/ |
Tipus de lloc | Biblioteca digital |
Llengua | Anglès |
Inscripció | opcional |
Benefici | No |
Creat per | Brewster Kahle |
Llançament | Maig de 1996 |
Estat actual | actiu |
Eslògan | accés universal a tot el coneixement |


Internet Archive és una biblioteca digital sense ànim de lucre que té el propòsit exprés de permetre un "accés universal al coneixement" [1] [2] . Ofereix un espai digital permanent per accedir a diversos tipus de recursos: per exemple, llocs web, àudio, imatges en moviment (vídeos) i llibres. Internet Archive va ser fundat per Brewster Kahle el 1996 i forma part de l'IIPC ( International Internet Preservation Consortium ). [3] A més de la seva funció principal d'emmagatzematge, Internet Archive és una organització que fa campanyes per Internet gratuïtament i obert, i és una organització sense ànim de lucre reconeguda oficialment als Estats Units .
Les oficines administratives tenen seu a San Francisco, mentre que els centres de dades es troben a San Francisco, Redwood City i Mountain View a Califòrnia . La col·lecció digital més massiva de la biblioteca és l'arxiu web, una mena de col·lecció de "imatges fixes" de la World Wide Web catalogades per data d'adquisició. Per garantir l'estabilitat i seguretat de les dades emmagatzemades, tota la col·lecció té un mirall al servidor Bibliotheca Alexandrina a Alexandria, Egipte . L'arxiu permet al públic carregar i descarregar material digital des dels seus servidors cap als seus servidors sense cap cost.
També permet accedir a un dels majors projectes d’arxiu digital de llibres existents, forma part de l’ American Library Association i està reconegut oficialment per l’estat de Califòrnia com a biblioteca pública. [4] L'empresa compta amb 200 empleats, molts dels quals participen en l' escaneig de volums de paper en centres especialitzats. L'oficina principal de San Francisco té trenta empleats. Internet Archive té un pressupost anual d’uns 10 milions de dòlars, provinent principalment de diverses fonts: els beneficis dels serveis relacionats amb el rastreig de webs , col·laboracions, subvencions, donacions i la Fundació Kahle-Austin. [5]
Segons el lloc web Internet Archive, "moltes societats donen importància a la preservació d'artefactes relacionats amb el seu patrimoni cultural. Sense aquests artefactes la civilització no té memòria i no té manera d'aprendre dels seus èxits i fracassos. La nostra cultura ara sempre produeix. Més productes en format digital. La missió de Internet Archive és ajudar a preservar aquests artefactes i crear una biblioteca digital a Internet per a investigadors, historiadors i erudits ".
Història
Brewster Kahle va fundar Internet Archive el 1996, el mateix període que va fundar l'empresa Alexa Internet , una empresa dedicada al rastreig de serveis web . Internet Archive ha començat a emmagatzemar la World Wide Web el 1996, però la col·lecció no va estar disponible fins al 2001 , quan es va desenvolupar la Wayback Machine. El 1999, l'arxiu d'Internet es va ampliar mitjançant l'addició de més col·leccions, inclòs l' Arxiu Prelinger . Actualment, l'Arxiu d'Internet inclou, entre d'altres, text, àudio, imatges en moviment i programari. Allotja una sèrie d'altres projectes, inclosos un arxiu d'imatges de la NASA , el servei d'indexació Archive-It i Open Library , un catàleg de volums editat per un programari similar a un wiki.
El 25 de març de 2020, després de la pandèmia COVID-19 , The Internet Archive va llançar la Biblioteca Nacional d’Emergències, una iniciativa que permet l’accés gratuït a text complet a tota la col·lecció digital de més d’un milió de títols del catàleg. [6] [7]
Projectes
Wayback Machine
Wayback Machine és la interfície web que utilitza Internet Archive per a l'extracció de dades dels llocs web dels arxius. Els llocs arxivats representen una mena de "imatges fixes" recollides en el moment de l'adquisició de les pàgines a través del programari d'indexació de l'Internet Archive. El nom "Wayback Machine" prové del terme "WABAC Machine" que s'utilitza en una de les històries de la sèrie animada Rocky and Bullwinkle . [8] El servei, gràcies a les aranyes d' Alexa , emmagatzema al llarg del temps els canvis i les tendències dels diferents llocs web . Per a llocs més petits, no té una memòria cau comuna o les pàgines rarament s’emmagatzemen.
És un servei útil en els casos següents:
- estudi de l’evolució dels llocs web;
- recuperació de pàgines i llocs perduts;
- cerqueu proves un cop publicades i després suprimides.
El servei permet accedir a versions arxivades de pàgines web del passat, una mena d '"arxiu tridimensional", segons les paraules de l'Internet Archive. Milions de llocs web amb les seves dades (imatges, text, documents relacionats, etc.) s’emmagatzemen en una base de dades gegant . No tots els llocs web estan disponibles a causa de l'elecció de molts propietaris de llocs per excloure els seus llocs de la indexació. Com passa amb tots els llocs basats en dades de rastrejadors web, també falten grans àrees del web per diversos motius tècnics. Al llarg dels anys, finalment, s'han trobat diversos problemes legals relacionats amb l'arxiu i la cobertura o no dels llocs, tot i que no són el resultat d'accions deliberades. [9]
L'ús del terme "Wayback Machine" en el context de l'Internet Archive s'ha tornat tan habitual que "Wayback Machine" i "Internet Archive" s'han convertit en gairebé sinònims en la cultura popular ; per exemple, a la sèrie de televisió Law & Order: Criminal Intent (a l'episodi "Legacy", que es va emetre per primera vegada el 3 d'agost de 2008, titulat L'amor virtual a la contrapart italiana), un dels protagonistes de l'episodi utilitza la "Wayback Machine" per trobar una còpia arxivada d'un lloc web. La "instantània" dels llocs arxivats durant els diferents passos del rastrejador esdevé accessible públicament normalment després de 6-18 mesos.
Exemples de llocs web arxivats per Internet Archive i visualitzats a través de Wayback Machine:
- Internet Archive ( fitxer recursiu )
- Wikipedia , a web.archive.org.
- Google , a web.archive.org.
Internet Archive utilitza el protocol Robots Exclusion Standard (a través del fitxer robots.txt ) per a l’exclusió voluntària de llocs de la seva base de dades. Internet Archive respecta les directrius del fitxer robots.txt assegurant-se que els seus robots no indexen les pàgines. Per aquest motiu, Internet Archive ha fet que diversos llocs web no estiguin disponibles i que siguin completament inaccessibles a través de Wayback Machine. En cas de llocs bloquejats, només emmagatzema el fitxer robots.txt .
L'Arxiu d'Internet s'aplica regles de robots.txt retroactivament si un lloc d'aranya bloqueja l'Arxiu d'Internet a través de l'arxiu robots.txt, llavors totes les pàgines que ja estan emmagatzemades per domini no estigui disponible. A més, es reserva el mateix comportament per a tots els llocs web que ho sol·liciten explícitament: per aquest motiu, cada vegada que el propietari d'un lloc sol·licita l'exclusió de l'índex, la sol·licitud és consentida [10] , ja que no és "Internet Arxiu [...] interessat en conservar o oferir accés a llocs web o altres documents a Internet propietat de persones que no volen els seus materials a la nostra col·lecció. " [11]
Per exemple, l'adreça https://web.archive.org/*/https://www.ubuntu-it.org , mostra les pàgines còpies de la pàgina
- https://www.ubuntu-it.org,
- dividit segons la data d’estalvi a Internet Archive.
Obre la biblioteca
Open Library , entre els fundadors de la qual també hi ha l’activista digital Aaron Swartz [12], és una biblioteca digital creada amb l’objectiu de recollir targetes per a tots els llibres publicats, i introduir-les en una única base de dades; una mena de versió de codi obert de WorldCat , nascuda en oposició al projecte de digitalització Google Books [13] (en italià, Google Books ). El projecte va néixer el 2007 i inclou uns quants milions de targetes de catàleg i llibres digitalitzats de domini públic que són totalment accessibles i descarregables. [14] Open Library és un projecte que es basa en programari lliure i de codi obert , el codi font és totalment accessible des del lloc de referència. Des de juny de 2010, Open Library també ofereix un llibre electrònic de servei de préstec realitzat en col·laboració amb el distribuïdor de contingut digital nord-americà OverDrive i les biblioteques americanes [15] .
Arxiu-It
Desenvolupat el 2006, Archive-It és un servei que permet a institucions i entitats individuals construir i conservar col·leccions de material digital. [16] Mitjançant una aplicació web, els subscriptors del servei poden recollir, catalogar, indexar i, durant 24 hores, accedir completament a l'arxiu. Les col·leccions s’allotgen a servidors i a l’arxiu d’Internet accessible al públic mitjançant cerques a text complet . Tot el material digital s’emmagatzema en dues còpies (una primària i una altra), s’indexa periòdicament a l’Arxiu general d’Internet i es pot enviar una còpia de les dades als subscriptors a petició. A 2009 Archive-It té 125 institucions associades en 42 estats dels EUA i en 11 països per un total de 1.500 milions d’URL i 963 col·leccions públiques. Les institucions que han signat el servei Archive-It són en gran mesura biblioteques acadèmiques i universitats, arxius estatals, institucions federals, museus i organitzacions culturals, incloses l' Organització de Literatura Electrònica , els Arxius de l'Estat de Carolina del Nord , la Biblioteca Estatal de Texas i la Comissió d'Arxius. , la Universitat de Stanford , la Biblioteca Nacional d'Austràlia , el Research Libraries Group (RLG) i molts altres.
Imatges de la NASA
El projecte NASA Images es va crear gràcies a un acord de Space Act entre Internet Archive i la NASA per fer accessibles al públic els arxius d’imatges, vídeos i àudio produïts per l’agència al llarg dels anys a través d’un únic arxiu totalment indexat i accessible mitjançant cerques. El lloc web es va llançar el juliol de 2008 i ha arribat a contenir més de 100.000 fitxers.
Col·leccions de recursos multimèdia
A més dels arxius web, Internet Archive manté grans col·leccions d’actius multimèdia digitals reconeguts per aquells que els han penjat al lloc, al domini públic dels Estats Units o distribuïts amb una llicència que permet la redistribució gratuïta, com ara les llicències Creative Commons . . Els actius es classifiquen segons el tipus de suports (imatges en moviment, àudio, text) i en altres subclasificacions segons diversos criteris.
Col·lecció de pel·lícules
La col·lecció d’imatges en moviment ( Col·lecció d’imatges en moviment) Internet Archive inclou: notícies; dibuixos animats clàssics; propaganda de guerra; l' arxiu Prelinger , un arxiu especial que conté material considerat "efímer" com una pel·lícula patrocinada per empreses i organitzacions, pel·lícules educatives i pel·lícules casolanes, anuncis i altres materials els drets d'autor dels quals han caducat. Les col·leccions de recursos digitals són nombroses i varien segons el tema i la font de recuperació; la col·lecció brickfilm , per exemple, conté una sèrie de pel·lícules realitzades en stop-motion amb maons Lego; una altra col·lecció es refereix a les eleccions presidencials dels EUA del 2004 i la campanya electoral relacionada. La col·lecció Independent News inclou una sèrie de col·leccions, inclosa la del concurs del 2001 World At War d'Internet Archive, per a la qual els concursants van crear curtmetratges per demostrar la importància de l'accés a la informació i la història. Els arxius sobre l'atac a les Torres Bessones de l'11 de setembre del 2001 contenen material d'arxiu produït per les principals cadenes de televisió i l'esdeveniment es va emetre en directe aquell dia.
Pel·lícula
A les col·leccions de pel·lícules cinematogràfiques també hi ha versions originals de pel·lícules famoses, com ara:
- El club dels 39
- El cuirassat Potemkin
- El naixement d’una nació
- Lliri trencat
- El segle del jo
- Xarada
- Revolta de Columbia
- Dues hores més
- A la subjecció dels rails
- El gabinet del doctor Caligari
- Cites per fer i per no fer
- Desviament
- Ànec i Coberta
- Escapa de Sobibor
- Isabel d’Anglaterra
- Com vaig guanyar la guerra
- Rapacitat
- Cànem per a la victòria
- Intolerància
- El mocós
- Viatge a la Lluna
- Llavis estirats [ poc clar ]
- M - El monstre de Düsseldorf
- L’home que en sabia massa
- Mans: les mans del destí
- Consentiment de fabricació: Noam Chomsky i els mitjans de comunicació
- Nit dels morts vius
- Nosferatu (no pertany al domini públic fora dels Estats Units)
- Pla 9 des de l’espai exterior
- El poder dels malsons (no públic)
- Tie shan gong zhu
- Reefer Madness
- Sex Madness
- Lady Lou
- El triomf de la voluntat
- Tots els set episodis de Why We Fight
Col·lecció d’àudio
La col·lecció d’àudio inclou música, llibres d’àudio, notícies, retransmissions antigues de ràdio i una gran varietat d’altres fitxers d’àudio. La col·lecció Live Music Archive inclou més de 50.000 enregistraments de concerts d’artistes independents i artistes consolidats i conjunts musicals que adopten normes laxes sobre el registre dels seus concerts, com ara Grateful Dead i Smashing Pumpkins .
Recull de textos
La col·lecció inclou textos de llibres digitalitzats de diverses biblioteques del món, a més de moltes col·leccions especials. L’Internet Archive té 23 centres d’escaneig a cinc països, que digitalitzen aproximadament 1.000 llibres al dia, finançats per biblioteques i fundacions. [17] El novembre de 2008, quan hi havia aproximadament un milió de textos, tota la col·lecció prenia aproximadament 0,5 petabytes , incloent imatges en brut, fitxers PDF, OCR i dades en brut. [18]
Entre el 2006 i el 2008, Microsoft Corporation col·labora amb Internet Archive mitjançant el seu projecte Live Search Books , escanejant més de 300.000 llibres que s’han afegit a la col·lecció, així com equips de suport i escaneig financers. El 23 de maig de 2008, Microsoft va anunciar que posaria fi al projecte Live Book Search i a l'escaneig de nous llibres. [19] Microsoft ha posat a disposició dels llibres digitalitzats sense restriccions contractuals i ha donat el seu equip d’escaneig al seu antic soci.
A l'octubre de 2007, els usuaris de l'Internet Archive van començar a penjar llibres de domini públic de Google Books . [20] Al gener de 2010 s'han recollit 900.000 llibres escanejats per Google , que representen més de la meitat del total de llibres disponibles a archive.org. Els llibres són idèntics a les còpies que es troben a Google i estan disponibles per a un ús i descàrrega il·limitats , com tots els materials de l’arxiu d’Internet.
Internet Archive és membre de l' Open Book Alliance , una organització que ha estat una de les més crítiques per a l'acord entre l'Associació dels Editors Americans i Google per digitalitzar els llibres.
El 2016, també després de l’escàndol de les eleccions presidencials , Internet Archive va iniciar una col·laboració amb les versions de Wikipedia en diversos idiomes preparant un programa per a la substitució automàtica dels enllaços trencats de la plantilla Citation. En la seva substitució, Internet Archive Bot [21] posa l' URL de la còpia digital d'aquesta font a Internet Archive, amb una vista prèvia de dues pàgines per contextualitzar la cita.[22]
Nota
- ^ (EN) Arxiu d'Internet Preguntes més freqüents Arxivat el 15 d'abril de 2013 a Wikiwix.
- ^ (EN) Internet Archive: accés universal a tot el coneixement Arxivat el 13 d'octubre de 2013 a Internet Archive .
- ^ (EN) Members Arxivat el 13 de juny de 2010 a Internet Archive . (International Internet Preservation Consortium)
- ^ (EN) "Arxiu d'Internet oficialment a la biblioteca" Arxivat l'1 de setembre de 2016 a Wikiwix., El 2 de maig de 2007.
- ^ (EN) CabinetMagazine.org Arxivat el 19 de març de 2013 a Internet Archive .
- ^ Palmer Haasch, The Internet Archive, va llançar una biblioteca digital digitalitzada sense espera de més d'un milió de llibres que normalment només estan disponibles per a escoles i biblioteques a insider.com.
- ↑ Anunciant la Biblioteca Nacional d'Emergències a archive.org. Consultat el 26 de març de 2020 ( arxivat el 26 de març de 2020).
- ^ (EN) Heather Green, Una biblioteca tan gran com el món: Brewster Kahle té la tecnologia per reunir el màxim arxiu de coneixement humà. Què l’atura? Lleis restrictives sobre drets d'autor , Business Week Online, 28 de febrer de 2002. Consultat el 25 de juny de 2007 ( arxivat l'1 de juny de 2002).
- ^ (EN) Thelwall, M. i Vaughan, L. (2004). Una història justa del web? Examinar el balanç de països a Internet Archive, Library & Information Science Research, 26 (2), 162-176.
- ^ (EN) Alguns llocs no estan disponibles a causa de Robots.txt o d'altres exclusions Arxivat el 15 d'abril de 2011 a Internet Archive ..
- ^ (CA) Com puc eliminar les pàgines del meu lloc de la màquina Wayback? Arxivat el 10 d'octubre de 2013 Arxiu d'Internet ..
- ^ Aaron Swartz El projecte Open Library a openlibrary.org. Consultat el 2 de maig de 2019 ( presentat el 27 de juny de 2015).
- ^ (EN) Antone Gonsalves, Avanç de les reclamacions d’arxius a Internet contra la iniciativa de Google Library , InformationWeek, 20 de desembre de 2006. Recuperat el 5 de gener de 2007 ( presentat el 14 d'octubre de 2007).
- ^ ( EN ) L’Open Library fa el seu debut en línia , Crònica d’educació superior, The Wired Campus, 19 de juliol de 2007. Obtingut el 26 de gener de 2013 (arxivat per "URL original el 30 de setembre de 2007).
- ^ Small Moves: Open Integrates Digital Library Lending , a blog.openlibrary.org. Consultat el 26 de gener de 2013.
- ^ (EN) Stefanie Olsen, Preserving the Web un grup a la vegada , CNet News.com, 1 de maig de 2006.
- ^ (ES) Llibres d'escanejat i així finançats amb fons públics Classificat 24 de setembre de 2009 al Internet Arxivi ., Anunci de Brewster Kahle 23 de maig del 2008.
- ^ (EN) "Accés massiu a OCR per a un milió de llibres" Arxivat el 6 de desembre de 2008 a Internet Archive ., Via Open Library Blog, per raj, 24 de novembre de 2008.
- ^ (EN) "Book search winding down" Arxivat el 20 d'agost de 2008 a Internet Archive ., Live Search Blog. Anunci oficial de Microsoft. Última consulta el 23 de maig de 2008.
- ^ (EN) Google Books a Internet Archive Arxivat el 3 d'octubre de 2013 Internet Archive ..
- ^ També podeu consultar el debat IABot blau que enllaça amb els llibres d' arxiu d'Internet del 14 de novembre de 2019, present a la versió anglesa de Wikipedia.
- ^ The Internet Archive Wikipedia is Making More Reliable , on wired.com, 11 de març de 2019. Consultat el 24 de novembre de 2019 ( arxivat el 24 de novembre de 2019).
Articles relacionats
Altres projectes
-
Wikimedia Commons conté imatges o altres fitxers a Internet Archive
Enllaços externs
- (EN) Lloc web oficial a archive.org.
- (EN) Blog oficial a blog.archive.org.
- Arxiu d'Internet (canal) a YouTube .
- (EN) Internet Archive , a GitHub .
- Brewster Kahle, Archiving the Internet , a Scientific American , març de 1997 (arxivada per 'URL original l'11 d'octubre de 1997).
- Leonard Berbers, The Ark of memory , a Corriere della Sera (arxivat per 'URL original 22 de juliol de 2014).
- (EN) Directriu sobre els recursos de l'Internet Archive , a WikiHow .
- Altres projectes i recursos
- (EN)pàgines web del servei de captura i emmagatzematge a archive.is.
- (EN) Servei avançat d’arxiu i recuperació de publicacions científiques a datacite.org.
- (EN) del Harvard Library Service Innovation Lab a perma.cc.
- (EN) Servei d'emmagatzematge de material científic i educatiu a webcitation.org.
- (EN) EUA NDIIPP i negociació de contingut , a mementoweb.org. (servei de cerca avançada)
- (EN) 11 millors alternatives Wayback Machine el 2017 per consultar l'historial de llocs web , a pingzic.net. Consultat el 13 de maig de 2018 (presentat per 'url original el 13 de maig de 2018).
Control de l'autoritat | VIAF (EN) 123 343 900 · LCCN (EN) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (data) · NLA (EN) 54.3568 milions · WorldCat Identities (EN)lccn-n2001062537 |
---|