Unicode

De la Viquipèdia, l'enciclopèdia lliure.
Saltar a la navegació Saltar a la cerca
Unicode
Codificacions
UCS
Cartografia
Text bidireccional
BOM
Unificació de Han
Unicode i HTML
Logotip del Consorci Unicode

Unicode és un sistema de codificació que assigna un número únic a cada caràcter utilitzat per escriure textos, independentment de l’ idioma , la plataforma informàtica i el programa utilitzat.

Ha estat compilat, actualitzat i anunciat pel Unicode Consortium [1] , un consorci internacional d’empreses interessades en la interoperabilitat en el processament informàtic de textos en diferents idiomes.

Història

Origen i desenvolupament Unicode es va crear per abordar les limitacions dels esquemes tradicionals de codificació de caràcters. Per exemple, tot i que els caràcters definits a la ISO 8859-1 s’utilitzen àmpliament en diferents països, sovint es produeixen incompatibilitats entre diferents països. Molts mètodes de codificació tradicionals tenen un problema comú, que és que permeten als ordinadors gestionar un entorn bilingüe (normalment usant lletres llatines i les seves llengües natives), però no poden admetre un entorn multilingüe al mateix temps (es refereix a una situació en què diversos idiomes Es pot barrejar alhora).

La codificació Unicode conté caràcters amb estils d'escriptura diferents, com ara "ɑ / a", "强 / 强", "home / família / 戸". No obstant això, hi ha hagut controvèrsia sobre la identificació del polimorfisme en caràcters xinesos. Per obtenir més informació, consulteu els ideogrames unificats de la Xina, el Japó i Corea.

Pel que fa al processament de textos, Unicode defineix un codi únic (és a dir, un enter) per a cada caràcter en lloc d’un glif. Dit d’una altra manera, Unicode processa els caràcters de manera abstracta (és a dir, els números) i deixa la feina de deducció visual (com ara la mida de la font, la forma de l’aspecte, la forma de la font, l’estil, etc.) a altres programes, com ara el web de navegació O el processador de textos.

Actualment, gairebé tots els sistemes informàtics admeten l’alfabet llatí bàsic i cadascun d’ells admet diversos mètodes de codificació. Per ser compatibles amb ells, els primers 256 caràcters d'Unicode es reserven als caràcters definits per la norma ISO 8859-1, de manera que la conversió de llengües existents d'Europa occidental no requereix una consideració especial; i un gran nombre dels mateixos caràcters es repeteixen en diferents. En codi de caràcters, l'antic mètode de codificació complicat es pot convertir directament entre codificació Unicode sense perdre cap informació. Per exemple, la secció de format complet conté el format complet de les lletres llatines principals. En els glifos xinès, japonès i coreà, aquests caràcters es presenten en forma completa en lloc de la forma mitjana comuna. , Que té un efecte important sobre el text vertical i el text monoespacial.

Quan es representa un caràcter Unicode, normalment es representa amb "U +" seguit d'un conjunt de nombres hexadecimals. Al pla multilingüe bàsic: (pla multilingüe bàsic en anglès amb tots els caràcters. BMP abreujat també conegut com a "pla zero", pla 0) dins, utilitza quatre dígits (és a dir, 2 bytes, per a un total de 16 bits, com U + 4AE0, que admet un total de més de 60.000 caràcters); els caràcters fora del pla zero han d'utilitzar cinc o sis nombres. La versió anterior de l'estàndard Unicode utilitza mètodes de marcatge similars, però amb algunes diferències menors: a Unicode 3.0 s'utilitza "U-" seguit de vuit dígits i "U +" ha de ser seguit de quatre dígits.

Estructura del codi

Unicode es va pensar originalment com una codificació de 16 bits (quatre dígits hexadecimals) que donava la capacitat de codificar 65.535 (2 ^ 16 -1) caràcters. Es creia que això era suficient per representar els personatges utilitzats en totes les llengües escrites del món. Ara, però, l’estàndard Unicode, que tendeix a estar perfectament alineat amb l’ estàndard ISO / IEC 10646 , proporciona una codificació de fins a 21 bits i admet un repertori de codis numèrics que poden representar aproximadament un milió de caràcters. Això sembla suficient per cobrir també les necessitats de codificació dels escrits del patrimoni històric de la humanitat, en les diverses llengües i en els diversos sistemes de signes utilitzats.

A partir del 2009, només s’assignava una part molt petita d’aquesta disponibilitat de codis. De fet, es preveuen 17 "plans" ("plans", en anglès) per al desenvolupament dels codis, de 00 a 10 hexadecimals , cadascun amb 65.536 posicions (quatre dígits hexadecimals), però només els tres primers i els darrers tres pisos actualment estan assignats [2] , i d’aquests els primers, també anomenats BMP, són pràcticament suficients per cobrir tots els idiomes més utilitzats.

En termes concrets, aquest repertori de codis numèrics es serialitza mitjançant diferents esquemes de recodificació, que permeten l’ús de codis més compactes per als caràcters més freqüents. Es preveu l’ús de codificacions d’ unitats de 8 bits ( bytes ), 16 bits ( paraula ) i 32 bits ( doble paraula ), descrites respectivament com a UTF-8 , UTF-16 i UTF-32 .

Pis Interval Descripció Abreviatura
0 000000-00FFFF Avió bàsic multilingüe BMP
1 010000-01FFFF Avió multilingüe complementari SMP
2 020000-02FFFF Pla ideogràfic complementari SIP
3 030000-03FFFF Es va designar prèviament com a pla ideogràfic terciari (TIP), però no se li han assignat cap caràcter en aquest moment [3] . CONSELL
4-13 040000-0DFFFF Actualment no assignat
14 0E0000-0EFFFF Avió d’ús especial suplementari SSP
15 0F0000-0FFFFF Àrea d’ús privat suplementari-A
16 100000-10FFFF Àrea d’ús privat suplementari-B

Avió bàsic multilingüe (BMP)

El pla 0, el pla bàsic multilingüe (lit. " Pla multilingüe bàsic ") o BMP, és aquell en què s'han assignat la majoria dels caràcters. El BMP conté caràcters per a gairebé tots els idiomes moderns i un gran nombre de caràcters especials. La majoria dels codis de caràcters assignats al BMP es van utilitzar per codificar els codis xinès, japonès i coreà ( CJK ).

Sistemes d'escriptura representats

Unicode inclou gairebé tots els sistemes d'escriptura que s'utilitzen actualment, inclosos:

A més dels esmentats, hi ha disponibles glifos pertanyents a moltes llengües mortes:

Finalment, Unicode també inclou molts símbols, com ara els matemàtics i els musicals .

Historial de versions

En els darrers anys, s'ha publicat una nova versió pràcticament cada any després d'una mitjana de més de 1.000 sol·licituds de canvis a l'any.

  • DP 10646 1989 (Projecte de proposta de la norma ISO 10646, independent d'Unicode)
  • DIS-1 10646 1990 (primer esborrany de la ISO 10646, independent d'Unicode)
  • Unicode 1.0.0 d’octubre de 1991
  • Unicode 1.0. 1 de juny de 1992 (modificat per a una possible alineació amb ISO 10646)
  • Unicode 1.1.0 de juny de 1993 (Unicode i ISO unificats per primera vegada: els dos codis són idèntics a la norma ISO 10646-1: 1993)
  • Unicode 1.1.5 de juny de 1995
  • Unicode 2.0.0 juliol de 1996 (alineada a la norma ISO 10646 ampliada)
  • Unicode 2.1.2 de maig de 1998 (Entre d'altres, introducció del caràcter euro : €)
  • Unicode 2.1.5 d'agost de 1998
  • Unicode 2.1.8 de desembre de 1998
  • Unicode 2.1.9 d'abril de 1999
  • Unicode 3.0.0 de setembre de 1999 (alineada a la norma ISO 10646-1: 2000)
  • Unicode 3.0.1 d' agost del 2000
  • Unicode 3.1.0 de març de 2001 (alineada a la norma ISO 10646-2: 2001)
  • Unicode 3.1.1 d' agost de 2001
  • Unicode 3.2.0 de març de 2002
  • Unicode 4.0.0 d' abril de 2003 ( alineada a la norma ISO 10646: 2003)
  • Unicode 4.0.1 de març de 2004
  • Unicode 4.1.0 31 de març de 2005
  • Unicode 5.0.0 el 14 de juliol de 2006 amb més de 99.000 glifs [4]
  • Unicode 5.1.0 el 4 d’abril de 2008
  • Unicode 5.2.0 1 d’octubre de 2009
  • Unicode 6.0.0 , 10 d'octubre de 2010
  • Unicode 6.1.0 26 de gener de 2012
  • Unicode 6.2.0 26 de setembre de 2012
  • Unicode 6.3.0 , 30 de setembre de 2013
  • Unicode 7.0.0 , 16 de juny de 2014
  • Unicode 8.0.0 , 17 de juny de 2015
  • Unicode 9.0.0 , 21 de juny de 2016
  • Unicode 10.0.0 20 de juny de 2017
  • Unicode 11.0.0 , 5 de juny de 2018
  • Unicode 12.0.0 5 de març de 2019

Nota

  1. ^ (EN) Pàgina oficial del Consorci Unicode
  2. Plans assignats (2009):
    1 00-BMP Pla bàsic multilingüe
    2 Pla suplementari multilingüe 01-SMP
    3 02-SIP pla ideogràfic complementari
    15 Pla complementari 0E-SSP amb finalitats especials
    16 0F-PUA reservat per a àrees d'ús privat
    17 10-PUA reservat per a àrees d'ús privat
  3. ^ Full de ruta cap al TIP
  4. ^ Unicode Consortium Unicode Character Database 5.0 Publicat Arxivat el 5 d'agost de 2011 a Internet Archive . , 18 de juliol de 2006

Articles relacionats

Altres projectes

Enllaços externs

Control de l'autoritat LCCN (EN) sh98000843 · GND (DE) 4343497-6
Informàtica Portal de TI : accés a les entrades de Wikipedia tractar amb ella