Unicode és un estàndard internacional de codificació de caràcters, per a suports informàtics. Permet emmagatzemar qualsevol mena d'escriptura que es faci servir actualment, moltes formes d'escriptura conegudes només pels estudiosos, i símbols com ara els símbols matemàtics, lingüístics, i APL.[1]

logo d'Unicode.

Està mantingut pel Unicode Technical Committee (UTC), integrat al Consorci Unicode, on hi ha empreses com: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo!, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual.[2] Des del 1991, l'Unicode Consortium i la ISO/IEC estan d'acord a mantenir els mateixos codis per als mateixos caràcters.[3]

Unicode vol reemplaçar tots els codis de caràcters existents. És el conjunt de caràcters més complet, i ha esdevingut l'opció a triar als entorns multilingües. Molts estàndards recents ja l'han adoptat,[4] per exemple XML, Java, i sistemes operatius moderns.

Formes d'escriptura admeses modifica

Unicode té totes les formes d'escriptura actuals:[5]

També té símbols (matemàtics, lògics, musicals…), ornamentació, i sistemes d'escriptura de l'antiguitat, com ara l'ogham, les runes, el lineal A i B, o els diacrítics del grec clàssic.

Tractament de la informació modifica

Formes de codificació modifica

Les computadores fan servir 8, 16, o 32 bits per representar els caràcters. Unicode té tres formes de codificació amb el nom UTF (Unicode transformation format, en català format de transformació Unicode): [6]

  • UTF-8: 8 bits, amb símbols de longitud variable.
  • UTF-16: 16 bits de longitud variable, adaptada al pla bàsic multilingüe (BMP).
  • UTF-32: 32 bits de longitud fixa, la més senzilla de les tres.

A partir de les 3 formes identificades es defineixen 7 esquemes de codificació.

Esquemes de codificació modifica

Els esquemes de codificació tracten de la forma en què es serialitza la informació.[6] La seguretat fa determinar l'ordre correcte dels bits, per reconstruir la informació. Una diferència fonamental entre processadors és l'ordre de disposició dels bytes, amb paraules de 16 o 32 bits, això es diu endianness. Els esquemes de codificació han de garantir que els extrems d'una comunicació saben com interpretar la informació rebuda. A partir de les 3 formes de codificació es defineixen 7 esquemes. Tot i que comparteixen noms, no s'ha de confondre esquemes i formes de codificació.

Esquema de codificació Endianness Admet BOM
UTF-8 No aplicable
UTF-16 Big-endian o Little-endian
UTF-16BE Big-endian No
UTF-16LE Little-endian No
UTF-32 Big-endian o Little-endian
UTF-32BE Big-endian No
UTF-32LE Little-endian No

Unicode defineix una marca especial, la marca d'ordre de bytes (BOM, Byte Order Mark), a l'inici d'un arxiu o d'una comunicació per dir quina és l'ordenació de bytes. Quan un protocol superior especifica l'ordre de bytes, no cal cap marca. Es pot ometre, donant lloc als esquemes de la llista anterior amb sufix BE o LE. Als esquemes UTF-16 i UTF-32, que admeten BOM, si aquest no s'especifica, es suposa que l'ordenació de bytes és big-endian.

La unitat de codificació en UTF-8 és el byte, per tant no cal cap indicació d'ordre de byte. L'estàndard ni demana ni recomana la utilització de BOM, però l'admet com a marca de que el text és Unicode, o com a resultat de la conversió d'uns altres esquemes.

Caràcters UNICODE a Windows modifica

Mètode que pot funcionar independentment de l'idioma configurat pel teclat:

  1. Prémer la tecla Alt.
  2. Prémer la tecla + (més) en el teclat numèric.
  3. Teclejar el valor decimal equivalent al valor hexadecimal Unicode
  4. Deixar anar la tecla Alt.

Exemples:

ALT+0171...« (obrir cometes llatines)

ALT+0181...» (tancar cometes llatines)

«..dissortada i manifestament..»

ALT+0150...– (guionet més llarg per als comentaris)

– tot just feia quatre dies–

ALT+0136...ˆ (circumflex)

ALT+0152...˜ (titlla)

ALT+0209...Ñ

ALT+0209...©

Vegeu també modifica

Referències modifica

  1. «Summary Narrative» (en anglès). [Consulta: 1r juliol 2014].
  2. «The Unicode Consortium Members». Unicode, Inc. [Consulta: 1r juliol 2014].
  3. The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0 [Consulta: 1r juliol 2014]. 
  4. «Unicode». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
  5. «Supported Scripts» (en anglès). [Consulta: 1r juliol 2014].
  6. 6,0 6,1 The Unicode Consortium. «2.5 Encoding Forms». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0. 

Enllaços externs modifica

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Unicode