Enkonduko en la aŭtomatan daten-prilaboradon

Kodado de datenaj tipoj: specialaj etno-lingvaj simboloj

La etnolingvaj specialaj simboloj (kiaj ekzemple ä, ö, ü, ß, é, è, ñ) foje estas kodataj per ŝanĝo de jenaj malpli uzataj Askiaj signoj: @[\]{|}~. Nun tamen plej ofte oni uzas la bajtojn inter 160 kaj 255, eluzante ĉiujn 8 bitojn en bajto. Ĉar ili ne sufiĉas por ĉiuj lingvoj, oni difinis diversajn normojn (laŭ ISO 8859), precipe:

La sekva bildo montras la signaron de la kodo 8859/1; la suba parto, identa al Askio, ne estas montrata:

ISO 8859/1

La sekva bildo montras la signaron de la kodo 8859/3; la super-signaj literoj de la Internacia Lingvo Esperanto estas flave markitaj:

ISO 8859/3

Kelkaj literoj estas samloke kodataj en ĉiuj tri kodoj, ekzemple la vokaloj kun korno (á, é, ...), malkorno (à, è, ...) kaj ĉapelo (â, ê, ...) kaj la Germana umlaŭtoj.

Kvankam Vindozo uzas la kodon Latina-1 (sub la nomo "ANSI-kodo"), DOS-programoj ankoraŭ uzas IBM-kodon nekongruan kun ISO 8859. Tial tekstoj kun specialaj Latina-1-simboloj ne estas ĝuste legeblaj en DOS-ŝelo. Por demonstri tion jen mallonga teksto kun indiko de la vico da bajtoj kodantaj tiun tekston. Dekstre apud la bloko listiganta la bajtojn en dekuma prezento la signifo de la bajtoj inter 33 kaj 126 estas donita. Sub la pure Askia teksto sekvas frazo kun kelkaj umlaŭtoj, koditaj per bajtoj pli grandaj ol 127.

Dum la lastaj jaroj aperis nova kodosistemo kun la nomo Unikodo (UNICODE). Tiu sistemo kodas ĉiun signon per 16-bita nombro kaj tiel teorie povas kodi 216 = 65 mil signoj. Tiel ĝi povas kodi ne nur por la specialaj signoj de ĉiuj latinskribaj lingvoj, sed ankaŭ por aliaj skriboj, inkluzive de la ĉina. Tial probablas, ke Unikodo post kelkaj jaroj anstataŭos la 8-bitajn kodojn (precipe ISO 8859), tiel ke ne plu estos problemoj pro specialaj simboloj -- sed ankoraŭ ne estas tiel. Grava sukceso por Unikodo estis ĝia uzo kiel la interna kodo de la programad-lingvo JAVA.

Pretere, ĉar eĉ du bajtoj ne sufiĉas por ĉiuj nunaj, estintaj kaj estontaj simboloj, oni jam difinis 4-bajtan kodon, normigitan kiel ISO 10646. Ĝia unua "tranĉaĵo" (nomata BMP = basic multilingval plane = baza plurlingva tavolo) estas identa al Unikodo, tiel ke Unikodo ne arkaiĝos pro ISO 10646.

Eĉ post la kompleta disvastiĝo de Unikodo la kodado de signoj devos evolui, ĉar ekestadas novaj signoj. Ekzemple en Eŭropo graviĝis la eŭro-simbolo (EUR), kaj ankaŭ la ĉina ideogramaro evoluas en maniero, kiun Unikodo ne kapablas aŭtomate sekvi.


Specimenaj demandoj