Enkonduko en la auxtomatan daten-prilaboradon

Kodado de datenaj tipoj: specialaj etno-lingvaj simboloj

La etnolingvaj specialaj simboloj (kiaj ekzemple ä, ö, ü, ß, é, è, ñ) foje estas kodataj per sxangxo de jenaj malpli uzataj Askiaj signoj: @[\]{|}~. Nun tamen plej ofte oni uzas la bajtojn inter 160 kaj 255. Cxar ili ne suficxas por cxiuj lingvoj, oni difinis diversajn normojn (laux ISO 8859), precipe:

Kelkaj literoj estas samloke kodataj en cxiuj tri kodoj, ekzemple la vokaloj kun korno, malkorno kaj cxapelo kaj la Germana umlauxtoj.

Kvankam Vindozo uzas la kodon Latina-1 (sub la nomo "ANSI-kodo"), DOS-programoj ankoraux uzas IBM-kodon nekongruan kun ISO 8859. Tial tekstoj kun specialaj Latina-1-simboloj ne estas gxuste legeblaj en DOS-sxelo. Por demonstri tion jen mallonga teksto kun indiko de la vico da bajtoj kodantaj tiun tekston. Dekstre apud la bloko listiganta la bajtojn en dekuma prezento la signifo de la bajtoj inter 33 kaj 126 estas donita. Sub la pure Askia teksto sekvas frazo kun kelkaj umlauxtoj, koditaj per bajtoj pli grandaj ol 127. Videblas ke la Netscape-krozilo ne gxuste redonas tiujn umlauxtojn, cxar ili estis enigitaj per HP-komputilo.

Dum la lastaj jaroj aperis nova kodosistemo kun la nomo Unikodo (UNICODE). Tiu sistemo kodas cxiun signon en du bajtoj kaj tiel teorie povas kodi 216 = 65 milionojn da signoj. Tiel gxi povas kodi ne nur por la specialaj signoj de cxiuj latinskribaj lingvoj, sed ankaux por aliaj skriboj, inkluzive de la cxina. Tial probablas, ke Unikodo post kelkaj jaroj anstatauxos la 8-bitajn kodoj (precipe ISO 8859), tiel ke ne plu estos problemoj pro specialaj simboloj -- sed ankoraux ne estas tiel. Grava sukceso por Unikodo estis gxia uzo kiel la interna kodo de la programad-lingvo JAVA.

Pretere, cxar ecx du bajtoj ne suficxas por cxiuj nunaj kaj estontaj simboloj, oni jam difinis 4-bajtan kodon, normigitan kiel ISO 10646. Gxia unua "trancxajxo" (nomata BMP = basic multilingval plane = baza plurlingva tavolo) estas identa al Unikodo, tiel ke Unikodo ne arkaigxos pro ISO 10646.

Ecx post la kompleta disvastigxo de Unikodo la kodado de signoj devos evolui, cxar ekestadas novaj signoj. Ekzemple en Euxropo gravigxis la euxro-simbolo (EUR), kaj ankaux la cxina ideogramaro evoluas en maniero, kiun Unikodo ne kapablas auxtomate sekvi.