plu re

Enkonduko en la aŭtomatan daten-prilaboradon

6 Kodado de datenaj tipoj: Senaranĝaj (senformataj) tekstoj

6 Kodierung von Datentypen: Unformatierte Texte

Senaranĝaj tekstoj, produkteblaj ekzemple per simpla redaktilo, enhavas

  • literojn majusklajn kaj minusklajn
  • ciferojn
  • interpunkciojn
  • la stirsimbolojn "nova linio", "reveno" (al la komenco de linio), "tabo" (tabelsalto). UNIX kodas la finon de linio per "nova linio"; DOS/Vindozo kodas ĝin per la kombino "nova linio" + "reveno". Apple-komputiloj uzas la "revenon".

Unformatierte Texte, die sich zum Beispiel mit einem einfachen Texteditor erzeugen lassen, bestehen aus

  • Groß- und Kleinbuchstaben
  • Ziffern
  • Satzzeichen
  • den Steuerzeichen "neue Zeile", "Wagenrücklauf", "Tabulator"; UNIX kodiert das Ende einer Zeile mit dem Symbol "neue Zeile", DOS/Windows verwendet die Kombination "neue Zeile" + "Wagenrücklauf"; Apple-Rechner verwenden den Wagenrücklauf.

Ne prezenteblas diversaj litergrandecoj kaj -tipoj, grasa, oblikva, kursiva, altigita aŭ malaltigita skribo ktp.

Por kodi la literojn de la baza latina alfabeto, tamen sen specialaj signoj de diversaj lingvoj (ekzemple ä, ö, ü, ß, à, ñ, ă, ĉ ktp., establiĝis normigita kodo, la American Standard Code for Information Interchange ("Usona norma kodo por inform-interŝanĝo"), akronime ASCII (Askio). Tiu ĉi kodo kaj diversaj plivastigoj de ĝi estas nun tre vaste uzataj; nur kelkaj komputilegoj ankoraŭ uzas alian kodon. ASCII kodas signojn en la malaltaj 7 bitoj de bajto; la unua bito estas ĉiam 0. Tiel disponeblas 27 = 128 malsamaj kombinoj, nome la bajtoj 0 = 00000000 bis 127 = 01111111. La preseblaj signoj uzas la bajtojn 32 (spaceto) ĝis 126 (~); la aliaj signoj estas uzataj kiel reg-signoj. Ekzemple "nova linio" kaj "reveno" estas reg-signoj.

Pri Askio ekzistas artikolo en Vikipedio.

Nicht darstellbar sind verschiedene Buchstabengrößen und Schrifttypen, fette, schräge, kursive, hoch und tief gestellte Schrift usw.

Zur Kodierung der Buchstaben des lateinischen/englischen Grundalphabets, ohne die Sonderzeichen anderer Sprachen (zum Beispiel ä, ö, ü, ß, à, ñ, ă, ĉ usw.), wurde ein standardisierter Kode entwickelt, der American Standard Code for Information Interchange ("amerikanischer Standard-Kode für Informationsaustausch"), abgekürzt ASCII (gesprochen Aski). Dieser Kode und verschiedene Erweiterungen davon sind inzwischen sehr verbreitet; nur einige Großrechner verwenden noch andere Kodes. ASCII kodiert Zeichen in den unteren 7 Bits eines Bytes; das erste Bit im Byte ist immer 0. Damit sind 27 = 128 verschiedene Kombinationen verfügbar, nämlich die Bytes 0 = 00000000 bis 127 = 01111111. Die druckbaren Zeichen verwenden die Bytes 32 (Zwischenraum) bis 126 (~); die anderen Zeichen dienen als Steuerzeichen. Zum Beispiel sind Zeilenwechsel und Wagenrücklauf Steuerzeichen.

Zu ASCII gibt es einen Artikel in Wikipedia.

La finon de dosiero sub DOS/Vindozo markas speciala reg-signo, la bajto 26. UNIX simple memoras la precizan longecon de la dosiero kaj tial ne bezonas specialan signon. Vi povas vidi kelkajn ekzemplojn kaj kompletan liston de ĉiuj preseblaj Aski-signoj. Ankaŭ jena tabelo montras la preseblajn Aski-signojn:

Das Ende einer Datei wird unter DOS/Windows durch ein besonderes Steuerzeichen, das Byte 26, markiert. UNIX merkt sich einfach die genaue Länge von Dateien und braucht daher kein besonderes Steuerzeichen. Sie finden hier einige Beispiele und eine Liste aller druckbaren ASCII-Zeichen. Auch die folgende Tabelle zeigt die druckbaren ASCII-Zeichen:

Askio

Askio kapablas kodi literojn nur el la baza latina/angla alfabeto, sed ne aliajn literojn, ekzemple:

  • diakritajn literojn, kie la baza litero estas modifita per iu aldonaĵo, ekzemple ä å ç ĉ ñ ŭ;
  • ligaĵojn (ligaturojn), kie pluraj literoj estas kunmetitaj al unu signo, ekzemple Æ œ ß; nur la signo "&", konsiderebla kiel ligaĵo de "et", estas en Askio;
  • literojn el ne-latinaj alfabetoj, ekzemple la Cirila, Greka, Araba, Tajlanda;
  • simbolojn el ne-alfabetaj skriboj (ideogramojn), ekzemple Ĉinajn.

In ASCII kann man nur Buchstaben aus dem lateinischen/englischen Grundalphabet kodieren, jedoch keine anderen Buchstaben, wie zum Beispiel:

  • diakritische Buchstaben, bei denen das Grundzeichen durch einen Zusatz verändert wird, zum Beispiel ä å ç ĉ ñ ŭ;
  • Ligaturen, bei denen mehrere Zeichen zu einem verschmolzen sind, zum Beispiel Æ œ ß; lediglich das Zeichen "&", das man als Ligatur von "et" betrachten kann, ist in ASCII darstellbar;
  • Buchstaben aus nichtlateinischen Alphabeten, zum Beispiel aus dem kyrillischen, griechischen, arabischen oder thailändischen Alphabet;
  • Symbole aus nicht alphabetischen Schriften (Ideogrammme), zum Beispiel chinesische Symbole.

Por reprezenti tiajn simbolojn necesas vastigi Askion. Pri tio parolos la sekva leciono.

Zur Darstellung solcher Symbole muss der ASCII-Kode erweitert werden. Das ist Thema der nächsten Lektion.


Specimenaj demandoj

  • Kiu kodo estas plej vaste uzata por kodi la bazan latinan alfabeton?
  • Kiom da bitoj uzas la kodo Askio (ASCII) por unu signo?
  • Kiajn literojn Askio ne povas reprezenti?
  • Kiom da signoj Askio povas reprezenti?

Beispielfragen

  • Welcher Kode zur Kodierung des lateinischen Grundalphabets ist am weitesten verbreitet?
  • Wie viele Bits verwendet ASCII für ein Zeichen?
  • Welche Buchstaben kann ASCII darstellen?
  • Wie viele Zeichen kann ASCII darstellen?