OFF
A számítógépnek a szövegeket le kell fordítania 1-esek és 0-k sorozatára. Ha foglalkoztál valaha is egy kicsit az informatikával, hallanod kellett az ASCII kódolásról(melyet ANSI-nak is neveznek). Ezt az amerikaiak a hatvanas években fejlesztették ki. A cél az volt, hogy egy betűt/karaktert hét bitre fordítsanak le – a nagy F betű pl 1000110. Ez a kódtábla a számokat, az angol kis- és nagybetűket, valamint egypár kiegészítő karaktert(felkiáltójel, zárójel, dollárjel stb.) tartalmazza. Jön a probléma, hogy az idegen nyelvű szövegeket, melyek Á-tól Þ-ig mindenféle betűt tartalmaznak, hogy kódoljunk. Először 8-bitesre bővítették a kódtáblát, így kétszer akkorára (27 helyett 28) nőtt a hely. A kódtábla második felére különböző kiosztásokat találtak ki, mert a hely nem volt elég, hogy az összes létező nyelv különleges betűit, írásjegyeit meg lehessen feleltetni egy kódnak. Lett tehát kódtábla a nyugat-európai nyelveknek, a közép-európai nyelveknek, a balti nyelveknek stb. Jellegzetes hiba, hogyha a magyar nyelvű szöveg véletlenül a nyugat-európai kódlap szerint jelenik meg, az Ő betű helyett Õ, az Ű helyett Û jelenik meg, ez azért van, mert a nyugat-európai kódlapon nem szerepel ez a két különleges magyar betű. A kódlapok tengerében azonban kezdtek elveszni az emberek – meg felmerült egy probléma, hogyha pl. magyarul akarok írni egy João nevű portugál fickóról, akkor nem tudom rendesen leírni a nevét, mert a magyar kódlapon nincs Ã.
Erre hozott megoldást az Unicode, melynek készítői nemes egyszerűséggel azt a célt tűzték ki maguk elé, hogy az emberiség által használt összes írásjegyet bekódolják. Jelenleg több, mint 110 ezer karakter található meg benne, több, mint 100 írást lefedve. Itt keletkezik a probléma – ennyi karakter már nem fér bele 8 bitbe, azaz egy bájtba. Ezért a különlegesebb karakterek több bájtnyi, 2, vagy 3 bájtnyi helyet foglalnak el. Ez a rendszer az UTF-8. Ha az UTF-8-at ANSI-ban jeleníted meg, az ~Âltal~Âban ilyet produk~Âl a k~Ël~Înleges karakterek hely~Èn. Azért látsz két karaktert, mert az UTF-8 egy betű tárolásához 2 bájtot használ, és ezt az ANSI két karakternek veszi. Remélem érthető.
Az UTF-8 már egyre elterjedtebb, de egyes régebbi programok(mint pl. a Subtitle Workshop) vagy egyes DVD-lejátszók még nem tudják értelmezni. Ezért kérik a feliratos oldalak, hogy lehetőleg ANSI-ban kódoljuk a feliratokat. A sima fájl UTF-8-as, a másik pedig ANSI kódolású.