KomputerProgramming

UTF-8 - karakter encoding

Unicode ngarojong ampir sakabéh susunan karakter aya. Bentuk best of panyandian set karakter Unicode anu UTF-8 encoding. Ieu ngarojong kasaluyuan jeung ASCII, résistansi kana distorsi tina data, efisiensi tur betah pamrosésan. Tapi hal munggaran munggaran.

formulir coding

Komputer beroperasi moal ukur jadi nomer objék abstrak matematik, ogé kombinasi hijian gudang jeung nanganan dibereskeun-ukuran data - bait jeung 32-bit kecap. baku encoding kedah nyandak ieu kana akun nalika nangtukeun cara nampilkeun jumlah karakter.

Dina sistim komputer, anu wilangan buleud disimpen dina sél memori 8 bit (1 bait), 16 atawa 32 bit. Unggal formulir ngahartikeun hiji encoding Unicode, nu runtuyan sél memori mangrupa integer pakait ka simbol nu tangtu. Dina standar éta aya tilu bentuk beda coding karakter Unicode 8, 16 jeung 32-bit blok. Sasuai, aranjeunna katelah UTF-8, UTF-16 sarta UTF-32. Ngaran UTF nangtung pikeun Transformasi Format Unicode. Tiap tina tilu wangun panyandian hartosna sarua ngagambarkeun karakter Unicode boga kaunggulan dina sagala rupa aplikasi.

enkripsi Data bisa dipaké keur ngagambarkeun sakabeh karakter dina standar Unicode. Ku kituna, aranjeunna sapinuhna cocog keur solusi pikeun rupa-rupa alesan, make bentuk beda coding. Unggal coding tiasa unambiguously dirobah jadi salah sahiji dua lianna tanpa ilangna data.

prinsip nenalozheniya

Unggal encoding bentuk Unicode dimekarkeun di panempoan tumpang tindihna non parsial. Contona, Windows-932 ngabentuk karakter hiji atawa dua bait kode. Panjang sekuen gumantung kana bait kahiji, jadi nilai bait anjog dina serial dua-bait sarta single bait disjoint. Sanajan kitu, peunteun hiji bait tunggal jeung labuh runtuyan byte bisa coincide. Ieu ngandung harti contona yén pilarian karakter D (kode 44) bisa manggihan eta salah ngasupkeun kana bagian kadua runtuyan dua-bait karakter "D" (kode 84 44). Pikeun manggihan anu runtuyan nyaéta bener, program kudu tumut kana akun bait saméméhna.

kaayaan téh pajeulit, lamun anjog sarta labuh bait cocok. Ieu ngandung harti yén dina urutan ngaleupaskeun ambiguitas bakal janten lookup sabalikna saméméh ngahontal awal teks atawa runtuyan kode unik. Ieu mah ngan ukur episien, tapi teu ditangtayungan tina mungkin kasalahan, saprak ngan hiji bait salah mun téks lengkep geus jadi unreadable.

Format konversi Unicode avoids masalah ieu lantaran nilai ngarah, labuh, sarta Unit tunggal gudang henteu inpo nu sarua. Ieu ensures yén sakabéh Unicode pikeun néangan tur ngabandingkeun, pernah méré hasil erroneous alatan kabeneran tina bagian nu sejen kodeu hurup. Kanyataan yén bentuk ieu tina coding nitenan nenalozheniya prinsipna mah, distinguishes aranjeunna ti Asian encodings multi-bait Wétan lianna.

aspék séjén nonintersection encodings Unicode nyaeta unggal karakter boga wates diartikeun jelas. Ieu eliminates kudu nyeken hiji angka teu katangtu lambang saméméhna. fitur ieu kadangkala disebut encoding timer clocking. Distorsi unit kode bakal ngawanohkeun hiji distorsi tina ngan hiji karakter, jeung karakter sabudeureun kénéh gembleng. Dina konversi format 8-bit, lamun pointer titik ka bait, dimimitian ku 10xxxxxx (dina kode biner) pikeun manggihan mimiti simbol anu diperlukeun pikeun hiji ka tilu transisi sabalikna.

konsistensi

Konsorsium Unicode pinuh ngarojong sagala 3 bentuk encodings. Kadé teu ngalawan UTF-8 jeung Unicode, sakumaha sakabeh format konversi - sarua bentuk valid of perwujudan tina Unicode aksara-encoding baku.

Bait-oriéntasi

Keur ngagambarkeun UTF-32 karakter bakal perlu Unit kode 32-bit, nu coincides jeung kodeu Unicode. UTF-16 - hiji kana dua unit 16-bit. A UTF-8 migunakeun nepi ka 4 bait.

UTF-8 encoding anu dirancang jadi cocog sareng sistem dumasar-ASCII bait-berorientasi. Kalolobaan software aya jeung prakték ngeunaan téhnologi informasi keur lila relied dina ngagambarkeun karakter tina sekuen bait. Sababaraha protokol gumantung kana constancy of ASCII encoding jeung migunakeun boh avoids Hurup kontrol husus. Hiji cara basajan beradaptasi ka situasi Unicode tiasa, make 8-bit coding pikeun ngalambangkeun karakter Unicode, sagala karakter ASCII sarimbag atawa karakter kontrol. Ka tungtung ieu, sarta éta UTF-8 encoding.

variabel panjang

UTF-8 - coding variabel panjang, nu diwangun ku unit gudang 8-bit, nu bit luhur nu nunjukkeun kana bagian anu tina sekuen unggal bait individu milik. Hiji lingkup nilai allotted kana unsur mimiti sekuen kode, sejen - pikeun salajengna. Ieu nyadiakeun encoding disjointness.

ASCII

Konci ASCII UTF-8 encoding anu pinuh didukung (0x00-0x7F). Ieu ngandung harti yén karakter Unicode U + 0000-U + 007F nu dirobah jadi single bait 0x00-0x7F UTF-8 sahingga jadi ngalelep teu bisa dibédakeun tina ASCII. Leuwih ti éta, ulah ambiguitas, ajén 0x00-0x7F teu dipake deui dina bait ngagambarkeun tunggal karakter Unicode. Pikeun encode lambang neideograficheskih lian ti ASCII, maké runtuyan dua bait. Lambang dibasajankeun U + 0800-U + FFFF anu digambarkeun ku tilu bait, jeung Konci tambahan kalayan leuwih ti U + FFFF merlukeun opat bait.

lapisan aplikasi

UTF-8 encoding biasana dirumuskeun leuwih sering dipake tinimbang dina protokol HTML, sarta kawas.

XML geus jadi standar munggaran kalayan rojongan lengkep pikeun UTF-8 encoding. organisasi standar ogé nyarankeun eta. masalah rojongan di alamat URL nu mah béda ti ASCII-karakter, ieu ngumbar nalika konsorsium W3C sarta grup rékayasa IETF sumping ka hiji perjangjian dina coding sadaya alamat URL éksklusif di UTF-8.

Kasaluyuan jeung ASCII facilitates transisi ka software nu anyar. Kalawan UTF-8 jalan paling rai téks, kaasup JEdit, Emacs, BBEdit, Kuwu, jeung "Notepad" sistem operasi Windows. Taya formulir sejenna encoding Unicode moal bisa boast of a rojongan misalna sahiji alat nu.

coding kaunggulan téh nya éta diwangun ku réntétan bait. Kalawan UTF-8 string anu gampang pikeun mungsi dina C jeung basa programming lianna. Ieu hiji-hijina bentuk encoding, Urutan teu merlukeun labél bait Baturan atanapi hiji deklarasi encoding dina XML.

timer sinkronisasi

Dina lingkungan anu ngagunakeun simbol 8-bit pamrosésan nu dibandingkeun kalawan susunan karakter multi-bait sejen, UTF-8 boga kaunggulan handap:

  • Sekuen kode bait kahiji ngandung émbaran ngeunaan panjangna na. Hal ieu ngaronjatkeun efisiensi tina pilarian langsung.
  • Disederhanakeun nyungsi awal simbol nu salaku bait awal ngan bisa laksana pikeun rupa-tetep tina nilai.
  • Taya nilai NANGTANG bait.

Bandingkeun mangpaat

UTF-8 encoding nyaéta ci. Tapi lamun dipaké pikeun panyandian karakter Asia Wétan (Cina, Jepang, Korea, tulisan Cina ngagunakeun tanda) dipaké urutan 3-bait. Ogé UTF-8 encoding nyaéta inferior kana bentuk sejen dina coding speed ngolah. A garis asihan binér ngahasilkeun hasil anu sarua salaku binér asihan Unicode.

Skéma karakter encoding

Skéma karakter encoding ngandung formulir lambang encoding jeung metoda pikeun unit kode lokasi tunggal bait. Pikeun nangtukeun skéma encoding Unicode baku nyadiakeun pamakéan hiji urutan bait tanda awal (Baturan, bait urutan tanda).

Sabot Baturan di UTF-8 tag fitur ieu dugi ukur ku rujukan pikeun pamakéan bentuk coding. Masalah dina nangtukeun endian UTF-8 kudu, sabab ukuran Unit encoding na hiji bait. Ngagunakeun Baturan pikeun formulir ieu coding geus ngayakeun diperlukeun atawa dianjurkeun. Baturan bisa lumangsung dina téks anu dirobah tina codings séjén migunakeun tanda urutan bait atawa signature pikeun UTF-8 encoding. Mangrupakeun runtuyan 3 bait ef BB 16 16 BF 16.

Kumaha pikeun ngeset UTF-8 encoding

The HTML coding UTF-8 keur dipasang kalawan kodeu handap:

sirah

Meta http-equiv = "Kandungan-Tipe" eusi = "text / html; charset = UTF-8" ˃

Dina PHP UTF-8 encoding diatur ngagunakeun lulugu () fungsi dina awal file sanggeus netepkeun kasalahan nilai tingkat kaluaran:

˂? PHP

error_reporting (-1);

lulugu ( "Kandungan-Type: téks / html; charset = UTF-8 ');

Nyambung ka database MySQL UTF-8 encoding diatur:

˂? PHP

mysql_set_charset ( 'utf8');

The CSS-file encoding nyaéta karakter UTF-8 keur dieusian kieu:

@charset "UTF-8";

Lamun anjeun simpen payil sadaya jenis milih UTF-8 encoding tanpa Baturan, disebutkeun loka moal jalan. Jang ngalampahkeun ieu DreamWeave kudu pilih item menu "modifikasi - Page Sipat - Judul / Encoding" pikeun ngaganti encoding anu UTF-8. Dituturkeun ku reloading kaca, piceun tanda dipariksa tina "Connect Unicode signature (Baturan)» sarta nerapkeun parobahanana. Mun sagala téks dina kaca atawa di database a diwanohkeun formulir sejen tina coding, perlu ngalebetkeun deui atawa ulang encode. Lamun anjeun gawekeun ungkapan biasa, pastikeun ngagunakeun modifier nu u.

Anjeun oge bisa nyimpen file di UTF-8 encoding dina "Notepad" tina Windows. Sanggeus milih item menu "File - Simpen Salaku ..." masang formulir perlu of encoding jeung simpen dina file di UTF-8.

Dina téks redaktur Notepad ++, upami diatur lian ti UTF-8, via item menu "Convert mun UTF-8 tanpa Baturan» ngarobah karakter tur simpen di UTF-8.

euweuh alternatif

Dina konteks globalisasi, dimana wates politik jeung linguistik anu erased, karakter susunan nu gaduh ciri lokal, anu sahiji saeutik pamakéan. Unicode mangrupakeun set karakter tunggal nu ngarojong sagala localizations. A UTF-8 - conto palaksanaan ditangtoskeun tina Unicode, nyaéta:

  • Ieu ngarojong rupa-rupa parabot, kaasup kasaluyuan jeung ASCII encoding;
  • Ieu tahan ka data distorsi;
  • basajan jeung éféktif dina perlakuan;
  • nyaéta platform bebas.

Jeung Advent di UTF-8 perdebatan ngeunaan naon bentuk encoding atanapi karakter set anu hadé, janten taya hartina.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 su.birmiss.com. Theme powered by WordPress.