Dlaczego Unicode nie będzie działać na w internecie: Językowe, polityczne i techniczne Ograniczenia


Why Unicode Won’t Work on the Internet:Linguistic, Political, and Technical Limitations
Copyright © By Norman Goundry
For original English text, go to: http://www.hastingsresearch.com/net/04-unicode-limitations.shtml

Norman Goundry
Edytowane przez Nicolas Carroll
Data: 04 czerwiec 2001
Ostatnia aktualizacja: N / A

Streszczenie

Unicode, pół-handlowy odpowiednik UCS-2 (ISO 10646-1), jest powszechnie traktowane jako kompleksowe rozwiązanie do elektronicznej mapowania wszystkich znaków językach świata, będąc 16-bitowej rozdzielczości umożliwiając charakter teoretyczny sumie ponad 65000 znaków. Jednakże, kompletne zestawy znaków na świecie sumują się do ponad 170.000 znaków. Dokument ten podsumowuje zawirowań politycznych i technicznych niezgodności, które zaczynają się manifestować się w Internecie, jak w konsekwencji tego nadzoru. (Dla bardziej technicznie skłonny: Unicode 3.1 nie będzie działać.)

Od redakcji: W chiński, zarówno Wade-Giles i romanizations Pinyin są używane, w zależności od, który jest lepiej znany dla danego słowa. W PRASOWE na orientalnych języków i polityki są dość dokładne, czytelnicy zainteresowani z bezpośrednich implikacji technicznych papieru może chcieć przejść bezpośrednio do “niezdolności Unicode w pełni zaspokajać orientalne znaków”.

  • w dół arrowBackgrounder na orientalnych języków i znaków
  • w dół arrowThe oddziaływanie zachodnich technologii na Wschodzie
  • w dół arrowThe niezdolności Unicode w pełni zaspokajać orientalne znaków
  • w dół arrowWhy Unicode 3.1 nie rozwiązuje problemu
  • w dół arrowThe polityczne znaczenie to Wyrażone w zachodnich Warunkami
  • w dół arrowRecent działań przez Verisign
  • w dół arrowConclusion

Backgrounder na orientalnych znaków języków

Chiny (Chiński)

Chiński to jeden z najstarszych języków mówionych i pisanych do znajdujących się w użyciu. Mandarin jest używany przez ponad 1,3 miliarda ludzi, a to i nowsze, uproszczona metoda zapisu jest używany przez mieszkańców Chin kontynentalnych jest niczym innym modyfikacji procesu, który został usłyszeć w rozmowach przez ponad dwa tysiąclecia. Wiele innych narodów dalej go używać w taki sam sposób, że po raz pierwszy zastosowano w Chinach. Wśród nich są Japonia, Korea, Tajwan i Wietnam. W pierwszej trójce, chiński nadal stanowi podstawę wszystkich normalnych pisania i mówienia.

Nasienny książka Wieger na temat bohaterów i budowa chińskim, opublikowana w 1915 roku, miała stać się de facto źródło przed którym wszyscy inni (i nadal powinna) być porównywane – z kilkoma zastrzeżeniami. Wśród nich jest zauważalny stronniczość z jego strony wobec taoizmu, który staje się coraz bardziej widoczne w jego analizie Tao Tsang (tj. taoistycznych Canon Oficjalnych pism [napisane “DaoZang” w Pinyin latynizacji Chinach])

Było to spowodowane zarówno jego religijnego i kulturowego treningu jako Ojca jezuitów w Chinach (a było to w potwornych proces rozrywania się z dala od jej od tysięcy lat jako totalitarnego państwa prowadzonym przez hierarchię cesarzy i urzędników cesarskich), a także z powodu wspólnej uszczerbku Zachodniej dnia przed orientalnej kultury i społeczeństwa.

Gdzie to niewielki pojawia się w temacie pod ręką jest ustawienie Wieger w górę, po raz pierwszy w popularnej prasie, sformalizowanie zdania, że ​​było ogromna ilość “zbędnych” znaków, zarówno niepotrzebne i utrudnia szybki marsz w czasach nowożytnych , z którym Chiny wracał do uchwytów (czy został on chce czy nie). Faktem jest, że ta stronniczość, a jego rażącą nieznajomość rzeczywistej wartości tak dużej kwoty z tzw redundancja “trwa do dziś, a więc nadal jest pas-punkt między Wschodu i Zachodu źle .

Należy również wiedzieć, że nie było więcej niż kilka błędów, niektóre jaskrawo widocznych, niektóre nie, co Weiger określonych w książce jako “nadmiernego mnożenia”, w którym jego niechęć staje się bardziej jasne: “1. Przyczyny nadmiernego mnożenia znaki … Po pierwsze, nieznajomość skrybów, którzy nieustannie ujawnione wadliwe formy, które były powielane przez potomnych głupio, a potem, potrzeba odczuwane nadać nazwy nowych rzeczy imperium rosło, uczenie się rozprzestrzenia;. pisanie stało się publiczne sprawa, proces hsing-sheng [fonetyczne kompleksy, w których jedna część ma znaczenie, podczas gdy inne wskazuje na wymowę] zostanie łatwe, wszystko odbyło się to z tej niekontrolowanej fermentacji, bez kierunku, bez kontroli, bez krytyki. , skoczył wraz z przydatnych znaków, tysiące niepotrzebnych deblu. ” Aby dać przegląd tego, co znalazł tak przerażająco chaotycznie, różne ilości znaków są następujące:

Od około 800 B.C.E. [Przed Wspólnej (Chrześcijańscy) Era], a do czasu około 300-200 pne, ilość znaków w użyciu pozostaje na stałym poziomie; jest około 3300 w sumie. Pod koniec tej epoki, ilość zaczęła rosnąć w szybkim klipu tak, że jeden sto lat przed początkiem pierwszego tysiąclecia było około 7380 indeksowane. Kwota ta rozrósł się do nieco ponad 10.000 w pierwszym CE roku. W miarę upływu lat na coraz więcej znaków zostały dodane do całości, aż do wielkiego słownika K’ang Hsi (ukończona w 1716 CE) ujednoliconego zestawu do stanu, który jest postrzegany dzisiaj.

Weiger stwierdza w swojej książce, że to (a więc cały zestaw usankcjonowane cytowane jako ostateczny autorytet, od tego czasu) “… zawiera 40000 znaków, które mogą być wyraźnie podzielone następująco: 4000 znaków w powszechnym użyciu; 2000 nazw własnych i dwuosobowe z ograniczoną wykorzystania;. 34.000 potworności żadnego praktycznego zastosowania Jesteśmy daleko od legendarnego liczbie 80.000 zwykłych znaków przypisanych do języka chińskiego “. O ile liczba idzie, K’ang Hsi rzeczywiście zawiera prawie na 40.000 znaków w pogrubioną czcionką, ale w jego teksty objaśniające podane wraz z każdym z tych znaków, a upoważniony koniec uzupełnienie znaków pominięte podczas procesu jej Pierwsze wydanie, istnieje co najmniej kilka tysięcy więcej, tak że można bezpiecznie powiedzieć, że Weiger jest błędna i że normalna liczba jest bliższa czterdziestu pięciu do pięćdziesięciu tysięcy całkowita.

Określona wielkość i treść komunistycznej autoryzowanego zestawu używanego dziś przez ludzi na kontynencie jest bardzo trudne do spostrzeżenia – wydaje się różnić w zależności od okoliczności. Główny wysiłek zaczął – po ouster z nacjonalistów do Tajwanu – racjonalizacji i unowocześnienia edukacji mas, tak, że Chiny mogłyby rozpocząć prawdziwą próbę nadrobienia do narodów Zachodu. Reforma ogólnego minimalnego zestawu znaków, wystarczający dla najbardziej powszechnym użyciu i edukacji na poziomie szkoły średniej, został wprowadzony w życie, a Mandarin używany w północnej zostało ogłoszone jako pierwszy języka narodowego. Wiele znaków uznane za zbyt skomplikowane, aby pisać i pamiętać, i wielki procent duplikatów zostały usunięte całkowicie, tak że lista jako przedmiotem nauczania w szkole jest nieco ponad 6000.

Zestaw nowy i bardzo skuteczny z alfanumeryczne znanych jako romanizacji Pinyin został wprowadzony – to genialne urządzenie jest bardzo podobna w efekcie do rōmaji w języku japońskim, ale z dodatkiem “Akcenty”, które nadają “tony” (mandaryński wykorzystuje cztery), więc niezbędne dla zrozumienia znaczenia samych słów. Ponadto, znaczna część znaków, które pozostają zostały poddane procesowi Jianhua hanzi (“Uproszczone Chińskie Znaki”) tak, że one również są łatwiejsze do napisania.

Ale ta ostatnia zmiana miała ogromny wpływ na kilku pokoleń studentów, którzy już nauczył się nowy zestaw, z wyłączeniem pozostałych bohaterów z przeszłości. Jianhua hanzi równie dobrze może być zupełnie nowy język pisany, bo ma wpływ na odmowę dostępu do tysięcy lat, literatury, które poprzedziły przejęciem władzy przez komunistów w 1949 roku. To wymagało ponownego pisania standardowych prac, w tym rdzeń starych klasyków, tak że można je studiował – przeliczenia jest milcząca znak, że takie prace są “zatwierdzony” przez rząd, a więc również oficjalne zatwierdzenie myśli i koncepcje znaleźć wewnątrz.

Bo to “odcięcie” dzieł przeszłości okazał się na tyle poważne, aw niektórych przypadkach, profesjonalnie krępujące, popyt rządu chińskiego, że nowy 6000 + z rdzeniem Jianhua hanzi być włączone wraz z nielegalnym wysokości starsze, klasyczne postacie hanzi (prawo do pełnej wysokości, jeżeli zostanie kiedyś uznane za niezbędne) nie jest bezzasadne w ogóle, biorąc pod uwagę okoliczności. I to przynosi dodatkowy efekt, że choć trzon znaków nauczanych w podstawowym poprzez wtórne poziomach edukacji państwowej pozostał trochę na stałym poziomie, sam fakt, że komunistyczne Chiny zastrzega sobie prawo do dodawania lub odejmowania lub zmiany od K’ang Hsi kompilacja oznacza, że ​​próby na Zachodzie do zestalenia i indeks piśmie system Chinach zawsze będzie tak samo niestabilny.

Tajwan (chiński)

Tajwan (dawniej Formoza) ukazał się w 1949 roku, kiedy Nacjonalistyczna rząd Czang Kaj-szeka wycofali się tam z lądu po porażce z siłami Mao Zedonga [Mao Tse Tunga] i komuniści. Raz na out-of-the-way producentem produktów rolnych, Tajwan posiada dziś jedną z najbardziej dynamicznych gospodarek na świecie. Ponieważ większość nie-rdzennych ludzi zamieszkujących wyspę pochodzić z pobliskiej prowincji Fujianin w południowo-wschodniej Chin, a jego głównym postawa pozostaje nie tylko całkowitej opozycji do komunistów i ich rządów, ale również zawiera dużą element znacznie starszy oburzenie z przejęciem przez mandżurskiej z północnej części Chin z dynastii Ming rządzącej z Południa w 1544 CE Mimo to język urzędowy Tajwan jest mandaryński (bo wyższej klasy językiem mówionym przez rząd od czasów odwoływanie Mings, a następnie ustanowienie stolicy kraju w Pekinie na północy).

Tajwan w dalszym ciągu ma bardzo silne i bliskie więzy z “Overseas Chinese”, który można znaleźć na całej planecie, bieganie rozszerzony handlu i rzemiosła, jednocześnie zachowując życiowych linie do Tajwanu i Hong Kongu. Pogląd, że jedno nie może ciąć formalne korzenie w przeszłości bezkarnie jest zaciekle przechowywane. Tajwan nadal jest bastionem dla dziedzictwa Chinach pre-komunistycznego i jego historycznych czasów. Wraz z Korei i Japonii, znaczna część populacji jest buddystą i Confucist ich perspektywy religijnej i filozoficznej. Tajwan ma dodatkową warunek, że choć jej główną religią jest buddyzm, taoizm działa blisko sekundę. Oznacza to, że chcą mieć dostęp do pisma tych trzech systemów, przede wszystkim jest “Dialogi Konfucjańskie Konfucjusza” (spisana wkrótce po śmierci Konfucjusza w 479 pne) i jego ciałka pokrewnych robót budowlanych, buddyjski Canon (DaZang) jest pochodzi z oryginalnego Pali Canon zapisane w piątym wieku pne, a taoistycznej Canon (DaoZang), pisanie, który rozpoczął się już w 300 roku pne, choć jego filozoficzne korzenie są znacznie starsze. (Taoistycznych Canon sam biegnie do 1270 tomów 200 stron pisma i rysunków każdy.)

To jest prawie to strata czasu, aby powiedzieć jak wielki wpływ na te trzy zestawy pracuje sam miał na przeszłość i teraźniejszość makijażu z krajów Dalekiego Wschodu. Aby studiować te prace sam wymaga umiejętności czytania klasycznych znaków, a to jest jeden z największych powodów odmowy Tajwański z nich rezygnować.

Singapur (Chiński)

Ten mały kraj, ekonomicznie ważne daleko poza jego wielkości, korzysta w zasadzie ten sam system znaków pisanie, korzystanie z mandaryńskiego w jego języku urzędowym mówi, te same zasady odnoszą się do niego tak jak te z komunistycznych Chin. W rzeczywistości Singapur jest jedynym krajem, który sprzymierzył się tak ściśle w ten sposób w sposób niezależny, z Pinyin i Jianhua hanzi uczy się w szkołach na równi względzie głęboko na klasyczny K’ang Hsi opartego na pełnym Struktura postać z przeszłości.

Korea (Korean)

“Dalsze korzystanie z chińskich znaków w [] japoński i koreański doprowadził do powszechnego błędnego przekonania, że ​​istnieje ścisły związek między tymi trzema językami. Bliższe spojrzenie ujawnia, że ​​podobieństwo kończy się na pożyczanie postaci, gdy żaden system pisma istniała i dalsze korzystanie z pożyczki udzielonej przez ‘słowa w języku koreańskim i japońskim od chińskiego.

“Historycznie rzecz biorąc, blisko stowarzyszenie kulturalne między Chinami i Koreą doprowadziło do nieuniknionej pożyczek słów. Jednak koreański gramatyki i odmiana są całkowicie odmienne od Chińczyków. W rzeczywistości Bruce Grant stwierdził w swoim wstępie do A guide to koreańskich,” chińskim i angielskim mają więcej wspólnego, niż zrobić chiński i koreański. Koreański jest najprawdopodobniej członkiem Ural-ałtajskich rodziny języków i jest podobny do japońskiego, warto pamiętać, że fiński jest również sub-członek grupy “[cytat z koreańskim Z chińskich znaków 1, Richard B. Rucci]

Zauważ, że to, co jest wyartykułowane w powyższym odwołanie jest wykorzystanie języka mówionego, a nie pisemne ideographics ust regularne chińskie “znaki”, które są w większości przypadków, piktograficznym zamiast fonetyczny, te nazywane Hancha przez Koreańczyków). Koreańczycy nie tworzyć własne fonetyczny bazie języka pisanego, Hangul, w 1446 CE i może być uważana za najbardziej błyskotliwy konstrukcja, nawet do dnia dzisiejszego. Technicznie rzecz biorąc, został zaprojektowany od początku, aby móc opisać każdy dźwięk ludzkiego gardła i jamy ustnej jest w stanie wyprodukować w mowie, a do tego w ciągu nie więcej niż to, co może być napisane w sposób jasny, w 24 X 24 [dot-per-inch] przestrzeń.

Jednakże, aż do ostatniego z czasów, o 60% całkowitej słownictwa nadal składa się z wyrazów zapożyczonych z chińskim. Po wydaniu Korei z japońską kontrolą w 1945 roku, a nawet bardziej, w następstwie wielkiego napływu rzeczy Zachodnia wytoczonych przez aliantów w trakcie koreańskiego konfliktu, tendencja została ustalona który trwa do dziś, że jest poleganie bardziej na Szybkość i prostota fonetycznego Hangul.

To ostatnie rozpiętość czasu jest tylko krótki blip w ogólnej istnienia koreańskiej pisania i literatury. Na pewno wyprzedza japońskiego stosowanie sformalizowanego systemu pisania, ponieważ ten ostatni dowiedział się z chińskich znaków poprzez kontakt z koreańskiego sądu i Confucist i uczeni buddyjscy, nieco przed 100 CE Z drugiej strony Korei z pewnością może okazać się, że za pomocą zwykły chiński język pisany od co najmniej początków Okresu Walczących Królestw ust 403-221 pne) w Chinach, kiedy ogólnokrajowy rzeź i zniszczenie przymusowej migracji na tych, którzy nie mogą (lub nie) przeżyć czystej sprawności fizycznej i przebiegły. Wielu szukało schronienia w bardziej pokojowych klimacie – Półwysep Koreański jest taki raj na przestrzeni wielu dziesięcioleci stałej walki.

Te dni, to jest wspólne dla gazet i poddziałów na zagranicznych telewizji, które mają być drukowane w całości w fonetycznym języku Hangul. Ale w edukacji nadal pozostaje, że środkowe absolwentów szkół musi być biegły w około 900 chińskich znaków, a te grane na zakończenie szkoły średniej muszą nauczyć się innego 900, co daje łączną 1800.

Tylko będąc piśmienny w korzystaniu z Hangul pewnością nie jest pełna znajomość. Koreańscy naukowcy twierdzą, że wymaga ona płynność poziom znacznie większe niż ta kwota, aby zrozumieć pisanie przeszłości. (Jest to często postrzegane jako przed 1945 wyzwolenie przez Rosjan na północy i zachodnie siły na południu z japońskiej okupacji. Dokładniej, przeszłość należy uznać za czas przed rozpoczęciem tej okupacji, w 1910 roku , gdy korzystanie z koreańskiego pisma i języka były zabronione przez prawo Imperial).

Koreańscy naukowcy słusznie twierdzą, że prawdziwe umiejętności jest posiadanie zdolności do prac odczytu wszystkich przedmiotów z tych pisarzy przeszłości, a takie rzeczy zazwyczaj zawierają równowagi nie więcej niż 30% Hangul do 70% chińskich znaków. Kolegia i uniwersytety zawsze znany ten fakt, i nawet dzisiaj te instytucje wymagają korzystania z 70-30 podziału procentowego we wszystkich piśmie generowanych tam w. Z drugiej strony, Hancha w gazetach jest obecnie oficjalnie ograniczona do około kwoty, która uczy w liceum, tak że jednolitość rozumienia mogą być osiągnięte w normalnym ludu.

Kolejnym obszarem spornym jest w używaniu nazw. Nawet jeśli jest to teraz często można zauważyć Hangul użyta do wyjaśnienia nazwisko osoby, ludzie nadal bardzo dumni mogąc pisać swoje nazwisko w klasyczny sposób, a to oznacza więcej niż proste rozumienie Hancha (i jego wykorzystanie obsługujący kaligrafii ) jest konieczna, aby móc nie pojawiają niewykształcony w takich sprawach.

Japonia (jap.)

Japonia jest szczególnym przypadkiem w stosowaniu znaków Han, jak używanie języka pisanego w tym kraju ma poziom złożoności, który nawet przewyższa Chin. W 1946 roku nowo instalowanych rząd wydał dekret, że będzie odtąd oficjalna baza z 1850 kanji (japoński wymowa dla chińskich znaków Hantzu wykorzystywanych). Znany jako Toyo kanji (to znaczy “codziennego użytku” kanji) i godne uwagi w tym dekrecie było stwierdzenie, że od tego czasu, biorąc pod uwagę [tj. osobistej] Nazwy wszystkich japońskich może być podjęta tylko od niego i żaden inny źródło. Był to również zatwierdzone, ograniczony zestaw znaków Kanji, które mają być stosowane przez prasę. Jako takie poważne zmiany wkrótce okazało się zbyt uciążliwe, lista ta była następnie zmieniona kilka lat później (1951), aby umożliwić dodatkowe 92 znaków do wykorzystania w imion. Również 28 znaków zostały dodane do głównego korpusu 1850 Toyo Kanji, to jest powszechnie stosowane i uznawane skróty i warianty nadmiarowe (z dokładnie określoną ilością 28 znaków jest odpowiednio usunięta z korpusu tak, że wysokość 1,850 mógłby pozostać jako stałą). Jednak Toyo Kanji nie mógł liczyć także obejmować korzystanie z rodziny [tj. nazwisk] i miejscowości podawać. Są run w dziesiątki tysięcy, gdy możliwości różnych Boggle umysłu. Należy również pamiętać, że w sumie 1850 znaków niedawno (1977) została zmieniona ponownie, a teraz liczba 1950 znaków w sumie, to jest znany jako Kyoiku Kanji (lub “edukacyjne” Kanji).

To dopiero początek tego, co musi być jeden z najbardziej złożonych i intensywnych systemów pisania na świecie. Ale najpierw krótka wycieczka historyczna, tak, że niektóre z powodów, dla tej podstawowej uwikłania można zrozumieć.

Jak było w przypadku Korei, Japonii językiem nie była reprezentowana w najwcześniejszym formie pisemnej. To było zwykłe chińskie znaki (Hantzu) wyłącznie. Dowody jego wykorzystania dat już 100 CE trochę później, została ona wprowadzona do kraju przez dwóch koreańskich naukowców, Wang W i Ajikki, który zostały wysłane do dworu cesarskiego, aby działać jako nauczycieli, w trzecim Słowniki wieku ne zostały wysłane na w 285, więc termin ten można uznać, że z formalnego wprowadzenia na piśmie i jego struktury.

Buddyzm przybył do 552, a wraz z nim wielu tekstów i dogmatów jej kanonu. Mnisi zostały uznane za takie same jak nauczycieli, a czytania i pisania była konieczność dalszych badań i oświecenia, czci i szacunku poświęca się pisemnych materiałów i kształcenia, który został przekroczony tylko że z Koreańczykami, którzy początkowo dawał im.

Tu podobieństwo się kończy. Japonia ma cztery różne typy piśmie. Jest oryginalny Kanji, a dwie inne, które są fonetycznie oparte, ponieważ są Hiragana i Katakana. Ponadto, istnieje Romaji, czyli opartych na alfabecie łacińskim znaków Znamy się na Zachodzie. Kanji mogą być wykorzystywane do tworzenia “obrazkowych” glify równolegle z jego wykorzystania jako źródła dźwięków, ile jest to w języku chińskim. W syllabaries i Hiragana i Katakana stanowi w pełni funkcjonalne systemy piszących w siebie. Hiragana, który jest nieco pochyły, może być używany do zwiększenia Kanji – w rzeczywistości, wszystko w Kanji mogą być napisane w Hiragana. Katakana, która jest znacznie bardziej płynny wygląd niż jest to Hiragana, jest używany do pisania żadnego słowa, które nie ma swoje korzenie w Kanji, takich jak wiele słów obcych i pomysłów, które w ciągu wieków skłaniał do ogólnego użytku.

Tak więc jest można powiedzieć, że Hiragana mogą tworzyć zdjęcia ale Katakana może tworzyć dźwięki, a współczesna nauka przyniosło to. Ludzie z niektórych zaburzeń mózgu lub rzeczywistej szkody fizyczne mogą czasem rozpoznać i funkcjonować w jednym, a nie inne, jak te metody działają obecnie dwie różne półkule. Rōmaji jest używany, aby spróbować zachować całą napisane coś z wymyka się spod kontroli, w większości zachodnich pojęć i słów niezbędnych wprowadzanych na język przez tego mechanizmu. Po pewnym czasie te słowa (choć nadal będą utrzymywać swoje “Roman” formę na chwilę dłużej) będzie nie do poznania ludzi, z którymi zostały zapożyczone z, na przykład frazy, “komputer osobisty”, który jest teraz “pasokon” lub “persacom” w Japonii (ten ostatni jest powszechne w Nagasaki i terenów przyległych).

Przed atakiem angielskim w ciągu ostatnich kilku dekad, stwierdzono, że 41% słów stosowanych w wspólnej rozmowy i pisania oparte były na chiński (w postaci znaków i dźwięków). Jako jeden wznosi wyższy w sferze instytucji rządowych i naukowych, odsetek ten zwiększa się odpowiednio. Podwyżki jak nauczane w szkole są następujące. 850 Kanji są nauczane w szkole podstawowej, 46 znaków w pierwszej klasy, 105 w gatunku Two, 187 w gatunku trzeciej, 205 w gatunku Four, 194 w grupie zaszeregowania pięciu, a 144 w gatunku Six. Reszta 1,950 muszą być zapamiętane w pełni do czasu ukończenia szkoły średniej w gatunku Twelve. Proszę pamiętać, że ta suma jest tylko minimalny wymagany próg prawny należy uznać pisać. I to ma być pochłonięta całkowicie wraz z back-zrywająca innych przedmiotów.

Należy uznać za poważny czytelnik z “klasyków” japońskich dzieł literackich i religijnych wymaga pełnej wiedzy tak głęboki i tak szeroka, jak w przypadku uczonych w Chinach. Minimum 10.000 znaków i nawet jest obowiązkowy, a w sumie może być logicznie przedłużony do końca pełnej Kanji (K’ang HSI) Słownik z jej 50.000 ideogramów odrębne.

w górę arrowThe wpływ ostatnich zachodniej technologii w Orient

Więcej zmiana miała miejsce w Chinach w ciągu ostatnich pięciu lat w stosunku do poprzedniego pięćdziesięciu, a pięćdziesiąt zawiera więcej zmian niż w ostatnim tys. Nie można tego powiedzieć o Japonii i Korei (tylko dlatego zaczęli wcześniej, a więc osiągnęliśmy stan gorączkowego transformacji, która jest w toku, a nie po prostu niedawno nagle obudzony w stanie kompletnego szoku na znalezienie sobie pracy na miejscu, pełne -otwór).

Aż do przybycia w Internecie kilka lat temu, korzystając z komputera osobistego w Japonii była uważana za znak nieprawidłowego zachowania – w kraju, który obrzydził niczego poza normy. Jest takie stare japońskie powiedzenie: “gwóźdź, który wystaje w górę zostaje wbity w dół”. Oznacza to, że norma składa się z dążenia do bycia tak jak wszyscy inni w społeczeństwie, i nie pozwolić się jakoś się “Individual”. Nie można przecenić, jak głęboko zakorzenione jest to pojęcie, nawet dzisiaj.

Komputery osobiste były dokładnie tak, jak sama nazwa wskazuje: coś, co zostało wykorzystane przez siebie samego, a więc oddzielone jedno od reszty grupy (składający się z wielu grup wewnątrz grup) – i ta akcja doprowadziłaby ostatecznie jeden się outsiderem i to nawet obcy. Cut-off były, i to stanie się stanem stopniowego upadku i wykluczenia ewentualnego nawet od własnej jaźni. W ten sposób Japończycy tradycyjnie trudno zrobić coś co prowadzi do takiego wyłączenia, a chiński (iw mniejszym stopniu Koreańczycy) nie cierpią z powodu tego problemu w ogóle. W Chinach jedna jest zawsze chiński bezwarunkowo, rodziny i wioska, nie ważne jak daleko jeden jest lub ile pokoleń jeden został daleko.

Ale, wracając do problemem tej hipotetycznej osoby w Japonii: przez długi czas, konieczności korzystania z komputera uważane było formą kary lub tortur udzielił tym, którzy zostali potępieni przez ich statusu w siły roboczej, czy szaleniec-grzywka artysta czy naukowiec, którzy prawdopodobnie już odrzucane przez innych przez długi czas tak, zanim jeszcze uzyskał dostęp do ich pierwszego klawiatury.

Pojawienie się Internetu zmieniło to wszystko na raz na zawsze. Termin “Internet” oznacza “ten, który jest połączony”, a to jest oczywiście całkowicie w porządku z japońskiego społeczeństwa. Widać to rozwijać wraz z telefonu komórkowego, który ułatwił również “Połączenie” jeden do jeden-tych grupach w blokadę sposób, oparty na matrycy wśród matryc przecinających miasto i kraj i ostatecznie planety całego). Podobnie jak używanie telefonu komórkowego jest bardzo wysoko w Japonii, więc jest integracja z komputerem w prawie każdym domu innego. Jest tani, szybki, niezawodny – i to jest przytulny.

Ale w wykorzystaniu tej technologii, japoński cierpią na ten sam problem jak zrobić Chińczycy i Koreańczycy, a mianowicie: Jak pan obuwia róg tak wiele znaków do urządzenia wejściowego (klawiatura, tablet, co-ma-ty), tak że można zrobić to, co inni na Zachodzie zrobić z ich prostego zestawu znaków alfanumerycznych minęliśmy wzdłuż do nas z Rzymianami? Klawiatura została zaprojektowana dla nas na Zachodzie. Tak było standardem monitor i dalekopis oparty drukarki.

To nie przypadek, że urządzenia te są obecnie produkowane głównie na Wschodzie (z przeprosinami dla Hewlett-Packard i ich udanej linii Północ-amerykańskich zbudowanych drukarek), a głównym powodem jest to, że poziom jakości, który większość z nas będzie znosić , takie jak o niskiej rozdzielczości, 40 znaków w każdym wierszu monitora na zielono, a jedno-pin drukarka były całkowicie bezużyteczne dla osób potrzebujących generację wysokiej rozdzielczości znaków w pionowym trybie 24×24 DPI To samo odnosi się do drukarki. Epson wyszedł z drukarki ośmiu-pin tak, że może generować Hiragana i Katakana znaków w jednym przejściu – nie tak, że mogliśmy zrobić ładniej A i B-tych. Oni również dał drukarek “grafika” tryby tak, że “zdjęcia” (najogólniej ręcznie pisanie w przypadku jej azjatyckich klientów) mogą być wydrukowane.

Że zdolność do grafiki jest również jeden z głównych powodów, dlaczego faks więc szybko stały się wspólne urządzenia. To może się rozmnażać i przekazywać ręka pisania znaków chińskich i japońskich i koreańskich.

Ostatecznie, ze znacznie trąca wzdłuż na terytoriach wysokiej rozdzielczości koloru i grafiki, lepsze urządzenia wejściowe, takie jak skaner (które mogą być traktowane faksu dla komputerów), lepiej urządzeń wyjściowych, takich jak drukarek atramentowych i drukarkę laserową, a nawet bastardized klawiatury i oprogramowania, które może wygenerować tysiące znaków – jeśli tylko można pamiętać wszystkich i każdego z kodów wejściowych. Tablety graficzne złagodzić ból konieczności dostać coś do iz komputera. Ale nic z tego nie jest jeszcze w pełni zadowalające, a być może pozostanie w tym stanie aż do inteligentnego, voice-rozumienia, “komputer” w końcu przychodzi do naszego codziennego życia.

W górę arrowThe niezdolności Unicode w pełni zaspokajać orientalne znaków

Niezależnie od tego wszystkiego, rozwój World Wide Web jest na nas i wszystkich innych na tej planecie. Obecna filozofia jest zawarta w przekonaniu, że “angielski jest nowy lingua franca biznesu” – tak po prostu równie dobrze może być również język każdego, kto korzysta z Internetu.

Pozwól mi Parafrazując nieco: Angielski jest łatwy język w internecie, ale nie koniecznie, że z Internetu. W dwóch wzajemnie się nie inclusive, jak większość ludzi na siebie. To niefortunne, wada postawy Zachodu. Rozciąga się z podstawami systemu operacyjnego, a teraz wolno było wtrącać się do struktury i narzędzia, na której zbudowany jest Web

ISO i Unicode próbowali naprawić tę lukę. Jak określono, Unicode na określony cel, aby sformalizować System font być generowane z listy numerów pośrednictwa pracy, które mogą przegubowo każdą języka pisanego na planecie.

Niestety, to nie może, bez obszernych gimnastyce.

Obecny permutacji Unicode daje teoretyczny maksymalnie około 65000 znaków (rzeczywiście ogranicza się do 49,194 w normie). Ta początkowo wydawało się, że więcej niż wystarczająco, aby dzielnych dusz, które utworzone formalne począwszy od bardzo długiego łańcucha kolejnych numerów, do których znaków w różnych językach są przypisane. To był dobry pomysł, w aparacie – z wyjątkiem narodów, którzy nie zostali zaproszeni do początkowej partii.

Te nie-zaproszone zawarte na grupy o najbardziej postaci przypisać. W rzeczywistości, te zwłaszcza odrzuca były niczym innym, Chinach, Tajwanie, Korei i Japonii.

Reakcja była przewidywalna, a moim zdaniem uzasadnione. Chiny kontynentalne podkreślał, że wszystkie jego normalnych, oficjalnych 6000 znaków zostać uwzględnione, wraz z wielu “uproszczonych” Wariacji, plus reszta starszych, klasycznych K’ang zestawu Hsi 40.000 wraz znaków. Samo to wystarczy, aby zająć prawie wszystkie miejsca wyznaczonego w całym Unicode/UCS-2 widma.

Następnie Tajwan i Overseas Chinese (których jest 125 milionów, na ogół dobrze przygotowane i dobrze wykształceni ludzie) stwierdził, że nie mieli prawa do własnego kompletu K’ang HSI postaci – wszystkie z nich w ich oryginalnych form złożonych. To było dodanie kolejnych 50.000 znaków, a nie mogli używać tej samej numeracji jak te przypisane do komunistów na kontynencie.

Pomiędzy tymi dwiema grupami, nie było już potrzeby, aby wygenerować ponad 90.000 indywidualnych ponumerowanych miejsc docelowych. Japonia skarżył się i powiedział, że nie mniej właścicielem własnych znaków (w tym “Kokuji”, które są znaki, które wydają się być chińsko-pochodna, ale są rzeczywiście wyjątkowo japoński), a więc nie powinno być inny blok utworzony dla nich . A ponieważ to teoretycznie może zawierać wszystkie znaki używane do tej pory kolejne 40,000 staże znak + byłaby potrzebna. I wreszcie, nie może zostać wykluczone z kręgu uprawnionych do ubiegania, Korei, ponieważ własny zestaw okoliczności przeszłych i obecnych, poprosił o jej pełnej mierze też.

Są to tylko niektóre z wielu powodów, kwota potrzebna na spełnienie tych wymagań, może bardzo łatwo zostać podjęte w sumie ponad 170.000 znaków, jeśli każdy z narodów wymienionych powyżej nadal naciskać pisemnych praw językowych do maksimum – i nie ma absolutnie żadnego powodu, by spodziewać się jakichkolwiek zmian w ich dążenie do uczynienia tego.

Redaktora Uwagi:

1. Najlepiej jak mogę powiedzieć – kwestionując niektóre z pionierów siecią ARPAnet i przekazanie protokołów – w wnikliwi z nich byli w pełni świadomi konieczności ostatecznie pomieścić orientalne znaków, tak samo jak 30 lat temu. Sęk w tym, pytali jeden chiński lub japoński lub koreański – i ta osoba, patrząc na zestaw znaków ich własnym języku, to zapewniam, że Unicode wystarczy. Dopiero kiedy się wszystkie narodowości w tym samym pomieszczeniu, że problem staje się oczywisty. I z Internetem, jesteśmy wszyscy “w tym samym pomieszczeniu.”

2. Kolejnym źródłem nadzoru pochodzi z tendencją wielu ludzi Zachodu o zwolnieniu starszych orientalne znaków jak “klasyczny”, podczas gdy w rzeczywistości są one nadal w użyciu właśnie z tego powodu – czytając literaturę klasyczną.

w górę arrowWhy Unicode 3.1 nie rozwiązuje problemu

Unicode ogłosił niedawno w wersji 3.1, która – wyrwanie się z dwóch “zerowej płaszczyzny” oktetów one pierwotnie dali w wersji 3.0, z 49,194 znaków – by dodać kolejne dwa oktety i kolejne 44,946 znaków do systemu, dla ogólnej sumy 94,140 .

To nadal spada żałośnie krótki z 170.000 znaków potrzebnych A +.

Oczywiście, 32 bity (4 oktety) byłby bardziej niż wystarczająca, gdyby ciagly blok. Istotnie, “18 bitów szerokości” (262,144 odmiany) będą wystarczające do rozwiązania na świecie znaków, jeśli ciągły blok.

Ale dwa oddzielne bloki 16 bitowe nie rozwiąże problemu w ogóle.

strzałka w górę Polityczne znaczenie tego Wyrażone w zachodnich Warunkami

Aby wyrazić to w zachodnich kategoriach, w jaki sposób anglojęzycznych podoba gdyby nagle ograniczone do alfabetu których brakuje pięć lub sześć pismach, ponieważ mogą one być uznane za “podobne” (np. “M” i “N” brzmiący i patrząc tak jak każdy inny) i zbyt “skomplikowane” (“Q” i “X” – dlaczego są one niczym więcej hodowcy “C” i “Z”). Można dalszej analogii mówiąc angielski powinien dać około trzy z każdych czterech słów, które znajdują się w języku angielskim, na tej podstawie, że są one zbędne, zbyt ezoteryczne, lub po prostu zbędne, i nowoczesne mowy nie albo potrzebujesz lub użyj im. To byłby koniec zarówno Biblii i Szekspira.

Trzeba rozważyć dalsze pozostałe animozje wynikające z wielowiekowej walki. W tym sensie Orient niewiele różni się od Europy, furora, które pojawiły się nad WE [Wspólnota Europejska] zmiany do wspólnej waluty (euro) byłby niczym w porównaniu do zgiełku, które wynikają jeśli Francuzi zostali zmuszeni do korzystania niemiecki alfabet, lub angielski zmuszony do korzystania z francuskiego alfabetu. Nie byłoby problemu być czysto emocjonalne. Takie zmiany byłyby bardziej niż irytacji, rzeczywiście byliby zagrożeniem dla własnego samego języka i sposobu myślenia.

Analogia może łatwo być kontynuowana, jeśli weźmie się pod uwagę napięć politycznych w ostatnich latach różne narody zostały odrzucone (a czasem później przyznano) członkostwo w WE. W podobnym duchu, aby mieć swój język w lewo z Internetu jest zdecydowanie przypadek bycia “odmówiono członkostwa”.

W górę arrowRecent działań przez Verisign

Verisign niedawno otworzył puszkę Pandory, gdy firma oświadczyła, że ​​jest przyjmować zamówienia na URL w języku szczególności do tych krajów, które albo pragną lub żądać pracy w formie pisemnej zestawu innego niż latin1.

Firma cofnął się nieco na wyciem strachu i gniewu ze strony tych, którzy wiedzą, co może nie być w pracy, nie powodując wielkie cierpienia dla tych, którzy muszą zarządzać i pracować World Wide Web.

Ponadto, niektóre kraje odrzucają to jako impertynencji ze strony Verisign, biorąc pod uwagę to obraza dla ich wysiłków na utrzymanie suwerenności państwa. Chiny są dużym krajem, aby wyjść i powiedzieć tak, odrzucając takie próby jak wtrącanie się w ich sprawy wewnętrzne. Być może mają rację.

To samo truizm nie może być stosowany tylko do adresów URL, ale do samego Internetu. Brak odpowiednich narzędzi pochodzących z Zachodu, aby witryny sieci Web, które działają na arenie międzynarodowej i przeglądarek, które naprawdę są przejrzyste i bezproblemowy w codziennym użytkowaniu dla tego segmentu w przyszłości. Zapytaj kogokolwiek, kto ma skorzystać z jednej, i chce zrobić coś innego niż to, co może być generowany z pseudo-ascii (takich jak francuski lub niemiecki, lub albański) – czy potrzebuje znaków, które są pionowo, i trzeba zająć minimum 32. x 32 punktów za każdy), aby kontynuować uwierzyć, że relacje World Wide Web można zrobić z Ascii zależnych od przeglądarek i – co nawet ważniejsze, Ascii-zależnych serwerów – jest naiwny.

w górę arrowConclusion

UCS-2 (z 2-oktetów bloków na znak) rzeczywiście wydaje się być najprostszym systemem do użycia znaków (i jeden, który następuje pierwotne intencje Unicode najbardziej wiernie) – z wyjątkiem, że, jak już wspomniano, ma zbyt krótki ogólny zajęcia długość, aby objąć wszystkie znane postacie wszystkich znanych językach.

Przesunięcie uwagi na innych Unicode certyfikowanych metodologii robić te same rzeczy, są w UTF-8, UTF-16 i UTF-32. Cytując papier Unicode firmy: “Różne formy kodowaniem Unicode są przydatne w różnych środowiskach systemowych na przykład UTF-32 jest nieco prostszy w użyciu niż UTF-16, w prawie wszystkich przypadkach zajmuje dwa razy więcej pamięci wspólna strategia ma mieć wewnętrzne.. ciąg wykorzystanie przechowywania UTF-16 lub UTF-8, ale na UTF-32 dla poszczególnych typów danych znaków. ”

Jest to dobre rozwiązanie, w rzeczywistości większość aplikacji komputerowych działać w taki sposób, już, i to przed Unicode. Problemem jest to, że – nawet w prostym wyjaśnieniem, co jest jawnie prosty problem – nie mniej niż trzy odrębne formuły kodyfikacji jest wywierany na nie odpowiedzieć. Można łatwo sformułować nowe standardy przy pomocy 4 oktetów bloków w nieskończoność) – ale piggybacking je w górnej części Unicode 3.1 po prostu pogarsza złożoność odwzorowania czcionek, jak Unicode 3,1 wzrosła złożoność UCS-2.

Tak to w skrócie, jest politycznie wybuchowe przyszłość mamy teraz do czynienia.

Chińczycy mają starożytną wyrażenie: “Nic nie jest bardziej wydajny niż pomysł, którego czas właśnie nadszedł.”

Nadszedł czas. Pytanie brzmi teraz: jak to pomysł wyrosnąć?

# # #

Norman Goundry jest programistą, tłumacz i pisarz specjalizujący się w rzadkich odniesienia taoistycznych tekstów religijnych i dzieł medycznych. Potrafi zazwyczaj można znaleźć zakopany głęboko w ograniczonym wjazdu katakumbach Studiów Azjatyckich Wydziału U. of British Columbia, współpracując z nielicznych tekstów taoistycznych Canon znalezionych w nim. Wyraża to osobiste doświadczenia z limitami Unicode: “Ja niedawno musiałem zaprojektować jeden zastrzeżonych czcionek składający się z ponad 50.000 indywidualnych Han znaków złożonych, jak na podanym w Hsi Kang słownika 1710 roku dla mojego własnego ręcznie zaprogramowanego interfejsu tłumaczeń z powodu ciągłej frustracji nie mających szczególny charakter dostępnego do użytku, gdy jest to potrzebne. Patrzyłem uważnie na Unicode, a następnie odrzucił ją, ponieważ nie do mojej wiedzy zawierać nawet jednego pełnego indeksowania czcionki reprezentatywny znaków potrzebnych do spanning żadnej z powyższych grup wymienionych “.
Tłumaczenia

Tłumaczenie białoruski “Why Unicode nie będzie działać na Internecie”, w tłumaczeniu Bohdana Zograf.

Referencje

Chińskie znaki, dra L. Wieger i S.J.

Koreański Z chińskich znaków 1, Richarda B. Rucci

Współczesnego czytelnika w japońsko-angielski Słownik znaków,
przez Andrew Nathaniel Nelson, doktorskiej
Charles E. Tuttle Company: Tokio (1962)

Cesarz Kang-Hsi-tych Słownik znaków,
(Pełna wersja oryginału z 1716 – w Chinach tylko)
Yih Book Company Mei, Hong Kong

Podstawowe angielsko-chiński / chińsko-angielski Słownik
Peter M. Bergman
Sygnet-New American Library Press, New York (1980)

Świat chińsko-angielski / angielsko-chiński Słownik
Nowy Arts Company, Hong Kong

Prosimy o przesyłanie uwag do Norm Goundry
E-mail: bonk1000@yahoo.com

Comments are closed.