Kínai szövegbevitel és a Google arcvesztése

A történetbe ott érdemes belekezdeni, hogy a kínai írásjegyek számítógépbe vitele kicsit problémás. Azonban 1,2 milliárd ember nem maradhat ki az informatikából, ezért számos megoldás született.

Kínában a pinyin (ejtsd: pinjin) rendszert találták ki, amely latin betűkkel képes leírni a kínai karaktereket. (Nem mellékes, hogy a kiejtés egységesítésében is segít) A pinyin az angol ábécé betűit használja, kiegészítve a négy hangsúly jelölésével.

A rendszer úgy működik, hogy beírjuk, hogy "ma" erre a szöveg alat megjelenik egy kis ablak az összes olyan karakterrel, amelyet a "ma" szótaggal lehet írni. A karakterek megjelenítésének alapja az adott karakter kínai szövegekben való megjelenésének gyakorisága. A felajánlott karakterekből, ha nem az elsőre van szükségünk, akkor odaugrunk a nekünk tetsző karakterre, és ráklikkelünk.

A bevitel elég gyors, mert a legtöbb szó két karakterből áll. Például (bijou = sör). Begépeljük, hogy "bi" erre feljön egy karakter, ami lehet, hogy nem a "bijou" első karaktere, de ezt nem kell kijavítanunk, mert amint begépeljük a "jou"-t, a beviteli rendszer rájön, hogy feltehetőleg a sör kínai megfelelőjét akartuk beírni, és javítja az első karaktert.

Az alábbi pédlában azt gépeltem be, hogy "Engem Zhaoman-nak hívnak". A nevem második karaktere a felajánlottak közül a második, ezért a kurzorbillenytűkkel arra kell navigálnom (de ha beütöm a kettes számot, az is segít).

Tajvanon mindez természetesen máshogy működik. Itt nem a latin ábécét használják, hanem kitaláltak egy sajátot, amit bopomofo-nak hívnak. Ez is egy ábécé, csak nem latin betűkkel írják. A beviteli módszer annyiban különbözik, hogy itt nem elég beírni a szótagot, hanem a hangsúlyát is tudni kell.

A bopomofo (zhuyin) billentyűzet sematikus ábrája
A gombok bal alsó sarkában vannak a bopomofo karakterek


A hangsúly beírása kötelező, ezért a felkínált szavak pontosabbak, azonban feltétel, hogy tudjuk a hangsúlyokat. A pinyin kezdőknek gyorsabb bevitelt tesz ehetővé, ugyanakkor a bopomofo jobban segít a szavak hangsúlyának tanulásában.

A példa első oszlopában szintén azt láthatjátok, hogy "Engem Zhaoman-nak hívnak". Az utolsó két karaktert ugyanolyan hangsúllyal kell mondani, mint a nevem szótagjait. Ahhoz, hogy a tényleg a nevem szerepeljen a képernyőn a második lépésben javítom a "zhao" írásjegyet, majd a harmadik lépésben javítom a "man" írásjegyet. Ezt nem kell mindig megtenni. A program képes a tanulásra, pár beírás után, már a helyes karaktereket adja ki magától.

A példa második oszlopában a sör szót gépeltem be. Az első karaktert még hiábsan adta ki a szoftver, de a második szótag begépelése után az első megváltozott. Hiába, no. Fontos szó a sör!


Beviteli rendszer is sok van. Az ismerőseim közül a legtöbben a Windows-ba beépített, Microsoft IME-t használják. Az IME az Input Method Editor rövidítése. Az ilyen szoftverek működésének egyik kulcsa, hogy mekkora szövegmennyiségből tippel a szoftver a bevitel során. Ráadásul hatalmas mennyiségű új szó keletkezik, amelyet le kell (!) fordítani kínaira. Képzeljük el, ha minden (!) idegen szót le kellene fordítanunk magyarra.

A Google arcvesztése

A történettel magyarul ITT és ITT foglalkoznak. A kínai hírügynükség összefoglalója pedig ITT. Sajnos a cikkek szerzői elkövetik azt a tipikus hibát, hogy írásJELekről beszélnek írásJEGYek helyett. Már leírtam párszor, de leírom még egyszer: írásjel a pont, vessző, felkiáltójel, stb. A kínai karakterek írásJEGYek!

A történet dióhéjban: a tavalyi év közepén a Sohu cég megjelentetett egy IME szoftvert, ami nagy népszerűségre tett szert. Bő fél évre rá, idén április elején a Google is megjelentette a maga IME szoftverét, GuGe (a Google kínai neve) Pinyin néven. Elég hamar kiderült, hogy a Google szoftvere tartalmazza a Sohu szoftverének adatbázisát, vagy annak egy jelentős részét.

A koppintásra úgy derült fény, hogy a Google programja hasonló hibákat vétett, mint a Sohu-é. Például a Sohu készítőinek nevét is tartalmazta a Google programja, amire elég csekély az esély.

A Google kínai blogjának egyik bejegyzése elismeri, hogy a tesztelés során külsős (=más cégek tulajdonát képező) adatbázisokat is felhasználtak, amelyek sajnálatos módon bennemaradtak a programban. Bár próbálják menteni a menthetőt, de ez elég nagy presztízs veszteség.

Az esettel a Google megítélése tovább romolhat a kínai felhasználók előtt (is). A "nem kínai világban" a legnépszerűbb kereső, a Google, csak a második helyen van a Kínában, ugyanis a legsikeresebb a BaiDu nevű kereső.

Eddig legjobban az terhelte a vállalatóriás megítélését, hogy "saját szándékából" moderálja (=cenzúrázza ) a kínai kereséseket, így a kínai kormány számára érzékeny területeken (Tajvan, Tibet, Falunkung) nem lehet a Google-ben keresni. A kínai internetezők száma a tavalyi évben meghaladta a 126 millió főt, 70 százalékuk 30 év alatti. Bár többségük nem rendelkezik hitelkártyával, így is rendkívűl nagy potenciált rejtenek. A Google-nek össze kell szednie magát, ha nem akar a szekundáns szerepében díszelegni Kínában.

0 hozzászólás: