Lao
2005-05-17
СодержаниеПод "языками Восточной Азии" в этой статье понимаются китайский, корейский и японский. В англоязычной документации применительно к ним распространён термин CJK (сокращение от "Chinese, Japanese, Korean"). Вопросы компьютерной поддержки перечисленных языков сводятся в отдельную группу из-за своеобразия письменности, что требует и особого подхода в технической реализации. В последнее время к ним всё чаще относят вьетнамский язык (CJKV), современное письмо которого основано на латинице, и язык ицзу (одной из китайских народностей), в котором употребляется пиктографическая письменность. "Добавления" объясняются тем, что проблема набора вьетнамского и ицзуского текста технически решена так же, как японского, китайского и корейского – отдельной программой, а не позицией в переключателе раскладок.
Статья знакомит читателя в первую очередь с технологиями набора текстов на китайском, японском и корейском языках. Как показывает практика, именно нетривиальность ввода иероглифики с клавиатуры ставит начинающего пользователя в тупик, и он порой не находит ничего лучшего, как поставить себе "китайский (японский, корейский) Windows". И это притом, что даже "в мире Windows" для этого вполне достаточно локализованной под вашу страну версии. Отчасти это объясняется тем, что в компьютерной литературе, издаваемой в России и на Украине, особенности работы с языками Восточной Азии абсолютно не рассматриваются и такое дело даже не упоминается. Пытаясь хоть в небольшой мере заполнить этот пробел, я постараюсь показать, что и Linux может предложить специалистам-восточникам широкие возможности для успешной работы.
Итак, что же нам нужно? Во-первых, "серьёзный" дистрибутив Linux, прежде всего из числа многодисковых и обеспечивающих многоязычную поддержку. Именно в составе таких дистрибутивов есть нужные вам приложения, а если какое-то из них вдруг отсутствует в "официальной поставке", вы быстро найдёте его в Интернете и без проблем установите. Во-вторых, правильно выбрать пакеты при установке дистрибутива. Выбирать следует всё, даже отдалённо связанное с вопросами локализации на нужные вам языки: тогда установятся и необходимые для работы "восточноязычных программ" системные библиотеки, шрифты, переводы интерфейсов и документация. В качестве раскладки клавитатуры по умолчанию (обязательно) и языка инсталляции (желательно) выбрать английский, а локализацию интерфейса настроить потом по вашему вкусу. Обратите внимание, что в отличие от английского, русского или немецкого языков, ввод китайского, японского и корейского нельзя настроить переключателем раскладок KDE, например.
Описание работы с языками Восточной Азии будет производиться на примере SuSE 9.1 Professional – именно этот дистрибутив имеет все необходимые приложения "из коробки", что и послужило для меня главным критерием выбора в его пользу. Все программы, о которых я буду рассказывать, шли прямо на компактах дистрибутива, и из Интернета на первых порах мне ничего не было нужно выкачивать. Кроме описанных в статье, есть и альтернативные "востокизаторы", о которых вы сможете узнать из документации или прямым поиском в Интернете.
Теперь несколько слов о том, откуда я всё это узнал. Первой мне попалась небольшая и легко написанная статья Джима Брина (Jim Breen) под названием "A Japanese Word-Processor for Linux", где автор даёт пример "японизации" своего OpenWriter'а из дистрибутива RedHat 7.x. Оттуда же была ссылка на очень качественное
руководство Майка Фабиана (Mike Fabian) по работе с языками Восточной
Азии в Linux на примере дистрибутивов SuSE (http://www.suse.de/~mfabian/suse-cjk.pdf). Последняя версия (от 9 марта 2005 года) в формате pdf насчитывает 138 страниц. В этом документе хорошо объясняются теоретические основы CJK в Linux, однако на китайский и корейский язык практических иллюстраций почти не приводится. На сайте ASP Linux одно время висела статья Павла Инкогнито "Японский в ASPLinux 9", но теперь я её там не нашёл. По корейскому языку есть "Ami Tutorial" Никлауса Гигера (Niklaus Giger), где рассматривается настройка кореизатора ami на
примере Debian GNU/Linux. По китайскому же языку есть Chinese-HOWTO,
украинский перевод которого (сделанный мною) находится на http://linuxsam.free.lafox.net/sxw/Chinese-HOWTO_ukr.zip (есть ещё doc- и pdf-версии). Разумеется, в Интернете вы можете найти и другие руководства, но мне было достаточно названных. Эта статья отнюдь не является переложением их содержания!
Предостережение: изложенная в статье информация не является руководством к действию и примером для подражания, а носит сугубо ориентировочный характер. За любой ущерб, нанесённый Вам, Вашему компьютеру и Вашему программному и аппаратному окружению попытками применить изложенные в статье рекомендации, автор настоящей статьи ответственности не несёт.
Как известно, в японском языке используется смешанное письмо, состоящее из иероглифов и знаков слоговой азбуки. Эта последняя существует в двух видах – катакана и хирагана, которые отличаются сферой употребления и начертанием знаков. Кроме того, в японском языке находит применение и латинский шрифт – ромадзи. Японской латиницы существует несколько видов, из которых наиболее распространена хэпбёрновская транскрипция, придуманная для американцев и англичан, а потому ориентированная на орфографию английского языка. Хэпбёрновская ромадзи передаёт особенности японского произношения, а разные виды "собственно японской" латиницы (кунрэй-ромадзи) больше ориентированы на передачу латинскими буквами японского написания.
Если у вас стандартная клавиатура западного образца, то японский ввод работает следующим образом: набор знаков ромадзи – преобразование их в знаки слоговой азбуки – оформление иероглифического написания фразы.
Для вызова японизатора наберите в эмуляторе терминала (Terminal Program) следующие команды:
export LC_ALL=ja_JP.eucJP export XMODIFIERS=@im=kinput2 kinput2 -xim -canna&OOo-writer
Вместо eucJP можно написать UTF-8, а вместо OOo-writer - подставить название любой другой программы, например kedit или galeon.
Японский ввод включается и отключается нажатием клавиши пробела при удержании клавиши Shift. Для некоторых приложений потребуется нажимать Ctrl+o. Если всё сделано правильно, возле курсора появится знак ввода хираганы – заключённая в квадратные скобки буква А этой слоговой азбуки. Теперь можно вводить японский текст, просто набирая его в вашей программе латинскими буквами:
koujoudehatarakujikannhashichijikannda.
Программа kinput2 будет преобразовывать вводимую вами ромадзи в знаки хираганы. Обратите внимание, что показатель падежа тематического подлежащего (-wa) вводится через "ha", суффикс винительного падежа (-о) набирается как "wo", конечное "n" требует двойного нажатия соответствующей клавиши, а представление долгого [o] отражает японское написание азбукой, а не транскрипционную запись. Кроме того, если вы не в ладах с латиницей Хэпбёрна и больше любите кунрэй-ромадзи, можете сразу ею и пользоваться – японизатору одинаково.

Если после того, как фраза набрана, вы нажмёте Enter, подчёркивание исчезнет и текст останется в таком виде. Конечно, употребление чистой хираганы в японском языке имеет место, но мы-то пишем "по-взрослому". Поэтому нажимаем Spacebar, и приложение canna, анализируя последовательность набранных символов, предложит вам вариант иероглифической записи введённого текста.

Как видим, японизатор "ошибся" только в иероглифическом представлении первого слова. Он-то не может знать, какое из одинаково звучащих слов мы имели в виду, и подставляет то, которое до этого встречалось наиболее часто.
Нажимаем "пробел". Выскакивает окно выбора вариантов написания слова, в котором программа засомневалась. Для перехода между вариантами используются курсорные клавиши ("стрелки"), а закрепление выбора производится клавишей Enter.
См. рисунок
Если в качестве требуемой программы указать kterm,
то можно будет создавать японские тексты прямо в эмуляторе терминала.

Теперь проделаем следующее. Наберите хираганой какое-нибудь слово, скажем nihongo, и, не трогая ни Enter, ни "пробел", понажимайте клавишу Down. Вы увидите, как слово меняет своё написание в такой последовательности: хирагана – полноширинная катакана – полуширинная катакана – полноширинная ромадзи – полуширинная ромадзи. Нажатия клавиши Up прокручивают эти варианты в обратной последовательности. Таким способом удобно набирать гайрайго. Если вы, набрав хираганой какое-нибудь канго, нажмёте и отпустите "пробел", а потом будете нажимать Down, то увидите, как последовательно сменяются варианты написания данного слова. Выбрав нужный, вы можете закрепить его нажатием Enter, или, нажав "пробел" дважды, выйти в окно выбора вариантов написания вводимого слова.
Передвигать выделение по написанной фразе можно курсорными клавишами Right и Left. Например, слово hataraku из нашего примера вы решили изобразить катаканой. Тогда нажмите один раз Right, а потом – Down. Следующие её нажатия будут выводить разные варианты написания слова, а двойное нажатие "пробела" – список возможных вариантов его письменного представления (за исключением ромадзи и полуширинной катаканы).
Дополнительные возможности японизатора доступны по клавише Home (после нажатия Enter или до начала ввода японского текста). Появляется окно с пятью опциями:
Ту или иную опцию можно выбрать нужной цифровой клавишей либо передвижением выделения в требуемую позицию (при помощи стрелок или последовательных нажатий "пробела") и нажатием Enter.

Пункты первый, четвёртый и пятый имеют свои подменю. Выбрав "Ввод остальных знаков", вы сможете набирать различные символы, используемые в японской полиграфии, в том числе русские и греческие буквы и псевдографику. Опция номер четыре позволяет записать новое слово в словарь, удалить слово из словаря, а также подключать/отключать имеющиеся словари преобразования японского ввода в смешанное письмо. Пятая опция позволяет узнать текущие настройки программы и сообщает, где их можно изменить. "Ввод иероглифов по радикалам" полезен, когда вы не знаете, как читается тот или иной иероглиф. Выбрав необходимый радикал, вы получаете список иероглифов, в состав которых он входит, и дальше вам нужно только найти (стрелками) и указать (нажатием Enter) требуемый символ.
Выражение долготы гласного в катакане (для гайрайго) и в хирагане реализовано по-разному. Поэтому, набирая слова вроде sa:bisu или depa:to, вместо повторного нажатия клавиши "а" нужно нажимать "минус" верхнего цифрового ряда.
Закрывать дополнительные окна японизатора можно нажатием "пробела", если предварительно нажать и удерживать Shift.
OpenWriter позволяет снабжать иероглифику фуриганой. Для этого зайдите в меню Tools (Инструменты) и выберите опцию Ruby (Рубин).
Эта программка позволяет вводить иероглифы, "рисуя" их мышкой. "Рисовать" иероглифы надо с соблюдением порядка черт, тогда желаемый символ будет в числе первых из предлагаемых, список которых выводится после нажатия кнопки Принять. Щёлкнув по нужному иероглифу левой кнопкой мыши, заносим его в буфер, а потом вставляем куда следует щелчком средней клавиши мыши.

Это графический интерфейс двух японско-английских словарей – edict (словарь слов) и kanjidic (словарь иероглифов). Работает поиск и по английским словам из текста толкований и переводов. Иероглифы можно искать по радикалам и по количеству черт, при желании отфильтровывая редкоупотребительные. Программу kiten (как и kanjipad) не обязательно запускать под японской локалью: переключение ввода с латиницы на хирагану происходит по комбинации клавиш Shift+Spacebar или выбором из меню по правому щелчку мышью в строке поиска. Чтобы ввести знаки катаканы, во время набора удерживайте клавишу Shift.

Этой словарной оболочки не оказалось на дисках моего дистрибутива Linux (пришлось докачивать), поэтому сначала я не думал о ней писать. Однако программа обладает возможностями столь уникальными, что умалчивать о ней было бы свинством. В мире Open Source эта программа занимает такое же место в инструментарии япониста, как The GIMP – в инструментарии веб-дизайнера.
В отличие от kiten'а, gjiten нужно запускать под японской юникодной локалью UTF-8. В "штатную поставку" SuSE 9.1 Professional входят два уже упоминавшихся японско-английских словаря edict и kanjidic. Кроме них, ко gjiten'у можно подключить и другие словари того же формата, которые можно скачать из Интернета. Среди них большинство специализированных, но особого уважения заслуживает полный японско-немецкий словарь "Вадоку-дзитэн" – более 20 мегабайтов чистого текста. Для иллюстрации полноты сведений, выводимых этой программой, просто приведу скриншот:
См. рисунок
И пример поиска иероглифа:
Эта программа интегрируется с kanjipad'ом, в котором можно писать требуемый иероглиф, если вы хотите в строку поиска ввести его прямо, или же есть возможность найти его в словаре по ключу и количеству черт (учтено даже то обстоятельство, что число
черт у некоторых иероглифов спорно). В общем, качайте – не
пожалеете.
| Содержание | Далее |