パソコンの中の日本語

パソコンの中の日本語2003.9.20

JIS漢字コード

　JIS漢字コードは1978年に最初のものが発表され、
JIS X 0208-1983/1990/1997と進化してきました。
　94 x 94の升目の中に文字が配置され,区点コードを持っています。区とはY軸、点とはX軸に相当します。

　仮名は26文字ですが、JIS漢字コードとは別に、1バイト仮名コード（JISX 0201）もありました。

ビットとバイトと16進コード

　コンピユータの単位は1ピットです。1ビットは電気のオンまたはオフ。0か1です。これを8個まとめて1バイトといいます。10進数だと2の8乗＝256まで表現できます。

　　　　　○○○○○○○○　　0
　　　　　●●●●●●●●　　255
	  
1バイトは上と下の4ビットに分け16進で表現されます。
　　　　　○○○○○○○○　　０
　　　　　　　　０　　　０　　００
　　　　　○○○○○○○●　　1
　　　　　　　　０　　　１　　０1
　　　　　○○○○○○●○　　2
　　　　　　　　０　　２０　　０２
　　　　　○○○○○●○○　　4
　　　　　　　　０　４００　　０4
　　　　　○○○○●○○○　　8
　　　　　　　　０８０００　　０８
　　　　　○○○○●○○●　　9
　　　　　　　　０　　　９　　０９
　　　　　○○○○●○●○　　10
　　　　　　　　０　　　Ａ　　０Ａ
　　　　　○○○○●○●●　　11
　　　　　　　　０　　　Ｂ　　０Ｂ
　　　　　○○○○●●○○　　1２
　　　　　　　　０　　　Ｃ　　０Ｃ
　　　　　○○○○●●○●　　13
　　　　　　　　０　　　Ｄ　　０Ｄ
　　　　　○○○○●●●○　　14
　　　　　　　　０　　　Ｅ　　０Ｅ
　　　　　○○○○●●●●　　15
　　　　　　　　０　　　Ｆ　　０Ｆ
					   
　　　　　●●●●●●●●　　255
　　　　　　　　Ｆ　　　Ｆ　　ＦＦ
		
　　　　　○●●●●●●●　　127
　　　　　　　　７　　　Ｆ　　7Ｆ

アルファベットとASCIIコード

　英語のアルファベットは、大小文字合計でわずか48。それに0～9の数字と、いくつかの記号を加えても94のキャラクタ。これを、7ビット（2の7乗＝128）一列に並べたものがASCIIと呼ばれるコード。
　数字の０は０番かといえば、そうではありません。16進で３０番です。1は３1番。

　　　　　○○●●○○○○　　--＞　０
　　　　　　　　３　　　０　　３０
　　　　　○○●●○○○●　　--＞　1
　　　　　　　　３　　　１　　３１
　　　　　○○●●○○●○　　--＞　２
　　　　　　　　３　　２　　　３２
		
		
　　　　　○○●●●○○○　　--＞　８
　　　　　　　　３８　　　　　３８
　　　　　○○●●●○○●　　--＞　９
　　　　　　　　３　　　９　　３９

アルファベットＡは、16進で３Ａ番かといえば、そうではありません。

　　　　　○●○○○○○●　　--＞　Ａ
　　　　　　　　４　　　１　　４１
　　　　　○●○○○○●○　　--＞　Ｂ
　　　　　　　　４　　２　　　４２

ASCIIコード表

日本語用ASCIIコード

　日本語用の文字コードとして最初に制定されたのがJIS X 0201です。

　ASCIIコード表は一列。００から７Ｆで終り。英語文化圏の人は単純明快。言葉の問題でコンピユータと格闘する必要がありませんでした。日本人も仮名を公用語にしてしまえば、それで良かった訳です。1バイト仮名（JISX 0201）は、Ａ１からＤＥに割り付けました。

　昔輸入した漢字が、すっかり文化に根付いています。カタカナの銀行通帳の印刷を見て、文化は感じられませんね。コンピユータで計算しましたというと、あっさり承認される報告書も、いざ収める段になると、ワープロで清書してよと注文がつきます。漢字の処理できないパソコンは売れませんでした。

シフトJIS

　パソコンの登場により、漢字にコードを割り付けるルールが必要でした。漢字は多いので、平面上に縦、横を示す区点で配列していました。これをパソコンでどう扱うかです。日本のパソコン業界の共通ルールとして「シフトJIS」を決めました。ＷindowsやＭａｃは「シフトJIS」です。日本語対応のソフトも自然と「シフトJIS」となりました。

　「シフトJIS」は日本語用ASCIIコードで未定義になっている部分を使って漢字（X 0208）を表現したものです。JISの文字配列を崩さず、一部を平行移動（シフト）させコードを割り当てました。
　００から７ＦはASCIIコードが使っています。Ａ１からＤＥに1バイト仮名（JISX 0201）が割り付けられています。残るは、８０から９ＦとＥ０からＦＦまでです。

　８０～９ＦとＥ０～ＦＦの横に４０～ＦＣの横軸を設け、２次元化しました。この２つの平面空間にＪＩＳ漢字コードの文字セットをシフトして収めました。

　タイピストという職業がありました。区点配列の活字箱の上にレバーを持って行き、ガチャンと押してタイプします。慣れないと、とてもできる作業ではありませんでした。パソコンでも同じようなことは出来ます。しかし、パソコンはもっと賢い能力を持っていました。ローマ字で打ち込んでひらがなに変換、それを漢字に連想変換という方法です。ＦＥＰというプロセッサーが日本語ＰＣで開発されました。これは、日本が誇れるパソコン文化です。

　日本語キーボードには、英数、カタカナ、ひらがな、漢字番号のモード切り替えキーもありますが、どうして切り替えるのか、よく分かりません。使ったことがありません。しかし、ひらがなモードにして、｢あ｣というキーを押せば、画面に｢あ｣と表示する電気回路は用意されています。日本語タイプライターのように、漢字の並んだキーボードを作ろうとした人も居たでしょう。しかし、パソコンはＦＥＰというプロセッサーが主役となりました。このプロセッサーは、最終的に選択された漢字のコードをパソコンに指令して画面に漢字を描画させます。「シフトJIS」コードはワープロを開発するための社会基盤だったわけです。

インターネットメール

　ASCII文字しかやりとりできない電子メールに、世界標準が出来たのは1992年のことです。ＭＩＭＥ（Multipurpose Internet Mail Extensions）でASCII以外でもやり取り出来るルールを決めました。
　インターネットメールサーバーSMTP（Simple Mail Transfer Protocol）の決まり事で、メールは〔ヘッダ〕空白行〔本文〕となっています。

　〔ヘッダ〕は

=?ISO-2022-JP?B?　エンコードされた文字列　?=

といったルールで、結局ASCIIコードに変換して送ります。

　〔本文〕はエスケープシーケンスが現れるとASCII以外と判断して処理する仕組みです。コードとしては、ＪＩＳコードそのものを採用しました。

　文字の送信には、前後にエスケープシーケンスを付ける方法がありました。パソコンの文字コードの基本はASCIIコードです。第8ビット目は使う必要はありません。 8ビット目は使わないという慣習が国際規格となってしまいます。英語系の文字でも、ギリシャ文字が必要な場合があります。こういう場合、同じコードを使いながら、エスケープシーケンスを発行するとギリシャ文字モードにするという使い方をしていました。
　「シフトJIS」は、第8ビット目を使って、エスケープシーケンスなしで1バイト文字と2バイト文字を共存できるようにしました。さすが、といえる工夫をしたわけです。

　ところうが、8ビット目を使わないという慣習が国際規格となってしまい、1983年のJIS改訂となりました。単にJISコードと呼ぶのは、この改定以後の「新JIS」で、ISO-2022-JPとも呼びます。「シフトJIS」は「旧JIS」をベースにしています。ＤＯＳ系のメールソフトは「新JIS」に変換して流すようにしていますが、メールで文字化けは、この辺の事情が関連しています。

「新JIS」と「旧JIS」

　JIS漢字コードは,特殊文字108､数字10､ローマ字52､ひらがな83､カタカナ86､ギリシア文字48､ロシア文字66､第一水準漢字2965､第二水準漢字3384で､合計６８０２文字。日本語の文化と歴史を担うもの。

　1981年、常用漢字が導入され、それを反映するため1983年に「JIS」が改正された。

新字体と旧字体22文字を第１水準と第２水準の間で入れ替え。
人名漢字4文字の追加｡
39個の記号と32個の罫線文字の追加｡
250字の字形の変更｡

これが「新JIS」と呼ばれるもの。その後の修正はあるが、大きな変更はない。

　パソコンの誕生とＦＥＰ、ワープロの開発競争の中で、ＪＩＳという決め事の変更だけの問題ではなくなっていた。「シフトJIS」は「旧JIS」をベースにしていた。国民機として、そのシェア競争のトップを握ったＮＥＣは、漢字をＲＯＭに焼きつけてしまっていた。漢字コードを最も利用するパソコンユーザーは「旧JIS」の世界で、爆発的に拡大していった。

　こうして、日本の文字コードに「新JIS」、「旧JIS」という歴史が刻まれた。多分、国語学識経験者は、事の重大さに身震いしただろう。

エスケープシーケンス

　ＤＯＳの時代、バッチファイルのＥＣＨＯ文に、文字と混ぜて書いておくと、画面文字に色をつけられた。そんな裏技で、エスケープシーケンスはお馴染みのもの。

　ASCIIコード表を眺めると、文字以外の制御コードがあるのが分かる。これだけの機能があれば,制御コードで動作する電動タイプライターがあれば通信線を仲介して海外から文書を書き送ることが出来る。つまり、テレックスという事。
　電子計算機、コンピユータに最初に繋がれたのが、プリンターであったことは、しごく当然の成り行きだったことが分かる。

　エスケープシーケンスは、プリンターやモニターに文字コードを送るとき、それに混ぜて送り、制御するもの。コード１Ｂに続く2文字の組み合わせという決め事が出来た。ASCIIで１ＢはＥＳＣ（エスケープ）。

　ASCIIコードを拡張して仮名を割り付けた日本語ASCIIコード、これは無しにしよう。これが日本語ＪＩＳの立場。1バイト仮名コード（JISX 0201）として残っているが、２０から５Ｃの範囲に割り付け、7ビット系として残る。

　例えば、送られて来たコードが３２だったとしよう。ASCIIコードなら｢３｣、1バイト仮名なら｢イ｣、２バイト漢字なら、その次のコードを読まないと確定できない。
　日本語のＪＩＳコードは次の６つを区別しないと混乱する。ソフトではエスケープシーケンスで区別することになった。

１Ｂ２８４２---＞　ASCII
１Ｂ２８４Ａ---＞日本語用ASCIIのローマ字部（JIS X 0201）
１Ｂ２８４９---＞日本語用ASCIIのかたかな部（JIS X 0201）
１Ｂ２４４０---＞「旧JIS」（JIS X 0208:1978 ）
１Ｂ２４４２---＞「新JIS」（JIS X 0208:1983）
１Ｂ２４４４---＞JIS補助漢字（JIS X 0212）

これだけを扱わなければならない。

　例えば、地番｢２のイ｣を新ＪＩＳでコード化すれば、
　　２３３２　２４４Ｅ　２５２４
しかし、｢２｣を半角、｢の｣を全角、｢イ｣を半角として入力すると
　　３２　２４４Ｅ　３２
正式にはエスケープシーケンスを挟んで
　　１Ｂ２８４Ａ　３２　１Ｂ２４４２　２４４Ｅ　１Ｂ２８４９　３２

　インターネットのメーラーは、一々エスケープシーケンスをチェックして文字を表示している。結構大変な作業をしていることが分かる。送る方できちっと対処していても、受ける方で｢半角カナ｣は無視している事もある。
　JIS X 0201は半角文字の入出力として利用されている。ワープロでは、半角カナとして便利に利用されている。日本語のすべてをJIS X 0208はカバーしているので、全角を使えば不都合は無いのだが。そこで、｢半角カナは使わない｣キャンペーンはあるが、無視することは無謀といえる。
　文字化けメールを受け取った場合、送り主を非難することは軽率と言える。自分のメーラーのことを点検してみる必要がある。

EUC

　パソコンが誕生の頃、ミニコンから進化したワークステーション、オフコンが企業では使われていました。ＯＳはＵｎｉｘ。ここでの日本語はEUCコードでした。

EUCで扱う文字コード
セット	第1バイト	第2バイト	第3バイト	日本語EUCの場合
G0	0x21～0x7E	-	-	ASCII
G1	0xA0～0xFF	0xA0～0xFF	-	JIS X 0208-1990（新JIS）
G2	0x8E	0xA0～0xFF	-	JIS X 0201カナ（1バイト仮名）
G3	0x8F	0xA0～0xFF	0xA0～0xFF	JIS X 0212-1990（補助漢字）

　EUCコードも8ビット目を使っています。最近16ビット体系で世界の文字コードを統一するUnicodeへの動きがあります。Ｕｎｉｘも対応するのだろう。

　ワークステーションに憧れつつＰＣでＭＳＤＯＳを使う者、または企業でオフコンを使いながら個人占有できるコンピューターを愛した者。彼らがＰＣを育てた。パソコンを使うものにはＵｎｉｘは憧れであった。

　マイクロソフトに、ワークステーションＯＳとしてＷｉｎｄｏｗｓＮＴがあったが、メジャーではなかった。このＮＴの内部コードはUnicodeであつた。
　同じマイクロソフトといえども、ＭＳＤＯＳとＷｉｎｄｏｗｓＮＴとは別物。Ｗｉｎｄｏｗｓの同じ包装紙で包んでもＷｉｎｄｏｗｓ98とＮＴは別物と知っていた。ＷｉｎｄｏｗｓＭＥで、その事を意識せず購入して大変な状況を経験した人は少なくないだろう。あこがれのＵｎｉｘにはＬｉｎuｘへの道が開けている。Ｗｉｎｄｏｗｓ98はUnicodeには対応できない。Ｌｉｎuｘへの準備が急がれる。

テキストファイル

　2004年の現在、世界のパソコンの90％以上がマイクロソフトのＷｉｎｄｏｗｓという状況だ。そして、インターネットの世界で、圧倒的多数の｢見る人｣はInternet 　Explorerで覗いている。一方、｢見られる側｣はUNIXサーバーを利用している。僕もそうなのだが、２つのＯＳを利用しているが、これと言って不都合は感じていない。一体、どうしてなのだろう。
　ＯＳと、その上のアプリケーションを乗り換えるのは大変なことだ。1995年、ＭＳＤＯＳからＷｉｎｄｏｗｓへの乗り換えは、同じマイクロソフトといえども大変だった。大変は覚悟の上で、ＭａｃかＷｉｎｄｏｗｓかの選択も視野に入れていたので乗り切れたとも言える。
　2004年の現在、インターネットの魅力に惹かれＷｉｎｄｏｗｓをベース基地としＵＮＩＸサーバーを利用しているが、違和感を持たない。それがインターネットということなのだろうか。

　多分、その秘密はテキストファイルにあるのだろう。テキストファイルは、すべてキャラクタコードからなるファイルを言う。制御コードは改行だけ。最も原点に近いASCIIコードのみで書けば、どのＯＳでも通用する。だから、プログラムソースは半角英字を使う。こうしておけば、Ｗｉｎｄｏｗｓで作ったＣＧＩもＵＮＩＸサーバーへ送って問題はない。
　インターネットをここまで普及させたのはＷｅｂサイトだろう。その記述言語、ＨＴＭＬはテキストファイルだ。タグという表示コードを含むのだが、タグもキャラクタコードの集合。見る人のパソコンでタグは解釈されレーアウトされる。画像は別ファイルから合成される。それを実行するのは、パソコンユーザーが持っているブラウザ。
　ハソコンの能力がひ弱だった頃、とても実用的でなかったソースコードを直接読んで実行するインタープリタ手法が、現在は主役となった。それほどまでにパソコンの能力が上がったということだろう。

　インターネット時代の主役、テキストファイル。そのキャラクタコードにも、日本という環境だけでも、こんなに多くの歴史が蓄積されている。多様なＯＳの歴史と、各国の言語と文化の事情を考えれば、一つにまとめてしまう事は出来ないことだろう。それを、一番良く知っているのは、僕達日本人ではないだろうか。少し複雑系とも言えれ文字コードを使いこなしている事に、誇りを持っていいと僕は思っている。

　文字コードの変換は、規則性があるので、コンピューターにとってそれ程、困難な作業ではない。Ｗｅｂサーバーとブラウザの間では、送るデータのコードを事前に知らせることが出来る。最近のブラウザは自動的に文字コードの判定をしてくれる。コード宣言なしでも、一つのページでコードを統一しておけば問題はないようだ。
　ページにＦＯＲＭ入力がある場合、それを受け取って利用するＣＧＩでは、入力データーのコードを判定する必要である。Ｐｅｒｌの標準ライブラリーにこのツールはないので、お世話になるのがＫａｚｕｍａｓａＵｔａｓｈｉｒｏ氏のｊｃｏｄｅ.plだ。ＪＩＳコードの変遷をフォローする氏に敬意を表しつつ、利用させていただくことになる。

「／」と「＼」と「￥」

　Ｗｉｎｄｏｗｓ98のCGIテスト環境で完成したソースをＵｎｉｘのサーバーにインストールする場合、どんな問題があるのだろうか。

　ブラウザでＵＲＬの階層を示すのに「／」を使う。これは、ＵＮＩＸOSで階層を「／」で表現しているからだ。日本語Ｗｉｎｄｏｗｓでは、ＯＳの階層に「￥」を使う。英語Ｗｉｎｄｏｗｓでは「＼」を使った。
　日本語のASCII コード表で５Ｃは「￥」と表示されるが、本来の英語のASCIIでは「＼」と表示される。日本語環境にするとキーボードの「＼」を押すと「￥」と表示されるが、書き込まれるコードは５Ｃ。ソースコードにおいて、動作に支障はない。日本のＪＩＳコードが５Ｃに「￥」を割り付けているためだ。

　ＨＴＭＬ関連でＵＲＬの階層を示すのに「／」を使った。はじめからネットワークＯＳのＵＮＩＸでは、ローカルのハードデイスクの階層とネット全体の階層はシームレスに表現される。マイクロソフトのＭＳＤＯＳはハードデイスクの階層を「＼」で表現した。それが日本に来て「￥」になった。
　インターネットの時代になって、本来の「／」の意味が分かってくる。僕達日本人は複雑系で生きる宿命を背負っている。覚悟しておこう。それはそれで、いいではないか。常に工夫で乗り越えて来たのだから。
　CGIではASCIIの制御コードを使う。制御コードを｢メタ文字｣と呼ぶが、この識別に「￥」を使う。当然として英語Ｗｉｎｄｏｗｓでは「＼」。本家のＵＮＩＸではどうなの？
　「￥」のままでＵＮＩＸサーバーに送ってもトラブルは起きていない。サーバーでモニターすれば「＼」だ。
　ＣＧＩでＵＮＩＸの世界を知ると、ＭＳＤＯＳがどん世界の中の地域であったかが分かる。そのまた｢日本｣という地方で僕達は奮戦していたことも分かる。「／」と「＼」と「￥」。この三層構造を乗り越えた上に、日本のパソコン文化が花開いた訳だ。僕はこの花が、とても華麗だと信じている。

改行コード

　Windows 環境とＵＮＩＸの二つを利用する場合、もう一つ厄介なのが改行コードの話し。
　Windows では CR/LF で改行、 Mac では CR 改行、 UNIX では LF 改行、すべてばらばらだった。｢メモ帳｣でファイルを開いたら、改行されずに横へずらずらとテキストが表示された経験があると思う。これは、改行コードの違いだ。

　Windows版のＰｅｒｌを使う場合、ソースコードの中で改行は｢￥ｎ｣とする。ＤＯＳ窓のモニター上で改行される。Windows版のＰｅｒｌが｢￥ｎ｣からCR/LFを発行するように仕組んであるのだろう。

　出来あがったＣＧＩのソースをサーバーに送る。ＦＴＰではアスキーモードで送る。この場合、CR/LF をLFに変換できる。変換したくないなら、バイナリーモードで送る。
　どこかで誰かがうまく処理してくれている。だが、結果の確認は利用する個人の責任ですることになる。コード複雑系の日本の宿命といえる。改めてどうだったか考えると混乱する。結果が良ければそれでよし。このことを｢いいかげん｣と思ってはいけません。｢キャリブレーション｣といって、工学的には立派な技術です。おそらく、｢キャリブレーション｣技術で世界一なのは僕達だと思う。

　最後に、Ｗｉｎｄｏｗｓ98環境の複雑系の事例を一つ。

　Ｗｉｎｄｏｗｓ98はＯＳレベルで、大文字小文字を区別しない。例えば、画像の拡張子ＪＰＧ。エクスプローラーでjpgでもＪＰＧかもしれない。サーバーに送ってＪＰＧだったことが分かることがある。
　書き送ったＨＴＭＬページで画像が表示されない。どうしてなのか、最初は理由が分からなかった。膨大な画像の拡張子を書き換えたことがある。
　ある画像処理ソフトはＪＰＧを使う。それを編集するソフトを使うとｊｐｇになってしまう。僕の環境では、そういう話だ。ＦＴＰで大文字小文字を区別するか、全部小文字に変換していまうか、選択できる。

　もう一般論などあり得ない、各個人のお家の事情とでもいおうか。やってみないと分からない複雑系の話。

2003.9.20 by Kon