Google
オフコン練習帳内を検索
インターネット全体を検索

NECオフコン関連
オフコン一般
情報
トップ  >  文字コードについて

2バイト文字系の文字コード体系

JIS漢字コード

JISコードは、1バイト文字系の文字をJIS X0201(つまりJIS7/JIS8)で表し、2バイト文字系の文字をJIS X0213(JIS C 6226)で表している文字セットです。
ここでは、JIS漢字コードとも呼ばれる、2バイト文字系の方を説明します。(1バイト文字系の方は説明済み)

JIS漢字コードですが、数年毎に改正があり、その都度若干変更があります。
一番古い1978年版(JIS C 6226-1978、いわゆるJIS78)では、以下のような構成になっていました。

非漢字 453字
第一水準漢字 2,965字
第二水準漢字 3,384字
合計 6,802字

2バイト文字なので、文字コードは2バイト(16ビット、或いは14ビット)で表します。文字コードの範囲は、16進数で2121から7E7Eまでの間になります。

1バイトと同じような表を書こうとすると、横256桁×縦256桁、合計65536のとても巨大な表になります。JIS漢字コード(JIS78)は合計で7000文字ぐらいなので、この表の全部は使用しません。使用している場所を書くと、以下の表のようになります。

7000文字全部は書ききれないので、下にJIS漢字コードの一部を書いてみます。表中にある「区」・「点」というのは、次に説明します。

コード表の見方ですが、行が1バイト目、列が2バイト目です。左上の「石」のJIS漢字コードは、16進数で4050になります。右上にある「設」は、405Fになります。

区・点

JISコードでは、区と点で文字を示します。文字ごとに付いている番地みたいなものです。

JIS漢字コードでは、16進数で2121の位置を1区1点と呼び、2122を1区2点、2123を1区3点・・・2221を2区1点、2222を2区2点、2223を2区3点・・・と表していきます。
さっきのコード表では、赤い数字で区と点を表しています。
「石」は、32区48点になります。「設」は、32区63点になります。
同じ文字でも、文字コード体系によって文字コードが異なるので、区と点で文字を示したほうが便利です。

JIS78/JIS83・・・

最初の方でも書きましたが、JISコードは数年ごとに改正があり、年度ごとに若干の差異があります。
1978年に制定された後、1983年、1990年、1997年、2000年、2004年と改正(JIS X 0208も含めて)されています。
一般的に、1978年版(JIS C 6226-1978)のJISコード体系のことをJIS78(あるいは78JIS)、1983年版(JIS X 0208-1983)をJIS83(あるいは83JIS)、1990年版をJIS90などと言っているようです。またJIS78のことを旧JIS、JIS83を新JISと言うこともあります。(JIS83以降を全部新JISと言うことも有り。)
これらはいずれも俗称で、正式名ではありません。

後でシフトJISやJIPS、JEF、KEISなどいろいろな文字コードを説明しますが、これらにもJIS78とかJIS83などがあります。 これらの文字コードは、JIS漢字コードという「文字の集まり」を基にして、文字1つ1つに番号を割り当て文字コード体系を作っています。基になる「文字の集まり」が違えば、当然できる文字コード体系も変わってきます。
「日本の公的規格であるJIS」で「1978年や1983年に決めたJIS漢字コード」を基にして、「各文字コードを決める団体や会社」が、「自分達の文字コード」を決めているということです。
例えば、1978年版のJIS漢字コードの「文字の集まり」を基にして、KEISで決められた規則で1つ1つの漢字にコードを割り当てたものがKEIS78となり、1983年度版を基にして、コードを割り当てていったものがKEIS83になります。

文字コードの種類によって、JISが改正する毎に自分のコードに反映するようなものもあります。一方、JISの文字コードが改正されても、反映しないような文字コードもあります。

コンピュータ(にインストールしたOSやシステム)は文字を入力したり出力したりすることができるので何かの文字コードが入っているはずで、その文字コードが何年改正のJISを基にしたものなのかということが重要になります。。
Windowsなら、昔のWindows3.1というものがJIS78を採用しています。Windows98はJIS90です。Windowsは、発売したときの最新のものを採用しているようです。
ちなみにNECのオフコンは、今のところ常にJIS78を採用しています。
文字フォントを内蔵していた頃の昔のプリンタは、内蔵フォントがJIS78のものやJIS83のものがありました。(今はフォントを内蔵しているようなプリンタはほとんど無くなってきています。)

年度の違うJISを採用しているOS同士でデータをやり取りしている場合に、表示される文字が変わったりする問題が起きることがあります。(あるいは採用している年度の違うPCと(内蔵フォント入りの)プリンタとの間etc.)
特にJIS78とJIS83(以降)の間では、いろいろと問題が起きる可能性があります。だからこそ、この2つには旧JISとか新JISとか特別な俗称が付いているのです。
例えば、JIS78とJIS83(やJIS90)では、「藪」と「薮」が入れ替わっています。だから「藪」と入力したはずなのに、別のコンピュータにファイルをコピーして印刷したら「薮」となったということがあります。同じようなことが、「籠」と「篭」、「檜」と「桧」、「芦」とか「樋」とか「鴎」とか「葛」とかたくさんあります。