もじもじカフェ　戸籍と住基とマイナンバーの文字コード

もじもじカフェ第38回「戸籍と住基とマイナンバーの文字コード」に参加してきました。

もじもじカフェは「文字と印刷について市民と専門家・業界人がお茶を飲みながら気楽に話し合う」というイベント。
勉強会とかセミナーとは違って「お茶を飲みながら気楽に」というスタイルなので、会場もこぢんまりした喫茶店のようなところで、講師を中心に皆で大きなテーブルを囲んで話をするスタイル。

今回のテーマは「戸籍と住基とマイナンバーの文字コード」京都大学の安岡孝一氏を講師に現在策定が進められているマイナンバー制度などを文字コードの視点から説明してもらいました。
大変面白かったので、いつものようにレポートを。

このレポートは当日の安岡先生の話を私の手書きメモから書き起こしたものです。
聞き落とした部分もありますし、私が聞き間違えている可能性もあります。
大体こんな話だった程度の物と思ってお読みください。
もし何か間違いを見つけた人は教えてください。

戸籍で使える文字「戸籍統一文字」はどうやって決まったか

この中で自分の戸籍を見た事がある人？（数名が手を挙げる）それは縦書きでしたか横書きでしたか？（ほとんどが縦書きと答える）
それは電子化前の戸籍ですね。現在、戸籍の電子化が進められているのだけど、電子化がすんだところは横書きででます。縦書きは電子化前の物。

今、市町村の数は1740ちょっとぐらいあるのだけど、1707、8市町村はすでに電子化が終了しています。
まだ電子化終了していないとこというと、例えば京都はまだです（古い名字が多くて電子化が難しい）
あと、夕張市もまだです。これは理由は分かりますね（笑）（経済破綻した市なので予算がない）

戸籍を電子化するためには、まず電子の戸籍に使える文字を決める必要があります。
電子化するにあたって、法務省で戸籍に使える文字の検討をしていった訳だけど、最初は正字、常用漢字、人名用漢字、漢和辞典に正字として載っているものを使える文字としようと考えたのだけど、これがたとえばはしご高（髙）なんかも使いたいといって衆議院でもめて、それで、俗字も許すという方向になった。ただし何でも許した訳ではなく「漢和辞典に載っていれば俗字でも可」とした。
辞典に載っていないやつとか、載っていても「これは誤字である」と記載されているやつは認められない。
こういう方針を決めて、2001〜2003年頃に使ってもよい漢字の洗い出し、大漢和辞典とかの文字から使う文字を全部洗い出していった。

これで決められたのが、戸籍で使うための独自文字コード「戸籍統一文字」
洗い出した5万字ちょっとの漢字、ひらがな、変体仮名などに6桁の数字を振っていった。

使えない文字を戸籍で使いたいときは

戸籍が電子化される時には、今、紙の戸籍に載っている文字が「戸籍統一文字」にあるかどうかを判断します。
「誤字俗字・正字一覧表」というのがあります。これは明治ぐらいから総務省で作っている表なのだけど「この文字はこの文字の俗字である」と判断するのに使う一覧表になっています。俗字と判断されれば、電子化の際には正字に置き換えることになる。

戸籍を電子化する際に、字が（俗字から正字に）変わってしまう人にはその戸籍の筆頭者に「あなたの名前は電子化されると字が変わりますよ」と連絡します。
これを拒否するとこの戸籍はコンピュータ化できないので、「事故簿」という扱いになります。つまり紙のまま運用していくということになる。
こういう「事故簿」が大体1％ぐらいは残ります。
ただし、この事故簿の人でも新しく戸籍を作る時、つまり結婚する時ですね、この時は字が変わるのを拒否する事は出来ません。ですので、事故簿として紙運用しなければならないのは、今その戸籍に入っている人だけです。新しい戸籍には引き継げませんので、あと何十年かすればすべての戸籍がコンピュータ化できるはずです。

しかし、実はこの事故簿を引き継ぐ方法というのもありまして、結婚すると戸籍が変わるので、結婚せず今の戸籍のまま、子孫を残したい時には奥さんも生まれた子供も養子という形で戸籍に入れます。こうすると理論上新しい戸籍を作らず事故簿を引き継げるという事になります。
実際にそうやって字を変えたくないからと言う理由で養子をとって戸籍を残している人がいるかどうかは知りません。

戸籍の電子化の際、字が変わる場合は筆頭者に連絡がいくわけですが、まず連絡をするというのが大変で、なぜなら戸籍というのは本籍地しか載っていないわけで、つまり現在そこに住んでいるかどうかは分からない。現住所を調べるためには戸籍の情報から住民票の情報につながらなければならないですが、これは住民基本台帳の方にそこがつながっている情報がある。ですからそちらと連携して調べるわけです。

住民基本台帳はどうなっているか

住民基本台帳については2002〜2004年でコンピュータ化がすべて完了しています。
現在の住民票はすべて、とにかくすべての文字にコードがふってあります。これが住基コード(住民基本台帳ネットワーク統一文字)。
住民票のシステム化というのは、各自治体がそれまでにそれぞれでやってたりするのですが、住基コードではそこのシステムで使われていたような（様々なメーカーの）外字をとにかく全部持ってきて、ちゃんと精査せずにならべてしまった。
だから字形がだぶっている文字がかなりあるし、そもそもコード化できず画像として持つしか無い文字もある。これは48×48ドットの画像ファイルとして持たせて運用してる。

マイナンバーはどうなる

今、マイナンバー制度というのがスタートしようとしていますけど、これは総務省つまり住基ネットをやってるところがやろうとしてる。住民票を元に個人に番号を振る。戸籍のほうをやっているのは法務省。なので、法務省はいまいちマイナンバーに乗り気ではないんです。戸籍電算システムはマイナンバーには参加しません。

さて、マイナンバーで使われている文字コードは、ユニコードを使うことになりました。なぜ住基ネットで使っているコードをそのまま使わなかったのかというと、住基コードは一部コードでUnicodeの他の文字とかぶっているなどの問題があり、Windows XPでしか動かせないという制約があるからです。
（参考：住民基本台帳ネットワーク統一文字とその問題点　https://www.jstage.jst.go.jp/article/johokanri/55/11/55_826/_pdf）

しかしユニコードを使うといっても、当然足りない字形がでてくる。これをどうするか？
ユニコードで異体字を表現するにはIVSという技術があるわけですが、しかしマイナンバーのシステムを作っている人たちはこれは難しくて使えないと言って、採用しなかった。

ではどうするかというと、ユニコードにはF0000からの外字領域というのが用意されているわけですが、ここに入れてしまおうと言う話になりつつある。

それでも残る問題として、コードを当てられない文字、48×48で運用しているような文字ですね
例えばしんにょうに鳥と書いて渡なべさんのなべと読むっていう字がある。

▲しんにょうに鳥、で「なべ」
これ（手書き略字で）いくとこまでいっちゃうと邉はこうなるっていうような文字なんですけど（笑）これなんかも今は48×48で運用してる。こういうのを正式に（マイナンバーのコードとして）入れるつもりはない

他に変体仮名の問題もあります。今これを使われているのが1千弱ぐらい。
中でも濁点のついた変体仮名は住基コードにはない。これをどうするのかも決まって無い。
変体仮名の名前ってのは昭和30年ぐらいまでは女性の名前なんかで使われてたんですね。でもこれがよみがなもないし、なんて読むのか音もわからない。

こういうのはもう、48×48の画像で運用するしかない。

今のところマイナンバーについての議論というのは「いかになりすましを防ぐか」とか「個人情報の流出を防ぐか」というところに終始していて、こういった文字コードについてはなおざりにされているという状況です。

――ここから、参加者からの質問などに答える形に。トピックとしてメモしたものを載せます。文中四角罫でかこった部分は私の補足です。

マイナンバーでIVSを使わなかったことについて

IVSはUnicodeの後ろにvsという字体選択コードをつけるわけだけど、これはアプリケーションからすると、一つ目のコードで文字が確定できなくて、二文字分よんでから後ろにもどって字形を確定させるという処理になるから難しい

IVSは通常のUnicodeの後ろに字形を指示するコード（VS）をつける

これをアプリケーションで扱うには、二つのコードを読んだ後、それが異体字を示しているのか、他の文字なのかを判断しなければならない。これが実装的に難しいらしい。
例えばInDesignではIVSに（一応）対応しているが、この二つのコードの扱いは難しいらしく、Unicode+VSで一つの文字のはずなのに、なぜかVSの前にカーソルが入ってしまうという動作になる。だからDeleteキーを押した時に文字が消えずにVS（異体字情報）だけが消えてしまう

IVSにしても何にしてもそうだけど、大量の異体字を扱える状態だとその中から目的の字形を見つけるのが大変になる。字形が用意してあっても見つけられないということもある。
これは入力の仕掛けというか、字形を探し出す部分のインターフェースをもっと考えなければならない。たとえば部品からの検索で入力できるとか。いまそういった入力についてもメーカーと共同でテストしているところ

人名ではなく地名の漢字の扱いはどうか

地名については、出来るだけゆらぎをなくすということで、各自治体にがんばってもらっている。基本的には統一していく方向で。
ただし葛城市のような不幸な例は残ってしまう。あそこは先日聞いたら「（字を変えるかどうか）市民投票する」みたいな話をしてて、いや、那覇とかだって字を変えるのに別に市民投票なんかなしでいつの間にか変えちゃってるんだから、そんなことしなくていいだろって言ったんですけど。
基本的に町名のようなものは常用漢字などの簡単なものに合わせていくようになる

奈良県葛城市は、「葛」の字を略字である「葛（下の部分がヒ）」を採用。
これは2004年の合併時「パソコンなどで表示される「葛（下の部分がヒ）」の方がいいだろう」とわざわざその字にしたのに、VistaからのJIS2004採用での字形変更で「パソコンで出ない文字」に戻ってしまったという経緯があり「JIS2004で一番混乱した例」としてよく引き合いに出される
参考：葛城市：Wikipedia

中国など他の漢字圏での戸籍事情は？

中国は漢民族は漢字だからまだいいが、1/3はそれ以外の民族で、別の言語を使っている人もいる。
こうなるとコンピュータ化は難しいから戸籍も手書き運用するしかない。
ただ、あそこは基本的に居住地が定められていて移動の自由が許されていないから、戸籍が紙運用なのはそれほど困らない
漢字で管理できない文字は、パスポートを持つ時は困るんだけどそれはアルファベットの表示になる
困るのは日本の人と結婚してかつ中国籍のままの時。戸籍には「○○と結婚しました」という情報をのせなければならないのだけど、戸籍統一文字にある範囲の文字しか使えないのでそこに収まらない人はカタカナかアルファベット(A-Zの大文字のみ)で表記する。ウムラウトなんかもそう。表示できないからドイツの人の名前はアルファベットかカタカナに開いてのせる事になる

住基ネットで使っているXPでしか動かせないシステムはこれからどうなるのか

どうしようもできないので、XPマシンを取っといて使うしかない。クローズドシステムでインターネットには絶対つながないとか…。
OSをクラウド化してXPを永久に使うみたいな話もあったがさすがにそこまではしないと思う。

養子をとって戸籍をつなぐという方法について

養子をとって戸籍を引き継ぐというのをやっている戸籍としては、樺太戸籍はそうやってまだ生き残っているのがいるらしいです。なぜその戸籍を引き継ぎたいか？希少性とかじゃないですかね？これはもういまから作ることはできないですから。外務省はもうやめて欲しがってると思いますけどね。満州戸籍なんかはもう強制的に廃止になってるんですけどね。

樺太戸籍
昔日本の領土であった時代に樺太などで生まれた人は樺太が本籍地となる戸籍を持っている。
戦後、そのうちの一部は日本に持ち帰られ外務省に保管されている。必要であればその写しを請求することができる。
参考：旧樺太の戸籍に関する証明について

文字コードを作る際に文字の順番ってどうやって決めるのがいいのでしょう

どうやってといっても、部首、画数順、康熙字典順ぐらいしかないのでは

戸籍統一文字に入れる文字の根拠として「辞書に載っていればOK」とすると増えすぎて困らないか

そこの判断としては常用漢字表で定められている「デザイン差」の判断を基準としている。
でも自分の名前の字形にこだわる人というのは多くて、たとえば「樹」という字の真ん中が「土」か「士」かでもめる。でもこの字は「十と豆」であって「土」でも「士」でもないんです。ほんとは。
でもこの「土」か「士」の違いを「先祖が武士だったか農民だったか」の違いだと思ってる人がいて、それでもめる。そういう俗説を信じちゃう。

戸籍統一文字や住基統一文字に文字が追加されたのはどうやってわかるのか

戸籍統一文字に文字が増やされる時は法務省の民事局がだまって追加してる。
でも戸籍統一文字はWebですべて公開されているので（http://kosekimoji.moj.go.jp/kosekimojidb/mjko/PeopleTop）毎日そこで戸籍統一文字コードの最後の文字をチェックしてれば新しい文字が追加されたのはわかる。

住基コードの方はもっとひどくていつの間にか増える。増えましたよって通知を総務省が出す前に、現場に新しいフォントが持ち込まれたりする。

文字を追加するのは「自分の名前はこの字ではない」という本人の申し立てがあって追加されるが、申し立てた人はその時点で古い文字で電子化されてしまっているので、その字が追加されても変更することはできない。

行政で使われている文字コードの仕様は公開されているのか

戸籍統一文字はWebで公開されています。住基統一文字は全く公開されていません。
ただし、各市町村自治体に台帳があるので、申し込むとコピーを取らせてくれることはあります。
各自治体で使われているローカルな文字環境についても、自治体に情報公開請求すれば見せてもらえます。ただ、いきなり「文字コードみせてください」といっても断られるかもしれないので「セキュリティ関連の情報と文字コード関連の情報見せてください」みたいにいうと「セキュリティは見せられないけど文字コードぐらいなら…」という感じで見せてくれることが多い。

文字コードを公開しない理由と、公開しない権利は自治体にあるか？例えば裁判などで訴えたりできるか

自治体が文字コードを公開しない理由については、特に根拠はないとおもいます。わざわざ見せたくないというぐらいでしょう。
裁判するといっても、するとしたら「知る権利が阻害された」とかになるかもしれませんが、先ほども言ったように申し込めば見せてもらえることがほとんどなので、それは通らないと思います。

戸籍の電子化が一番大変な地域は京都でしょうか？（古い名前、地名が多いため）

大変さでいったら、いろんな人が流入している東京が一番大変だったと思いますが、東京はお膝元ということもあって、一番先にデジタル化に着手し、終了しましたから。
ですから東京は事故簿も多いです。ある区では2％ぐらい事故簿になったのでは。
京都は今電子化をすすめていますが、東京の事例を見ていますのでそこを参考にできるというのはある。
大変さでいったら沖縄なんかも大変だった。あそこは戦争で戸籍がなくなってしまったところからだったので、混乱期に作られた戸籍でダブりとか横書きになってるとかそういう戦後のエグさがあった。

住基統一文字には「家」が4つ登録されているが、これはデザイン差ではないのか

それまで使っていた大型コンピュータ、富士通のJEFとか日立のKEISとかのホストコンピューターシステムの文字をそのままもってきちゃったのでだぶっている

こういった文字コード、文字セットを策定、保守しているのはどういった立場の人なんでしょう

………単なる漢字好き。
日本で10人よりは多いけど100人はいないぐらいの人数。実際いろんな会議とかでると同じような顔ぶればかりみるし。

中央で文字を整理している人は知識も経験もあるからどんな文字があるかなど分かっているが、末端でその整理された字を使う人はそれが分からずどんどん新しい字を追加してしまう。だからいくら整理してもきりがない。
多くの字を整理して用意しても、その中から自分の必要な文字を探し出せない。多分必要なのは、分かりやすい字形の検索システム。

結婚時に戸籍が新しくなって名前の字がかわると困る人はどういう人か

よくあるのは会社の登記簿などにのせている字と変わると困るというケース。これは実務的に困る。
あとは個人のこだわり。普段使っている字は正字でこだわらなくてもパスポートや住民票など公のものに関しては譲れないという人は多い

【感想】

うーーん、IVSにAdobeJapan1とは別の汎用電子というIVDが用意されていると聞いてから「では今後、官公庁関連の名簿なんかではそれが使われるのか？その場合AJ1ベースの印刷データとのやり取りはどうなるのだろう？」とか思ってたんだけど、今回の話を聞く限りとてもそんな段階にない。っていう感じだなぁ。

電子化にしても、新しい戸籍を作ると強制的に正字に統一される戸籍に比べて、住民票のほうはとにかくなんでもそのまま電子化しちゃうみたいで、今後これが整理されるとは思えないし。しかもマイナンバーは基本的に住民票をベースにしていて戸籍とは連動しない。
マイナンバーの議論では文字コードについてはなおざりにされてるということらしいけど、せっかくIVSという技術があるのに、それを使わずUnicodeの外字領域に全部いれちゃうとかダイナミックすぎるだろう…。こういうのって、後々トラブルの元になったりするんじゃないかなぁ…。まぁ、確かにIVSも出来たばかりの規格で今後どうなるか分からないから採用するのは勇気いるけど。

んでも、そのトラブルの元がボディーブローのように効いて苦しむのは私らみたいな印刷屋とかだったりするんだよな☆