『ルーチン業務の自動化』について相談を受ける機会は少なくない。
たまに『日本語変換の自動化』というケースに遭遇する。(ひらがな・カタカナ・ローマ字)
#法人向けの “ワークフローSaaS” を開発している会社なのだから、アタリマエか…。
その度に、つくづく思う。。。
「日本語ってタイヘンだなぁ」と。。。(≒「日本人ってタイヘンだなぁ」)

1. 文字セットが5種類も?
日本語。まずもって、様々な “文字セット” が使い分けられている、、、ってのがスゴイ。
- ひらがな 〔46文字〕(厳密には86文字)
- カタカナ 〔46文字〕(厳密には90文字)
- 半角カタカナ 〔46文字〕(厳密には58文字)
- 漢字 〔2136文字を小学校と中学校の9年間で覚える〕
- ローマ字(アルファベット)
“全ての文字” を覚えるだけでもタイヘンだ。これだけ字種が多いと『国語』(日本語)の時間がいくらあっても足りない。(?!?)
- ISO/IEC 646(JIS X 0208): 6,879文字 (←漢字だけだと6356文字)
- ISO/IEC 10646(JIS X 0221): 58,861文字
ただ、、、日本語に習熟すると、、、”文字セットの使い分け” によって、、、たとえば「Thank you のニュアンス」を変化させることも可能となる!!
- 「ありがとうございました」
- 「アリガトウゴザイマシタ」
- 「アリガトウゴザイマシタ」
- 「有り難う御座いました」
- 「Arigato Gozaimashita」
我々日本人は、実に不思議な言語(日本語)に支配されている。。。
近年の日本人は、「5種類の文字セットだけでは表現力が乏しい!」と考え(?)、、、新たに『絵文字』(Emoji!)なる文字セット(??)を開発し、、、全世界に布教している。 🥋 😀


2. たとえば『半角カタカナ』
実は、今日の日本には、
「『半角カタカナ』を『全角カタカナ』に変換する」
という “不毛な事務作業” が、残っていたりする。
有名ドコロでいえば『都市銀行の振込ログ』だ。”API経由で取得したデータ” であっても、未だに『半角カタカナ』となっている。
- キヨウトダイガクガクチヨウ ミナトナガヒロ
- COM?⇒ キヨウトダイガクガクチヨウ ミナトナガヒロ
- ヒト?⇒ キョウトダイガクガクチョウ ミナトナガヒロ
- ザイ)キヨウトダイガク アイピ-エスサイボウケ
- COM?⇒ ザイ)キヨウトダイガク アイピ–エスサイボウケ
- ヒト?⇒ ザイ)キョウトダイガク アイピーエスサイボウケンキュウザイダン
“情報の欠落度” がこのレベルにまで至ると、もはやスクリプトレベルの “文字置換” では対応できない。すなわち、”人間知能” や “辞書登録” (や “人工知能” !)を駆使して情報を補完してやる必要がある。
ちなみに全国銀行協会の『全銀システム』(ZENGIN)は、極めて信頼性の高い集中決済システムだ。しかしながら、たとえば “拗音や促音は使用できない” などの厳しいシバリ(ャュョッ→ヤユヨツ)がある。いわば “スペシャルな文字セット” となっている。要するに、安定感はあるが、ちょっと使いづらい。。。(ボソっ)


3. たとえば『ひらがな』
あるいは、今日の日本にも、
「『漢字』を『ひらがな』に変換する」
という “ナゾな事務作業” が残っていたりもする。
- 菅 直人 (かん なおと)
- 野田 佳彦 (のだ よしひこ)
- 安倍 晋三 (あべ しんぞう)
- 菅 義偉 (すが よしひで)
- 岸田 文雄 (きしだ ふみお)
何のことはナイ。日本人も『漢字』の “読み方” がワカラナイのだ。
なお “読み方” を知っているヒトにとっては、”冗長でノイジーな情報” になってしまう。なので、想定する読者が読めそうな漢字に対しては『ひらがな』を付記しない(『振り仮名』を付けない)。
実際、ここに例示した5人は超有名人〔首相〕なので、多くのヒトが読める。(ハズ)(と思う)(たぶん…)(きっと…)(どうかなー)
“姓名で使われる漢字” はナンギだ。同じ漢字でも “読み方” が大きく異なる場合がある。(e.g.; 菅さん → すがさん/かんさん) にもカカワラズ『個人番号カード』にも『運転免許証』にも “読み方” の記載はナイ。(『健康保険証』にはアル。『出生届』では書かされる。) 最近、サスガに「正しい読み方がドコにも定義されていないのはマズい」「行政手続き等のデジタル化において不都合だ」ということで、戸籍レベルで氏名に『読み仮名』をつけるための法改正が為されようとしている。 (※戸籍:日本・中国・台湾のみに現存する制度)

4. さらに『ローマ字』
そして、今日の日本には、
「『カタカナ/ひらがな』を『ローマ字』に変換する」(ローマ字化する / Romanize)
という “結構タイヘンな仕事” がある。
- 安倍 晋三 (JA-wikipedia, EN-wikipedia)
- ⇒ あべ しんぞう
- ⇒ Shinzo Abe (ABE, Shinzo)
子供が生まれた時 “出生届” に『よみがな』(ひらがな)を書かされる。しかし『ローマ字』を書かされることはない。つまり、「アルファベットでの名前」が命名されることがないのだ。(ちなみに出生届の名前自体をアルファベットで書いてしまう、という荒業も戸籍法上ダメ)
結果、いざアルファベットの『メールアカウント』を作成するときに(作成してもらうときに)困ったりする。。。
法人名(商号)の場合も、登記されているのは一つの文字列だけ。つまり「日本語表記」と「アルファベット表記」が登記されている訳ではない。もっとも、2018年以降は『フリガナ』が管理されるようになっている。ちなみに、混乱を避けるべく「アルファベット表記」を “定款” で決めている会社は多い。

5. ローマ字化ルール
“ルール” はある。小学校でも習う。
パスポート発行時のローマ字変換ルール(Romanize)は “ヘボン式” と呼ばれている(と外務省が言っている)方式だ。
しかし “ヘボン式” は時代とともに変化してきた。つまり、10年・20年もすれば「ひらがな⇒ローマ字」の変換ルールが変わってしまう。決して安定的なルールとは言えないのだ。
また “ヘボン式” はそもそも『よみがな』(ひらがな)ではなく「よみ方」(発音方法)から変換する。したがって、発音方法を変えれば(が変われば?)、「アルファベットでの名前」が変わってしまう。「しんぞう」は「Shinzo」であって「Shinzo “u”」ではない。
ヘボンさんは、アメリカ人だ。(ジェームス・カーティス・ヘボン)。まだ江戸時代だった1859年(日米和親条約〔1854年〕のわずか5年後!)に来日し、和英辞典の編纂にも携わった。彼の名前は原語発音に近い「ヘボン」とカナ表記された。しかし、”James Curtis Hepburn” なので、今なら「ヘップバーン」とカナ表記されるだろう。。。(映画俳優 オードリー・ヘプバーン/Audrey Hepburn と同じ姓) ”カタカナ化ルール”(Japanize)も安定性とは無縁のヨウダ。
6. なぜ自動化しづらいか?
特にモンダイなのは、、、『よみがな』(ひらがな)ではなく、、、「よみ方」(発音方法)に依存するという仕様そのものだ。特に長音。
たしかに「しんぞう」であれば “シンゾー” と発音することに異論はない。仮名遣いの基本ルールにも沿っている。
- 1946年: 【内閣告示】「現代かなづかい」(現代かなづかいは「現代語音に基づく」)
- 1986年: 【内閣告示】「現代仮名遣い」(「準則」⇒「よりどころ」制限色を緩和)
- (1) ア列の長音 ア列の仮名に「あ」を添える。
- (2) イ列の長音 イ列の仮名に「い」を添える。
- (3) ウ列の長音 ウ列の仮名に「う」を添える。
- (4) エ列の長音 エ列の仮名に「え」を添える。
- (5) オ列の長音 オ列の仮名に『う』を添える。
しかし例外も多い。
- 表記の慣習による特例
- 次のような語は、(長音として発音される場合であっても)、オ列の仮名に「お」を添えて書く。
- ※歴史的仮名遣いでオ列の仮名に「ほ」又は「を」が続いていたもの
- おおかみ、おおせ(仰)、おおやけ(公)、こおり(氷・郡)、こおろぎ、ほお(ホホ・朴)、ほおずき、ほのお(炎)、とお(十)、いきどおる(憤)、おおう(覆)、こおる(凍)、しおおせる、とおる(通)、とどこおる(滞)、もよおす(催)、いとおしい、おおい(多)、おおきい(大)、とおい(遠)、おおむね、おおよそ
つまり、、、もし『東洞院通』という名前があれば、『ヒガシノトーインドーリ』と読むが『ひがしのと“う”いんど“お”り』と書く。そして『Higashinot“o”in D“o”ri』とローマ字化する。
もはやカオスだ。。。

7. ローマ字化は半自動で?
そして、近年に至っては “ヘボン式によらないローマ字表記” も認められるようになった。
こうなればもう、カオスどころではない。。。(ナンデモアリだ)
と、、、いうことで、、、、特に人名や法人名の「カタカナ化」「ローマ字化」は人間とコンピュータが協調して作業するのが良いと思っている。(ナウ)
※ JavaScript のソースコードは以下を参照してください。
https://support.questetra.com/ja/tips/task-form-decoration-202208/#convert-to-roman-letters