ひらがな・カタカナ・ローマ字の自動変換

2022-09-01

Updated：

2025-05-12

IMAMURA, Genichi

『ルーチン業務の自動化』について相談を受ける機会は少なくない。
たまに『日本語変換の自動化』というケースに遭遇する。（ひらがな・カタカナ・ローマ字）
＃法人向けの “ワークフローSaaS” を開発している会社なのだから、アタリマエか…。

その度に、つくづく思う。。。
「日本語ってタイヘンだなぁ」と。。。（≒「日本人ってタイヘンだなぁ」）

1. 文字セットが5種類も？

日本語。まずもって、様々な “文字セット” が使い分けられている、、、ってのがスゴイ。

ひらがな 〔46文字〕（厳密には86文字）
カタカナ 〔46文字〕（厳密には90文字）
半角カタカナ 〔46文字〕（厳密には58文字）
漢字〔2136文字を小学校と中学校の9年間で覚える〕
ローマ字（アルファベット）

“全ての文字” を覚えるだけでもタイヘンだ。これだけ字種が多いと『国語』（日本語）の時間がいくらあっても足りない。（？！？）

ISO/IEC 646（JIS X 0208）: 6,879文字 （←漢字だけだと6356文字）
ISO/IEC 10646（JIS X 0221）: 58,861文字

ただ、、、日本語に習熟すると、、、”文字セットの使い分け” によって、、、たとえば「Thank you のニュアンス」を変化させることも可能となる！！

「ありがとうございました」
「アリガトウゴザイマシタ」
「ｱﾘｶﾞﾄｳｺﾞｻﾞｲﾏｼﾀ」
「有り難う御座いました」
「Arigato Gozaimashita」

我々日本人は、実に不思議な言語（日本語）に支配されている。。。

近年の日本人は、「5種類の文字セットだけでは表現力が乏しい！」と考え（？）、、、新たに『絵文字』（Emoji！）なる文字セット（？？）を開発し、、、全世界に布教している。 🥋 😀

2. たとえば『半角カタカナ』

実は、今日の日本には、

「『半角カタカナ』を『全角カタカナ』に変換する」

という “不毛な事務作業” が、残っていたりする。

有名ドコロでいえば『都市銀行の振込ログ』だ。”API経由で取得したデータ” であっても、未だに『半角カタカナ』となっている。

ｷﾖｳﾄﾀﾞｲｶﾞｸｶﾞｸﾁﾖｳﾐﾅﾄﾅｶﾞﾋﾛ
- COM？⇒ キヨウトダイガクガクチヨウミナトナガヒロ
- ヒト？⇒ キョウトダイガクガクチョウミナトナガヒロ
ｻﾞｲ)ｷﾖｳﾄﾀﾞｲｶﾞｸｱｲﾋﾟ-ｴｽｻｲﾎﾞｳｹ
- COM？⇒ ザイ)キヨウトダイガクアイピ–エスサイボウケ
- ヒト？⇒ ザイ)キョウトダイガクアイピーエスサイボウケンキュウザイダン

“情報の欠落度” がこのレベルにまで至ると、もはやスクリプトレベルの “文字置換” では対応できない。すなわち、”人間知能” や “辞書登録” （や “人工知能” ！）を駆使して情報を補完してやる必要がある。

ちなみに全国銀行協会の『全銀システム』（ZENGIN）は、極めて信頼性の高い集中決済システムだ。しかしながら、たとえば “拗音や促音は使用できない” などの厳しいシバリ（ャュョッ→ヤユヨツ）がある。いわば “スペシャルな文字セット” となっている。要するに、安定感はあるが、ちょっと使いづらい。。。（ボソっ）

3. たとえば『ひらがな』

あるいは、今日の日本にも、

「『漢字』を『ひらがな』に変換する」

という “ナゾな事務作業” が残っていたりもする。

菅直人（かんなおと）
野田佳彦（のだよしひこ）
安倍晋三（あべしんぞう）
菅義偉（すがよしひで）
岸田文雄（きしだふみお）

何のことはナイ。日本人も『漢字』の “読み方” がワカラナイのだ。

なお “読み方” を知っているヒトにとっては、”冗長でノイジーな情報” になってしまう。なので、想定する読者が読めそうな漢字に対しては『ひらがな』を付記しない（『振り仮名』を付けない）。

実際、ここに例示した5人は超有名人〔首相〕なので、多くのヒトが読める。（ハズ）（と思う）（たぶん…）（きっと…）（どうかなー）

“姓名で使われる漢字” はナンギだ。同じ漢字でも “読み方” が大きく異なる場合がある。（e.g.; 菅さん → すがさん／かんさん）　にもカカワラズ『個人番号カード』にも『運転免許証』にも “読み方” の記載はナイ。（『健康保険証』にはアル。『出生届』では書かされる。）　最近、サスガに「正しい読み方がドコにも定義されていないのはマズい」「行政手続き等のデジタル化において不都合だ」ということで、戸籍レベルで氏名に『読み仮名』をつけるための法改正が為されようとしている。（※戸籍：日本・中国・台湾のみに現存する制度）

4. さらに『ローマ字』

そして、今日の日本には、

「『カタカナ/ひらがな』を『ローマ字』に変換する」（ローマ字化する／ Romanize）

という “結構タイヘンな仕事” がある。

安倍晋三 (JA-wikipedia, EN-wikipedia)
- ⇒ あべしんぞう
- ⇒ Shinzo Abe (ABE, Shinzo)

子供が生まれた時 “出生届” に『よみがな』（ひらがな）を書かされる。しかし『ローマ字』を書かされることはない。つまり、「アルファベットでの名前」が命名されることがないのだ。（ちなみに出生届の名前自体をアルファベットで書いてしまう、という荒業も戸籍法上ダメ）

結果、いざアルファベットの『メールアカウント』を作成するときに（作成してもらうときに）困ったりする。。。

法人名（商号）の場合も、登記されているのは一つの文字列だけ。つまり「日本語表記」と「アルファベット表記」が登記されている訳ではない。もっとも、2018年以降は『フリガナ』が管理されるようになっている。ちなみに、混乱を避けるべく「アルファベット表記」を “定款” で決めている会社は多い。

5. ローマ字化ルール

“ルール” はある。小学校でも習う。

パスポート発行時のローマ字変換ルール（Romanize）は “ヘボン式” と呼ばれている（と外務省が言っている）方式だ。

しかし “ヘボン式” は時代とともに変化してきた。つまり、10年・20年もすれば「ひらがな⇒ローマ字」の変換ルールが変わってしまう。決して安定的なルールとは言えないのだ。

また “ヘボン式” はそもそも『よみがな』（ひらがな）ではなく「よみ方」（発音方法）から変換する。したがって、発音方法を変えれば（が変われば？）、「アルファベットでの名前」が変わってしまう。「しんぞう」は「Shinzo」であって「Shinzo “u”」ではない。

ヘボンさんは、アメリカ人だ。（ジェームス・カーティス・ヘボン）。まだ江戸時代だった1859年（日米和親条約〔1854年〕のわずか5年後！）に来日し、和英辞典の編纂にも携わった。彼の名前は原語発音に近い「ヘボン」とカナ表記された。しかし、”James Curtis Hepburn” なので、今なら「ヘップバーン」とカナ表記されるだろう。。。（映画俳優オードリー・ヘプバーン／Audrey Hepburn と同じ姓）　”カタカナ化ルール”（Japanize）も安定性とは無縁のヨウダ。

文字列, 全角数字を半角数字に一括置換

文字列: 大文字へ一括置換

6. なぜ自動化しづらいか？

特にモンダイなのは、、、『よみがな』（ひらがな）ではなく、、、「よみ方」（発音方法）に依存するという仕様そのものだ。特に長音。

たしかに「しんぞう」であれば “シンゾー” と発音することに異論はない。仮名遣いの基本ルールにも沿っている。

1946年: 【内閣告示】「現代かなづかい」（現代かなづかいは「現代語音に基づく」）
1986年: 【内閣告示】「現代仮名遣い」（「準則」⇒「よりどころ」制限色を緩和）
- (1) ア列の長音　ア列の仮名に「あ」を添える。
- (2) イ列の長音　イ列の仮名に「い」を添える。
- (3) ウ列の長音　ウ列の仮名に「う」を添える。
- (4) エ列の長音　エ列の仮名に「え」を添える。
- (5) オ列の長音　オ列の仮名に『う』を添える。

しかし例外も多い。

表記の慣習による特例
- 次のような語は、（長音として発音される場合であっても）、オ列の仮名に「お」を添えて書く。
- ※歴史的仮名遣いでオ列の仮名に「ほ」又は「を」が続いていたもの
- おおかみ、おおせ（仰）、おおやけ（公）、こおり（氷・郡）、こおろぎ、ほお（ホホ・朴）、ほおずき、ほのお（炎）、とお（十）、いきどおる（憤）、おおう（覆）、こおる（凍）、しおおせる、とおる（通）、とどこおる（滞）、もよおす（催）、いとおしい、おおい（多）、おおきい（大）、とおい（遠）、おおむね、おおよそ

つまり、、、もし『東洞院通』という名前があれば、『ヒガシノトーインドーリ』と読むが『ひがしのと“う”いんど“お”り』と書く。そして『Higashinot“o”in D“o”ri』とローマ字化する。

もはやカオスだ。。。

7. ローマ字化は半自動で？

そして、近年に至っては “ヘボン式によらないローマ字表記” も認められるようになった。

こうなればもう、カオスどころではない。。。（ナンデモアリだ）

と、、、いうことで、、、、特に人名や法人名の「カタカナ化」「ローマ字化」は人間とコンピュータが協調して作業するのが良いと思っている。（ナウ）

Online DEMO (public form)

※ JavaScript のソースコードは以下を参照してください。

https://support.questetra.com/ja/tips/task-form-decoration-202208/#convert-to-roman-letters

Task Form Decoration 202208

Appendix

フォーム画面でデータ項目の値を取得／更新する

スタッフブログ

新着記事

ひらがな・カタカナ・ローマ字の自動変換

1. 文字セットが5種類も？

2. たとえば『半角カタカナ』

3. たとえば『ひらがな』

4. さらに『ローマ字』

5. ローマ字化ルール

6. なぜ自動化しづらいか？

7. ローマ字化は半自動で？

Appendix

スタッフブログ

意外と難解な【タスク】

「PDCA サイクル」と「BPM サイクル」は何が違うのか？

「親アプリ」から「子アプリ」を呼び出す方法

BPM的リーダーシップ論

BPMS のワークフロー案件を「貨物列車」で喩えるなら？～ BPM の専門用語を【メタファ】で理解する試み～

まずはお気軽にお試しください

ひらがな・カタカナ・ローマ字の自動変換

1. 文字セットが5種類も？

2. たとえば『半角カタカナ』

3. たとえば『ひらがな』

4. さらに『ローマ字』

5. ローマ字化ルール

6. なぜ自動化しづらいか？

7. ローマ字化は半自動で？

Appendix

スタッフブログ

意外と難解な【タスク】

「PDCA サイクル」と「BPM サイクル」は何が違うのか？

「親アプリ」から「子アプリ」を呼び出す方法

BPM的リーダーシップ論

BPMS のワークフロー案件を「貨物列車」で喩えるなら？ ～ BPM の専門用語を【メタファ】で理解する試み ～

まずはお気軽にお試しください

Questetra BPM Suiteをもっと見る

BPMS のワークフロー案件を「貨物列車」で喩えるなら？～ BPM の専門用語を【メタファ】で理解する試み～