『ルーチン業務の自動化』について相談を受ける機会は少なくない。
たまに『日本語変換の自動化』というケースに遭遇する。(ひらがな・カタカナ・ローマ字)
#法人向けの “ワークフローSaaS” を開発している会社なのだから、アタリマエか…。

その度に、つくづく思う。。。
「日本語ってタイヘンだなぁ」と。。。(≒「日本人ってタイヘンだなぁ」)

No-Code ワークフロー

1. 文字セットが5種類も?

日本語。まずもって、様々な “文字セット” が使い分けられている、、、ってのがスゴイ。

  • ひらがな 〔46文字〕(厳密には86文字)
  • カタカナ 〔46文字〕(厳密には90文字)
  • 半角カタカナ 〔46文字〕(厳密には58文字)
  • 漢字2136文字小学校と中学校の9年間で覚える〕
  • ローマ字(アルファベット)

“全ての文字” を覚えるだけでもタイヘンだ。これだけ字種が多いと『国語』(日本語)の時間がいくらあっても足りない。(?!?)

  • ISO/IEC 646(JIS X 0208): 6,879文字 (←漢字だけだと6356文字)
  • ISO/IEC 10646(JIS X 0221): 58,861文字

ただ、、、日本語に習熟すると、、、”文字セットの使い分け” によって、、、たとえば「Thank you のニュアンス」を変化させることも可能となる!!

  • 「ありがとうございました」
  • 「アリガトウゴザイマシタ」
  • 「アリガトウゴザイマシタ」
  • 「有り難う御座いました」
  • 「Arigato Gozaimashita」

我々日本人は、実に不思議な言語(日本語)に支配されている。。。

近年の日本人は、「5種類の文字セットだけでは表現力が乏しい!」と考え(?)、、、新たに『絵文字』(Emoji!)なる文字セット(??)を開発し、、、全世界に布教している。 🥋 😀

2. たとえば『半角カタカナ』

実は、今日の日本には、

『半角カタカナ』を『全角カタカナ』に変換する」

という “不毛な事務作業” が、残っていたりする。

有名ドコロでいえば『都市銀行の振込ログ』だ。”API経由で取得したデータ” であっても、未だに『半角カタカナ』となっている。

  • キヨウトダイガクガクチヨウ ミナトナガヒロ
    • COM?⇒ キウトダイガクガクチヨウ ミナトナガヒロ
    • ヒト?⇒ キウトダイガクガクチョウ ミナトナガヒロ
  • ザイ)キヨウトダイガク アイピ-エスサイボウケ
    • COM?⇒ ザイ)キウトダイガク アイピエスサイボウケ
    • ヒト?⇒ ザイ)キウトダイガク アイピエスサイボウケンキュウザイダン

“情報の欠落度” がこのレベルにまで至ると、もはやスクリプトレベルの “文字置換” では対応できない。すなわち、”人間知能” や “辞書登録” (や “人工知能” !)を駆使して情報を補完してやる必要がある。

ちなみに全国銀行協会の『全銀システム』(ZENGIN)は、極めて信頼性の高い集中決済システムだ。しかしながら、たとえば “拗音や促音は使用できない” などの厳しいシバリ(ャュョッ→ヤユヨツ)がある。いわば “スペシャルな文字セット” となっている。要するに、安定感はあるが、ちょっと使いづらい。。。(ボソっ)

Unicode for Japanese Hiragana Katakana

3. たとえば『ひらがな』

あるいは、今日の日本にも、

「『漢字』を『ひらがな』に変換する」

という “ナゾな事務作業” が残っていたりもする。

  • 菅 直人 (かん なおと
  • 野田 佳彦 (のだ よしひこ
  • 安倍 晋三 (あべ しんぞう
  • 菅 義偉 (すが よしひで
  • 岸田 文雄 (きしだ ふみお

何のことはナイ。日本人も『漢字』の “読み方” がワカラナイのだ。

なお “読み方” を知っているヒトにとっては、”冗長でノイジーな情報” になってしまう。なので、想定する読者が読めそうな漢字に対しては『ひらがな』を付記しない(『振り仮名』を付けない)。

実際、ここに例示した5人は超有名人〔首相〕なので、多くのヒトが読める。(ハズ)(と思う)(たぶん…)(きっと…)(どうかなー)

“姓名で使われる漢字” はナンギだ。同じ漢字でも “読み方” が大きく異なる場合がある。(e.g.; 菅さん → すがさん/かんさん) にもカカワラズ『個人番号カード』にも『運転免許証』にも “読み方” の記載はナイ。(『健康保険証』にはアル。『出生届』では書かされる。) 最近、サスガに「正しい読み方がドコにも定義されていないのはマズい」「行政手続き等のデジタル化において不都合だ」ということで、戸籍レベルで氏名に『読み仮名』をつけるための法改正が為されようとしている。 (※戸籍:日本・中国・台湾のみに現存する制度)

4. さらに『ローマ字』

そして、今日の日本には、

「『カタカナ/ひらがな』を『ローマ字』に変換する」(ローマ字化する / Romanize)

という “結構タイヘンな仕事” がある。

子供が生まれた時 “出生届” に『よみがな』(ひらがな)を書かされる。しかし『ローマ字』を書かされることはない。つまり、「アルファベットでの名前」が命名されることがないのだ。(ちなみに出生届の名前自体をアルファベットで書いてしまう、という荒業も戸籍法上ダメ)

結果、いざアルファベットの『メールアカウント』を作成するときに(作成してもらうときに)困ったりする。。。

法人名(商号)の場合も、登記されているのは一つの文字列だけ。つまり「日本語表記」と「アルファベット表記」が登記されている訳ではない。もっとも、2018年以降は『フリガナ』が管理されるようになっている。ちなみに、混乱を避けるべく「アルファベット表記」を “定款” で決めている会社は多い。

5. ローマ字化ルール

“ルール” はある。小学校でも習う。

パスポート発行時のローマ字変換ルール(Romanize)は “ヘボン式” と呼ばれている(と外務省が言っている)方式だ。

しかし “ヘボン式” は時代とともに変化してきた。つまり、10年・20年もすれば「ひらがな⇒ローマ字」の変換ルールが変わってしまう。決して安定的なルールとは言えないのだ。

また “ヘボン式” はそもそも『よみがな』(ひらがな)ではなく「よみ方」(発音方法)から変換する。したがって、発音方法を変えれば(が変われば?)、「アルファベットでの名前」が変わってしまう。「しんぞう」は「Shinzo」であって「Shinzo “u”」ではない。

ヘボンさんは、アメリカ人だ。(ジェームス・カーティス・ヘボン)。まだ江戸時代だった1859年(日米和親条約〔1854年〕のわずか5年後!)に来日し、和英辞典の編纂にも携わった。彼の名前は原語発音に近い「ヘボン」とカナ表記された。しかし、”James Curtis Hepburn” なので、今なら「ヘップバーン」とカナ表記されるだろう。。。(映画俳優 オードリー・ヘプバーン/Audrey Hepburn と同じ姓) ”カタカナ化ルール”(Japanize)も安定性とは無縁のヨウダ。

6. なぜ自動化しづらいか?

特にモンダイなのは、、、『よみがな』(ひらがな)ではなく、、、「よみ方」(発音方法)に依存するという仕様そのものだ。特に長音。

たしかに「しんぞう」であれば “シンゾー” と発音することに異論はない。仮名遣いの基本ルールにも沿っている。

  • 1946年: 【内閣告示】「現代かなづかい」(現代かなづかいは「現代語音に基づく」)
  • 1986年: 【内閣告示】「現代仮名遣い」(「準則」⇒「よりどころ」制限色を緩和)
    • (1) ア列の長音 ア列の仮名に「あ」を添える。
    • (2) イ列の長音 イ列の仮名に「い」を添える。
    • (3) ウ列の長音 ウ列の仮名に「う」を添える。
    • (4) エ列の長音 エ列の仮名に「え」を添える。
    • (5) オ列の長音 オ列の仮名に『う』を添える。

しかし例外も多い。

  • 表記の慣習による特例
    • 次のような語は、(長音として発音される場合であっても)、オ列の仮名に「お」を添えて書く。
    • 歴史的仮名遣いでオ列の仮名に「ほ」又は「を」が続いていたもの
    • おおかみ、おおせ(仰)、おおやけ(公)、こおり(氷・郡)、こおろぎ、ほお(ホホ・朴)、ほおずき、ほのお(炎)、とお(十)、いきどおる(憤)、おおう(覆)、こおる(凍)、しおおせる、とおる(通)、とどこおる(滞)、もよおす(催)、いとおしい、おおい(多)おおきい(大)とおい(遠)、おおむね、おおよそ

つまり、、、もし『東洞院通』という名前があれば、『ヒガシノトインドリ』と読む『ひがしのと“う”いんど“お”り』と書く。そして『Higashinot“o”in D“o”ri』とローマ字化する。

もはやカオスだ。。。

7. ローマ字化は半自動で?

そして、近年に至っては “ヘボン式によらないローマ字表記” も認められるようになった。

こうなればもう、カオスどころではない。。。(ナンデモアリだ)

と、、、いうことで、、、、特に人名や法人名の「カタカナ化」「ローマ字化」は人間とコンピュータが協調して作業するのが良いと思っている。(ナウ)

Online DEMO (public form)

※ JavaScript のソースコードは以下を参照してください。

https://support.questetra.com/ja/tips/task-form-decoration-202208/#convert-to-roman-letters

Appendix

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

Scroll to Top
%d人のブロガーが「いいね」をつけました。