親指Blog

キーボードによる文字入力関連(主に親指シフト)のBlogです。過去記事には色々入ってますが気にしないでください。

ひらがな出現頻度いろいろ

 最近何度も同じサイトを検索することが多いので、ここでまとめておく。

 

 ・ CNN・ABC・VOAの各ニュースの各分野からランダムに4万1600文字を抜き出して各文字についてカウント
Dvorakjp 文字頻度表

 ・10万字サンプル(種類色々)における文字の出現頻度。(10万字サンプルについて
Weblog 61℃: 10万字サンプルにおける文字の出現頻度。

・約一年分の日記やメモから75万字
 漢直ノート ひらがな1-gram表

 ・日記抽出による全244万文字
自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き) - 雑記/えもじならべあそび

はてなダイアリー日記内かな連接頻度データ452万文字分
452万文字分の、はてなダイアリー日記内かな連接頻度データ。- 雑記/えもじならべあそび

 ・青空文庫からですます調主体600万字+丁寧なビジネス文書・手紙100万字程で計700万字(2015/10/16追記)
飛鳥カナ配列 ☆未来の子供たちへの贈り物☆(ソースは2ch)

・  月見草は口語体ベースで1795万字の文章サンプルを元に計算されているよう。 (2015/10/16追記)
月見草開発に用いた文章サンプル -最適化計算によるかな配列『月見草』

雑記/えもじならべあそびさんの所にギガクラスの大規模N-gramデータの情報があった。(2015/10/14追記)
大規模N-gramデータが公開されていた……改正著作権法の施行後に公開されたものらしく、作者提示の利用条件で安心して使えるところも◎

 

 対して、NICOLA国立国語研究所「電子計算機による新聞の語彙調査」(秀英出 版)から抽出した熟語漢字3271語と、雑誌「言語生活」(築摩書房)収載の 「録音機」より話し言葉約1万5000語(合計約1万8000語)を抽出して配列の参考にしたとのこと。(2015/10/15追記)
NICOLA配列キーボード 日本工業規格(JIS)化要望書 -日本語コンソーシアム

  また、分析データは無いが、TRONはビジネスマン向けの単行本、ビジネスレター、コンピュータのマニュアルを解析して160万文字サンプル取ったようだ。
BTRONにおける入力方式 -TRONキーボードの設計-

 

 しかし、ここまでサンプル文字数が必要ということは、文字使用の傾向は結局「人に寄る」ということだろう。
 いろんなところでも言われているが、上位10~15位当たりまでで全かなの50%以上が入力可能のようだ。ならば、後は「人に寄る」訳で、あまり真剣に考える必要はないんじゃないかと言うのは暴論だろうか?

 

あと覚え書きで、

日本語処理研究工房 ことばの森

特定非営利活動法人 言語資源協会(GSK)

データは豊富にあるようですなあ。

しかしホントこの頃の前人の方々の努力には頭が下がります。