文字の出現頻度

From Wikipedia, the free encyclopedia

文字の出現頻度(もじのしゅつげんひんど、: Letter frequency)とは、書記言語においてアルファベットひらがな漢字)などの文字が出現する回数の平均をまとめたものを指す。文字の頻度分析アラブ人数学者のアル=キンディー(801–873)が暗号解読を行うために確立したことから始まる[1]。またヨーロッパにおいては文字の頻度分析は1450年に活字が発明され、活字に必要な各字形の量を推定するために重要性を増した[2]。一方言語学者の間では未知の表記体系に対する言語同定の技法として文字の頻度分析を行っている[3]

英語における文字の出現頻度

文字の出現頻度や頻度分析暗号文ハングマンスクラブルWordleのような単語パズルゲームにおいて利用されており[4]、米国のテレビ番組『ホイール・オブ・フォーチュン』においても利用されている[5]エドガー・アラン・ポーの小説『黄金虫』では英文字の出現頻度の知見を活かして暗号文の解読を行った記述がある古い文献の一つであり[6]キャプテン・キッド秘蔵の財宝のありかを示すメッセージを頻度分析により解読している[7]

ハーバード・ジムは暗号学入門著書『Codes and Secret Writing』において英語の出現頻度は "ETAON RISHD LFCMU GYPWB VKJXZQ" の順序で出現頻度が高いとし、2文字(連接文字)に関しては "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO"、同じ文字が連続して出現する順序は "LL EE SS OO TT FF RR NN PP CC" である[8]。なお、出現頻度の加算方法の違いによって数値は多少変動する場合がある。

文字の出現頻度は一部のキーボード配列のデザインにも影響を与えている[9]ブリッケンデルファー型タイプライターDvorak配列Colemak配列などは出現頻度の高い文字をホームポジションに配置している[10]

背景

カリフォルニア・ジョブ・ケースは19世紀に発明された印刷時に必要となる活字を収納するケースであり、文字の普遍性に応じて各文字のスペースが区切られている[11]

文書中における文字の出現頻度は暗号解読において研究され、特にアラブ人数学者のアル=キンディー(801–873)が頻度分析の手法を確立したことで広まったとされる(頻度分析を用いて解読できる暗号は頻度分析の前から存在するガイウス・ユリウス・カエサルが発明したシーザー暗号が挙げられ[12]、頻度分析自体はより以前から研究されていた可能性がある。)[1]。1450年にはヨーロッパにおいて活版印刷が発明され、活字ケースの区画スペースの大きさがそれぞれ違うことからも読み取れるように、活版印刷に必要な各文字の字形の量を推定する必要が生じたことで文字の出現頻度分析の重要性が増した[2]

すべての言語において厳密な文字の出現頻度の分布は文字の書き手によって使用する文法や単語が異なるため、求めることが不可能である[13]。しかしながら、ほとんどの言語において一定量の文書内での文字の出現頻度は特有の分布が現れる。例として、(互いに理解することが困難とされ、)極端な言語の変遷を経た古英語と現代英語それぞれの文字の出現頻度においても類似した特徴を持つことがある[14]。聖書のある一節における両者の文字の出現頻度は高い順に、古英語: enaid sorhm tgþlwu æcfy ðbpxz、現代英語: eotha sinrd luymw fgcbp kvjqxz となり[15]、違いとしては第一にそれぞれでのみ使用されている文字が存在することが挙げられるが、両者とも e が最も出現頻度の高い文字である[16]

英語圏でのライノタイプを使用していた職人の長年の経験と習慣から文字の出現頻度の高い順から低い順に etaoin shrdlu cmfwyp vbgkqj xz であると考えられており[17]、フランス語圏においては elaoin sdrétu cmfhyp vbgwqj xz の出現頻度であると考えられていた[18]

モールス符号。Eを短点一つ、Aを長点一つ...と文字の出現頻度が高い順に短い符号が割り当てられている[19]

各アルファベットのモールス符号を通信にかかる時間が短いまとまり順に並べると e it san hurdm wgvlfbk opxcz jyq となる[注釈 1]。文字の出現頻度はMurray Codeのような他の電信システムにおいても考慮されている[21]

文字の出現頻度における同様の利用例としてはハフマン符号のような現代のデータ圧縮などが挙げられる[22]

文字の出現頻度は単語の出現頻度英語版と同様に書き手や記述されている内容によって異なった出現頻度となる[23]。フィクション小説を例としてみると、文章の時制が過去形で書かれることが多くなることから[24]d の出現頻度が高くなるとされている。またX線に関するエッセイの文字の出現頻度は x が異様に高くなることが考えられる[13]。加えて、執筆者の言葉の言い回しからも文字の出現頻度は影響を受けるとされる[25]。例として、芥川龍之介の文体と菊池寛の文体は文字の頻度分析によって明確に区別することが可能であると検証されている[26]。単文字、バイグラムトライグラム、単語の出現頻度、単語の長さ、文章の長さを求めることで文章の表現方法が類似している著者の作品に対して、識別することが可能となる[27][13]

より厳密な文字の出現頻度は大規模な文書データを分析することで求めることができる。大規模な文書データに対する分析は現代のコンピュータと大規模なテキストコーパスを使用することで容易に行うことができる。より具体的には(出版記事、宗教文書、学術文書、フィクション小説など)さまざまな資料をもとに出現頻度を求めることができる[28]

また同じ言語を使用する地域ごとにも文字の出現頻度はそれぞれ違いがある。例として、米国では "analyze"、"apologize"、"recognize" のように z が含まれた単語を用いているが、英国においてはこれらの単語がそれぞれ "analyse"、"apologise"、"recognise" のように異なった綴りで書かれている[29]。このことから米国における z の出現頻度は英国とは異なった出現頻度とされる[30]

アルファベットにおいて出現頻度の高い上位十二文字の割合は約 80% にも達する[31]。また上位八文字のみについても出現頻度は 65% に達する。文字の出現頻度はいくつかのランク関数によく適合し、中でも2つパラメータを持つベータランク関数が最も適合する[32]。パラメータを持たないランク関数も文字の出現頻度の分布に適合される(これらのランク関数はタンパク質構造におけるアミノ塩基の出現頻度を表す際にも使用されている[33][34]VIC暗号英語版ストラドリング・チェッカーボード英語版に基づいた暗号を使用するスパイは通常 "a sin to err"(2つ目の "r" を省略)[35][36] や "at one sir"[37] といった語呂合わせを用いて出現頻度の高い八文字を記憶する。

日本語における文字の出現頻度

平仮名

平仮名の出現頻度は以下の表の通りである[38][39]。分析に使用したデータにおける平仮名の総数は 20,711,361文字である[38]

さらに見る 順位, 平仮名 ...
順位平仮名度数割合
11,918,3139.262%9.262
 
21,108,8405.354%5.354
 
31,067,5665.155%5.155
 
41,060,2845.119%5.119
 
5937,8114.528%4.528
 
6936,3564.521%4.521
 
7927,9384.480%4.48
 
8916,6524.425%4.425
 
9860,7424.156%4.156
 
10848,1324.095%4.095
 
11764,8343.693%3.693
 
12758,3163.661%3.661
 
13720,1563.477%3.477
 
14537,2942.594%2.594
 
15467,3502.257%2.257
 
16450,8052.177%2.177
 
17423,2942.044%2.044
 
18396,1421.913%1.913
 
19352,9651.704%1.704
 
20340,6541.645%1.645
 
21333,9991.613%1.613
 
22312,2271.508%1.508
 
23280,9111.356%1.356
 
24278,5991.345%1.345
 
25258,9601.250%1.25
 
26233,5051.127%1.127
 
27223,8061.081%1.081
 
28221,9601.072%1.072
 
29204,2560.986%0.986
 
30199,3620.963%0.963
 
31196,5550.949%0.949
 
32190,0680.918%0.918
 
33163,6640.790%0.79
 
34154,2060.745%0.745
 
35153,9990.744%0.744
 
36146,1560.706%0.706
 
37131,6110.635%0.635
 
38123,0770.594%0.594
 
3999,1830.479%0.479
 
4089,2640.431%0.431
 
4183,4440.403%0.403
 
4273,4670.355%0.355
 
4372,2280.349%0.349
 
4465,8700.318%0.318
 
4556,8570.275%0.275
 
4656,0050.270%0.27
 
4753,2560.257%0.257
 
4849,1260.237%0.237
 
4948,7520.235%0.235
 
5047,0130.227%0.227
 
5132,3120.156%0.156
 
5231,2120.151%0.151
 
5326,9650.130%0.13
 
5423,4900.113%0.113
 
5523,2800.112%0.112
 
5621,5490.104%0.104
 
5719,8650.096%0.096
 
5819,1480.092%0.092
 
5914,4250.070%0.07
 
6013,1250.063%0.063
 
6112,4020.060%0.06
 
6212,1080.058%0.058
 
6311,6060.056%0.056
 
6411,5220.056%0.056
 
6510,0470.049%0.049
 
668,4860.041%0.041
 
676,8930.033%0.033
 
685,1240.025%0.025
 
694,3490.021%0.021
 
702,7550.013%0.013
 
711,6080.008%0.008
 
721,3150.006%0.006
 
739860.005%0.005
 
744770.002%0.002
 
751250.001%0.001
 
761060.001%0.001
 
77820.000%
78750.000%
79480.000%
80210.000%
81210.000%
8230.000%
8310.000%
閉じる

片仮名

片仮名の出現頻度は以下の表の通りである[40][39]。分析に使用したデータにおける片仮名の総数は 3,608,288文字である[40]

さらに見る 順位, 片仮名 ...
順位片仮名度数割合
1290,9488.063%8.063
 
2189,4425.250%5.25
 
3178,2144.939%4.939
 
4162,8024.512%4.512
 
5127,8453.543%3.543
 
6120,8073.348%3.348
 
7117,2033.248%3.248
 
8106,7442.958%2.958
 
998,2092.722%2.722
 
1086,8942.408%2.408
 
1182,9822.300%2.3
 
1280,6262.235%2.235
 
1375,3192.087%2.087
 
1475,3012.087%2.087
 
1574,2572.058%2.058
 
1661,1711.695%1.695
 
1761,1151.694%1.694
 
1860,6081.680%1.68
 
1960,2301.669%1.669
 
2058,7241.628%1.628
 
2156,1231.555%1.555
 
2254,1591.501%1.501
 
2353,4041.480%1.48
 
2450,7581.407%1.407
 
2548,4371.342%1.342
 
2644,9701.246%1.246
 
2744,4621.232%1.232
 
2840,4331.121%1.121
 
2939,6081.098%1.098
 
3039,3231.090%1.09
 
3139,2021.086%1.086
 
3238,7111.073%1.073
 
3338,0471.054%1.054
 
3436,4581.010%1.01
 
3535,9200.995%0.995
 
3635,4160.982%0.982
 
3734,8830.967%0.967
 
3834,7180.962%0.962
 
3933,7470.935%0.935
 
4032,6650.905%0.905
 
4132,6160.904%0.904
 
4229,2620.811%0.811
 
4328,1440.780%0.78
 
4426,6510.739%0.739
 
4526,3960.732%0.732
 
4624,5410.680%0.68
 
4723,7420.658%0.658
 
4822,7550.631%0.631
 
4922,4620.623%0.623
 
5022,0610.611%0.611
 
5121,8390.605%0.605
 
5221,7840.604%0.604
 
5320,7840.576%0.576
 
5420,6330.572%0.572
 
5520,0700.556%0.556
 
5619,5720.542%0.542
 
5719,2400.533%0.533
 
5818,6920.518%0.518
 
5918,2040.505%0.505
 
6017,8170.494%0.494
 
6117,7310.491%0.491
 
6214,8810.412%0.412
 
6313,9310.386%0.386
 
6412,5260.347%0.347
 
6510,7320.297%0.297
 
6610,3180.286%0.286
 
6710,1440.281%0.281
 
6810,1210.280%0.28
 
697,6890.213%0.213
 
707,2890.202%0.202
 
717,1290.198%0.198
 
726,6530.184%0.184
 
736,4810.180%0.18
 
746,2450.173%0.173
 
752,8970.080%0.08
 
762,6400.073%0.073
 
771,1450.032%0.032
 
781,0500.029%0.029
 
791490.004%0.004
 
801270.004%0.004
 
811220.003%0.003
 
82730.002%0.002
 
83400.001%0.001
 
84140.000%
8590.000%
8620.000%
閉じる

漢字

文化庁によりまとめられた日本語における漢字の出現頻度上位50文字は以下の表の通りである[41]。分析に使用されたデータは総数177,276,398文字であり、そのうち漢字は51,258,216文字であった[42]。出現頻度の高い上位100文字はすべて常用漢字である[43]

さらに見る 順位, 漢字 ...
順位漢字割合
11.156%
20.996%
30.737%
40.709%
50.668%
60.629%
70.614%
80.612%
90.605%
100.594%
順位漢字割合
110.586%
120.539%
130.536%
140.535%
150.532%
160.522%
170.496%
180.493%
190.482%
200.478%
順位漢字割合
210.475%
220.467%
230.461%
240.445%
250.432%
260.426%
270.407%
280.389%
290.381%
300.379%
順位漢字割合
310.372%
320.371%
330.366%
340.357%
350.355%
360.348%
370.347%
380.341%
390.333%
400.332%
順位漢字割合
410.331%
420.322%
430.319%
440.314%
450.312%
460.308%
470.304%
480.304%
490.300%
500.297%
順位漢字割合
510.295%
520.292%
530.291%
540.291%
550.287%
560.282%
570.281%
580.277%
590.273%
600.273%
順位漢字割合
610.273%
620.268%
630.268%
640.266%
650.265%
660.261%
670.258%
680.249%
690.247%
700.247%
順位漢字割合
710.244%
720.244%
730.243%
740.241%
750.237%
760.236%
770.232%
780.228%
790.225%
800.225%
順位漢字割合
810.222%
820.221%
830.221%
840.218%
850.217%
860.114%
870.213%
880.213%
890.213%
900.210%
順位漢字割合
910.210%
920.210%
930.209%
940.208%
950.206%
960.205%
970.203%
980.202%
990.202%
1000.200%
閉じる

1993年の調査では、日本において使用される字体の異なる漢字の総数(異なり字)は計4476文字であり、出現頻度の高い漢字の上位500文字で出現頻度は約8割に達する[44]。また、出現頻度の高い漢字上位1600文字での出現頻度は約99%を占め、残りの約3000文字においては全体の1%程度の出現頻度となっている[44]

文字種別の出現頻度

日本語における記号、数字、平仮名、片仮名、漢字、アルファベットの文字の種類別の出現頻度は以下の通りとなる。

さらに見る 調査年, 文字種別出現頻度 ...
調査年文字種別出現頻度詳細出典
平仮名片仮名漢字アルファベット記号数字
1964年56.0%6.3%35.9%0.2%1.6%1964年当時の雑誌九十種に対する調査。総数83,923文字。[45]
1981年40.2%4.9%40.7%2.0%8.3%3.9%1981年当時のRICOHが保有する事務文書に対する調査。総数76,100文字。[46]
1994年35.7%16.0%26.9%3.9%17.6%1994年当時の雑誌七十種に対する調査。総数2,116,736文字。[45]
2000年34.06%6.34%41.46%0.46%15.58%2.10%1993年の新聞記事に対する調査。総数5,500万文字。[47]
閉じる

英語における文字の出現頻度

さらに見る 文字, 英語における相対出現頻度 ...
文字 英語における相対出現頻度[48][49]
A8.2%8.2
 
B1.5%1.5
 
C2.8%2.8
 
D4.3%4.3
 
E12.7%12.7
 
F2.2%2.2
 
G2.0%2
 
H6.1%6.1
 
I7.0%7
 
J0.15%0.15
 
K0.77%0.77
 
L4.0%4
 
M2.4%2.4
 
N6.7%6.7
 
O7.5%7.5
 
P1.9%1.9
 
Q0.095%0.095
 
R6.0%6
 
S6.3%6.3
 
T9.1%9.1
 
U2.8%2.8
 
V0.98%0.98
 
W2.4%2.4
 
X0.15%0.15
 
Y2.0%2
 
Z0.074%0.074
 
閉じる

文字の相対出現頻度

英話者が長期間使用したキーボード。E、O、T、H、A、S、I、N、R のキーには激しい摩耗が見られ、D、L、U、Y、M、W、F、G、C、B、P のキーにはある程度の摩耗が見られ、K、V、J、Q、X、Z のキーには摩耗がほとんど見られない。

文字の出現頻度を算出する方法は大きく三種類存在し、各方法によって文字の出現頻度の分布は大きく異なってくる。一つ目は辞書の見出し語として書かれている基本語英語版ごとに文字の出現頻度を加算する方法である[50]。以下の節ではこの方法により文字の出現頻度を求めている。二つ目は基本語の "abstract" を "abstracts"、"abstracted"、"abstracting" のように語形変化の単語ごとに文字の出現頻度を加算する方法である。この方法では、インターネット上で頻出する英単語のリストから文字の出現頻度を求める場合に、s のような文字の出現頻度がより現れるとされる。すなわち、s は複数形や三人称単数現在形の動詞中に付け加えられる文字であるため、非基本語の単語中に普遍的に現れる文字となっている。三つ目は実際の文書中に使用されている単語そのままを文字の出現頻度として加算する方法であり、これにより "the"、"then"、"both"、"this" のような単語の頻出により th の出現頻度がより現れるとされる。そして、絶対的な文字の出現頻度が求められるこの方法ではキーボードのレイアウトや古来の印刷機における文字の頻出度合いについて求めることができる。

英英辞典『Concise Oxford dictionary』を辞典内における単語の頻出度合を無視して文字の出現頻度を分析すると、順番は "EARIOTNSLCUDPMHGBFYWKVXZJQ" であった[50]

この出現頻度順はロベルト・ルワンド著『Cryptological Mathematics』を引用したパベル・ミツカ氏のウェブサイトにまとめられていたものである[51]

ルワンドによると、文字の出現頻度の高い順から並べると、etaoinshrdlcumwfgypbvkjxqz となることが言及されている。このルワンドの出現頻度順はコーネル大学の「Math Explorer's Project」による40000文字に対する文字の出現頻度順とは異なった並びとなっている[52]

英語における空白記号の出現頻度は英文字の出現頻度が最も高い e の約2倍となっており[53]、非アルファベット文字(数字、句読点など)総計の出現頻度は ta の間となる4番目(空白記号も含めた順位)に位置している[54]

単語の頭文字・末尾の文字の相対出現頻度

さらに見る 文字, 英単語の頭文字 ...
相対出現頻度[55]
文字 英単語の頭文字
A11.7%
B4.6%
C4.8%
D2.5%
E2.9%
F4.1%
G1.7%
H5.4%
I5.8%
J0.54%
K0.49%
L2.4%
M3.9%
N2.2%
O7.3%
P3.9%
Q0.19%
R2.6%
S6.9%
T16.2%
U1.2%
V0.65%
W6.1%
X0.002%
Y0.82%
Z0.021%
文字 英単語の末尾の文字
A2.9%
B0.1%
C0.51%
D10.6%
E20.4%
F4.3%
G3.1%
H2.6%
I0.6%
J0.01%
K0.92%
L3.2%
M1.7%
N8.9%
O4.3%
P0.6%
Q0.001%
R6%
S12.5%
T9.3%
U0.4%
V0.03%
W0.9%
X0.127%
Y5.96%
Z0.029%
閉じる

単語の頭文字の出現頻度を分析することは物理的空間におけるファイルや索引の量を割り当てるために重要視されている[56]。アルファベット 26 文字に対応したファイリングキャビネット英語版の引き出しを準備する場合に、各文字ごとに一つの引き出し、つまり 1:1 の割当を行うのではなく、頭文字の出現頻度に沿った引き出しの割当を行うことが合理的であると考えられる。すなわち、出現頻度の低い VWXYZ をまとめて一つの引き出しに割り当てる、出現頻度の高い s, a, c では Aa-An、Ao-Az、Ca-Cj、Ck-Cz、Sa-Si、Sj-Sz のように複数の引き出しを割り当てることが考えられる。同様の事例としては複数の巻に分かれた百科事典の構成や図書館において書籍の識別の名前の頭文字の分布を均等にするための Cutter number が挙げられる[57]

英単語全体および頭文字の出現頻度の分布は両者ともにジップ分布に従い、またユール分布英語版にも十分従うことが知られている[58]

一般的に数字の最初の桁の出現頻度の分布は数字全体の分布と比べて有意に差があるとされており、これはベンフォードの法則として知られている(ベンフォードの法則節を参照)[59]

ピーター・ノーヴィグ光学文字認識(OCR)を用いてGoogle Booksのデータにおける100,000単語以上出現する単語を対象にした英単語の頭文字の出現頻度が分析された[60]

ラテン文字を使用する言語における文字の相対出現頻度

さらに見る 文字, 英語 ...
文字 英語[61] フランス語[62] ドイツ語[63] スペイン語[64] ポルトガル語[65] イタリア語[66] トルコ語[67] スウェーデン語[68] ポーランド語[69] オランダ語[70] デンマーク語[71] アイスランド語[72] フィンランド語[73] チェコ語[74] ハンガリー語[75] ウェールズ語[76] リトアニア語[77] スロベニア語[78] エスペラント語[79] ルーマニア語[80] マレー語[81] インドネシア語[81]
a 8.672%7.636%6.516%11.525%14.634%11.745%11.920%9.383%8.965%7.49%6.025%10.110%12.217%6.219%8.89%10.241%11.191%10.466%11.71%9.95%19.9%20.39%
b 1.485%0.901%1.886%2.215%1.043%0.927%2.844%1.535%1.482%1.58%2.000%1.043%0.281%1.558%1.94%1.867%1.484%1.939%1.08%1.07%3.2%2.64%
c 3.424%3.260%2.732%4.019%3.882%4.501%0.963%1.486%3.988%1.24%0.565%~0%0.281%1.607%0.646%1.776%0.602%0.662%0.86%5.28%0.3%0.76%
d 3.904%3.669%5.076%5.010%4.992%3.736%4.706%4.702%3.293%5.93%5.858%1.575%1.043%3.602%1.92%5.136%2.580%3.390%2.93%3.45%2.9%5.00%
e 12.155%14.715%16.396%13.702%13.101%11.792%8.912%10.149%7.921%18.91%15.453%6.418%7.968%7.695%11.6%8.116%5.621%10.707%9.26%11.47%8.7%8.28%
f 2.302%1.066%1.656%0.692%1.023%1.153%0.461%2.027%0.312%0.81%2.406%3.013%0.194%0.273%0.548%2.675%0.347%0.110%1.01%1.18%0.0%0.21%
g 1.945%0.866%3.009%1.768%1.303%1.644%1.253%2.862%1.377%3.40%4.077%4.241%0.392%0.273%3.79%3.412%1.795%1.638%1.16%0.99%1.6%3.66%
h 4.745%0.937%4.577%1.973%1.281%0.136%1.212%2.090%1.072%2.38%1.621%1.871%1.851%1.271%1.26%1.479%0.276%1.047%0.35%0.47%2.6%2.74%
i 7.532%7.529%6.550%6.247%6.186%10.143%8.600%*5.817%8.286%6.50%6.000%7.578%10.817%4.353%4.25%7.569%12.959%9.042%10.40%9.96%8.0%7.98%
j 0.187%0.813%0.268%0.493%0.379%0.011%0.034%0.614%2.343%1.46%0.730%1.144%2.042%2.119%1.48%0.078%2.338%4.675%3.40%0.24%1.9%0.87%
k 0.600%0.074%1.417%0.026%0.015%0.009%4.683%3.140%3.411%2.25%3.395%3.314%4.973%3.737%4.85%0.040%4.171%3.704%4.22%0.11%5.8%5.14%
l 4.237%5.456%3.437%4.967%2.779%6.510%5.922%5.275%2.136%3.57%5.229%4.532%5.761%3.842%6.71%3.358%3.502%5.266%5.73%4.48%3.8%3.26%
m 2.647%2.968%2.534%3.157%4.738%2.512%3.752%3.471%2.911%2.21%3.237%4.041%3.202%3.227%3.82%2.593%3.579%3.305%3.29%3.10%3.5%4.21%
n 7.337%7.095%9.776%6.712%4.446%6.883%7.487%8.542%5.600%10.03%7.240%7.711%8.826%6.535%6.82%8.552%5.144%6.328%8.04%6.47%9.3%9.33%
o 7.377%5.796%2.594%8.683%9.735%9.832%2.476%4.482%7.590%6.06%4.636%2.166%5.614%8.666%3.65%6.280%6.743%9.084%8.44%4.07%1.3%1.26%
p 2.124%2.521%0.670%2.510%2.523%3.056%0.886%1.839%3.101%1.57%1.756%0.789%1.842%3.413%0.48%0.819%2.734%3.374%2.60%3.18%4.5%2.61%
q 0.110%1.362%0.018%0.877%1.204%0.505%00.020%0.003%0.009%0.007%00.013%0.001%~0%0.004%0.005%05.63%0.00%0.0%0.01%
r 6.625%6.693%7.003%6.871%6.530%6.367%6.722%8.431%4.571%6.41%8.956%8.581%2.872%3.697%2.65%7.085%5.669%5.010%06.82%8.3%4.64%
s 6.633%7.948%7.270%7.977%6.805%4.981%3.014%6.590%4.263%3.73%5.805%5.630%7.862%4.516%6.99%2.854%7.881%5.053%6.25%4.40%3.8%4.15%
t 8.598%7.244%6.154%4.632%4.336%5.623%3.314%7.691%3.966%6.79%6.862%4.953%8.750%5.727%6.96%1.842%5.332%4.329%5.51%6.04%3.2%5.58%
u 2.691%6.311%4.166%3.927%3.639%2.813%3.235%1.919%2.347%1.99%1.979%4.562%5.008%3.144%0.392%2.723%4.586%1.879%3.19%6.20%4.5%4.62%
v 1.061%1.838%0.846%1.138%1.575%2.097%0.959%2.415%0.034%2.85%2.332%2.437%2.250%4.662%2.31%0.052%2.656%3.764%1.86%1.23%0.3%0.18%
w 1.673%0.049%1.921%0.027%0.037%0.033%00.142%4.549%1.52%0.069%00.094%0.009%~0%4.642%0.037%000.03%0.3%0.48%
x 0.202%0.427%0.034%0.515%0.453%0.008%00.159%0.019%0.036%0.028%0.046%0.031%0.076%~0%0.040%0.073%000.11%0.0%0.03%
y 1.551%0.708%0.039%1.433%0.006%0.020%3.336%0.708%3.857%0.035%0.698%0.900%1.745%1.909%2.56%8.971%1.433%000.07%1.9%1.88%
z 0.132%0.326%1.134%0.467%0.470%1.181%1.500%0.070%5.620%1.39%0.034%00.051%2.199%4.3%0.009%0.345%2.103%0.48%0.71%0.3%0.04%
à 0.0005%0.486%0~0%0.072%0.635%0000000000.000%0.0003%00000
â 0.0006%0.051%000.562%~0%~0%000000000.147%0.0002%000.91%00
á 0.005%000.502%0.118%0000001.799%02.236%3.44%0.0002%0.002%00000
å 0.0007%0000001.34%001.190%~0%0.003%0000.0002%00000
ä 0.002%00.578%00001.80%00003.577%000.001%0.001%00000
ã 0.0005%0000.733%000000000000.0003%00000
ą 0.00009%00000001.021%00000000.542%00000
ā 0.002%0000000000000000.001%00000
ă 00000000000000000.0002%004.06%00
æ 0.0008%0000000000.872%0.867%00000.0002%00000
œ 0.00008%0.018%00000000000000000000
ç 0.001%0.085%0~0%0.530%01.156%0000~0%00000.0004%00000
ć 0.0006%00000000.448%00000000.0003%00000
ĉ 0%000000000000000000.80%000
č 0.0005%0000000000000.949%000.430%1.483%0000
ch 00000000000001.171%00.949%000000
ď 00000000000000.022%00000000
dd 0000000000000002.927%000000
ð 0.0004%00000000004.393%00000.0001%00000
è 0.002%0.271%0~0%00.263%0000000000.0005%0.0004%00000
é 0.011%1.504%00.433%0.337%000~0%000.647%01.335%4.25%0.0001%0.004%00000
ê 0.0003%0.218%000.450%~0%0000000000.026%0.0001%00000
ë 0.0006%0.008%00000000000000.002%0.0002%00000
ė 0.00005%0000000000000001.664%00000
ę 0.0001%00000001.131%00000000.172%00000
ě 0.00008%0000000000001.646%00000000
ē 0.0003%0000000000000000.0004%00000
ff 0000000000000000.382%000000
ĝ 0000000000000000000.74%000
ğ 0.0001%000001.125%0000000000.0001%00000
ng 0000000000000000.366%000000
ĥ 0000000000000000000.04%000
î 0.0002%0.045%000~0%~0%000000000.008%0.0001%001.40%00
ì 0.0001%0000(0.030%)0000000000.0001%0.0001%00000
í 0.003%000.725%0.132%0.030%000001.570%03.270%0.47%~0%0.002%00000
ï 0.0002%0.005%00000000000000.008%000000
ı 0.0002%000005.114%*0000000000.0002%00000
į 00000000000000000.485%00000
ī 0.0005%0000000000000000.0007%00000
ĵ 0000000000000000000.12%000
ł 0.0007%00000001.746%00000000.001%00000
ľ 0000000000000~0%00000000
ll 0000000000000001.031%000000
ñ 0.0009%000.311%0000000000000.0005%00000
ń 0.0002%00000000.185%00000000.0003%00000
ň 00000000000000.081%00000000
ņ 00000000000000000.0001%00000
ò 0.0002%00000.002%0000000000.0002%0.0001%00000
ö 0.003%00.443%0000.777%1.31%0000.777%0.444%00.784%0.002%0.001%00000
ô 0.0005%0.023%000.635%~0%0000000000.101%0.0001%00000
ó 0.003%000.827%0.296%~0%000.823%000.994%00.031%0.597%0.0002%0.002%00000
ő 0.00008%00000000000000.823%0000000
õ 0.00005%0000.040%000000000000.0001%00000
ø 0.001%0000000000.939%000000.0003%00000
ph 0000000000000000.066%000000
ř 0.0001%0000000000001.217%00000000
rh 0000000000000000.398%000000
ŝ 0000000000000000000.38%000
ş 0.0003%000001.780%0000000000.0003%001.55%00
ś 0.0003%00000000.683%00000000.0002%00000
š 0.0008%00000000000~0%0.805%001.134%0.996%0000
ß 0.0003%00.307%00000000000000.0002%00000
ť 00000000000000.043%00000000
ț 00000000000000000001.00%00
þ 0.0001%00000000001.455%0000000000
th 0000000000000001.294%000000
ù 0.00008%0.058%000(0.166%)0000000000.000%0.0001%00000
ú 0.0008%000.168%0.207%0.166%000000.613%00.103%0.098%~0%0.0005%00000
û 0.0001%0.060%000~0%~0%000000000.003%000000
ü 0.003%00.995%0.012%0.026%01.854%00000000.617%0.002%0.001%00000
ű 000000000000000.117%0000000
ů 00000000000000.695%00000000
ŭ 0000000000000000000.52%000
ų 00000000000000001.2602%00000
ū 0.0007%0000000000000000.4079%00000
000000000000000~0%000000
000000000000000~0%000000
ŵ 0000000000000000.033%000000
0000000000000000.0006%000000
000000000000000~0%000000
ý 0.0001%00~0%00000000.228%01.072%0~0%0.0001%00000
ŷ 000000000000000~0%000000
ÿ 0~0%00000000000000.0005%000000
ź 000000000.061%0000000000000
ż 0.00009%00000000.885%00000000.0002%00000
ž 0.0003%00000000000~0%0.995%000.797%0.646%0000
閉じる

*: İ および ı を参照。

下記の図はいくつかの国におけるラテン文字26文字の出現頻度を可視化したものである。各国はいずれも英語と同様に25文字程度のアルファベットを使用している[82]

さらに見る エスペラント語, スペイン語 ...
エスペラント語
スペイン語
ポルトガル語
イタリア語
フランス語
英語
ドイツ語
オランダ語
スウェーデン語
ポーランド語
トルコ語
閉じる

出現頻度のランキング

以下の表はいくつかの言語において出現頻度の高い10文字を並べたものである。

さらに見る 言語, 順序 ...
閉じる

キリル文字を使用する言語における相対出現頻度

以下の表はキリル文字を使用する言語における文字の出現頻度を表している。

ロシア語Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 1,351,370文字(210,844単語)のもので、そのうち 1,086,255文字を集計している[85]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

ロシア語における出現頻度の高い文字(アルファベット)は OEA となる[85]

さらに見る 文字, ロシア語 ...
文字 ロシア語[85] マケドニア語[86] タジク語[87][88] ウクライナ語[89] カザフ語[90] セルビア語[91] シュグナン語[92] ルシャン語[93] ウズベク語[94] ブルガリア語[95] モンゴル語[96] ベラルーシ語[97] タタール語[98] キルギス語[99]
А 7.50%13.293%16.54%8.07%12.796%12.182%11.100%14.779%15.203%12.323%12.098%15.52%11.006%13.56%
Б 2.01%1.434%4.45%1.77%1.823%1.590%1.745%1.742%3.655%1.533%2.543%1.78%2.798%3.32%
В 4.33%4.343%1.58%5.35%0.083%3.636%1.795%1.667%1.248%4.449%1.299%2.90%0.757%0.06%
Г 1.72%1.505%1.87%1.55%1.339%1.741%0.914%1.436%3.462%1.567%6.464%1.91%2.913%2.73%
Д 3.09%3.911%6.77%3.38%5.060%3.719%7.488%6.909%4.322%3.526%4.514%2.72%3.052%4.10%
Е 8.50%8.945%2.13%4.95%8.391%9.383%3.103%1.799%1.711%8.972%0.375%3.46%7.218%4.76%
Ё 0.20%00.54%00.002%0000.563%00.134%0.36%0.000%0.007%
Ж 1.01%0.568%0.07%0.93%1.095%0.604%0.085%0.166%0.523%0.708%1.732%0.58%0.065%2.47%
З 1.48%1.979%2.43%2.32%1.624%1.620%1.814%2.241%1.627%2.292%1.036%2.43%1.485%1.46%
И 7.09%9.160%7.35%6.26%1.285%9.443%8.332%6.823%13.813%8.875%4.474%0.03%4.438%3.15%
Й 1.21%00.71%1.38%1.743%03.727%3.940%1.564%0.590%4.296%1.20%1.086%2.18%
К 3.30%3.672%2.71%3.54%2.421%3.748%1.979%1.917%2.852%3.390%0.186%3.35%4.995%6.90%
Л 4.96%2.959%1.24%3.69%5.670%3.077%2.073%1.931%6.072%3.284%6.160%3.35%6.516%5.09%
М 3.10%2.309%4.19%3.03%3.025%3.587%3.664%3.845%3.415%2.465%2.241%2.64%2.997%2.61%
Н 6.70%7.077%6.84%6.81%6.216%5.268%5.475%5.437%7.120%7.136%8.183%6.31%7.129%6.38%
О 11.07%10.679%8.45%9.42%2.430%9.907%4.310%4.540%4.648%9.079%4.760%3.41%1.796%3.52%
П 2.47%2.926%1.05%2.90%1.451%2.780%1.308%1.504%0.543%2.928%0.108%2.49%1.393%2.88%
Р 4.33%5.090%7.35%4.48%5.972%4.596%4.971%5.366%5.740%4.920%5.289%4.63%6.818%6.65%
С 4.97%4.751%2.74%4.24%4.016%4.977%2.587%2.738%2.623%5.081%2.984%3.82%2.834%2.56%
Т 5.97%7.462%3.57%5.35%6.028%4.215%5.690%5.092%4.104%7.604%3.431%3.45%5.289%5.70%
У 2.22%2.262%4.67%3.36%1.636%4.640%4.748%5.843%3.306%1.312%3.780%2.48%2.598%4.15%
Ф 0.21%0.347%1.10%0.28%0.087%0.184%0.589%1.242%0.444%0.210%0.027%0.18%0.409%0.06%
Х 0.95%0.146%1.54%1.19%0.157%0.684%2.431%2.440%0.703%0.655%4.830%1.12%0.722%0.03%
Ц 0.39%0.857%00.83%0.120%0.713%0.941%0.638%0.057%0.595%0.705%2.31%0.166%0.003%
Ч 1.40%0.925%0.84%1.41%0.005%1.077%1.456%1.403%1.263%1.338%1.222%1.42%1.481%1.20%
Ш 0.72%0.916%2.61%0.76%1.343%1.206%0.700%0.660%2.036%0.615%0.837%1.02%1.788%1.61%
Щ 0.30%000.56%0.002%00000.612%0.0003%00.006%0%
Ъ 0.02%00.13%00.008%0000.193%1.832%~0%0.01%0.109%0%
Ы 2.36%0007.974%000001.246%4.56%5.522%5.54%
Ь 1.84%001.77%0.037%0000.192%0.014%0.721%1.18%0.403%0.007%
Э 0.36%00.13%00.045%0000.505%07.612%1.05%0.293%0.94%
Ю 0.47%00.05%0.93%0.031%0000.216%0.138%0.240%0.69%0.189%0.10%
Я 1.96%00.58%2.48%0.343%0000.558%1.957%0.528%3.16%1.085%0.12%
А̄ 0000002.811%3.036%000000
ә 00000.777%00000006.647%0
В̌ 0000002.658%2.357%000000
Ѓ 00.106%000000000000
Ғ 000.23%01.863%00.489%0.276%0.435%00000
Г̌ 0000000.414%0.238%000000
Д̌ 0000001.456%1.251%000000
Ђ 000000.258%00000000
Ӗ 0000000.254%0000000
Є 0000.61%0000000000
Җ 0000000000000.463%0
Ҙ 0000000.163%0.146%000000
Ѕ 00.009%000000000000
Ӣ 000.66%0001.304%1.020%000000
І 0000%6.160%0000005.09%00
Ї 0000.65%0000000000
Ј 01.511%0003.282%00000000
Ќ 00.264%000000000000
Қ 000.39%02.782%00.738%0.588%2.470%00000
Љ 00.015%0000.504%00000000
ң 00001.294%00000001.014%0.87%
Њ 00.555%0000.727%00000000
Ӧ 00000000.230%000000
О̄ 00000000.644%000000
ө 00000.973%000002.733%00.905%2.91%
Т̌ 0000000.479%0.531%000000
Ћ 000000.617%00000000
Ў 0000001.668%00001.95%00
Ӯ 001.18%0000.964%0.136%1.822%00000
У̊ 00000000.078%000000
Ү 00000.887%000003.210%01.212%3.27%
ұ 00000.998%000000000
Ҳ 002.55%000001.165%00000
Х̌ 0000001.358%1.370%000000
һ 00000.008%00000000.404%0
Ҷ 000.74%0001.140%1.047%000000
Џ 00.025%000000000000
閉じる

アラビア文字を使用する言語における相対出現頻度

アラビア文字における文字の出現頻度は以下の表の通りとなる。アラビア語の分析において使用したデータにおける語の総数は 1,297,259語、文字の総数は 5,122,132文字である[100]

さらに見る 文字, アラビア語 ...
文字 アラビア語[100] ウイグル語[101][102] ペルシア語[103] ウルドゥー語[104] マレー語[105] シンド語[106]
ا 12.50%8.23%19.979%12.235%15.127%11.725%
آ 0.15%000.472%00
أ 2.89%00000
إ 1.00%00000
ب 4.67%1.98%5.495%2.713%3.838%2.104%
ٻ 000000.363%
ڀ 000000.260%
پ 02.00%0.826%1.661%0.701%1.788%
ت 2.61%4.84%6.191%3.848%5.756%3.228%
ٿ 000000.845%
ٽ 000000.818%
ٺ 000000.268%
ٹ 0000.764%00
ث 0.87%00.182%0.127%0.071%0.113%
ج 1.23%0.52%1.325%1.535%2.386%3.786%
ڄ 000000.139%
جهہ 000000.683%
ڃ 000000.149%
چ 01.33%0.462%0.651%0.437%0.689%
ڇ 000000.245%
ح 1.86%01.187%0.911%0.477%0.872%
خ 0.79%0.68%1.589%0.641%0.152%0.587%
د 2.67%2.70%9.027%2.601%5.289%2.538%
ڌ 000000.486%
ڏ 000000.817%
ڊ 000000.352%
ڍ 000000.091%
ڈ 0000.333%00
ذ 0.96%00.260%0.144%0.041%0.142%
ر 4.20%5.28%5.896%6.668%5.543%5.968%
ڙ 000000.624%
ڑ 0000.260%00
ز 0.52%1.38%2.721%0.825%0.122%0.603%
ژ 00.02%0.122%0.005%0.030%0
س 2.47%2.82%2.181%3.611%5.503%3.341%
ش 0.73%2.34%1.721%0.967%0.234%0.883%
ص 1.04%00.458%0.595%0.152%0.500%
ض 0.44%00.200%0.260%0.030%0.183%
ط 0.50%00.373%0.401%0.061%0.322%
ظ 0.18%00.137%0.189%0.010%0.184%
ع 4.01%00.860%1.156%0.589%0.997%
غ 0.33%1.19%0.140%0.182%0.010%0.146%
ف 2.84%0.16%0.953%0.994%0.345%0.797%
ڤ 00003.563%0
ڦ 000000.044%
ق 2.69%4.21%0.782%0.989%1.289%0.828%
ك 2.04%3.36%0.401%000
ڭ 01.08%0000
ڪ 000000.319%
ک 0007.107%3.056%1.240%
گ 00.94%0.920%1.169%1.462%0.890%
ڳ 000000.166%
گهہ 000000.396%
ڱ 000000.025%
ل 12.07%5.34%3.315%3.481%5.279%3.305%
م 6.52%3.83%7.150%4.879%5.756%3.833%
ن 6.61%5.16%8.970%5.040%9.695%9.630%
ڻ 000001.153%
ں 0002.670%00
و 5.80%2.23%7.326%6.046%8.660%8.170%
ۇ 03.60%0000
ۆ 00.77%0000
ۈ 01.47%0000
ۋ 00.92%0000
ؤ 0.09%000.059%00
ه 5.08%08.160%03.046%0
ە 06.07%0000
ہ 0005.441%00
ة 1.42%000.004%00
ۂ 0000.008%00
ھ 00.82%01.455%06.567%
ء 0.31%3.64%0.189%0.045%0.315%2.139%
ى 1.29%15.41%000.041%0
ی 00010.453%00
ي 6.36%2.87%0.502%09.726%13.659%
ې 01.86%0000
ئ 0.28%001.208%00
ے 0005.193%00
ۓ 0000.003%00
لا 00.93%0000
ال 00001.208%0
閉じる

ペルシア語に関してはペルシア文字を、ウルドゥー語に関してはウルドゥー文字を、マレー語に関してはジャウィ文字を参照。

ブラーフミー系文字を使用する言語における文字の相対出現頻度

以下では主に南アジア東南アジアの言語で使用されているブラーフミー系文字(インド系文字)における文字の相対出現頻度についてまとめる。

デーヴァナーガリーを使用する言語

ヒンディー語

以下の表は Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 978,430文字(238,604単語)のもので、そのうち 736,216文字を集計している[107]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

ヒンディー語における出現頻度の高い文字(デーヴァナーガリー)は となる[107]

さらに見る 文字, ヒンディー語における文字の出現頻度 ...
文字 ヒンディー語における文字の出現頻度[107]
0.30%0.3
 
3.44%3.44
 
0.01%0.01
 
1.01%1.01
 
0.66%0.66
 
0.31%0.31
 
0.20%0.2
 
0.78%0.78
 
0.05%0.05
 
0.00%
1.34%1.34
 
0.03%0.03
 
0.03%0.03
 
0.10%0.1
 
0.94%0.94
 
7.14%7.14
 
0.70%0.7
 
1.31%1.31
 
0.20%0.2
 
1.16%1.16
 
0.45%0.45
 
1.39%1.39
 
0.19%0.19
 
0.01%0.01
 
0.57%0.57
 
0.17%0.17
 
0.75%0.75
 
0.09%0.09
 
0.13%0.13
 
2.89%2.89
 
1.15%1.15
 
1.68%1.68
 
0.36%0.36
 
3.48%3.48
 
2.66%2.66
 
0.35%0.35
 
1.78%1.78
 
0.67%0.67
 
3.28%3.28
 
2.20%2.2
 
5.91%5.91
 
2.45%2.45
 
1.62%1.62
 
0.76%0.76
 
0.27%0.27
 
3.78%3.78
 
4.82%4.82
 
0.67%0.67
 
8.22%8.22
 
ि3.20%3.2
 
3.47%3.47
 
1.45%1.45
 
0.81%0.81
 
0.10%0.1
 
0.00%
6.85%6.85
 
1.96%1.96
 
0.10%0.1
 
2.21%2.21
 
0.15%0.15
 
3.02%3.02
 
閉じる

ガルワーリー語

ガルワーリー語における文字(デーヴァナーガリー)の出現頻度は以下の表の通りである[108]

さらに見る 文字, ガルワーリー語における相対出現頻度 ...
文字 ガルワーリー語における相対出現頻度
3.656%3.656
 
3.112%3.112
 
2.403%2.403
 
2.116%2.116
 
2.077%2.077
 
1.779%1.779
 
1.698%1.698
 
1.362%1.362
 
1.355%1.355
 
1.320%1.32
 
1.227%1.227
 
1.195%1.195
 
1.116%1.116
 
1.048%1.048
 
0.984%0.984
 
0.905%0.905
 
0.823%0.823
 
0.710%0.71
 
0.670%0.67
 
0.592%0.592
 
0.514%0.514
 
0.470%0.47
 
0.406%0.406
 
0.364%0.364
 
0.301%0.301
 
0.277%0.277
 
0.234%0.234
 
0.190%0.19
 
0.189%0.189
 
0.173%0.173
 
0.160%0.16
 
0.160%0.16
 
0.148%0.148
 
0.136%0.136
 
0.098%0.098
 
0.082%0.082
 
0.033%0.033
 
0.031%0.031
 
0.023%0.023
 
0.019%0.019
 
0.009%0.009
 
0.006%0.006
 
閉じる

また、ガルワーリー語の母音のみの出現頻度は以下の通りとなる[108]

さらに見る 文字, 相対出現頻度 ...
文字 相対出現頻度
26.336%26.336
 
10.476%10.476
 
6.844%6.844
 
4.168%4.168
 
3.670%3.67
 
3.357%3.357
 
1.713%1.713
 
1.051%1.051
 
0.081%0.081
 
0.074%0.074
 
閉じる

マラーティー語

マラーティー語における文字(デーヴァナーガリー)の出現頻度上位100文字は以下の表の通りである[109]

さらに見る 順位, 文字 ...
順位 文字 マラーティー語における相対出現頻度
13.657%3.657
 
23.413%3.413
 
32.803%2.803
 
42.760%2.76
 
52.573%2.573
 
62.055%2.055
 
72.026%2.026
 
81.693%1.693
 
91.661%1.661
 
101.648%1.648
 
11का1.497%1.497
 
121.378%1.378
 
13च्या1.175%1.175
 
14ता1.137%1.137
 
15ले1.078%1.078
 
16वि1.064%1.064
 
17वा1.044%1.044
 
18ती1.010%1.01
 
19ला1.002%1.002
 
20ना0.962%0.962
 
21सा0.959%0.959
 
22मा0.951%0.951
 
23या0.930%0.93
 
24प्र0.930%0.93
 
25रा0.925%0.925
 
260.925%0.925
 
270.908%0.908
 
28ते0.889%0.889
 
290.845%0.845
 
30चा0.804%0.804
 
31चे0.799%0.799
 
32हे0.755%0.755
 
33ने0.715%0.715
 
340.694%0.694
 
350.680%0.68
 
360.666%0.666
 
37ची0.660%0.66
 
38पा0.647%0.647
 
390.635%0.635
 
40ही0.625%0.625
 
41सं0.601%0.601
 
42नि0.593%0.593
 
430.587%0.587
 
44त्या0.582%0.582
 
45हो0.577%0.577
 
460.572%0.572
 
47ली0.570%0.57
 
48री0.562%0.562
 
49णा0.544%0.544
 
500.537%0.537
 
510.529%0.529
 
520.507%0.507
 
530.504%0.504
 
54हा0.500%0.5
 
55ल्या0.466%0.466
 
56के0.451%0.451
 
57जा0.441%0.441
 
58भा0.441%0.441
 
590.419%0.419
 
60ण्या0.410%0.41
 
610.397%0.397
 
62मु0.397%0.397
 
63नी0.382%0.382
 
64शा0.381%0.381
 
65दा0.367%0.367
 
66तो0.364%0.364
 
67ये0.349%0.349
 
68सू0.348%0.348
 
69रि0.348%0.348
 
700.345%0.345
 
71णि0.345%0.345
 
72यां0.339%0.339
 
73रू0.331%0.331
 
74से0.331%0.331
 
75ति0.329%0.329
 
76रे0.315%0.315
 
77णे0.311%0.311
 
78वे0.302%0.302
 
79त्यां0.296%0.296
 
80गा0.294%0.294
 
81दे0.293%0.293
 
820.291%0.291
 
83मि0.282%0.282
 
84शि0.281%0.281
 
85झा0.275%0.275
 
86ध्ये0.262%0.262
 
87हि0.253%0.253
 
88बा0.250%0.25
 
89ळे0.249%0.249
 
90पु0.242%0.242
 
91मी0.238%0.238
 
92त्र0.238%0.238
 
93क्ष0.231%0.231
 
94दि0.228%0.228
 
950.227%0.227
 
96सु0.226%0.226
 
97की0.226%0.226
 
98म्ह0.225%0.225
 
99शी0.224%0.224
 
100धा0.211%0.211
 
閉じる

ベンガル語

ベンガル語で使用されるベンガル文字における文字の出現頻度は以下の表の通りである[110]

さらに見る 文字, ベンガル語における相対出現頻度 ...
文字 ベンガル語における相対出現頻度
12.966%12.966
 
7.812%7.812
 
6.627%6.627
 
ি5.221%5.221
 
5.503%5.503
 
4.356%4.356
 
4.341%4.341
 
3.814%3.814
 
3.189%3.189
 
3.094%3.094
 
2.908%2.908
 
2.652%2.652
 
2.393%2.393
 
2.381%2.381
 
2.363%2.363
 
য়1.895%1.895
 
1.259%1.259
 
1.191%1.191
 
1.176%1.176
 
1.025%1.025
 
0.907%0.907
 
0.855%0.855
 
0.813%0.813
 
0.804%0.804
 
0.684%0.684
 
0.648%0.648
 
0.603%0.603
 
0.567%0.567
 
0.547%0.547
 
0.524%0.524
 
0.442%0.442
 
0.432%0.432
 
0.426%0.426
 
0.405%0.405
 
0.364%0.364
 
0.280%0.28
 
0.258%0.258
 
ড়0.202%0.202
 
0.142%0.142
 
0.140%0.14
 
0.128%0.128
 
0.109%0.109
 
0.086%0.086
 
0.084%0.084
 
0.047%0.047
 
0.040%0.04
 
0.032%0.032
 
ঢ়0.013%0.013
 
0.006%0.006
 
0.003%0.003
 
閉じる

またベンガル語の辞書の見出し語における文字の出現頻度は া ্র িন তকবপ ু মসলদ ে োঅগযচ জশ ীটহ য়ষধভণ ড়আ ঁখউ ৃফ ংূঙ ছইডথঘ ঞঠ ৈ ৌঝ ওএ ঃঢঢ় ঈঐঔঋঊৎ の順である[111]

タイ語

タイ語タイ文字における文字の出現頻度は以下の表の通りとなる[112]。分析に使用したデータにおける文字の総数は 354,221,260文字である[112]

さらに見る 順位, 文字 ...
順位文字度数割合
125,209,7747.12%7.12
 
222,980,5596.49%6.49
 
321,539,5716.08%6.08
 
415,639,1074.42%4.42
 
515,567,8434.39%4.39
 
614,043,6693.96%3.96
 
713,502,7773.81%3.81
 
813,446,5963.80%3.8
 
912,088,6613.41%3.41
 
1011,622,0443.28%3.28
 
1111,480,0763.24%3.24
 
1211,414,4973.22%3.22
 
139,370,5492.65%2.65
 
149,345,5322.64%2.64
 
158,848,5082.50%2.5
 
168,219,2612.32%2.32
 
178,098,2632.29%2.29
 
187,284,3842.06%2.06
 
197,048,8411.99%1.99
 
206,658,9521.88%1.88
 
216,652,2191.88%1.88
 
226,467,8471.83%1.83
 
236,424,5031.81%1.81
 
246,148,2241.74%1.74
 
256,002,4291.69%1.69
 
265,808,5061.64%1.64
 
274,568,2501.29%1.29
 
284,255,0531.20%1.2
 
294,029,3541.14%1.14
 
304,028,7581.14%1.14
 
313,834,2421.08%1.08
 
323,773,3561.07%1.07
 
333,656,0691.03%1.03
 
343,655,7551.03%1.03
 
352,919,2010.82%0.82
 
362,724,7730.77%0.77
 
372,690,2610.76%0.76
 
382,562,9730.72%0.72
 
391,951,2750.55%0.55
 
401,816,4700.51%0.51
 
411,772,3430.50%0.5
 
421,732,1320.49%0.49
 
431,529,3760.43%0.43
 
441,404,0480.40%0.4
 
451,365,7930.39%0.39
 
461,181,4120.33%0.33
 
471,154,0370.33%0.33
 
481,133,0410.32%0.32
 
49975,3230.28%0.28
 
50745,0570.21%0.21
 
51499,8720.14%0.14
 
52485,7060.14%0.14
 
53339,0920.10%0.1
 
54234,9630.07%0.07
 
55215,6520.06%0.06
 
56196,3160.06%0.06
 
57147,9100.04%0.04
 
58142,5850.04%0.04
 
59139,2720.04%0.04
 
60138,8060.04%0.04
 
61138,7590.04%0.04
 
62131,8190.04%0.04
 
63119,5340.03%0.03
 
64113,6030.03%0.03
 
65106,7310.03%0.03
 
66105,5050.03%0.03
 
6796,0320.03%0.03
 
6880,2810.02%0.02
 
6966,7040.02%0.02
 
7065,8820.02%0.02
 
7155,0740.02%0.02
 
7242,9170.01%0.01
 
7340,7400.01%0.01
 
7435,6670.01%0.01
 
7533,2960.01%0.01
 
7629,2400.01%0.01
 
7727,0890.01%0.01
 
7813,1070.00%
794,6570.00%
802,6280.00%
811720.00%
82฿420.00%
83330.00%
84190.00%
8550.00%
8640.00%
8720.00%
閉じる

タイ文字の子音における文字の出現頻度は高い順に รนกองมยวทดลตหสบคปจพขชธผศถณซษญภฐฟฉฒฝฎฏฤฮฑฃฬฆฌฅฦ である[112]。またタイ文字の母音、記号、数字における文字の出現頻度は高い順に า ่เ ้ ั ี ิะแไใ ุ ื ์ ู ็ ำโ ึๆฯ ๊๒๑๐๕๓๔๖ ๋๗๘ ํ ฺ฿ๅ๚๏๛ ๎ である[112]

ビルマ語

ビルマ語で使用されるビルマ文字の基本字母における文字の出現頻度は以下の表の通りである[113]。ビルマ文字では 33 の文字が基本字母として存在している[113]

さらに見る 文字, ビルマ語における相対出現頻度 ...
文字 ビルマ語における相対出現頻度
က7.449%7.449
 
0.086%0.086
 
0.685%0.685
 
1.199%1.199
 
1.455%1.455
 
11.301%11.301
 
3.168%3.168
 
2.226%2.226
 
0.086%0.086
 
0.599%0.599
 
0.086%0.086
 
7.020%7.02
 
10.103%10.103
 
1.370%1.37
 
2.055%2.055
 
5.051%5.051
 
6.592%6.592
 
0.171%0.171
 
2.483%2.483
 
5.651%5.651
 
3.339%3.339
 
1.455%1.455
 
1.027%1.027
 
0.342%0.342
 
1.969%1.969
 
8.818%8.818
 
1.969%1.969
 
0.086%0.086
 
0.086%0.086
 
0%
0%
0%
0%
閉じる

また、ビルマ語の基本字母と併せて用いられる表音機能を持つ符号における出現頻度は以下の通りとなる[113]

さらに見る 文字, 相対出現頻度 ...
文字 相対出現頻度
7.705%7.705
 
8.990%8.99
 
12.842%12.842
 
7.791%7.791
 
2.997%2.997
 
14.812%14.812
 
29.966%29.966
 
9.075%9.075
 
3.767%3.767
 
1.627%1.627
 
1.027%1.027
 
1.284%1.284
 
9.161%9.161
 
3.253%3.253
 
閉じる

タミル語

タミル語で使用されるタミル文字における文字の出現頻度は以下の表の通りである[注釈 3][115]

さらに見る 文字, タミル語における相対出現頻度 ...
文字 タミル語における相対出現頻度
0.15%0.15
 
0.16%0.16
 
0.86%0.86
 
0.04%0.04
 
ஶ்ரீ0.04%0.04
 
0.01%0.01
 
0.01%0.01
 
று0.68%0.68
 
1.94%1.94
 
நு0.06%0.06
 
2.09%2.09
 
சு0.15%0.15
 
2.14%2.14
 
கூ0.19%0.19
 
3.61%3.61
 
லு0.23%0.23
 
3.05%3.05
 
ரு1.28%1.28
 
1.33%1.33
 
0.05%0.05
 
2.81%2.81
 
டீ0.01%0.01
 
டி0.67%0.67
 
0.43%0.43
 
ி6.45%6.45
 
றா0.22%0.22
 
3.08%3.08
 
ளு0.21%0.21
 
2.03%2.03
 
னு0.18%0.18
 
3.78%3.78
 
கு1.06%1.06
 
6.98%6.98
 
ழு0.14%0.14
 
4.57%4.57
 
0.55%0.55
 
6.16%6.16
 
து1.55%1.55
 
5.85%5.85
 
மு0.53%0.53
 
3.91%3.91
 
டு0.81%0.81
 
2.30%2.3
 
0.05%0.05
 
18.48%18.48
 
0.10%0.1
 
0.63%0.63
 
ணா0.02%0.02
 
1.07%1.07
 
0.03%0.03
 
0.27%0.27
 
0.04%0.04
 
0.59%0.59
 
0.11%0.11
 
0.91%0.91
 
னா0.31%0.31
 
0.91%0.91
 
சூ0.01%0.01
 
1.21%1.21
 
0.35%0.35
 
1.27%1.27
 
0.03%0.03
 
1.03%1.03
 
0.00%
閉じる

シンハラ語

シンハラ語で使用されるシンハラ文字における文字の出現頻度は以下の表の通りである[116]

さらに見る 文字, シンハラ語における相対出現頻度 ...
文字 シンハラ語における相対出現頻度
0.738%0.738
 
0.002%0.002
 
1.403%1.403
 
0.340%0.34
 
0.387%0.387
 
0.012%0.012
 
0.357%0.357
 
0.027%0.027
 
0.364%0.364
 
0.010%0.01
 
0.006%0.006
 
0.000%
0.000%
0.000%
0.307%0.307
 
0.057%0.057
 
0.004%0.004
 
0.120%0.12
 
0.044%0.044
 
0.003%0.003
 
8.152%8.152
 
0.094%0.094
 
3.149%3.149
 
0.062%0.062
 
0.000%
0.198%0.198
 
0.525%0.525
 
0.042%0.042
 
0.783%0.783
 
0.000%
0.020%0.02
 
0.080%0.08
 
0.000%
3.749%3.749
 
0.052%0.052
 
1.097%1.097
 
0.007%0.007
 
1.382%1.382
 
0.051%0.051
 
5.953%5.953
 
0.235%0.235
 
4.449%4.449
 
0.667%0.667
 
10.643%10.643
 
0.370%0.37
 
4.233%4.233
 
0.021%0.021
 
1.622%1.622
 
0.379%0.379
 
6.226%6.226
 
0.178%0.178
 
8.347%8.347
 
7.493%7.493
 
4.915%4.915
 
8.728%8.728
 
0.746%0.746
 
0.653%0.653
 
5.124%5.124
 
2.653%2.653
 
0.928%0.928
 
0.124%0.124
 
0.496%0.496
 
ර්0.000%
◌්1.194%1.194
 
0%
閉じる

マラヤーラム語

マラヤーラム語で使用されるマラヤーラム文字における文字の出現頻度は以下の表の通りである[117][118]

さらに見る 文字, マラヤーラム語における相対出現頻度 ...
文字 マラヤーラム語における相対出現頻度
14.915%14.915
 
ി6.605%6.605
 
6.547%6.547
 
6.463%6.463
 
6.386%6.386
 
5.303%5.303
 
4.462%4.462
 
3.720%3.72
 
3.261%3.261
 
3.167%3.167
 
2.932%2.932
 
2.637%2.637
 
2.632%2.632
 
2.508%2.508
 
2.272%2.272
 
2.269%2.269
 
1.784%1.784
 
1.668%1.668
 
1.600%1.6
 
1.576%1.576
 
1.384%1.384
 
1.288%1.288
 
1.170%1.17
 
1.037%1.037
 
1.027%1.027
 
0.825%0.825
 
0.825%0.825
 
0.721%0.721
 
0.600%0.6
 
0.549%0.549
 
0.525%0.525
 
0.502%0.502
 
0.500%0.5
 
0.495%0.495
 
0.451%0.451
 
0.409%0.409
 
0.398%0.398
 
0.391%0.391
 
0.366%0.366
 
0.365%0.365
 
0.337%0.337
 
0.336%0.336
 
0.291%0.291
 
0.275%0.275
 
0.261%0.261
 
0.246%0.246
 
0.228%0.228
 
0.224%0.224
 
0.176%0.176
 
0.143%0.143
 
0.140%0.14
 
0.119%0.119
 
0.117%0.117
 
0.114%0.114
 
0.097%0.097
 
0.074%0.074
 
0.060%0.06
 
0.055%0.055
 
0.045%0.045
 
0.040%0.04
 
0.028%0.028
 
0.017%0.017
 
0.013%0.013
 
0.011%0.011
 
0.005%0.005
 
0.005%0.005
 
0.002%0.002
 
0.001%0.001
 
0.000%
閉じる

カンナダ語

カンナダ語の母音におけるカンナダ文字の出現頻度は以下の表の通りである[119]

さらに見る 文字, 相対出現頻度 ...
文字 相対出現頻度
29.036%29.036
 
11.189%11.189
 
16.346%16.346
 
1.875%1.875
 
10.885%10.885
 
0.156%0.156
 
0.276%0.276
 
0.000%
0.000%
0.000%
0.905%0.905
 
2.527%2.527
 
0.061%0.061
 
1.421%1.421
 
1.339%1.339
 
0.189%0.189
 
0.000%
4.070%4.07
 
0.165%0.165
 
0.001%0.001
 
19.561%19.561
 
閉じる

また、カンナダ語の子音におけるカンナダ文字の出現頻度は以下の通りとなる[119]

さらに見る 文字, 相対出現頻度 ...
文字 相対出現頻度
5.663%5.663
 
6.219%6.219
 
0.348%0.348
 
6.168%6.168
 
0.131%0.131
 
0.0003%0.0003
 
1.241%1.241
 
0.023%0.023
 
1.355%1.355
 
0.011%0.011
 
0.040%0.04
 
2.136%2.136
 
0.075%0.075
 
2.741%2.741
 
0.014%0.014
 
0.943%0.943
 
6.810%6.81
 
0.457%0.457
 
7.860%7.86
 
0.800%0.8
 
7.278%7.278
 
2.933%2.933
 
0.251%0.251
 
2.433%2.433
 
0.750%0.75
 
4.382%4.382
 
3.893%3.893
 
10.270%10.27
 
0.001%0.001
 
6.394%6.394
 
2.778%2.778
 
0.0003%0.0003
 
5.478%5.478
 
1.128%1.128
 
0.956%0.956
 
5.711%5.711
 
2.331%2.331
 
閉じる

テルグ語

テルグ語の母音におけるテルグ文字の出現頻度は以下の表の通りである[120]

さらに見る 文字, 相対出現頻度 ...
文字 相対出現頻度
19.224%19.224
 
12.826%12.826
 
13.133%13.133
 
3.180%3.18
 
11.556%11.556
 
1.321%1.321
 
0.189%0.189
 
0.000%
0.000%
0.000%
2.585%2.585
 
4.079%4.079
 
1.107%1.107
 
0.959%0.959
 
4.071%4.071
 
0.128%0.128
 
0.001%0.001
 
7.934%7.934
 
0.071%0.071
 
17.638%17.638
 
閉じる

また、テルグ語の子音におけるテルグ文字の出現頻度は以下の通りとなる[120]

さらに見る 文字, 相対出現頻度 ...
文字 相対出現頻度
6.093%6.093
 
7.431%7.431
 
0.231%0.231
 
3.300%3.3
 
0.077%0.077
 
0.0004%0.0004
 
3.809%3.809
 
0.032%0.032
 
1.481%1.481
 
0.002%0.002
 
0.018%0.018
 
4.072%4.072
 
0.039%0.039
 
3.322%3.322
 
0.027%0.027
 
0.493%0.493
 
5.731%5.731
 
0.369%0.369
 
4.624%4.624
 
0.836%0.836
 
9.127%9.127
 
5.648%5.648
 
0.404%0.404
 
1.459%1.459
 
0.750%0.75
 
4.536%4.536
 
3.884%3.884
 
10.669%10.669
 
0.001%0.001
 
7.990%7.99
 
0.428%0.428
 
0.000%
4.896%4.896
 
1.059%1.059
 
1.024%1.024
 
5.320%5.32
 
0.819%0.819
 
閉じる

その他の言語における文字の相対出現頻度

ギリシア語

以下の表は Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 1,442,382文字(235,614単語)のもので、そのうち 1,161,745文字を集計している[121]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

ギリシア語における出現頻度の高い文字(ギリシア文字)は AOE となる[121]

さらに見る 文字, ギリシア語における文字の出現頻度 ...
文字 ギリシア語における文字の出現頻度[121]
Α12.98%12.98
 
Β0.74%0.74
 
Γ1.62%1.62
 
Δ1.55%1.55
 
Ε9.48%9.48
 
Ζ0.31%0.31
 
Η4.78%4.78
 
Θ1.16%1.16
 
Ι9.18%9.18
 
Κ3.66%3.66
 
Λ2.54%2.54
 
Μ3.55%3.55
 
Ν6.17%6.17
 
Ξ0.42%0.42
 
Ο9.48%9.48
 
Π3.95%3.95
 
Ρ4.12%4.12
 
Σ6.67%6.67
 
Τ7.89%7.89
 
Υ3.96%3.96
 
Φ0.72%0.72
 
Χ1.26%1.26
 
Ψ0.15%0.15
 
Ω1.71%1.71
 
閉じる

ヘブライ語

以下の表は Stefan Trost の分析結果をまとめたものである。分析には "WordCreator" の機能 Unicode Counter を使用した。分析にあたって利用したコーパスは 1,230,923文字(279,679単語)のもので、そのうち 937,426文字を集計している[122]。ただし、分析するコーパスによっては相対出現頻度は多少異なることがある。

ヘブライ語における出現頻度の高い文字(ヘブライ文字)は יהו となる[122]

さらに見る 文字, ヘブライ語における文字の出現頻度 ...
文字 ヘブライ語における文字の出現頻度[122]
א6.11%6.11
 
ב4.57%4.57
 
ג1.26%1.26
 
ד2.49%2.49
 
ה10.48%10.48
 
ו10.01%10.01
 
ז1.28%1.28
 
ח2.39%2.39
 
ט1.19%1.19
 
י10.67%10.67
 
ך0.78%0.78
 
כ2.60%2.6
 
ל7.12%7.12
 
ם2.92%2.92
 
מ4.43%4.43
 
ן1.06%1.06
 
נ2.76%2.76
 
ס1.43%1.43
 
ע3.11%3.11
 
ף0.26%0.26
 
פ1.63%1.63
 
ץ0.12%0.12
 
צ1.20%1.2
 
ק2.06%2.06
 
ר5.40%5.4
 
ש4.25%4.25
 
ת4.84%4.84
 
閉じる

中国語

中国語における文字(漢字)の出現頻度の上位20文字は以下の表の通りである[123]。分析では2009年にインターネット上で人気のあった8つの小説から計12,379,116文字について調査したものである[124]

さらに見る 文字, 中国語における相対出現頻度 ...
文字中国語における相対出現頻度
3.47%3.47
 
2.05%2.05
 
1.99%1.99
 
1.67%1.67
 
1.51%1.51
 
1.23%1.23
 
1.16%1.16
 
1.04%1.04
 
1.00%1
 
0.93%0.93
 
0.92%0.92
 
0.90%0.9
 
0.90%0.9
 
0.87%0.87
 
0.72%0.72
 
0.69%0.69
 
0.69%0.69
 
0.66%0.66
 
0.64%0.64
 
0.59%0.59
 
閉じる

中国の古文書における文字の出現頻度上位10文字は以下の表の通りである[123]。「不」、「一」、「人」の三文字は各年代において出現頻度が上位10位以内の高い頻度で表れる文字であった[123]

さらに見る 年代, 順序 ...
年代順序詳細
7-10世紀不人山无风 一日云有何全唐詩』に記載されている総数2,602,310文字に対する分析[124]
10-13世紀人风花一不 春无云月天『全宋詞』に記載されている総数1,417,778文字に対する分析[124]
13-14世紀云我不你的 是人一来了『元詩選』に記載されている総数2,172,631文字に対する分析[124]
14-20世紀了不一道来 人的是我个西遊記』、『水滸伝』、『三国志演義』、『紅楼夢』に記載されている総数2,506,684文字に対する分析[124]
閉じる

また、中国語の拼音(ピンイン)入力におけるアルファベットの出現頻度は以下の表の通りである[125]。分析には小説から約50万字、新聞記事から約130万字、ネットの投稿から約120万字を抽出したデータを使用している[126]ian の三つの文字の出現頻度が高く、v が最も出現頻度の低い文字であった[126]

さらに見る 文字, 中国語の拼音入力における相対出現頻度 ...
文字 中国語の拼音入力における相対出現頻度
A10.52%10.52
 
B1.42%1.42
 
C1.40%1.4
 
D3.28%3.28
 
E6.97%6.97
 
F0.89%0.89
 
G6.90%6.9
 
H7.17%7.17
 
I13.96%13.96
 
J2.42%2.42
 
K0.65%0.65
 
L1.79%1.79
 
M1.06%1.06
 
N11.91%11.91
 
O5.88%5.88
 
P0.42%0.42
 
Q1.03%1.03
 
R0.92%0.92
 
S2.97%2.97
 
T1.16%1.16
 
U7.94%7.94
 
V0.10%0.1
 
W1.16%1.16
 
X1.92%1.92
 
Y2.92%2.92
 
Z3.26%3.26
 
閉じる

韓国語

韓国語ハングルにおける字母ハングル字母)の出現頻度は以下の通りとなる[127]

さらに見る 順位, 字母 ...
順位字母位置度数割合
5初声1,171,0385.372%5.372
 
20終声411,5381.888%1.888
 
36初声64,9970.298%0.298
 
56終声6,0680.028%0.028
 
63終声3570.002%0.002
 
16初声596,8932.738%2.738
 
4終声1,328,0906.092%6.092
 
60終声2,7900.013%0.013
 
43終声30,3760.139%0.139
 
9初声800,7853.673%3.673
 
49終声18,5350.085%0.085
 
35初声72,6040.333%0.333
 
15初声610,2112.799%2.799
 
10終声776,8913.564%3.564
 
55終声7,3300.034%0.034
 
57終声4,3440.020%0.02
 
61終声2,1830.010%0.01
 
67終声50.000%
65終声1310.001%0.001
 
66終声780.000%
59終声3,0230.014%0.014
 
18初声429,6611.971%1.971
 
24終声258,5421.186%1.186
 
23初声359,0291.647%1.647
 
29終声133,7290.613%0.613
 
52初声16,0370.074%0.074
 
46終声25,8680.119%0.119
 
11初声756,4773.470%3.47
 
30終声114,5920.526%0.526
 
44初声29,1840.134%0.134
 
25終声219,1861.005%1.005
 
1初声2,105,5879.659%9.659
 
14終声617,2052.831%2.831
 
12初声748,5093.434%3.434
 
50終声17,1730.079%0.079
 
48初声20,4340.094%0.094
 
26初声200,2660.919%0.919
 
54終声9,9440.046%0.046
 
39初声48,0970.221%0.221
 
64終声3020.001%0.001
 
31初声106,6790.489%0.489
 
47終声25,3410.116%0.116
 
33初声98,9860.454%0.454
 
51終声16,9380.078%0.078
 
13初声635,2992.914%2.914
 
45終声26,9480.124%0.124
 
2中声1,926,0078.835%8.835
 
21中声409,7681.880%1.88
 
37中声63,7280.292%0.292
 
58中声3,7690.017%0.017
 
7中声942,8194.325%4.325
 
22中声393,6951.806%1.806
 
19中声422,4901.938%1.938
 
42中声44,3940.204%0.204
 
8中声862,0733.955%3.955
 
28中声162,6560.746%0.746
 
53中声11,2150.051%0.051
 
32中声99,7940.458%0.458
 
34中声94,5760.434%0.434
 
17中声592,4192.718%2.718
 
38中声57,3730.263%0.263
 
62中声2,0350.009%0.009
 
40中声47,5060.218%0.218
 
41中声47,1350.216%0.216
 
6中声1,151,9765.285%5.285
 
27中声179,8180.825%0.825
 
3中声1,355,5276.218%6.218
 
閉じる

韓国語のハングルにおける文字(音節)の出現頻度上位100文字は以下の通りである[128]

さらに見る 順位, 文字 ...
順位文字度数割合
1314,8693.550%3.55
 
2265,0712.988%2.988
 
3232,3842.620%2.62
 
4172,1261.940%1.94
 
5171,9431.938%1.938
 
6162,5791.833%1.833
 
7152,8621.723%1.723
 
8150,9181.701%1.701
 
9144,0511.624%1.624
 
10133,6911.507%1.507
 
11113,9201.284%1.284
 
12113,1501.276%1.276
 
13108,1641.219%1.219
 
14106,1291.196%1.196
 
15103,1211.162%1.162
 
16102,7091.158%1.158
 
1799,9431.127%1.127
 
1888,3140.996%0.996
 
1986,7640.978%0.978
 
2084,7740.956%0.956
 
2184,2470.950%0.95
 
2280,0430.902%0.902
 
2378,5320.885%0.885
 
2477,8580.878%0.878
 
2575,3460.849%0.849
 
2669,4230.783%0.783
 
2767,8550.765%0.765
 
2866,3900.748%0.748
 
2964,2610.724%0.724
 
3062,3380.703%0.703
 
3160,1360.678%0.678
 
3258,4850.659%0.659
 
3358,3860.658%0.658
 
3458,1650.656%0.656
 
3557,1520.644%0.644
 
3656,9450.642%0.642
 
3754,4070.613%0.613
 
3849,0190.553%0.553
 
3945,9320.518%0.518
 
4045,4750.513%0.513
 
4144,6720.504%0.504
 
4243,8800.495%0.495
 
4343,8790.495%0.495
 
4443,6850.492%0.492
 
4543,6310.492%0.492
 
4642,5680.480%0.48
 
4740,3550.455%0.455
 
4839,5530.446%0.446
 
4939,5290.446%0.446
 
5039,3450.444%0.444
 
5137,8850.427%0.427
 
5237,3910.422%0.422
 
5336,9670.417%0.417
 
5434,1090.385%0.385
 
5533,9640.383%0.383
 
5633,1450.374%0.374
 
5731,6920.357%0.357
 
5831,2820.353%0.353
 
5931,0410.350%0.35
 
6030,3640.342%0.342
 
6130,3170.342%0.342
 
6230,1840.340%0.34
 
6330,0510.339%0.339
 
6429,2410.330%0.33
 
6529,1050.328%0.328
 
6629,0680.328%0.328
 
6728,9180.326%0.326
 
6828,6600.323%0.323
 
6928,1760.318%0.318
 
7027,5820.311%0.311
 
7126,8040.302%0.302
 
7226,3410.297%0.297
 
7326,0090.293%0.293
 
7425,9640.293%0.293
 
7525,9320.292%0.292
 
7625,6180.289%0.289
 
7725,1680.284%0.284
 
7825,0550.282%0.282
 
7924,9750.282%0.282
 
8024,7640.279%0.279
 
8124,5120.276%0.276
 
8224,2660.274%0.274
 
8323,7060.267%0.267
 
8423,6530.267%0.267
 
8523,1520.261%0.261
 
8623,0160.259%0.259
 
8722,9160.258%0.258
 
8822,7640.257%0.257
 
8922,6180.255%0.255
 
9022,3730.252%0.252
 
9122,0400.248%0.248
 
9222,0330.248%0.248
 
9321,9900.248%0.248
 
9421,9760.248%0.248
 
9521,9730.248%0.248
 
9621,9390.247%0.247
 
9721,9100.247%0.247
 
9821,7190.245%0.245
 
9921,3070.240%0.24
 
10021,2800.240%0.24
 
閉じる

また、1950年代に調査された韓国の文書中におけるハングルの出現頻度の高い30文字は 이는다하 에가고올지어 의은서그아 로라기도한 나니를것있 리으여사들 の順である[129]。また、1950年代に調査された韓国語の文書中における漢字の出現頻度の高い30文字は 國生地人自 十一分物年 學大字發身 民氣方間會 日事對行上 當實等二法 である[130]

台湾語

以下の表では台湾語における出現頻度の高い音節上位20文字を記載する[131][132]。なお、台湾語は文字の表記法として主に漢字(全漢)、漢字ローマ字混用(漢羅)、ローマ字(全羅)の三つ存在しているため、以下の表では漢字およびローマ字が混合した出現頻度となっている[133]

さらに見る 文字, 台湾語における相対出現頻度 ...
文字台湾語における相対出現頻度
ê4.2252%4.2252
 
1.8029%1.8029
 
1.3831%1.3831
 
(数字)1.2566%1.2566
 
1.2495%1.2495
 
1.0347%1.0347
 
1.0218%1.0218
 
0.9500%0.95
 
0.9415%0.9415
 
0.9312%0.9312
 
0.9055%0.9055
 
0.7983%0.7983
 
0.7355%0.7355
 
0.6659%0.6659
 
0.6157%0.6157
 
0.6023%0.6023
 
0.5901%0.5901
 
0.5896%0.5896
 
0.5429%0.5429
 
0.5375%0.5375
 
閉じる

アムハラ語

アムハラ語で使用されるゲエズ文字(アムハラ文字)における文字の出現頻度は以下の表の通りである[134]。分析に使用したデータの文字の総数は 12,222,876文字である[134]

さらに見る 文字, アムハラ語における相対出現頻度 ...
文字 アムハラ語における相対出現頻度
2.28%2.28
 
7.62%7.62
 
0.62%0.62
 
8.45%8.45
 
0.69%0.69
 
6.68%6.68
 
4.73%4.73
 
0.57%0.57
 
2.42%2.42
 
6.77%6.77
 
0.08%0.08
 
7.96%7.96
 
2.59%2.59
 
0.28%0.28
 
9.58%9.58
 
0.78%0.78
 
5.09%5.09
 
3.29%3.29
 
0.07%0.07
 
5.16%5.16
 
0.73%0.73
 
1.79%1.79
 
0.05%0.05
 
7.54%7.54
 
4.10%4.1
 
0.72%0.72
 
4.03%4.03
 
2.08%2.08
 
0.47%0.47
 
0.18%0.18
 
0.39%0.39
 
0.20%0.2
 
1.71%1.71
 
0.31%0.31
 
閉じる

ゴート語

現在は死語となっているゴート語ゴート文字における文字の出現頻度は以下の表の通りである[135]

さらに見る 文字, ゴート語における相対出現頻度 ...
文字 ゴート語における相対出現頻度
𐌰19.49%19.49
 
𐌱1.53%1.53
 
𐌲2.64%2.64
 
𐌳3.73%3.73
 
𐌴3.92%3.92
 
𐌵0.56%0.56
 
𐌶0.78%0.78
 
𐌷3.07%3.07
 
𐌸4.94%4.94
 
𐌹13.97%13.97
 
𐌺1.43%1.43
 
𐌻2.43%2.43
 
𐌼3.70%3.7
 
𐌽8.97%8.97
 
𐌾3.00%3
 
𐌿5.70%5.7
 
𐍀0.30%0.3
 
𐍁0.001%0.001
 
𐍂3.02%3.02
 
𐍃7.66%7.66
 
𐍄2.88%2.88
 
𐍅2.46%2.46
 
𐍆1.46%1.46
 
𐍇0.12%0.12
 
𐍈0.43%0.43
 
𐍉1.80%1.8
 
𐍊0.0005%0.0005
 
閉じる

関連の出現頻度

単語の出現頻度

ジップの法則

続いて文字の出現頻度ではなく、単語の出現頻度について言及する。ある自然言語のコーパスにおける単語の出現頻度はジップの法則に従った分布となる[136][137]。これは出現頻度の最も高い単語は二番目の単語の約二倍の出現頻度となることをいう[137]

エスペラント語で書かれたあるフィクション小説のコーパスにおける単語の出現頻度は以下の通りとなった:

la 9864、kaj 4195、mi 3934、de 2819、li 2543、esti 2395、al 1969... と続いている[138]

ジップの法則は集合の要素(文書内における単語など)を出現頻度の高い順に並べ、それぞれに順位を対応させると、各順位の出現確率 p(n) はその順位 n の逆数におおよそ比例することを示している。ある順位における相対出現頻度は以下の式で与えられる[137]:

順位が高い 1、2、3、4、5 の順番に出現確率は 1、1/2、1/3、1/4、1/5 の比率を成している。したがってジップの法則から各順位ごとの出現確率はお互いに関連した関係であるといえる[137]。実際、上記の分析結果についても出現頻度はジップの法則に従っているといえる。

日本語

日本語における語(見出し語)の出現頻度は以下の表の通りである[139]

下記の表は割合を表示せず、順位のみを記載する。

さらに見る 順位, 単語 ...
順位 単語
1
2
3
4
5
6
7
8
9
10ます
順位 単語
11
12
13ている、てる
14です
15れる
16という、つう
17
18えー、ええ
19言う
20のです、んです
順位 単語
21あの、あのう、あのー
22する
23まー、まあ
24
25ある
26
27ない
28なる
29
30その
順位 単語
31けれど
32から
33よう
34思う
35
36
37
38
39そう
40
順位 単語
41
42
43てしまう
44それ
45とか
46この
47無い
48行く
49のだ、んだ
50せる
順位 単語
51これ
52もう
53である
54
55
56
57ので、んで
58
59
60こう
順位 単語
61から
62
63
64来る
65その
66まで
67見る
68たり
69
70良い、いい
順位 単語
71
72自分
73
74あー
75やはり、やっぱり
76たい
77やる
78
79いる
80できる
順位 単語
81など
82として
83
84また
85ちょっと
86てくる
87だけ
88くらい、ぐらい
89ではない
90えーと
順位 単語
91
92ていく、てく
93
94
95どう
96
97本当
98持つ
99出る
100ため
閉じる

英語

英単語の出現頻度は以下の表の通りである[140]。ただし、単語の出現回数の加算方法としては英語の辞書の見出し語(基本語)ごとに行っており、be には iswasarewere などが合算された数となるが、Ime は各々別の単語として加算されている。

下記の表は割合を表示せず、順位のみを記載する。

さらに見る 順位, 単語 ...
順位 単語
1the
2be
3to
4of
5and
6a
7in
8that
9have
10I
順位 単語
11it
12for
13not
14on
15with
16he
17as
18you
19do
20at
順位 単語
21this
22but
23his
24by
25from
26they
27we
28say
29her
30she
順位 単語
31or
32an
33will
34my
35one
36all
37would
38there
39their
40what
順位 単語
41so
42up
43out
44if
45about
46who
47get
48which
49go
50me
閉じる

英語版の AWK には単語の頻度分析に関するプログラムがまとめられており、より高度な分析を行うプログラムについては下記のプログラム節に記載されている。

数字の出現頻度

スーパーマーケットに並んでいる商品。日本においては価格の末尾の数字は 8 であることが多いとされる[141]

低価格帯

アルファベット平仮名に限らず、数字においても特徴的な出現頻度の事例が知られている。例として、日本のスーパーマーケットにおける商品の金額の末尾(一の位)の数字は 8 であることが多いことが知られている[142]。一方、アメリカやヨーロッパ、英語圏などのスーパーマーケットで見かける金額の末尾(一の位)の数字は 9 であることが多いことが知られている[143]。具体例として、商品の価格が200円でなく199円として売られていることが挙げられる。1997年の『Marketing Bulletin』によると、ニュージーランドの新聞の広告に記載された商品価格における末尾の桁の 60% が 9 であったことが知られている[144]

これらの事象を確認することは、大規模な統計的調査や統計学者による分析を行う必要なく容易に確かめることができる。

ベンフォードの法則

一方で潜在的な例として、企業の財務会計における数字の最初の桁に関する頻度について挙げることができる[145]。すなわち、最初の桁に現れる数字の出現頻度は互いに等しくなく、偏りがあることが知られており、これはベンフォードの法則と名づけられている。このベンフォードの法則によれば、数字の最初の桁において 1 である確率は 30% 程度であるが、9 である確率は 5% 未満である。このことから数字の最初の桁における分布をより正確に求めることで、不自然な偏りを検出し、不正や詐欺を発見するのに役立たせることができる[145]

数字の最初の桁における各数字の出現頻度を定量的に表すと、以下の表の通りとなる[146]。ただし、最初の桁の数値を d とし、d の出現確率を P(d) とする。

さらに見る d, P(d) ...
dP(d)P(d) の度数
130.1%30.1
 
217.6%17.6
 
312.5%12.5
 
49.7%9.7
 
57.9%7.9
 
66.7%6.7
 
75.8%5.8
 
85.1%5.1
 
94.6%4.6
 
閉じる

ベンフォードの法則では、対象となるデータセットが大規模なものでかつ一つ一つのデータが複数の桁を持ち、可能な限り実在するデータに対して現れる法則となる[147]

十進数の数字における最初の桁の出現確率は 10 を底とする対数を用いて表される。すなわち、最初の桁の数値 d の出現確率は以下の式で与えられる[59]:

これはすなわち、数字を横軸にとり、出現確率を縦軸とすると、各数字の出現確率は対数によって描かれる分布となる。したがって、数字の最初の桁における出現確率は特有の分布に従う[148]

大規模なデータセットに対する数字の二桁目の出現頻度についても同様に偏りのある分布となる[147]。しかしながら、数字の右側の桁の出現頻度を求めようとすると、次第にベンフォードの法則には従わなくなり、各数字の出現確率が均等(各数字約10%の出現確率)に近づいていくことが知られている[149]

なお、スーパーマーケットなどの低価格帯における末尾の数字は 8(9)であることが多いため、この性質は当てはまらない[150]

単語の長さ

単語の長さを算出する方法は主に三種類存在する[151]。一つ目は語の形態に応じて語の長さを算出する方法である。これはある単語に対してその本体の自立部分と、助詞、助動詞などの付属部分を別々のものとみなして計算する方法である[152]。二つ目は語の表記に応じた語の長さを算出する方法である。これはある単語に対して文字として表記されているそのままの文字数を一つの単語として計算する方法である[153]。三つ目は語の音に応じた語の長さを算出する方法である。これはある単語に対してそれぞれの文字を拍(モーラ)に応じて語の長さを計算する方法である[153]

1986年に出版された『中央公論』1年分のデータを標本とした日本語における単語の長さの平均は、形態別の算出方法では 1.8723 となり、表記別の算出方法では 3.6704 であり、音別の算出方法では 4.7798 であった[152]

実装

AWKによる頻度分析プログラム

説明

以下に記載されているコードはエスペラント語における頻度分析を行うプログラムで AWK によって書かれている。出力形式として ASCIIHTMLWikitable およびヒストグラムを対応している[注釈 4]。頻度分析が可能な項目として以下のものが挙げられる:

  • (単なる)文字の出現頻度
  • 単語の頭文字の出現頻度
  • 単語の末尾の文字の出現頻度
  • 単語の長さの平均値とその分布
  • 単語の出現頻度

BEGINパターンでは分析する頻度の機能を自由に有効・無効化することができ、出力形式のフォーマットを指定することもできる。通常下記のプログラムの頻度分析は大規模なテキストコーパスの分析についても数十秒の実行時間で終了することが多い。しかし、計算機の処理速度やテキストコーパスの規模によっては単語の出現頻度を求めるのに数十分かかる場合がある。したがって、始めて分析するコーパスの実行においては単語の出現頻度分析を無効にして実行すること推奨する。

単語の出現頻度算出機能の一つとして単語を品詞ごとに分けて名詞(-O)、形容詞(-A)、副詞(-E)、(分詞を含まない)動詞、およびその他の品詞ごとに分類することができる。

言い換えれば、複数形と対格形については基本的に -O、-A、-E の形として導かれる。すなわち、"vin" や "tiujn" のような単語はそれぞれ "vi" や "tiu" となる。また動詞の語尾 "-as"、"-is"、"-os"、"-us"、"-u" は "-i" として導かれる。動詞の分詞についても -O、-A、-E の単語になり、例えば "amantojn" は "amanto" となり "ami" にはならない。

BEGINパターンに含まれている例外の単語処理(正規表現の部分)に注意を払う必要がある。これらの処理によって頻度分析において "nun" を "nu" の対格形としてではなく、"kaj" は "ka" の複数形ではなく、"unu" が "uni" の命令形ではないことを正しく判別する。もっともすべての単語を正しく処理できるわけではない。例として、エスペラント由来でない名前の "Simon" では "simo" と誤って変形されてしまう。これを回避するために必要に応じて該当のリストを拡張することが可能である。

プログラムの使用方法として、下記の折り畳みボックス内のコードをコピーし、テキストファイルに貼り付け保存(frequency.awk)。これをターミナルにて以下のコマンドを実行する:

awk -f frequency.awk text.cx >result.cx

もしくは各環境に対応したコマンドを実行する。なお、このプログラムを実行するためには実行環境内に AWK をインストールしておく必要がある。Linux、Unix 環境ではデフォルトでは AWK が搭載されており、Mac も同様に動作すると考えられる。Windows については Gnu-a website からプログラムファイルをダウンロードすることでプログラムを実行することができる。

このプログラムを実行することによって任意のコーパスに対して単語の頭文字および末尾の文字の出現頻度、単文字の出現頻度、単語の長さの平均値と分布、あるいは単語の出現頻度の頻度分析が可能となる。

プログラム

AWK
BEGIN {
# 以下のコードは適宜修正してください

# 分析に関する設定項目 - 1: 有効化、0: 無効化

LETTER_FREQUENCY  = 1
FIRST_LETTERS_OF_WORD = 1
LAST_LETTERS_OF_WORD = 1
WORD_LENGTH  = 1
WORD_FREQUENCY  = 1 # 実行に時間がかかる

# 出力形式に関する設定項目 - 1: 有効化、0: 無効化

FORMAT_ASCII = 1
FORMAT_HTML = 1
FORMAT_WIKI = 1

# 例外の単語

NO_VERB = "^(tiu|kiu|neniu|unu|c[x]u|c[x]iu)$"
NO_ALL_WORD = "^(kaj|tuj|nun|kun|sen|ajn|plej|malplej|tamen|amen|kvin)$"
NO_ROMAN = "^(mil|((c|ci|cim|ĉ|div|divid|il|l|lic|lim|m|v|vic|vid|viv)i))$"

# lili、livi、vili もローマ数字の例外のとして挙げられるが、ほとんど場合で考慮する必要はない

start_time=systime(); # systime() 関数が使用できない環境下では除去する必要がある。

# ==================================================================================
version="Version: 2012-01-18 17:00 Pejno Simono";

FS="[ \n\t\",.;:!?()]"; # 考慮する
}

{
gsub(/[-]/,"");
for(i=1; i<=NF; i++)
if($i~/^[a-zA-Z][a-zA-Z]+$/) # 少なくとも2文字以上
{
s=tolower($i);
if(s!~/^[ivxlcdm]+$/ || s~NO_ROMAN) # ローマ数字以外
{
n=0;
for(j=1; j<=length(s); ) # 任意の文字
{
c=substr(s,j,1);
if (c~/^[cghjsu]/)
if (substr(s,j+1,1)=="x" && substr(s,j+2,1)!="x")
c=substr(s,j,2);
if(j==1)
first[c]++; # 単語の頭文字
letter[c]++;
letters++;
j+=length(c); # 単語中の "x" まで飛ばす(X-方式)
n++;
}
last[c]++; # 単語の末尾の文字

if(n>1) # 単語の長さが 1 より大きい場合のみ
{
length[n]++; # 単語の長さ
sum+=n;
words++;

if(WORD_FREQUENCY==1)
{
s=tolower($i); # すべての単語に対して
j=length(s);
if(j>2)
{
if(s!~NO_VERB)
n=sub(/(as|is|os|us|u)$/,"i",s);
if(n==0 && s!~NO_ALL_WORD)
sub(/(jn|j|n)$/,"",s);
}
word[s]++;
}

}
}
}
}

END {
FIRST=1;
LAST=2;
ALL=3;
LENGTH=4;
WORDS=5;

ASCII=1;
HTML=2;
WIKI=3

asciiwidth=50;
htmlwidth=400; # pixel
wikiwidth=400; # pixel

if(LETTER_FREQUENCY>0)
{
if (FORMAT_ASCII>0) printout(ALL,ASCII);
if (FORMAT_HTML>0) printout(ALL,HTML);
if (FORMAT_WIKI>0) printout(ALL,WIKI);
}
if(FIRST_LETTERS_OF_WORD>0)
{
if (FORMAT_ASCII>0) printout(FIRST,ASCII);
if (FORMAT_HTML>0) printout(FIRST,HTML);
if (FORMAT_WIKI>0) printout(FIRST,WIKI);
}
if(LAST_LETTERS_OF_WORD>0)
{
if (FORMAT_ASCII>0) printout(LAST,ASCII);
if (FORMAT_HTML>0) printout(LAST,HTML);
if (FORMAT_WIKI>0) printout(LAST,WIKI);
}
if(WORD_LENGTH>0)
{
if (FORMAT_ASCII>0) printout(LENGTH,ASCII);
if (FORMAT_HTML>0) printout(LENGTH,HTML);
if (FORMAT_WIKI>0) printout(LENGTH,WIKI);
}
if(WORD_FREQUENCY>0)
{
if(FORMAT_ASCII>0) printout(WORDS,ASCII);
if(FORMAT_HTML>0) printout(WORDS,HTML);
if(FORMAT_WIKI>0) printout(WORDS,WIKI);
}

if(start_time>0) print time_needed();
print version;
}

function printout(mode,format)
{
if(mode==FIRST)
return printout2(mode,format,first);
if(mode==LAST)
return printout2(mode,format,last);
if(mode==ALL)
return printout2(mode,format,letter);
if(mode==LENGTH)
return printout2(mode,format,length);
if(mode==WORDS)
return printout2(mode,format,word);
}

function printout2(mode,format,A)
{
setup(mode);
if(format==ASCII)
return printoutASCII(mode,A);
if(format==HTML)
return printoutHTML(mode,A);
if(format=WIKI)
return printoutWIKI(mode,A);
}

function setup(mode)
{
_col=2;
_asc=0;
_colhdr="letter";
_colalign="center";
_counted="words";
_count=words;
_mez=", average word length";
_mez2="letters";

if(words>0)
_av=sum/words; # 単語の長さの平均値
if(mode==FIRST)
{
_title="First letters of a word";
return;
}
if(mode==LAST)
{
_title="Last letters of a word";
return;
}
if(mode==ALL)
{
_title="All letter";
_counted="letters";
_count=letters;
return;
}
if(mode==LENGTH)
{
_title="Word length";
_col=1;
_asc=1;
_colhdr="length";
return;
}
if(mode==WORDS)
{
_title="Word frequencies";
_colhdr="word";
_colalign="left";
}
}

function printoutASCII(mode,A, i,j,B,w,s,fmt)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LENGTH) # 最高値
j=B[1,2]
else
j=getmax(B);
w=asciiwidth/j;
print "<" "pre>";
printf("=== %s ===\n\n",_title);
if(mode==WORDS)
fmt="%-20s\t%8s %s\n";
else
fmt="%-6s\t%8s %s\n";
printf(fmt,_colhdr,"number","probability\n")
if(mode==WORDS)
fmt="%-20s\t%s %6.2f%% %s\n";
else
fmt="%-6s\t%s %6.2f%% %s\n";
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=WORDS)
s=toupper(s);
printf(fmt, s, thou(B[j,2],8), 100.0*B[j,2]/_count, hist(B[j,2]*w));
}
printf("\nEl %s %s", thou(_count,0), _counted);
if(mode==LENGTH)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf "\n</" "pre>\n\n";
}

function hist(w, s)
{
w-=0.5;
while(w-- > 0)
s=s "*";
return s;
}

function printoutHTML(mode,A, i,j,B,w,s)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LENGTH) # 最高値
j=B[1,2]
else
j=getmax(B);
w=htmlwidth/j;
printf("<table border=1>\n");
printf("<tr><th colspan=4>%s</th></tr>\n",_title);
printf("<tr><td align=%s>%s</td><td align=right>number</td>", _colalign, _colhdr);
printf("<td align=center colspan=2>probability</td>\n");
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=WORDS)
s=toupper(s);
printf("<tr><td align=%s><b>%s</b></td>", _colalign, s);
printf("<td align=right>%s</td>", thou(B[j,2]),0);
printf("<td align=right>%0.2f%%</td>", 100.0*B[j,2]/_count);
printf("<td align=left><div style=\"width:%dpx;",B[j,2]*w);
printf("height:2ex;background:blue;\">&#160;</div></td>\n");
}
printf("<tr><th colspan=4>El %s %s", thou(_count,0), _counted);
if(mode==LENGTH)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf("</th></tr>\n");
printf("</table>\n\n");
}

function printoutWIKI(mode,A, i,j,B,w,s)
{
if(_count<1)
{
print "file empty";
return;
}
i=sillysort(A,B,_col,_asc);
if(mode!=LENGTH) # 最高値
j=B[1,2]
else
j=getmax(B);
w=100.0*j/_count;
w=wikiwidth/w;
printf("{| class=\"wikitable\"\n");
printf("! align=center colspan=4 | %s\n",_title);
printf("|-\n! align=%s | %s !! align=right | number !! align=right colspan=2 | probability\n",_colalign,_colhdr);
for(j=1; j<=i; j++)
{
s=B[j,1];
if(mode!=WORDS)
s=toupper(s);
printf("|-\n| align=%s | <b>%s</b> ",_colalign,s);
printf("|| align=right | %s ", thou(B[j,2],0));
printf("|| align=right | {{bartable|%0.2f|%%|%0.3f}}\n", 100.0*B[j,2]/_count, w);
}
printf("|-\n! colspan=4 | El %s %s", thou(_count,0), _counted);
if(mode==LENGTH)
printf("%s %0.2f %s", _mez, _av, _mez2);
printf("\n");
printf("|}\n\n");
}

function getmax(A, i,j,M)
{
for(i in A)
{
split(i, M, SUBSEP);
if(M[2]==2)
if(A[i]>j)
j=A[i];
}
return j;
}

function sillysort(A,B,col,asc, i,j,n,t)
{
for(j in A)
{
i++;
B[i,1]=j;
B[i,2]=A[j];
n=i;
if (asc==0) # desc
{
while(n>1 && B[n,col]+0>B[n-1,col]+0)
{
t=B[n-1,1]; B[n-1,1]=B[n,1]; B[n,1]=t;
t=B[n-1,2]; B[n-1,2]=B[n,2]; B[n,2]=t;
n--;
}
}
else # asc
{
while(n>1 && B[n,col]+0<B[n-1,col]+0)
{
t=B[n-1,1]; B[n-1,1]=B[n,1]; B[n,1]=t;
t=B[n-1,2]; B[n-1,2]=B[n,2]; B[n,2]=t;
n--;
}
}
}
return i;
}

function time_needed( h,m,s,eps)
{
eps=0.000001;
s=systime()-start_time;
m=int(s/60);
s-=m*60-eps;
h=int(m/60);
m-=h*60-eps;
return sprintf("Run time (hms): %i:%02i:%02i\n",h,m,s);
}

function thou(v,n, s)
{
s=sprintf("%d_",v);
while(s~/[0-9][0-9][0-9][0-9]/) # エレガント
sub(/[0-9][0-9][0-9][,_]/, ",&",s); # 興味深い
sub(/_/,"",s); # エレガントでない
while(length(s)<n)
s=" " s;
return s;
}

function _thou(v,n, i,j,s,t)
{
s=sprintf("%d",v);
for(i=length(s); i>0; i--)
{
t=substr(s,i,1) t;
if(++j%3==0)
t="," t;
}
while(length(t)<n)
t=" " t;
return t;
}

脚注

参考文献

関連項目

外部リンク

Related Articles

Wikiwand AI