ロシア語のテキストの小規模分析の結果と展望

ロシア語フレーズの最も単純なロボット生成プログラムの作成中に収集された統計を読者に提示します

ワード配布


最初にいくつかの数字を示します。
ロシア語のテキストの12.5 Mb(主にさまざまな著者の古典文学)、142,114の異なる単語では、結合 "and"が最もよく見られます-83,575回(単語はすべての単語形式で使用されます)。 そして、それは半分以上です!
2番目に頻繁に発生するのは前置詞「by」-52124回、3位-粒子「not」:36268回です。
「said」という動詞(単数形、3l)は、6,566回発生し、28位です。
しかし、「はい」という単語は36位にあり、5039回出現しますが、「いいえ」は2948回出現し、53位に出現しています。
残りの単語は、著者の好みに基づいて、非常にランダムに選択されます。



テキストの本文上の単語の頻度は、英語のZipf法の発見以来(つまり、60年以上)、このトピックに関するさまざまな辞書とレビューが公開されてから研究されてきましたが、ロシア語についてはもう少し慎重かつ明確に見ていきます。
詳細なグラフと例と結論

Source: https://habr.com/ru/post/J81485/


All Articles