Megafon CJSCのユーザーのSMSテキストの分析

画像

862の一意のSMSテキストを分析し、使用された単語の頻度、都市ごとに配信され、受信者ごとにグループ化されました。 人気のある検索サービスで短期間公開されていたテキストが基礎として採用されました。

メッセージの受信者を特定できないようにするため、電話番号、パスワードを含むテキスト、および送信者または受信者に損害を与える可能性のあるその他の情報を削除しました。

このプロジェクトは 、研究とプロモーションの目的でのみ私たちにとって興味深いものです。

猫の下でいくつかの結果。


定量的パラメーター


データベース内の一意のメッセージの数:862

SMS受信者の地域(トップ5):
  1. モスクワ-399
  2. サンクトペテルブルク-60
  3. サマラ地域-40
  4. オレンブルク州-31
  5. バシコルトスタン共和国-28

発送期間:2011/07/07-2011/07/16
総単語数(前置詞を含む):23,581
一意の単語数:5,559
1つのSMSの平均単語数:27.3の非反復-6.4

制限事項


smsデータベースには一定の制限があり、代表的なソースとは見なされません。

制限事項:Webフォームを介して送信されるテキストメッセージは、平均文字数(より多くの文字)、対象者、およびそれに応じてコンテンツが異なります。 Webフォームは、次の場合に最もよく使用されます。
Yandexの検索結果には8,000を超えるエントリがリストされ、表示できるのは1,000未満でした。サービスを介して送信されたすべてのメッセージが検索結果に含まれているわけではなく、検索ロボットによってのみランク付けされています。

それにもかかわらず、ソースは、テキストの独創性とプライバシーのために、現代の書かれた言語の研究にとって興味深いです。

いくつかの観察


ほとんどのユーザーの前向きな姿勢に満足して、彼らお互いを愛しキスをし逃し待ち 、より多くの文章会話電話を求めます。 愛、家族と忠実さ、誕生日おめでとう、結婚式の日にお互いを祝福します

一方、 「愛」はしばしば「not」粒子に隣接しており、テキストには家族のフィルターを見逃さない言葉や脅威があります。

ほとんどのユーザーにとって、 仕事だけではありませんが、 お金について書くことの方がはるかに多いです。 喜び幸福は 問題を克服します。 彼らは子供についてよりも母親について書くことが多く、 今日明日を好みます。

ほとんどのメッセージは圧倒的で、感嘆符と絵文字の数が文字数に追いつきます。 テキストは読み書きができず、これが標準になりつつあり、まれなメッセージがエラーなしで書き込まれます。

まとめ


驚くべきことに、 「良い」コメントの数は「邪悪 な」コメントの数に勝ちましたが、一見するとすべてが逆に見えました。

Source: https://habr.com/ru/post/J124464/


All Articles