以前の研究は、ソースデータの不一致について正しく批判されました。これは、タグ「photo Ufa」の例ではっきりと確認できました。 今回は状況を修正し、サンプルを何度も増やしました。
ソースデータ
この調査には
10,000のユーザー日記が含まれました。 最初の100人のユーザーが見落とされ、その後、
評価の各ページから2人のユーザーが選択されました。 各ユーザーは
2006年まですべてのレコードをアップロードしました。 例外は
18+およびサブキャッスルの投稿でした。 次に、レコードから、ヘッダー、タグ、HTMLマークアップのないテキスト、画像とコメントの数が抽出されました。 結果は
1,777,308レコードでした。
素敵な景色を!
投稿
利用可能なヘッダー

文字の文字長

文字の長さ
avenuが予想する
ように 、LJは投稿の文字数が圧倒的に多いという点で
Twitterと非常によく似ています。
時間と曜日ごと

ユーザー記録

それは秘密の陰謀のように見えます。 日記の簡単なレビューは規則性を示さなかった。
タグ

タグの長さと数

人気のタグ
pepelsbey 、少しあります!
コメント

投稿あたりのコメント数

コメント数に対するテキストの長さ

コメントの平均テキスト長

おわりに
エントリ数の増加は、人気のあるタグのみに大きな影響を与え、他のパラメーターにはほとんど影響を与えませんでした。
ご清聴ありがとうございました。 あなたの願い、批判、コメントを待っています。
UPD:55エントリのユーザー日記:
13whitemice 、
55thairborngirl 、
a-mne-eshe 、
a-sebrov 、
akmych 、
al-re 、
ally-of -sunbeam 、
anton -platov 、
b0risl0dkin 、
bazil-t 、
beobachter 、
blog-knockknock 、
boriansky 、
brom-termit 、
catrin- flame 、
curious-ja 、
cybercool 、
da4 、
dj- nicks 、
djrediska 、
dr-bass 、
dugla 、
dyxlesska 、
echarri 、
ekateriana 、
eklery 、
ennochka 、
ermolaev-vlad 、
escaldo 、
estetika-nice 、
fabyla 、
father-kot 、
geyzer76 、
gizir 、
gonish 、
green-tiffani 、
gyqyv 、
hmixa 、
iliora 、
jazz-fun 、
jelka3 、
john-scar 、
k0mpas 、
karibus 、
krysia-i-basia 、
kushka 、
lagoun 、
lazutkina 、
light-tm 、
loony2004 、
love-spring 、
magnumx 、
makova547 、
malone -xbit 、
mariri 、
mashki 、
mia312 、
minorland 、
more-produkt 、
mozgovik 、
nankin 、
new-zebra 、
nikita-avanti 、
oksk 、
ovine 、
pastsimple 、
pavel -lv 、
peshi-eshe 、
poignant -art 、
pugachevsky 、
roketa 、
ryzha-sonya 、
samaposebe99 、
sank -a 、
saule-marsault 、
schattenphonix 、
seligoroff 、
sergik1977 、
servinn 、
sevavladimirov 、
shtefanesko 、
sklyankin 、
snow-cat 、
stas -y 、
stei nboom 、
suhaverhi 、
svetik-sh 、
tamikori 、
tipo-femmina 、
tri-4etyre 、
turobei 、
uberlastung 、
ulianich 、
users 、
vale4ka-babo4ka 、
vernon-dimirest 、
victoria1527 、
yanezh-von-sark 、
yellow- luke 、
zerguzすべてのユーザーレコードが取得されたわけではなく、2006年のみであることを完全に忘れていました。 したがって、ボットの確率は非常に低くなります。 ほとんどの日記は生きています。11月と12月のエントリがあります(10月にデータを収集しました)。 したがって、それが何であるかは明確ではありません。 他のリソース(Habr?)で同様の統計を収集する必要があります。