こんにちはHabr! マーケティングと広告のニーズについてユーザーデータを分析し、ユーザーが広告にどのように反応するかに対するユーザーの性格タイプの影響を調査することにしました。 彼らは、おそらく、20世紀半ばから知られている
MBTIライン(マイヤーズブリッグスタイプインジケーター)の最も人気のある類型を採用することを決めました。 欧米の大企業の多くは、採用時またはプロジェクトに取り組むチームを編成するときにMBTIテストを使用しています。
もちろん、私たちが興味を持っているのは、ユーザーのチームワークへの準備ではなく、バナーをクリックする欲求に対する彼の性格のタイプの影響です。 したがって、私たちが調査した質問は、「性格タイプは広告キャンペーンの
クリック率に影響を与えることができますか?」です。
この記事では、それをどのように行ったかについてお話します。

マイヤーズ-ブリッグスの類型
Myers-Briggs類型学には4つの特徴があります。
- E — I-生命エネルギーの方向:
E(Extversion、extraversion)-外の世界へ。
I(内向、内向)-内なる世界;
- S — N-状況におけるオリエンテーションの方法:
S(感覚、常識)-特定の情報へのオリエンテーション。
N(iNtuition、直感)-一般化された情報へのオリエンテーション。
- T — F-意思決定の基礎:
T(思考、思考)-代替案の合理的な重み付け。
F(フィーリング、フィーリング)-感情的に判断します。
- J — P-ソリューションを準備する方法:
J(判断)-事前に情報を計画および整理することを好みます。
P(知覚、知覚)-詳細な予備準備を行わずに行動することを好み、状況に応じてより誘導されます。
上記の特性の組み合わせにより、たとえばJTSEなどの16種類のいずれかが指定されます。

性格タイプの識別
ユーザーのIDのタイプを判別するために、各特性に1つずつ、4つの分類子を作成しました。
トレーニングサンプルでは、パートナーサイトの1つの情報を使用しました。このサイトでは、ユーザーが性格タイプを決定するアンケートに記入します。 サンプルサイズは約1万ユーザーです。
各分類子の従属変数は特性クラスです。 たとえば、EIを特徴付けるには、Iはポジティブクラス(1)、Eはネガティブクラス(0)です。
独立変数として、パートナーサイトでのテストに先行する期間のインターネット上のユーザー行動の履歴(訪問ページ)を使用しました。 訪問した各ページのアドレスは、トークンの形式で表示されます:3〜10文字の単語。 たとえば、アドレス
habrahabr.ru/company/dca/blog/260845は 、次のトークンセットに変換されます:['http'、 'habrahabr'、 'company'、 'dca'、 'blog']。
その後、すべてのデータがランダムにトレーニングサンプル(37.5%)、機能エンジニアリングのサンプル(37.5%)、およびテストサンプル(25%)に分割されます。
機能エンジニアリングのプロセスは、以前の
記事で説明したサイトの階層分類に使用するプロセスと似ていますが、以下で説明します。
機能エンジニアリング
機能エンジニアリングのサンプルの各トークンについて、次の特性を計算します
- トークンが出会った回数(total_number);
- ユーザーが正のクラス(true_number)に属している場合、トークンが満たされた回数。
- ユーザーがネガティブクラス(false_number)に属している場合、トークンが満たされた回数。
次に、各トークンの
分散グレードメトリック(dg)を検討します。 各クラスについて、このメトリックの最高値を持つ20個のトークンを選択します。 その結果、40の兆候が現れます。 特性値は、クラスに属するトークンの条件付き確率です:true_numberからtotal_numberおよびfalse_numberからtotal_number。
結果の分類子の特性
分類には、
scikit-learnライブラリの
Gradient Boosting Classifierを使用しました。 分類子の品質を評価するために、
ROC曲線の下の領域を分析しました。 ROC曲線は、バイナリ分類の品質のグラフィカルな特性です。 この曲線は、TPR(真陽性率)のFPR(偽陽性率)に対する依存性を示しています。

ここで、TPは真陽性、FPは偽陽性、FNは偽陰性、TNは真陰性です。AUC(曲線下領域)のROC曲線の下の領域は、分類品質の特性です。AUC値が高いほど、分類モデルが優れています。
パラメーターを選択する過程で、パラメーターn_estimators(ツリーの数)およびmax_depth(ツリーの深さ)のグリッド検索を使用して、このメトリックを0.63から0.77に増やすことができました。 表1は、各分類子のROC曲線の下の総面積を示しています。 下の図では、ROC曲線自体がプロットされています。
表1:ROC曲線分類子の下の領域EI分類器 | 0.763 |
SN分類器 | 0.793 |
TF分類器 | 0.768 |
JP分類子 | 0.768 |

実データの検証
さて、私たちは最も興味深いことに到達しました。 つまり、「パーソナリティタイプは広告キャンペーンのCTRに影響を与えることができますか?」という質問に対する答えまで
これを理解するために、広告キャンペーンの1つのデータを分析しました。 同時に、このキャンペーンの視聴者に制限は課されませんでした。 このキャンペーンの枠組みの中で、合計で8,900万回以上のインプレッションが発生しました。 分析のために、バナーをクリックした約30,000人のユニークユーザーと、少なくとも1回バナーを表示した300,000人のユニークユーザーを使用しました。
さらに、ユーザーが類型学の各特性のクラスの1つに属する確率を推定しました。 次に、10%のユーザーが最も高い確率で、10%が最も低い確率で取得しました。 各グループで、CTRを推定
し、ウィルソンスコア間隔
を使用して 95%の信頼区間を構築
しました
ここで、nはサンプルサイズです。
ここで、kはクリック数、
標準正規分布のアルファ分位です。EIとTFの特性に関する表2からわかるように、ctrの差は20%以上であり、統計的に有意です。 SNとJPの特性については、CTRの違いは統計的に有意ではありません。 したがって、性格の種類がCTRに影響する広告キャンペーンがあります。
表2:CTRの見積もりと信頼区間外転 内向的
| 8.7 11.4
| (8.4、9.0) (11.1、11.8)
|
センシング 直観 | 10.2 10.0 | (9.9、10.6) (9.7、10.4) |
考える 気分 | 9.5 12.5 | (9.1、9.8) (12.1、12.9) |
審査 知覚 | 10.0 10.7 | (9.6、10.3) (10.3、11.1) |
これは特定の広告キャンペーンの結果であることは注目に値します。広告キャンペーンのフレームワーク内にあるという事実、バナーの外観などによって主に決定されます。おそらく、他のキャンペーンでは、CTRの重要な違いは他の特性にあります。
次は何ですか
クラスごとのCTRの20%の違いは、広告キャンペーンを実施する際に人格の種類に関する知識を適用するように促します。 近い将来、8つのユーザーセグメントを広告キャンペーンのターゲティングに使用できるようにする予定です(特性ごとに2つ)。 さらに、私たちは、広告キャンペーンの開始前に、そこからの情報がどのような性格で最も興味深いかを理解するための学習の課題に直面しています。
しかし、これは私たちが取得したセグメントの唯一のアプリケーションではありません。 性格タイプに関する情報は、ビジネスのほぼすべての分野で使用できます。
たとえば、従業員(通常はファーストフードチェーン、製造企業、小売チェーン)を雇用するための大規模なキャンペーンを実施する場合、特定の特性を持つ人々を広告のターゲットにできます。 したがって、コンバージョンファンネルは入り口で狭くなり、予算が大幅に節約されます。
あまり知られていない-サイトユーザーの心理タイプを知っている企業は、外観とコンテンツを適合させて期待に応え、結果として売り上げを増やすことができます。
実際、デジタルチャネルを介した多数の顧客とのやり取りに基づいて業務を行っている企業は、この知識を活用してプロセスを最適化し、よりパーソナライズされたコミュニケーションを構築できます。
便利なリンク
»ROC曲線をより詳しく知りたい人のための情報を以下に示します。
»
ここで 、使用した信頼区間(ウィルソンスコア区間)について詳しく知ることができます。
「そして
ここでは、マイヤーズブリッグスの類型について読むことができます。