オフラインの人の動きを可視化する – GroundTruthの訪問予測モデル

ロケーションマーケティングでは、当社は人が1日の中で移動するユーザーロケーションデータを使い、そこにモバイル広告を配信して、その人が次に何をするかの意思決定に影響を与えています。
たとえば、ロケーションマーケティングを使って以前に店舗を訪れた消費者をリターゲティングするという手法はしばしばとても強力な戦術となります。しかし、マーケティング戦術は規模に応じたパフォーマンスが必要な場合が少なくないため、リターゲティング対象オーディエンスセット以外の消費者にもリーチする必要があります。
また、同じ消費者がその店舗や類似の店舗を以前に訪れたことが確認されていない場合でも特定の消費者が店舗を訪れる可能性があるかどうかを予測することも、ソリューションの選択肢として考えられます。
この記事では、近い将来に特定の場所をユーザーが訪れる可能性を予測するシステムを構築するために当社がオフラインデータをどのように利用しているのかについてご紹介していきます。予測は現在当社の広告サーバーの最適化エンジンを使用して行われており、安定して~50%程度の訪問率(VR)を達成しています。この訪問率とは、広告主が当社プラットフォームでマーケティングキャンペーンを実施するにあたり、ユーザーが店舗広告を見た後に訪問した率を指しています。
当社は主に特徴エンジニアリングに注力し、今後のブログではモデリングについてより広く説明していきたいと思います。
特徴エンジニアリング:
人間は実に予測可能な動物であることがわかっています。何をするのか、どこで時間を過ごすのか、どうやって移動するのか-これらすべては人それぞれに固有であって、現実世界でのそのパターンにひも付いているのです。たとえば、あなたは店へ行くのに3キロ以上の距離を何回移動しましたか?イケアに行くときは毎回2マイル以上移動していたかもしれません。ファーストフード店のタコベルへ行くときはそうではなかったでしょう。このように、自分が住んでいる場所や働いている場所の近隣からの距離というのは、特定の店を訪れる可能性の大きな予測要因であり、探索の価値ある完璧な特徴なのです。
以下に当社が探索した機能のいくつかをご紹介します。
ユーザーの店舗訪問の特徴
- ユーザーが関係するブランドやその他のブランドを訪ねる頻度(フリーケンシー)と、最後にいつ訪ねたか (リーセンシー)
- これはユーザーが関係する店をどれくらいの頻度で、そして直近でいつ訪ねたのかを意味します
ユーザーのジオクラスター
- ジオクラスターとは、ユーザーが自分の時間の80%をすごす領域のことです。
- ある店がユーザーのジオクラスター外にあれば、ユーザーが何らかの影響を受けてその店に行くという可能性は低いでしょう。たとえば、ある人がマンハッタンのアッパーイーストサイドに一度も行ったことがなかったとしたら、そのユーザーが何かの影響を受けてもそのエリアにある店に行くという可能性は低いでしょう。
ユーザーが住む近隣域
- 近隣域には特定の属性があり、ブランドに対するユーザーの傾向が表れています。あるユーザーが特定のブランドへの高い関心を持って近隣域に住んでいるとしたら、そのユーザーに何らかの影響を与えればそのブランドの店を訪ねる可能性は高くなります。
- 近隣域についてのより詳しい情報は、昨年当社が行った中所得層のフットトラフィック分析をご覧ください。そこには、近隣域の中所得層のユーザーたちが、今まであまり縁がなかったWhole Foodsに、Amazonが同会社を買収した後、行き始めた例が示されています。
図1:中所得層の近隣域の人たちがアマゾンで自然食品を購入し、主要商品の価格が下がった後に自然食品店を訪れるようになったことを示す図です。左から右へ画面を動かすと訪問頻度の変化がわかります。
ユーザーグラフの特徴:これにはユーザーの推測されるコネクション(友人、同僚など)の特徴値が含まれます
- ユーザーグラフの特徴:これにはユーザーの推測されるコネクション(友人、同僚など)の特徴値が含まれます
その他
- ブランドの人気。たとえば、新しいユーザーはレストランチェーンよりはウォルマートへ行く傾向が強いことが統計的にわかっています。
- ユーザーの現在地。たとえば、ユーザーが道路上にいるのか、商業施設内にいるのか、etc
- 他にも、まだまだ多くのパラメターが存在します。
以上のことからわかる重要なこと:
- 特徴を知るにはその領域についてよく知る必要があること。
- 特徴の選択は簡単ではないこと。
- 特徴を選択するプロセスにおいては、ムダな情報もたくさん含まれていること。
- 特徴を把握するのにはかなりの時間がかかること。たとえば、ユーザーのジオクラスターを認識すること自体にモデルが必要です。
- 少ない特徴が結果的により良いモデルになることもありえます
- 当社は、特徴エンジニアリングについては基本的には機械学習が最適だと考えています。
当社は結果的に上記のサブセットに依拠することを選びました。ユーザー特有の属性、たとえばユーザーの現在のロケーションやそれまでのロケーション履歴と最寄りの店舗との間の距離などは、訪問予測力が最も強いことが分かっています。
モデリング:
特徴エンジニアリングの後、我々のチームはモデリングにとりかかりました。とても多くのことを繰り返し行いました-ベストモデルを特定し、ハイパーパラメータを調整し、適合率vs.再現率に関する難しい判断など。このケースについては、当社はランダムフォレスト分類を選択しました。
結果、予測されたVRと実際のVRは互いに比例していることがわかりました。以下はこれをわかりやすく示すクイックデータです。
図2:予測されたVRと実際のVRとが直線的な関係にあることがわかります。簡単に言うと、このモデルが良好な予測能力を持っていることを意味します。
モデルを広告配信に応用:
モデルから予測を得て、次に当社はこれを広告配信に応用しました。当社はこれを「differential bidding(差別化入札)」と名付けて実行しました。
結果、プレースメント毎にリアルタイムで行われるシンプルなスリーステップの差別化入札となりました。
- 適正な広告リクエストのVRを予測する。
- 予測されたVRから、プレースメント内の最近の100万リクエストに対してランク付けされたときにこの広告リクエストが当てはまる関連分位点を見つける。
- 既存の入札には、分位点に比例する入札マルティプライヤーを追加する。
「差別化入札」により選ばれた広告リクエストはVR予測力が高いので、結果としてこのモデルが応用されると実際のVRも高くなります。以下に、いくつかのバケットテスト(ABテスト)結果のグラフを示します。
図3:2つののプレースメントのABテスト結果を示しています。入札者が選んだ広告リクエストは、モデルがスイッチオンになっていないときと比べるとモデルがスイッチオンのときの方が実際のVR(訪問率)が高くなっています。ですから、このモデルを使ったときの全体的なVRは、モデルを使わない場合の全体的なVRよりも高いということになります。
将来の展望
この最適化モデルは当社のセリフサーブの広告プラットフォーム Ads Managerで運用が始まっており、いずれはクライアントベース全体にわたり使われるようになるでしょう。
また、全体的にはこれはまだほんの始まりに過ぎないと当社は感じています。ロケーションデータは、プライバシーが安全に保護され責任をもって使われればマーケティングやその先のいろいろなことに根本的に深くかかわるものとなっていくでしょう。
Author:
Pravesh Katyal
Senior Director Product Management
このようなプロジェクトで一緒に働くことに興味をお持ちなら、当社で働いてみませんか?こちらへご連絡ください:groundtruth.com/jobs
以下のデータサイエンスメンバーとこの仕事に関わったプロダクトチームのみんなに特に感謝します:Guoxin Li, Alicia Huang, Zepu Zhang