はじめまして! 内定者アルバイトの小笠原(@YAMITZKY)と申します。
初めてなので、簡単に自己紹介を。今は大学の4年生で、機械学習の手法を使って﹁Webサイトに自動でタグ付けを行う﹂というのを実現するような研究をしていました。
最近は﹁MLaPP﹂という機械学習の本を読んでいるので、輪読の機会があったら呼んでいただけると嬉しいです!
----------------
本日の話題は、CriteoのCTR予測、CVR予測についてです。
Criteoは世界中でリターゲティング広告を提供している企業で、日本でもレコメンドバナー市場を牽引しています。
第三者配信計測などでCriteo広告の分析をしてみると、ユーザーの購買行動の最後の一撃を与える役割︵刈取り型広告としての役割︶を担っていることがわかります。
また、CTR︵クリック率︶が高いため、高いCPM︵入札単価︶でもCPC︵クリック単価︶を抑えられる(つまりCPAを抑えられる)など、優れた特徴が多数あります。
そして、先週の月曜日から開かれているデータマイニングのカンファレンス﹁WSDM 2014﹂で、
Criteoの主席リサーチサイエンティストのOlivier Chapelleさんが﹁ディスプレイ広告の反応予測﹂というタイトルで、講演をしています。
こちらの資料は公開されていないようなのですが、Chapelleさんによって同じテーマの論文[1]が発表されているので、﹁ディスプレイ広告の反応予測にどんなメリットがあるのか﹂に触れながら、こちらの論文の簡単な紹介や、CTR予測の仕組みの紹介をしたいと思います!
CTR予測とCVR予測について
この論文で解決している課題は、﹁ディスプレイ広告のCTR(クリック率)とCVR(コンバージョン率)を予測したい﹂というものです。特に﹁ある広告を、ある媒体(ページ)で、あるユーザーに見せると、どれくらいクリックされ、どれくらいコンバージョンに結びつくか?﹂というのを予測します。 (話が長くなってしまうので、ここからはCTRの予測に絞って話をしますが、CVRについても同じことが言えます)CTR予測が有用になるような事例として論文中で紹介されているのが、クリック単価(CPC; cost-per-click)に基づくような広告です。このような広告の場合、アドプラットフォーム事業者は﹁入札額をいくらまで出して良いか?﹂というのをうまく予測して利益を出さなければなりません。 例えば、 ・CTRを高めに見積もると‥実際にはあまりユーザーがクリックしてくれず、入札額に見合うクリック報酬が貰えない ・CTRを低めに見積もると‥入札額に見合うクリック報酬は貰えるが、本当はもっと高い入札ができることになる(高い金額の方が入札に勝てる) となるので、﹁クリック報酬に見合うような、なるべく高い入札額﹂を決定するために、CTRやCVRの予測が必要になるのです。
広告主にとってのメリット
先ほどの場合は、Criteoなどのアドプラットフォームにとってのメリットですが、広告主にとっても、CTR予測のメリットがあります。 先ほど説明したようにCTR予測は、﹁ある広告・あるWebページ・あるユーザー﹂という組み合わせが、﹁どれくらいのCTRになりそうか?﹂というのを予測します。 これを広告の運用者の視点から見てみると、CTR予測ができれば、﹁この広告でCTRを高くするには、どのようなユーザー・媒体に配信すればいいか?﹂とか ﹁あるユーザー・媒体に配信するときには、どんな広告がCTRが高くなりそうか?﹂といったことを予測できるということになります。 このような情報がわかると、意図した広告クリエイティブに対してヒットしそうなユーザーのセグメンテーションの基準にしたり、 意図したユーザーセグメントに対してCTRの高そうな広告クリエイティブを作成をすることができ、より効率的な広告運用ができる可能性があります。 また、後者については、2012年にYahoo! Labsの研究者らによって、CTRが高くなるようなクリエイティブの研究が行われています(例えば、クリエイティブに写っている顔の数が増えるほど、CTRが低くなってしまう傾向があるという結果が出ています)[2]。 ここからは、論文の紹介に移ります。CTR予測のモデル‥ロジスティック回帰
この論文でCTR予測に使っているモデルは、ロジスティック回帰です。このモデルは、CTRのような確率を予測するようなときに使われます。 基本となっているのは、このブログでも何度か出てきた回帰モデルです。﹁広告サイズ﹂﹁広告主﹂﹁媒体﹂﹁ユーザーの性別﹂﹁ユーザーの年齢﹂などといった様々な特徴が、どのようにCTRに影響するのかというのを評価し、CTR予測を行います。様々な特徴の中で、どの特徴がCTRに効くのかも、論文中に示されています(p19)。特に効くものとしては、﹁ページ上の広告枠の位置﹂﹁どのクリエイティブか(クリエイティブID)﹂﹁どのメディアか﹂などが挙げられています。また、組み合わせると効く特徴としては﹁広告主と広告枠の位置﹂﹁クリエイティブIDと広告枠の位置﹂﹁クリエイティブIDと媒体主﹂などが挙げられています。ただし、年齢や性別などの﹁ユーザーの属性﹂がCTRに効かないということではありません。
また、この論文では扱われていませんが、先ほどのYahoo! Labsの研究のようにクリエイティブそのものの特徴(例えばクリエイティブにある顔の数や、目立つ色の割合など、CTRに影響しそうな要素)をロジスティック回帰に組み込むことも可能です。