コラム
データサイエンス入門講座 第6回 リサーチデザインの2つの要素
「何に活かしていいかわからない」問題
前章では、業務処理のために蓄積されたデータを、活用可能な状態に加工するためにはどのようにすればよいか、ということを中心に説明しました。そこでは、すべての項目データを完璧にいつでも活用可能な状態にすべきというわけではなく、「何にどう活用するか」という目的によって、最優先で使うべき項目もあれば、ほとんど不要な項目もあると考えられます。
冒頭で述べたように、データ分析を行なうにせよ、AIを開発するにせよ、「何にどう活用すべきか」という点については、統計学や機械学習の専門書にあまり展開されていません。「経験やセンスが大事だ」という人がいれば、「他社の先行事例を調べよう」という人もいます。しかし、経験やセンスを有していない人が、先行事例の存在しない領域でどうやってこの判断を下せばよいでしょうか?
幸い私たちはこうした相談に応えることができますが、それは素晴らしいセンスを持ち合わせているからでも、どこかの会社の事例をこっそり漏らしているからでもありません。多くの統計学や機械学習の本に「何にどう活用すべきか」という考え方が書かれていないといいましたが、実はこの問題を教えてくれるのは別の分野の教科書です。その分野は「リサーチデザイン」と呼ばれ、もともとは研究者が、良質の研究アイデアを生み出し、研究計画を立てて実行し、よい論文を書けるような考え方で、アメリカの大学院などで教えられています。私は研究者になるべくそうした勉強をしていましたが、日本では、あまり体系的に教えられていないこの知恵は、ビジネスマンがデータ活用を考える上で、とても役に立ちます。
データ活用においてもっとも大事なリサーチデザインの2要素
研究者として独り立ちするには、そもそも「科学とは何か」「知識とは何か」というところから論じるような、難しい本一冊分以上の勉強をする必要があります。しかし、データを活用したいビジネスマンが考えなければならないのは、データ分析であれば、「何を最大化/最小化したいのか」と「それを何毎に比べるのか」という二点だけです。私たちは前者を「アウトカム」と呼び、後者を「解析単位」と呼んでいます。( 図表2-1)
リサーチデザインの考え方では、データ分析のような定量的な研究は、「何かと何かの違いを生んでいる原因がどこにあるかを考える」ために行われるとされます。もちろんここで、この「違い」について考えることもできるわけですが、それがどれほどの意味を持つかはまた別の話でしょう。 たとえば顧客データを分析した結果、「女性は男性と比べて平均年齢が低い傾向にある」という分析結果を得て喜ぶ人はごくまれでしょう。一方で、「女性は男性と比べて客単価が高い傾向にある」という結果が得られたらどうでしょうか?1人の新規顧客を獲得した場合のメリットが、男性より女性の方が大きいのであれば、女性がよく見る広告媒体を使うとか、女性の人通りが多いエリアに出店するといったことにより、効率的に売上を増やすことができるかもしれません。
この2つの話のどこが違うかといえば、前者は性別も年齢も、それ自体を目的にしているものではありません。一方、後者における「客単価」は、その向上を目的にした業務が多くの会社内に存在しています。つまり、データ分析では業務上の「目的」になりうる成果を分析することが望まれます。この成果すなわち「どんなよいインパクトがあるのか」ということを目的とする指標のことを研究者たちはアウトカムと呼びます。
では、ビジネスにとって究極的な目的とは何でしょうか?それはたとえば「長期的に持続可能な発展を遂げる」ということが挙げられます。そのためには安定して利益をあげる、つまり売上を伸ばして、不要なコストを抑えることが求められます。マーケティング部門は売上を伸ばすこと、調達や購買の担当者はコストを減らすことが仕事です。短期的にはマーケティング担当者は「自社のブランドイメージを上げたい」と考えるかもしれませんが、これが「究極的な目的」である「持続可能な発展」に対して間接的に影響を与えることがよくあります。
ブランドイメージをよくすることによって、余計な販促費をかけたり値引きしたりせずとも、自然と高単価で売れていく、というメリットもあるかもしれません。しかし、ブランドイメージはあまりよくないのに売れている商品とか、儲かっている企業もないわけではありません。あるいは「よい」というブランドイメージが、ルイ・ヴィトンのような高級感や、アップルのような先進性ではない市場もあります。「元気で親しみやすい」というイメージが有効に働く商材においては、下手にブランディングに力を入れてしまうとむしろ売上が下がる可能性さえあります。
「目的と手段を混同しない」というのはリサーチデザインにおいて大事な考え方です。ブランドイメージの向上が、売上や利益率の改善という目的に対する手段であるならば、アウトカムは売上や利益率とすべきです。まずは「よく売れる商品とそうでない商品の違いは何か」という問いを立てて、その答えの1つとしてブランドイメージがあるという方が適切な分析を導 きます。
同じ売上というアウトカムでも、「よく売れる商品とそうでない商品の違いは何か」「よく買ってくれる顧客とそうでない顧客の違いは何か」「よく売る従業員とそうでない従業員の違いは何か」というようにさまざまな切り口が考えられます。この「商品」、「顧客」、「従業員」というのが前述の「解析単位」であり、「活用のためのデータ」を加工する際には、必ずこの解析単位1つにつき1行ずつ、という形式のデータにしなければなりません。
業務を知らないデータサイエンティストの失敗例
このように、「究極的な目標」に近づけるような、よいアウトカムと解析単位を設定できれば望ましいのですが、上手く行かないこともしばしば起こります。私たちへの相談で一番多いのは「データはあるけれど、どうしていいかわからない」というものですが、その次の相談内容は「外部あるいは最近採用したデータサイエンティストが、何回指摘してもナンセンスな分析結果を出してくるのだが・・・」というものです。彼らの多くは統計学や機械学習を勉強してきた優秀な人なのでしょうが、そうした結果にたどり着いてしまう状況の多くは、手法以前にアウトカムや解析単位の設定が上手くいっていないことにあります。
たとえば高級デパートに出店するアパレル企業で「売上の高い顧客とそうでない顧客の違いを見つける」という分析を行った結果、「セール期間中にまとめ買いをする顧客の売上が高い」という結果が得られたとしましょう。あまりアパレル業界に明るくない分析者は、「とにかく売上が高ければよいのだろう」と考えたのでしょうが、この企業としてはまったく望んでいない分析結果です。
雑誌に広告を掲載し、高級デパートに出店するような会社にとって、「セール時にしか商品が売れない」というのは、大げさに言うとそのブランドの死を意味します。実際、大幅に値引いた商品単価では、広告費を賄えるほどの利益は出ません。春物、冬物といったそれぞれのシーズンの前半に、定価で買ってくれる人こそが彼らにとっての優良顧客ということになります。
とすれば、この会社はどのようなアウトカムを設定すべきでしょうか?セール期間に商品の値段が変動するため計算は複雑になりますが、「顧客」という解析単位を使うにしても、売上ではなく粗利を合計した「粗利総額」の方がよいアウトカムではないでしょうか。またこのような業界では「プロパー消化率」といった指標が用いられることもあります。これは生産したり、仕入れたりした商品数のうち、どれほどが定価販売かというものですが、「プロパー消化率の高い商品と低い商品の違いは何か」という分析をしてみてもよいのかもしれません。
このように、データ分析では適切なアウトカムと解析単位を設定できれば「どこから手をつけていいかわからない」という問題も、「出てきた結果がナンセンス」という問題も回避することが可能です。後で詳述しますが、機械学習で予測したり、人間の認知活動を自動化するAI を作ったりする場合にも、同様のことが言えます。
次項以降ではこのアウトカムと解析単位を、よりよいものにするコツについて考えていきましょう。
データ分析や活用、DX推進に関するお悩み、弊社製品の機能についてご興味のある方は、お気軽にお問い合わせください。