ベイズ統計学の考え方

ベイズ統計学 では 一般的な統計学 とは前提の考え方が異なっています。
両者を比較してみましょう。

一般的な統計学では、得られた観測データというのは、唯一の真の確率分布から、ランダムに抽出されたものであると考えます。仮に、真の確率分布が正規分布であるとするならば、平均・分散は定数であり、非確率変数になります。

 

 

そのため、一般的な統計学では、得られた観測データから、背景にある確率分布を仮定し、ある定数である平均と分散を推定することが最終目標になります。

 

 

 

一方、ベイズ統計学では、背景に唯一の真の確率分布があるとは考えずに、真の確率分布は変化するものであると考えます。得られた観測データというのは、毎回異なる確率分布から、ランダムに抽出されたものであると考えます。仮に、背景の確率分布を正規分布であると仮定するならば、平均、分散が変数となり、確率変数になります。

 

 

そのため、ベイズ統計学では、得られた観測データから、背景にある確率分布を仮定し、平均・分散の確率分布を求めることが最終目標になります。

 

 

(ベイズ統計学を用いるメリット)

ベイズ統計学を用いるメリットは平均・分散といったパラメタの確率分布を求められる点にあります。

 

例えば、実験Aと実験Bの平均値に差があるか?という問題があったとします。

 

一般的な統計学では、帰無・対立仮説、有意水準を設定し、検定統計量と有意水準の大きさを比較して・・・、ということを行いますが、ベイズ統計学では、差の確率分布直接求めることができます。

   |実験Aの平均 – 実験Bの平均|>0 である確率は〇〇%。

   (実験Aの平均 – 実験Bの平均)>0 である確率は△△%

といったように、非常に直感的に解釈がしやすい結果を得ることが可能になります。これが、ベイズ統計学を用いるメリットの1つになります。

 

ベイズ統計学のもう1つのメリットは、事前パラメタの確率分布の知識を持っていれば、少数のデータでもある程度の精度を保った推定が行えることにあります。

 

(ベイズ統計学のデメリット)

ベイズ統計学を扱うためには、MCMC(マルコフ連鎖モンテカルロ法)という乱数生成アルゴリズムを用いる必要があります。プログラミングを行う必要があるため、初学者が気軽に扱えないという点がデメリットになります。

因子分析を使ってできること


アンケート分析において、よく使われる手法の1つに 因子分析 があります。
 
因子分析とは、
「データ間に 相関がある ということは、その背後に何か 共通する因子 が隠れているのではないか?」
という考えのもと、データの背後に潜む構造を理解 しようとする手法です。

違う言い方をすれば、アンケートなどで得られた結果がなぜ得られたのかその原因を推定しようということです。

 
例えば、
「日毎の傘の売上と合羽の売上を調べたところ正の相関がある」とします。
このような結果が得られたのは、傘と合羽の売上に影響する共通の因子(原因)が背後に隠れているのでは?と考えることが因子分析を使う動機になります。

 
今回の例でいうと、共通因子として、当日の降水の有無が考えられます。

 
もちろん、共通因子は1つとは限りません。明日の天気予報の降水の有無も共通因子かもしれません。

 
実は、因子分析を使ってわかることは、
・「共通の因子が1つ以上ありそうだ」
・「その共通因子が結果に対してどの程度の影響度を持っているか」
ということだけです。

・何個の共通因子が存在するのか?
・共通の因子とは何であるのか?
に関しては、自身で考える必要があります。
 
(イメージ)

そのため、アンケート分析から因子分析を行いたい場合には、ある程度の共通因子を見込める設問を 事前 に想定した上でアンケートを実施する必要があります。

例えば、アンケートの設問内容と想定される因子例は、下表のようなります。



あくまで 想定 なので、アンケート実施を行う前に、事前検証 用のアンケートを実施し、想定に大きな差異がないことを事前に確認しておくことが望ましいです。

相関係数②


AとBに正の相関があり、AとCに正の相関がある場合に、本来は関係のないBとCにも正の相関があるように見えてしまう場合があります。

例えば、

$~~~$A:気温 、B:アイスクリームの売上 、C:扇風機の販売台数

として、それぞれ散布図を書くと以下のような結果になったとします。
(値は適当です。)

一般論的として、

$~~~~$気温 が高いほど、アイスクリーム が売れる
$~~~~$気温 が高いほど、扇風機の販売台数 が増える

ことは考えられますが、

$~~~~$アイスクリームの売上 と 扇風機の販売台数

の間には直接的な関係性はないはずです。しかしながら、0.765という高い相関が得られています。

このように共通原因(ここでは気温)をもったために本来相関がないであろう変数間に相関がみられることを、見かけ上の相関擬似相関 といいます。
 
 擬似相関が疑われるような場合には、偏相関係数 と呼ばれるものを計算します。

偏相関係数とは、今回の例では、「A:気温 の影響を除いた B:アイスクリームの売上」と「A:気温 の影響を除いた C:扇風機の販売台数」の相関係数のことを言い、

式で表すと、
\begin{align*}
偏相関係数= \dfrac{\rho^{~}_{BC}-\rho^{~}_{AB} \rho^{~}_{AC}}{\sqrt{1-\rho_{AB}^{2}} \sqrt{1-\rho_{AC}^{2}}}
\end{align*}
から計算されます。($\rho^{~}_{XY}$の表記は $X$ と $Y$ の相関を表す)

 

「B:アイスクリームの売上」 と 「C:扇風機の販売台数」 に関して偏相関係数を計算すると、偏相関係数は0.403となり、やはりBとCには関係性はないと判断することができます。

不良を発見する異常検知手法②

機械学習の手法は多く存在しており、
データの対象や目的によって、選定する必要があります。

製造業において不良を発見したい場合、「正常」「異常」の正解ラベルを付与し、
分類問題として考えても良いですが、
一般に、製造業における製品の不良率は1%未満であることが多く、
データセットの内訳として正常データと異常データが同数ではないケースが大半です。
そのような場合は「異常検知(外れ値検出)」の手法を用いるべきです。

Isolation Forestは異常検知のアルゴリズムの一種です。

異常検知手法①でお伝えしたLOFは密度分布に基づいており、
「疎であれば異常、密であれば正常」という考えで異常度を算出します。
Isolation Forestもその考えに基づきますが、
密度を算出するわけでなく、”空間分割の多さ”によって異常であるかを判断します。
下図[1]は、ある2次元のデータに対してIsolation Forestを適用した例です。
Isolation Forestはサンプルデータ群の空間において、
1つの空間内に属するデータが規定の個数になるまで、分割を繰り返します。
結果的に同図(a)のような疎なデータの空間分割数は2に、
同図(b)のような密なデータの空間分割数は9となり、
差異が生じることがわかります。

LOFは密度の計算を行うために、近傍点を収集する計算処理コストが大きいですが、
Isolation Forestは空間分割法を使うことで、高速に処理することが可能です。

[1]…Hariri, Sahand; Carrasco Kind, Matias; Brunner, Robert J. (2019). “Extended Isolation Forest”. IEEE Transactions on Knowledge and Data Engineering より抜粋

意外と知らないweb「WEB会議のツールの使い方」

今回は昨今の事情により、急に利用することが多くなったWeb会議について説明するとともに、実際のツールの使い方について解説していきます。

 

Web会議とは

インターネットを利用することで、その場にいなくてもビデオや音声のやり取りで、資料の共有などをし、会議を行うことを広くWeb会議と呼びます。

Web会議は世界中どこででもスマホやパソコンが有ればどれだけ離れていてもインターネットを通じてコミュニケーションを取り合うことが出来ます。本来であれば移動費など、コストがかかる遠方の顧客との会議などで利用することで、コストカットをすることが出来ますが、やはり直接会って会議をするよりかは意思の疎通に何があるため、難しいテーマの会議の場合には対面での会議をおすすめします。また、機密情報などが深く関わる会議などの場合後述のZOOMはセキュリティーの脆弱性が指摘されているため利用をおすすめできません。

 

Web会議の注意点

音声・映像を扱うため、Webカメラ、マイクが搭載されているデバイス、または別付けのWebカメラやマイクを接続する必要があります。事前に用意できているか確認しておきましょう。

 

Web会議のツール

では実際にWeb会議を行う場合利用できるツールには何があるのか、どう使えば良いのか、今回は、SkypeとZOOMを紹介します。※いずれも基本無料

 

Skype(スカイプ)

マイクロソフト社の子会社でインターネットを利用した電話、チャット、ビデオ通話が可能です。

 

使い方

1.スカイプ公式サイトからソフトをインストールする。

(スマホ・タブレットの場合はアプリストアでスカイプを検索しインストール)

 

2. スカイプアカウントを作成する。

3. 会議をしたい人に先程作成したアカウントを伝える。

4. 会議を開催する。通話・チャット・ビデオ会議)

 

最大10人まで開催可能。

 

 

ZOOM(ズーム)

無料で最大100人まで参加可能なWeb会議を開催できます。有料プランに契約した場合1000人まで増えるので、大規模な会議に適しています。また、主催側がアカウントを持っていれば会議の参加者がアカウント登録を新規でする必要がないため、開催が容易なのが人気なツールです。

 

使い方

  • ズーム公式サイトからソフトをインストールする。
  • スカイプアカウントを作成する。
  • 会議を開催し、リンクを参加者に共有する。

 

このように手順が非常に簡単で使い勝手が良いので利用者が世界で2億人を突破するほどなのですが、リンクを知っていれば誰でも会議に参加できるため、参加していないはずの何者かが妨害する、などのトラブルも発生しているため、利用には注意が必要になります。

相関係数①

AとBには “相関がある”、”相関がない” という言葉を聞いたことがある方は多いのではないでしょうか?2つの値の相関の強さを表す指標を 相関係数 といいますが、ひとえに “相関係数” といっても、

$~~~~~$「(ピアソンの)積率相関係数」、「順位相関係数」、
$~~~~~$「偏相関係数」、「自己相関係数」など

様々な相関係数が存在します。単に相関係数と呼ぶ場合には、通常は「(ピアソンの)積率相関係数」をさしています。

今回は、「(ピアソンの)積率相関係数」、「順位相関係数」について解説します。

 

「積率相関係数」について

 データがともに量的変数 である場合に用いられる相関係数です。

例えば、”体重と身長” の関係や、”駅からの距離と家賃”、”年齢と血圧” など両者ともに定量的な値を持つ場合に活用されます。

相関があるとは2つのデータ間に直線的な関係があることを意味します。

$~~~~~$Aが大きくなるとBも大きくなる場合には 正の相関 がある
$~~~~~$Aが大きくなるとBが小さくなる場合には 負の相関 がある

といいます。

ただし、以下のようなデータの場合にはAとBには明らかに関係性がありそうですが、直線では表せないため相関はないと判断されます。

このように、相関がないことは、因果関係がないことを示すわけではないため、あくまで相関は1つの指標であり、値を図にプロットして確認することが非常に重要になります。

 

「順位相関係数」について

 データがともに質的変数で、順位である場合に用いられる相関係数です。

例えば、”男女の好きな果物の順位” の関係や、”去年と今年の月別降水量の順位”、 など順位で表せる場合に両者の関係性をはかる手段として活用されます。

順位相関係数の求め方として

「スピアマンの順位相関係数」「ケンドールの順位相関係数」

が良く使われるそうです。順位相関係数には複数の求め方があり、目的に応じて順位相関係数の算出方法を決める必要があるということを覚えておけばよいかと思います。

意外と知らないWeb「リスティング広告って何?」

今回は企業のプロモーションや、手早くネットで広告を出すときによく利用される、リスティング広告について説明したいと思います。

 

リスティング広告とは

リスティング広告とは、顧客が検索エンジン(GoogleやYahoo)などで検索した際、画面の一番上や下に広告を掲載できる機能のことで、一月何円という料金形態ではなく、主に広告をクリックした際に1クリック〇〇円というように料金が発生していくWeb広告のことを主にリスティング広告と呼称します。

 

企業で広告を出す際、今までのチラシや看板などの場合は、一月〇〇円、担当者と打ち合わせをして掲載する。というわかりやすい形態だったものがWebの世界だと料金形態が複雑になってしまいます。今回は主に利用されるGoogleのリスティング広告の掲載方法を紹介するとともに、リスティング広告でのターゲットの設定方法を紹介していきます。

1.Googleアカウントを作成する。

広告は全てインターネットでの手続きで完了可能です。まずは広告運用のアカウントを作成しましょう。普段利用しているアカウントでも広告の運用は可能ですが、なれない間は情報がごちゃまぜになってしまい、混乱する可能性が高いので、広告用に別途アカウントを作成しましょう。

 

 

2.Google広告にアクセスし、情報を入力する。

所属している国などを記入する欄が表示されるので設定してください。

その際に最初のキャンペーン(広告)の作成画面が出てくるので、すでに決まっている場合は入力する。まだ考えたい人はざっくりとどんな広告を打ち出したいのかを入力してください。その後に料金の支払方法や住所などの入力画面が出て来るので、全て入力をしてください。→アカウントの作成完了

 

 

3.キャンペーン(広告)を作成する

広告の作成ボタンがあるのでクリックし、作成します。細かく広告は設定することができて、

・顧客が検索したワード

・顧客の利用している場所

・表示させたい内容

などを設定することが可能で、

いずれの項目も絞れば絞るほど価格を抑えることができて広げるほど価格が高騰するため、予算を考えながら広告の設定をしていきます。

広告を打ち出したい製品・サービスに合わせてエリアやワードを絞り、費用対効果を最大化させましょう。

広告の予算は上限を設定することで、顧客のクリック数が一定数を超えた際に自動で広告がストップする設定があるため、気づいたら法外な金額が請求されたということもないので安心して利用することが可能です。

 

 

4.広告を分析して運用する

ある程度広告を運用しているとワードごとや、地域ごとの費用対効果がデータとして出てくるため、そのデータを活用してより広告を効率化することが可能になります。

 

広告を掲載する事自体は誰でもできる簡単な作業ではありますが、運用をして効果を上げていくのは専門的な知識が少し必要になります。そのため広告運用代行業者に依頼をするのも方法として有効です。

不良を発見する異常検知手法①

機械学習の手法は多く存在しており、
データの対象や目的によって、選定する必要があります。
 
 
製造業において不良を発見したい場合、「正常」「異常」の正解ラベルを付与し、
分類問題として考えても良いですが、
一般に、製造業における製品の不良率は1%未満であることが多く、
データセットの内訳として正常データと異常データが同数ではないケースが大半です。
そのような場合は「異常検知(外れ値検出)」の手法を用いるべきです。
 
 
LOF(Local Outlier Factor)は異常検知のアルゴリズムの一種です。
 
 
LOFは密度分布に基づいており、
「疎であれば異常、密であれば正常」という考えで異常度を算出します。
下図は、ある2次元のデータに対してLOFを適用し、異常度を算出した例です。
数値が高いデータは疎であることが分かります。
異常度は、1つのデータ(点)に対する近傍点群を収集し、
それらまでの距離や密度を計算することで算出します。

  
 
欠点は以下です。
・疎密であることを利用しているため、データ数を多く必要とする。
・近傍点までの距離を1点ずつ計算するため、計算コストが高い。
 
欠点はありますが、アルゴリズムは単純であり、
分かりやすく、説明し易いです。
よって、手法のベンチマークでも良く見かけられる手法でもあります。

順序尺度の場合のアンケート分析③

順序尺度の場合のアンケート分析①順序尺度の場合のアンケート分析②では、定食Aの満足度に関するアンケート結果に関して、ダミー変数を用いて重回帰分析を行うことによって、以下の回帰式が得られることを解説しました。


しかしながら、この式から各設問に及ぼす満足度への影響度は解釈できますが、切片の値 $7.0$ が何を表すのか解釈できません。そこで、さらに解釈しやすい式への変形を行います。

まず、各設問内のカテゴリ数量の平均が0となるように、以下の表のようにカテゴリ数量の変換を施します。このような処理を カテゴリ数量の基準化 と言います。また、切片は満足度(設問5)の平均点となります。

カテゴリ 度数 回帰係数
(カテゴリ数量)
カテゴリ数量の平均 カテゴリ数量の基準化
設問1 十分 5 1.7 1.09

$\left(=\dfrac{5\times 1.7+3\times 1.2 + 3\times 1.4 +4 \times 0}{5+3+3+4}\right)$

0.61
(= 1.7 – 1.09)
普通 3 1.2 0.59
(= 1.2 – 1.09)
やや不十分 3 1.4 0.79
(= 1.2 – 1.09)
不十分 4 0 -1.09
(= 0 – 1.09)
設問2 多い 4 1.4 0.41

$\left(=\dfrac{4\times 1.4+5\times 0.1 + 6 \times 0}{4+5+6}\right)$

0.99
(= 1.4 – 0.41)
普通 5 0.1 -0.31
(= 0.1 – 0.41)
少ない 6 0 -0.41
(= 0 – 0.41)
設問3 高い 4 -3.7 -1.59

$\left(=\dfrac{4\times -3.7-6\times 1.5 + 5 \times 0}{4+6+5}\right)$

-2.11
(= -3.7 + 1.59)
普通 6 -1.5 0.09
(= -1.5 + 1.59)
安い 5 0 1.59
(= 0 + 1.59)
設問4 早い 6 0 -0.29

$\left(=\dfrac{4\times 0+5\times -0.8 + 4 \times -3.0}{6+5+4}\right)$

0.29
(= 0 + 0.29)
普通 5 -0.8 -0.51
(= -0.8 + 0.29)
遅い 4 -3.0 -0.01
(= -3.0 + 0.29)
切片 7 6.55
(設問5の平均点)

よって、カテゴリ数量の基準値を用いると全体的な満足度の式は

と表されます。この式を用いることによって、全体的な満足度の平均値を基準(切片)にして、各設問の影響度を確認することができるようになります。

 

 

意外と知らないWeb「オウンドメディアって何?」

今回はSEO対策や、自社サイト構築の際に散見する「オウンドメディア」について解説するとともに、実際に企業で活用する場合のコツと注意点について紹介していきたいと思います。

 

オウンドメディアとは

オウンドメディアとは、企業が自社内で構築したブログやウェブサイトから消費者に向けて情報を発信するもののことを指します。潜在顧客の段階から、情報を発信し続けることで、消費者の購入意欲を促進することが主な目標であり、オウンドメディア単体で収益を上げるという考え方ではなく、消費者のオウンドメディアから商品の購買への流れを作り出すことが主な役割となっています。

 

オウンドメディア作成のコツ

では、実際にオウンドメディアを自社内で行った場合、どのように構築をすると、より効果的な運用が可能になるのでしょうか。

 

  • ペルソナをしっかりと設定する。

オウンドメディアの目的は潜在顧客の獲得であるため、ターゲットを定めなくては属性が曖昧になってしまい、商品の購入への誘導が難しくなってしまいます。ターゲット・ペルソナをしっかりと定めた上でメディアを構築していきましょう。

 

  • 販売したい商品に関連させる

オウンドメディアはただブログ記事を作成すればよいという話ではありません。最終的なゴールは商品の購入である以上、その商品に関連する情報を掲載していくことを意識していきましょう。例えば、データサイエンス関連の業務の受注件数を増やすためにオウンドメディアを構築する場合は、データサイエンスに関連する事柄、例えば「ランダムフォレストのやり方」や、「機械学習とAIの違い」など、データサイエンスと関わりのあるコンテンツを用いてメディアを構築していく必要があります。

 

 

オウンドメディアの注意点

オウンドメディアは情報を掲載する手間以外にはそれほど金銭的コストも掛からず、始めやすい集客の手段です。しかし、情報の量が集まるまでは思ったような効果を出しにくく、途中でやめてしまうケースが多々あります。

オウンドメディアを始めたい場合はある程度、半年から1年くらいは全く効果がないと思って根気強く情報の量を貯めていく必要があるため、オウンドメディアのみを集客の手段として利用するのではなく、オウンドメディアを長期的な集客の軸としつつ、短期的に集客をしていく場合は前回の記事で紹介した、SNS運用など、別の方法を用いて集客をしていくことをおすすめします。

 

前回の記事のリンク