相関係数②


AとBに正の相関があり、AとCに正の相関がある場合に、本来は関係のないBとCにも正の相関があるように見えてしまう場合があります。

例えば、

$~~~$A:気温 、B:アイスクリームの売上 、C:扇風機の販売台数

として、それぞれ散布図を書くと以下のような結果になったとします。
(値は適当です。)

一般論的として、

$~~~~$気温 が高いほど、アイスクリーム が売れる
$~~~~$気温 が高いほど、扇風機の販売台数 が増える

ことは考えられますが、

$~~~~$アイスクリームの売上 と 扇風機の販売台数

の間には直接的な関係性はないはずです。しかしながら、0.765という高い相関が得られています。

このように共通原因(ここでは気温)をもったために本来相関がないであろう変数間に相関がみられることを、見かけ上の相関擬似相関 といいます。
 
 擬似相関が疑われるような場合には、偏相関係数 と呼ばれるものを計算します。

偏相関係数とは、今回の例では、「A:気温 の影響を除いた B:アイスクリームの売上」と「A:気温 の影響を除いた C:扇風機の販売台数」の相関係数のことを言い、

式で表すと、
\begin{align*}
偏相関係数= \dfrac{\rho^{~}_{BC}-\rho^{~}_{AB} \rho^{~}_{AC}}{\sqrt{1-\rho_{AB}^{2}} \sqrt{1-\rho_{AC}^{2}}}
\end{align*}
から計算されます。($\rho^{~}_{XY}$の表記は $X$ と $Y$ の相関を表す)

 

「B:アイスクリームの売上」 と 「C:扇風機の販売台数」 に関して偏相関係数を計算すると、偏相関係数は0.403となり、やはりBとCには関係性はないと判断することができます。

不良を発見する異常検知手法②

機械学習の手法は多く存在しており、
データの対象や目的によって、選定する必要があります。

製造業において不良を発見したい場合、「正常」「異常」の正解ラベルを付与し、
分類問題として考えても良いですが、
一般に、製造業における製品の不良率は1%未満であることが多く、
データセットの内訳として正常データと異常データが同数ではないケースが大半です。
そのような場合は「異常検知(外れ値検出)」の手法を用いるべきです。

Isolation Forestは異常検知のアルゴリズムの一種です。

異常検知手法①でお伝えしたLOFは密度分布に基づいており、
「疎であれば異常、密であれば正常」という考えで異常度を算出します。
Isolation Forestもその考えに基づきますが、
密度を算出するわけでなく、”空間分割の多さ”によって異常であるかを判断します。
下図[1]は、ある2次元のデータに対してIsolation Forestを適用した例です。
Isolation Forestはサンプルデータ群の空間において、
1つの空間内に属するデータが規定の個数になるまで、分割を繰り返します。
結果的に同図(a)のような疎なデータの空間分割数は2に、
同図(b)のような密なデータの空間分割数は9となり、
差異が生じることがわかります。

LOFは密度の計算を行うために、近傍点を収集する計算処理コストが大きいですが、
Isolation Forestは空間分割法を使うことで、高速に処理することが可能です。

[1]…Hariri, Sahand; Carrasco Kind, Matias; Brunner, Robert J. (2019). “Extended Isolation Forest”. IEEE Transactions on Knowledge and Data Engineering より抜粋

意外と知らないweb「WEB会議のツールの使い方」

今回は昨今の事情により、急に利用することが多くなったWeb会議について説明するとともに、実際のツールの使い方について解説していきます。

 

Web会議とは

インターネットを利用することで、その場にいなくてもビデオや音声のやり取りで、資料の共有などをし、会議を行うことを広くWeb会議と呼びます。

Web会議は世界中どこででもスマホやパソコンが有ればどれだけ離れていてもインターネットを通じてコミュニケーションを取り合うことが出来ます。本来であれば移動費など、コストがかかる遠方の顧客との会議などで利用することで、コストカットをすることが出来ますが、やはり直接会って会議をするよりかは意思の疎通に何があるため、難しいテーマの会議の場合には対面での会議をおすすめします。また、機密情報などが深く関わる会議などの場合後述のZOOMはセキュリティーの脆弱性が指摘されているため利用をおすすめできません。

 

Web会議の注意点

音声・映像を扱うため、Webカメラ、マイクが搭載されているデバイス、または別付けのWebカメラやマイクを接続する必要があります。事前に用意できているか確認しておきましょう。

 

Web会議のツール

では実際にWeb会議を行う場合利用できるツールには何があるのか、どう使えば良いのか、今回は、SkypeとZOOMを紹介します。※いずれも基本無料

 

Skype(スカイプ)

マイクロソフト社の子会社でインターネットを利用した電話、チャット、ビデオ通話が可能です。

 

使い方

1.スカイプ公式サイトからソフトをインストールする。

(スマホ・タブレットの場合はアプリストアでスカイプを検索しインストール)

 

2. スカイプアカウントを作成する。

3. 会議をしたい人に先程作成したアカウントを伝える。

4. 会議を開催する。通話・チャット・ビデオ会議)

 

最大10人まで開催可能。

 

 

ZOOM(ズーム)

無料で最大100人まで参加可能なWeb会議を開催できます。有料プランに契約した場合1000人まで増えるので、大規模な会議に適しています。また、主催側がアカウントを持っていれば会議の参加者がアカウント登録を新規でする必要がないため、開催が容易なのが人気なツールです。

 

使い方

  • ズーム公式サイトからソフトをインストールする。
  • スカイプアカウントを作成する。
  • 会議を開催し、リンクを参加者に共有する。

 

このように手順が非常に簡単で使い勝手が良いので利用者が世界で2億人を突破するほどなのですが、リンクを知っていれば誰でも会議に参加できるため、参加していないはずの何者かが妨害する、などのトラブルも発生しているため、利用には注意が必要になります。

相関係数①

AとBには “相関がある”、”相関がない” という言葉を聞いたことがある方は多いのではないでしょうか?2つの値の相関の強さを表す指標を 相関係数 といいますが、ひとえに “相関係数” といっても、

$~~~~~$「(ピアソンの)積率相関係数」、「順位相関係数」、
$~~~~~$「偏相関係数」、「自己相関係数」など

様々な相関係数が存在します。単に相関係数と呼ぶ場合には、通常は「(ピアソンの)積率相関係数」をさしています。

今回は、「(ピアソンの)積率相関係数」、「順位相関係数」について解説します。

 

「積率相関係数」について

 データがともに量的変数 である場合に用いられる相関係数です。

例えば、”体重と身長” の関係や、”駅からの距離と家賃”、”年齢と血圧” など両者ともに定量的な値を持つ場合に活用されます。

相関があるとは2つのデータ間に直線的な関係があることを意味します。

$~~~~~$Aが大きくなるとBも大きくなる場合には 正の相関 がある
$~~~~~$Aが大きくなるとBが小さくなる場合には 負の相関 がある

といいます。

ただし、以下のようなデータの場合にはAとBには明らかに関係性がありそうですが、直線では表せないため相関はないと判断されます。

このように、相関がないことは、因果関係がないことを示すわけではないため、あくまで相関は1つの指標であり、値を図にプロットして確認することが非常に重要になります。

 

「順位相関係数」について

 データがともに質的変数で、順位である場合に用いられる相関係数です。

例えば、”男女の好きな果物の順位” の関係や、”去年と今年の月別降水量の順位”、 など順位で表せる場合に両者の関係性をはかる手段として活用されます。

順位相関係数の求め方として

「スピアマンの順位相関係数」「ケンドールの順位相関係数」

が良く使われるそうです。順位相関係数には複数の求め方があり、目的に応じて順位相関係数の算出方法を決める必要があるということを覚えておけばよいかと思います。

意外と知らないWeb「リスティング広告って何?」

今回は企業のプロモーションや、手早くネットで広告を出すときによく利用される、リスティング広告について説明したいと思います。

 

リスティング広告とは

リスティング広告とは、顧客が検索エンジン(GoogleやYahoo)などで検索した際、画面の一番上や下に広告を掲載できる機能のことで、一月何円という料金形態ではなく、主に広告をクリックした際に1クリック〇〇円というように料金が発生していくWeb広告のことを主にリスティング広告と呼称します。

 

企業で広告を出す際、今までのチラシや看板などの場合は、一月〇〇円、担当者と打ち合わせをして掲載する。というわかりやすい形態だったものがWebの世界だと料金形態が複雑になってしまいます。今回は主に利用されるGoogleのリスティング広告の掲載方法を紹介するとともに、リスティング広告でのターゲットの設定方法を紹介していきます。

1.Googleアカウントを作成する。

広告は全てインターネットでの手続きで完了可能です。まずは広告運用のアカウントを作成しましょう。普段利用しているアカウントでも広告の運用は可能ですが、なれない間は情報がごちゃまぜになってしまい、混乱する可能性が高いので、広告用に別途アカウントを作成しましょう。

 

 

2.Google広告にアクセスし、情報を入力する。

所属している国などを記入する欄が表示されるので設定してください。

その際に最初のキャンペーン(広告)の作成画面が出てくるので、すでに決まっている場合は入力する。まだ考えたい人はざっくりとどんな広告を打ち出したいのかを入力してください。その後に料金の支払方法や住所などの入力画面が出て来るので、全て入力をしてください。→アカウントの作成完了

 

 

3.キャンペーン(広告)を作成する

広告の作成ボタンがあるのでクリックし、作成します。細かく広告は設定することができて、

・顧客が検索したワード

・顧客の利用している場所

・表示させたい内容

などを設定することが可能で、

いずれの項目も絞れば絞るほど価格を抑えることができて広げるほど価格が高騰するため、予算を考えながら広告の設定をしていきます。

広告を打ち出したい製品・サービスに合わせてエリアやワードを絞り、費用対効果を最大化させましょう。

広告の予算は上限を設定することで、顧客のクリック数が一定数を超えた際に自動で広告がストップする設定があるため、気づいたら法外な金額が請求されたということもないので安心して利用することが可能です。

 

 

4.広告を分析して運用する

ある程度広告を運用しているとワードごとや、地域ごとの費用対効果がデータとして出てくるため、そのデータを活用してより広告を効率化することが可能になります。

 

広告を掲載する事自体は誰でもできる簡単な作業ではありますが、運用をして効果を上げていくのは専門的な知識が少し必要になります。そのため広告運用代行業者に依頼をするのも方法として有効です。

不良を発見する異常検知手法①

機械学習の手法は多く存在しており、
データの対象や目的によって、選定する必要があります。
 
 
製造業において不良を発見したい場合、「正常」「異常」の正解ラベルを付与し、
分類問題として考えても良いですが、
一般に、製造業における製品の不良率は1%未満であることが多く、
データセットの内訳として正常データと異常データが同数ではないケースが大半です。
そのような場合は「異常検知(外れ値検出)」の手法を用いるべきです。
 
 
LOF(Local Outlier Factor)は異常検知のアルゴリズムの一種です。
 
 
LOFは密度分布に基づいており、
「疎であれば異常、密であれば正常」という考えで異常度を算出します。
下図は、ある2次元のデータに対してLOFを適用し、異常度を算出した例です。
数値が高いデータは疎であることが分かります。
異常度は、1つのデータ(点)に対する近傍点群を収集し、
それらまでの距離や密度を計算することで算出します。

  
 
欠点は以下です。
・疎密であることを利用しているため、データ数を多く必要とする。
・近傍点までの距離を1点ずつ計算するため、計算コストが高い。
 
欠点はありますが、アルゴリズムは単純であり、
分かりやすく、説明し易いです。
よって、手法のベンチマークでも良く見かけられる手法でもあります。

順序尺度の場合のアンケート分析③

順序尺度の場合のアンケート分析①順序尺度の場合のアンケート分析②では、定食Aの満足度に関するアンケート結果に関して、ダミー変数を用いて重回帰分析を行うことによって、以下の回帰式が得られることを解説しました。


しかしながら、この式から各設問に及ぼす満足度への影響度は解釈できますが、切片の値 $7.0$ が何を表すのか解釈できません。そこで、さらに解釈しやすい式への変形を行います。

まず、各設問内のカテゴリ数量の平均が0となるように、以下の表のようにカテゴリ数量の変換を施します。このような処理を カテゴリ数量の基準化 と言います。また、切片は満足度(設問5)の平均点となります。

カテゴリ 度数 回帰係数
(カテゴリ数量)
カテゴリ数量の平均 カテゴリ数量の基準化
設問1 十分 5 1.7 1.09

$\left(=\dfrac{5\times 1.7+3\times 1.2 + 3\times 1.4 +4 \times 0}{5+3+3+4}\right)$

0.61
(= 1.7 – 1.09)
普通 3 1.2 0.59
(= 1.2 – 1.09)
やや不十分 3 1.4 0.79
(= 1.2 – 1.09)
不十分 4 0 -1.09
(= 0 – 1.09)
設問2 多い 4 1.4 0.41

$\left(=\dfrac{4\times 1.4+5\times 0.1 + 6 \times 0}{4+5+6}\right)$

0.99
(= 1.4 – 0.41)
普通 5 0.1 -0.31
(= 0.1 – 0.41)
少ない 6 0 -0.41
(= 0 – 0.41)
設問3 高い 4 -3.7 -1.59

$\left(=\dfrac{4\times -3.7-6\times 1.5 + 5 \times 0}{4+6+5}\right)$

-2.11
(= -3.7 + 1.59)
普通 6 -1.5 0.09
(= -1.5 + 1.59)
安い 5 0 1.59
(= 0 + 1.59)
設問4 早い 6 0 -0.29

$\left(=\dfrac{4\times 0+5\times -0.8 + 4 \times -3.0}{6+5+4}\right)$

0.29
(= 0 + 0.29)
普通 5 -0.8 -0.51
(= -0.8 + 0.29)
遅い 4 -3.0 -0.01
(= -3.0 + 0.29)
切片 7 6.55
(設問5の平均点)

よって、カテゴリ数量の基準値を用いると全体的な満足度の式は

と表されます。この式を用いることによって、全体的な満足度の平均値を基準(切片)にして、各設問の影響度を確認することができるようになります。

 

 

意外と知らないWeb「オウンドメディアって何?」

今回はSEO対策や、自社サイト構築の際に散見する「オウンドメディア」について解説するとともに、実際に企業で活用する場合のコツと注意点について紹介していきたいと思います。

 

オウンドメディアとは

オウンドメディアとは、企業が自社内で構築したブログやウェブサイトから消費者に向けて情報を発信するもののことを指します。潜在顧客の段階から、情報を発信し続けることで、消費者の購入意欲を促進することが主な目標であり、オウンドメディア単体で収益を上げるという考え方ではなく、消費者のオウンドメディアから商品の購買への流れを作り出すことが主な役割となっています。

 

オウンドメディア作成のコツ

では、実際にオウンドメディアを自社内で行った場合、どのように構築をすると、より効果的な運用が可能になるのでしょうか。

 

  • ペルソナをしっかりと設定する。

オウンドメディアの目的は潜在顧客の獲得であるため、ターゲットを定めなくては属性が曖昧になってしまい、商品の購入への誘導が難しくなってしまいます。ターゲット・ペルソナをしっかりと定めた上でメディアを構築していきましょう。

 

  • 販売したい商品に関連させる

オウンドメディアはただブログ記事を作成すればよいという話ではありません。最終的なゴールは商品の購入である以上、その商品に関連する情報を掲載していくことを意識していきましょう。例えば、データサイエンス関連の業務の受注件数を増やすためにオウンドメディアを構築する場合は、データサイエンスに関連する事柄、例えば「ランダムフォレストのやり方」や、「機械学習とAIの違い」など、データサイエンスと関わりのあるコンテンツを用いてメディアを構築していく必要があります。

 

 

オウンドメディアの注意点

オウンドメディアは情報を掲載する手間以外にはそれほど金銭的コストも掛からず、始めやすい集客の手段です。しかし、情報の量が集まるまでは思ったような効果を出しにくく、途中でやめてしまうケースが多々あります。

オウンドメディアを始めたい場合はある程度、半年から1年くらいは全く効果がないと思って根気強く情報の量を貯めていく必要があるため、オウンドメディアのみを集客の手段として利用するのではなく、オウンドメディアを長期的な集客の軸としつつ、短期的に集客をしていく場合は前回の記事で紹介した、SNS運用など、別の方法を用いて集客をしていくことをおすすめします。

 

前回の記事のリンク

第12回データサイエンス研究会

弊社では2ヶ月に1度、データサイエンス研究会を実施しております。

第12回目の研究会を2020/1/25(土) 14:00~ に開催しました。
今回は、15名の方に参加頂きました。
 
<研究会>
▪テーマ①「データサイエンス最前線」 
講師:増田 忠嗣

(概要)
統計学と機械学習の違いの説明や、AIブームの現状とGAN等の最近のトピックを紹介しました。

 
▪テーマ②「機械学習で変わる社会・産業・生活の事例研究」 
講師:前川 浩基氏

   人工知能・機械学習に関するセミナーを多数開催し、
   データ分析技術者の育成に尽力されています。

(概要)
機械学習の教師あり学習に関して、身近な事例を用いて、学習データの生成方法から決定木を用いた結果までを説明頂きました。また、モータ等のセンサデータ(時系列データ)から異常判定を行う際の特徴量抽出手法として、ウィンドウイングという方法を紹介いただきました。大変わかりやすく説明頂き、非常に好評でした。

 

 
<懇親会>
研究会後は、懇親会を実施しています。データサイエンスのお話は勿論のこと、各業界のお話も参考になることが多いです。


 
<今後の予定>

第13回 : 3月21日(土) 14:00~
第14回 : 5月16日(土) 14:00~
第14回 : 7月11日(土) 14:00~

 
本年度もどうぞよろしくお願い致します。

順序尺度の場合のアンケート分析②

順序尺度の場合のアンケート分析①では、定食Aの満足度に関するアンケート結果に関して、重回帰分析を行ったところ、以下の結果が得られたところまで解説しました。

設問1 設問2 設問3 設問4
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
この結果は、全体的な満足度が、以下のように推定できることを意味します。
 

 
重回帰分析する際に、各設問における回答結果を1つ消去しましたが、その消去した回答結果の点数は0となります。サンプル数が15と少数であったため、設問1の「普通」と「やや不満」の大小関係が逆転していますが、それ以外の大小関係は違和感ないものになっています。
 
全体的な満足度に最も影響する設問は、各設問の「最大値-最小値」の絶対値の大きさから判断します。

最大値-最小値の絶対値
設問1 設問2 設問3 設問4
1.7 1.4 3.7 3.0

 
よって、定食Aの全体的な満足度に影響する因子は、設問3の価格の満足度であり、次に設問4の提供時間の満足度であることがわかります。