相関係数①

AとBには “相関がある”、”相関がない” という言葉を聞いたことがある方は多いのではないでしょうか?2つの値の相関の強さを表す指標を 相関係数 といいますが、ひとえに “相関係数” といっても、

$~~~~~$「(ピアソンの)積率相関係数」、「順位相関係数」、
$~~~~~$「偏相関係数」、「自己相関係数」など

様々な相関係数が存在します。単に相関係数と呼ぶ場合には、通常は「(ピアソンの)積率相関係数」をさしています。

今回は、「(ピアソンの)積率相関係数」、「順位相関係数」について解説します。

 

「積率相関係数」について

 データがともに量的変数 である場合に用いられる相関係数です。

例えば、”体重と身長” の関係や、”駅からの距離と家賃”、”年齢と血圧” など両者ともに定量的な値を持つ場合に活用されます。

相関があるとは2つのデータ間に直線的な関係があることを意味します。

$~~~~~$Aが大きくなるとBも大きくなる場合には 正の相関 がある
$~~~~~$Aが大きくなるとBが小さくなる場合には 負の相関 がある

といいます。

ただし、以下のようなデータの場合にはAとBには明らかに関係性がありそうですが、直線では表せないため相関はないと判断されます。

このように、相関がないことは、因果関係がないことを示すわけではないため、あくまで相関は1つの指標であり、値を図にプロットして確認することが非常に重要になります。

 

「順位相関係数」について

 データがともに質的変数で、順位である場合に用いられる相関係数です。

例えば、”男女の好きな果物の順位” の関係や、”去年と今年の月別降水量の順位”、 など順位で表せる場合に両者の関係性をはかる手段として活用されます。

順位相関係数の求め方として

「スピアマンの順位相関係数」「ケンドールの順位相関係数」

が良く使われるそうです。順位相関係数には複数の求め方があり、目的に応じて順位相関係数の算出方法を決める必要があるということを覚えておけばよいかと思います。

意外と知らないWeb「リスティング広告って何?」

今回は企業のプロモーションや、手早くネットで広告を出すときによく利用される、リスティング広告について説明したいと思います。

 

リスティング広告とは

リスティング広告とは、顧客が検索エンジン(GoogleやYahoo)などで検索した際、画面の一番上や下に広告を掲載できる機能のことで、一月何円という料金形態ではなく、主に広告をクリックした際に1クリック〇〇円というように料金が発生していくWeb広告のことを主にリスティング広告と呼称します。

 

企業で広告を出す際、今までのチラシや看板などの場合は、一月〇〇円、担当者と打ち合わせをして掲載する。というわかりやすい形態だったものがWebの世界だと料金形態が複雑になってしまいます。今回は主に利用されるGoogleのリスティング広告の掲載方法を紹介するとともに、リスティング広告でのターゲットの設定方法を紹介していきます。

1.Googleアカウントを作成する。

広告は全てインターネットでの手続きで完了可能です。まずは広告運用のアカウントを作成しましょう。普段利用しているアカウントでも広告の運用は可能ですが、なれない間は情報がごちゃまぜになってしまい、混乱する可能性が高いので、広告用に別途アカウントを作成しましょう。

 

 

2.Google広告にアクセスし、情報を入力する。

所属している国などを記入する欄が表示されるので設定してください。

その際に最初のキャンペーン(広告)の作成画面が出てくるので、すでに決まっている場合は入力する。まだ考えたい人はざっくりとどんな広告を打ち出したいのかを入力してください。その後に料金の支払方法や住所などの入力画面が出て来るので、全て入力をしてください。→アカウントの作成完了

 

 

3.キャンペーン(広告)を作成する

広告の作成ボタンがあるのでクリックし、作成します。細かく広告は設定することができて、

・顧客が検索したワード

・顧客の利用している場所

・表示させたい内容

などを設定することが可能で、

いずれの項目も絞れば絞るほど価格を抑えることができて広げるほど価格が高騰するため、予算を考えながら広告の設定をしていきます。

広告を打ち出したい製品・サービスに合わせてエリアやワードを絞り、費用対効果を最大化させましょう。

広告の予算は上限を設定することで、顧客のクリック数が一定数を超えた際に自動で広告がストップする設定があるため、気づいたら法外な金額が請求されたということもないので安心して利用することが可能です。

 

 

4.広告を分析して運用する

ある程度広告を運用しているとワードごとや、地域ごとの費用対効果がデータとして出てくるため、そのデータを活用してより広告を効率化することが可能になります。

 

広告を掲載する事自体は誰でもできる簡単な作業ではありますが、運用をして効果を上げていくのは専門的な知識が少し必要になります。そのため広告運用代行業者に依頼をするのも方法として有効です。

不良を発見する異常検知手法①

機械学習の手法は多く存在しており、
データの対象や目的によって、選定する必要があります。
 
 
製造業において不良を発見したい場合、「正常」「異常」の正解ラベルを付与し、
分類問題として考えても良いですが、
一般に、製造業における製品の不良率は1%未満であることが多く、
データセットの内訳として正常データと異常データが同数ではないケースが大半です。
そのような場合は「異常検知(外れ値検出)」の手法を用いるべきです。
 
 
LOF(Local Outlier Factor)は異常検知のアルゴリズムの一種です。
 
 
LOFは密度分布に基づいており、
「疎であれば異常、密であれば正常」という考えで異常度を算出します。
下図は、ある2次元のデータに対してLOFを適用し、異常度を算出した例です。
数値が高いデータは疎であることが分かります。
異常度は、1つのデータ(点)に対する近傍点群を収集し、
それらまでの距離や密度を計算することで算出します。

  
 
欠点は以下です。
・疎密であることを利用しているため、データ数を多く必要とする。
・近傍点までの距離を1点ずつ計算するため、計算コストが高い。
 
欠点はありますが、アルゴリズムは単純であり、
分かりやすく、説明し易いです。
よって、手法のベンチマークでも良く見かけられる手法でもあります。

順序尺度の場合のアンケート分析③

順序尺度の場合のアンケート分析①順序尺度の場合のアンケート分析②では、定食Aの満足度に関するアンケート結果に関して、ダミー変数を用いて重回帰分析を行うことによって、以下の回帰式が得られることを解説しました。


しかしながら、この式から各設問に及ぼす満足度への影響度は解釈できますが、切片の値 $7.0$ が何を表すのか解釈できません。そこで、さらに解釈しやすい式への変形を行います。

まず、各設問内のカテゴリ数量の平均が0となるように、以下の表のようにカテゴリ数量の変換を施します。このような処理を カテゴリ数量の基準化 と言います。また、切片は満足度(設問5)の平均点となります。

カテゴリ 度数 回帰係数
(カテゴリ数量)
カテゴリ数量の平均 カテゴリ数量の基準化
設問1 十分 5 1.7 1.09

$\left(=\dfrac{5\times 1.7+3\times 1.2 + 3\times 1.4 +4 \times 0}{5+3+3+4}\right)$

0.61
(= 1.7 – 1.09)
普通 3 1.2 0.59
(= 1.2 – 1.09)
やや不十分 3 1.4 0.79
(= 1.2 – 1.09)
不十分 4 0 -1.09
(= 0 – 1.09)
設問2 多い 4 1.4 0.41

$\left(=\dfrac{4\times 1.4+5\times 0.1 + 6 \times 0}{4+5+6}\right)$

0.99
(= 1.4 – 0.41)
普通 5 0.1 -0.31
(= 0.1 – 0.41)
少ない 6 0 -0.41
(= 0 – 0.41)
設問3 高い 4 -3.7 -1.59

$\left(=\dfrac{4\times -3.7-6\times 1.5 + 5 \times 0}{4+6+5}\right)$

-2.11
(= -3.7 + 1.59)
普通 6 -1.5 0.09
(= -1.5 + 1.59)
安い 5 0 1.59
(= 0 + 1.59)
設問4 早い 6 0 -0.29

$\left(=\dfrac{4\times 0+5\times -0.8 + 4 \times -3.0}{6+5+4}\right)$

0.29
(= 0 + 0.29)
普通 5 -0.8 -0.51
(= -0.8 + 0.29)
遅い 4 -3.0 -0.01
(= -3.0 + 0.29)
切片 7 6.55
(設問5の平均点)

よって、カテゴリ数量の基準値を用いると全体的な満足度の式は

と表されます。この式を用いることによって、全体的な満足度の平均値を基準(切片)にして、各設問の影響度を確認することができるようになります。

 

 

意外と知らないWeb「オウンドメディアって何?」

今回はSEO対策や、自社サイト構築の際に散見する「オウンドメディア」について解説するとともに、実際に企業で活用する場合のコツと注意点について紹介していきたいと思います。

 

オウンドメディアとは

オウンドメディアとは、企業が自社内で構築したブログやウェブサイトから消費者に向けて情報を発信するもののことを指します。潜在顧客の段階から、情報を発信し続けることで、消費者の購入意欲を促進することが主な目標であり、オウンドメディア単体で収益を上げるという考え方ではなく、消費者のオウンドメディアから商品の購買への流れを作り出すことが主な役割となっています。

 

オウンドメディア作成のコツ

では、実際にオウンドメディアを自社内で行った場合、どのように構築をすると、より効果的な運用が可能になるのでしょうか。

 

  • ペルソナをしっかりと設定する。

オウンドメディアの目的は潜在顧客の獲得であるため、ターゲットを定めなくては属性が曖昧になってしまい、商品の購入への誘導が難しくなってしまいます。ターゲット・ペルソナをしっかりと定めた上でメディアを構築していきましょう。

 

  • 販売したい商品に関連させる

オウンドメディアはただブログ記事を作成すればよいという話ではありません。最終的なゴールは商品の購入である以上、その商品に関連する情報を掲載していくことを意識していきましょう。例えば、データサイエンス関連の業務の受注件数を増やすためにオウンドメディアを構築する場合は、データサイエンスに関連する事柄、例えば「ランダムフォレストのやり方」や、「機械学習とAIの違い」など、データサイエンスと関わりのあるコンテンツを用いてメディアを構築していく必要があります。

 

 

オウンドメディアの注意点

オウンドメディアは情報を掲載する手間以外にはそれほど金銭的コストも掛からず、始めやすい集客の手段です。しかし、情報の量が集まるまでは思ったような効果を出しにくく、途中でやめてしまうケースが多々あります。

オウンドメディアを始めたい場合はある程度、半年から1年くらいは全く効果がないと思って根気強く情報の量を貯めていく必要があるため、オウンドメディアのみを集客の手段として利用するのではなく、オウンドメディアを長期的な集客の軸としつつ、短期的に集客をしていく場合は前回の記事で紹介した、SNS運用など、別の方法を用いて集客をしていくことをおすすめします。

 

前回の記事のリンク

第12回データサイエンス研究会

弊社では2ヶ月に1度、データサイエンス研究会を実施しております。

第12回目の研究会を2020/1/25(土) 14:00~ に開催しました。
今回は、15名の方に参加頂きました。
 
<研究会>
▪テーマ①「データサイエンス最前線」 
講師:増田 忠嗣

(概要)
統計学と機械学習の違いの説明や、AIブームの現状とGAN等の最近のトピックを紹介しました。

 
▪テーマ②「機械学習で変わる社会・産業・生活の事例研究」 
講師:前川 浩基氏

   人工知能・機械学習に関するセミナーを多数開催し、
   データ分析技術者の育成に尽力されています。

(概要)
機械学習の教師あり学習に関して、身近な事例を用いて、学習データの生成方法から決定木を用いた結果までを説明頂きました。また、モータ等のセンサデータ(時系列データ)から異常判定を行う際の特徴量抽出手法として、ウィンドウイングという方法を紹介いただきました。大変わかりやすく説明頂き、非常に好評でした。

 

 
<懇親会>
研究会後は、懇親会を実施しています。データサイエンスのお話は勿論のこと、各業界のお話も参考になることが多いです。


 
<今後の予定>

第13回 : 3月21日(土) 14:00~
第14回 : 5月16日(土) 14:00~
第14回 : 7月11日(土) 14:00~

 
本年度もどうぞよろしくお願い致します。

順序尺度の場合のアンケート分析②

順序尺度の場合のアンケート分析①では、定食Aの満足度に関するアンケート結果に関して、重回帰分析を行ったところ、以下の結果が得られたところまで解説しました。

設問1 設問2 設問3 設問4
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
この結果は、全体的な満足度が、以下のように推定できることを意味します。
 

 
重回帰分析する際に、各設問における回答結果を1つ消去しましたが、その消去した回答結果の点数は0となります。サンプル数が15と少数であったため、設問1の「普通」と「やや不満」の大小関係が逆転していますが、それ以外の大小関係は違和感ないものになっています。
 
全体的な満足度に最も影響する設問は、各設問の「最大値-最小値」の絶対値の大きさから判断します。

最大値-最小値の絶対値
設問1 設問2 設問3 設問4
1.7 1.4 3.7 3.0

 
よって、定食Aの全体的な満足度に影響する因子は、設問3の価格の満足度であり、次に設問4の提供時間の満足度であることがわかります。

今さら聞けないWeb 「ハッシュタグってなんだ?」

今回は個人・企業でSNS運用をしていく上で必須なハッシュタグについて説明をしていきます。

 

ハッシュタグとは、SNS投稿の文章の中で「#」が前についていてタグのようになっているキーワードのことを指します。Twitter・Instagramではそのハッシュタグをクリックすることができるようになっており、クリックすると同じハッシュタグをつけた自分や他人の投稿をチェックすることができるため、最近ではユーザーがハッシュタグから気になるワードを検索して、効率的に自分の望んだ投稿を探し出すことが一般的になりつつあります。

 

そのため、企業がSNS運用をする際はこのハッシュタグをより効果的に活用していく必要があります。

 

では、ハッシュタグを使うメリットを踏まえた上で、より効果的なハッシュタグの付け方についてご紹介していきます。

 

  • 不特定多数のユーザーの目に触れる機会を得ることができる。

SNSは基本的にユーザーとユーザーのつながりから広がるネットワークであることから、企業の活用には向いていないとされてきていました。しかし、前述の通り、ハッシュタグから検索をかけるユーザーが多い昨今のSNS事情においては、企業も1ユーザーとして、発信することができるため、活用次第ではより企業のコアなファンを作ることができる有用なツールとなっています。しかしそのためにはハッシュタグの効果的な運用が求められるため、既存のネットマーケティングの手法が当てはまりにくいというデメリットも存在しています。

 

  • ハッシュタグによってはユーザーが自主的に拡散してくれる

ハッシュタグを利用したキャンペーンや、プレゼント企画を用意することで、企画に参加したいユーザーが自主的に他のユーザーに拡散してくれるため、広告費を抑えることができます。場合によっては費用を全くかけずに集客ができることから、SNSは「無料集客のツール」と呼ばれることもあります。

 

以上を踏まえた上で実際にハッシュタグを投稿につけていく際にどのようにハッシュタグをつけたらいいのかを説明します。

 

 

1 オリジナルのキャンペーンなどの被らないワード

あえてワードを絞ることで、よりコアな潜在顧客の獲得につなげていきます。

オリジナルのキャンペーンを打ち出す場合などは特に、被らないことを意識することが重要です、被ってしまうとキャンペーンでリーチした顧客の数を正確に測ることができなくなり、効果の測定が難しくなってしまいます。

 

2 人気なワード

まず、SNSを始めた場合は、人気のワードを積極的に利用していくことが重要になります。

人気のワードはそれだけ関わっているユーザーも多いためSNSを始めたての場合は必須です。

 

3 20代を意識した内容

基本的にこのようなSNSを活用しているのは20代が主なため、発信していく内容も20代に馴染みやすいハッシュタグ、投稿を意識してください。もし、SNS運用を任せる事ができる社員がいる場合は、できるだけ若い年齢の人に任せたほうがより、ユーザーに刺さりやすい投稿・ハッシュタグを選ぶことが比較的得意なのでおすすめです。

順序尺度の場合のアンケート分析①

前回からの続きです。

アンケート調査票 その2

設問 1 定食Aの品数はどのように感じましたか?
 十分   普通   やや不十分   不十分

設問 2 定食Aの量はどのように感じましたか?
 多い   普通   少ない

設問 3 定食Aの価格はどのように感じましたか?
 高い   普通   安い

設問 4 定食Aの提供時間はどのように感じましたか?
 早い   普通   遅い

設問 5 定食Aの全体的な満足度を、10点満点で評価してください
 10点  9点  8点  7点  6点  5点  4点  3点  2点  1点

  
上記のアンケートを計15人に取った結果、以下の回答が得られたとします。

No. 設問1 設問2 設問3 設問4 設問5
1 十分 多い 高い 普通 8
2 十分 少ない 安い 早い 6
3 やや不十分 普通 普通 早い 5
4 やや不十分 多い 高い 普通 8
5 不十分 多い 普通 早い 10
6 普通 少ない 安い 遅い 7
7 普通 普通 高い 普通 4
8 十分 少ない 高い 遅い 3
9 十分 多い 普通 普通 6
10 不十分 普通 安い 早い 8
11 不十分 普通 普通 普通 5
12 やや不十分 普通 安い 早い 5
13 普通 少ない 普通 遅い 4
14 十分 少ない 普通 遅い 6
15 不十分 少ない 安い 早い 10

 
このアンケート結果から、以下のように各設問の点数を求めることを考えます。
 

 
そのために、まず設問1~設問4の回答結果を0と1で表す以下のような表を作成します。各設問において1つの回答結果を消去しています。これは、設問1を例にすると、「やや不十分」、「普通」、「十分」の値が0であることは「不十分」の値が1であることが判断できるためです。(この処理をしないと重回帰分析が計算できなくなります。)
 

設問1 設問2 設問3 設問4 設問5
No. やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 満足度
1 0 0 1 0 0 0 0 1 0 8
2 0 0 1 0 1 0 0 0 0 10
3 1 0 0 1 0 0 1 1 0 4
4 1 0 0 1 0 1 0 1 0 6
5 0 0 0 1 0 0 0 0 1 4
6 0 1 0 0 0 1 0 0 1 4
7 0 1 0 0 0 0 1 0 1 1
8 0 0 1 0 0 0 1 0 1 2
9 0 0 1 0 0 0 0 0 0 9
10 0 0 0 0 1 1 0 0 0 7
11 0 0 0 0 1 0 1 1 0 4
12 1 0 0 1 0 0 1 0 1 2
13 0 1 0 1 0 0 1 1 0 4
14 0 0 1 0 0 1 0 0 0 7
15 0 0 0 0 0 0 0 0 0 7

 
上記のテーブルを使って、重回帰分析を行うと、以下の結果が得られます。

設問1 設問2 設問3 設問4 設問5
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
次回、この結果の見方を解説します。

決定木を改良したランダムフォレスト

アンサンブル学習という手法群をご存じでしょうか?
平たく言うと、“多数決”によって最終的な結果を求める手法を指します。
ランダムフォレストは決定木のアンサンブル学習器として発明され、
一般に、決定木よりも精度が高くなることから、
実際によく使用されています。

 

■生成手順
ランダムフォレストのモデル生成手順を以下に示します。
1.学習データを用意する。
2.ブートストラップ法を用いて学習データを複数作成する。

  同手法は内容の異なる複数の学習データを作成する手法です。
  手順1で与えられた学習データから、
  ランダムに復元抽出を行うことで作成します。

3.一部の特徴量をランダムに削除する。
4.手順3で得られた学習データから決定木を各々に作成する。

 

■予測方法
ランダムフォレストとは、生成手順4で得た複数の決定木そのものです。
実際に生成したモデルを用いて予測を行う場合は、
各予測対象データを各決定木に入力します。
各決定木の出力結果に対して多数決を行った結果が
ランダムフォレストの結果となります。