平均値の種類

 一般に、「平均」 といえば、「算術平均」 (統計学では、相加平均という) を指しますが、その他にも平均には、「加重平均」「幾何平均」(または、相乗平均)、「調和平均」などがあり、場合に応じて使い分ける必要があります。

   
(加重平均の例)
 ある会社では3種類の弁当を販売しており、1ヵ月の売上数を調査したところ、$500$円のA弁当は $1000$個、$800$円のB弁当は $500$個、$1000$円のC弁当は $100$個であったとすると、弁当1個に使われた平均金額は、
\begin{align*}
\dfrac{500 \times 1000 + 800×500 + 1000×100 }{ 1000+500+100 }= 625 円
\end{align*}として求められます。加重平均は、重みが異なる(度数が異なる)場合の平均 として用いられます。

   
(幾何平均の例)
 消費者物価指数の3年間の伸び率が、$1.031$ , $0.995$ , $0.987$ であったとします。この3年間の1年あたりの平均伸び率は、
\begin{align*}
\sqrt[3]{1.031×0.995×0.987}= 1.004
\end{align*}として求められます。幾何平均は、指数関数的に増減する分布の平均 として用いられます。

   
(調和平均の例)
 片道 $100 \mathrm{km}$ の道のりを、行きは時速 $10 \mathrm{km/h}$ で、帰りは時速 $15 \mathrm{km/h}$ で往復したとすると、往復の平均時速は
\begin{align*}
\dfrac{2}{\dfrac{1}{10}+\dfrac{1}{15}}=12 
\end{align*}として求められます。調和平均 は、反比例的に増減する分布の平均 として用いられます。

   
このように対象とする分布に応じて、平均を使い分ける必要があります。

今更聞けないWeb 「SNS運用をしていますか?」

今や利用していない人はいないと言われているSNS(ソーシャルネットワーキングサービス)。実際どのようなものがあるのか流行りに乗り遅れてイマイチ把握できてない方も多いかと思います。そこで今回は主要なSNSを紹介するとともに実際に企業でSNSを運用する際にどのSNSを利用すればいいのかターゲット別に紹介していきます。

 

1.Facebook

SNSの魁とも呼ばれているFacebook、利用者は全て実名で登録することが義務付けられており(一部例外を除く)匿名性が無い代わりに個人のつながりを深く重視しており、ネット上で現実のような人間関係を広げることができるツールとして人気です。

日本で最も利用している年代は3,40代で主にビジネスマンが人脈を広げるツールとして利用されているケースが多いです。ビジネスでの広告や、3,40代に向けて発信したい商品がある場合はこのSNSがおすすめです。

2.Twitter

短い文字数でコミュニケーションを取る事のできるSNSです。匿名でアカウントを作成することが可能で、比較的ライトなコミュニケーションを取る際に利用されています。ユーザーは自分が見たい情報を発信してくれる他のユーザーをフォローして情報を収集する事ができます。利用者層は10代から40代あたりと幅広く、主に大衆向けの商品の広告などに適しています。最近はTwitterのライトなコミュニケーションを利用して、ユーザー参加型の広告イベントなどを開催するケースも増えてきています。

 

3.Instagram

Facebook社が運営している画像共有型SNSです。基本の構成はTwitterと似ていて、匿名性もあり、フォローなどの機能もあるのですが一番の目玉と呼べる機能は文字ではなく画像(写真)を共有することが主軸にあることです。ユーザーは自分の楽しかった経験やおいしい食べ物などをスマホのカメラで撮影し、Instagramにアップし、他のユーザーに良いね(機能)を貰ったり、逆に他のユーザーがきれいな画像を掲載していた場合は良いねを送ったり、することでコミュニケーションを取るツールです。そのため企業はインスタに掲載してもらうために見栄えの良い商品を作り出し(インスタ映えする商品)コストを掛けずに宣伝することができます。利用者層は1,20代がメインとなっています。

 

4.Linkedin

日本ではあまりまだメジャーなものではありませんが、MicroSoft社を親会社に持つ完全ビジネス特化型のSNSです。基本はFacebookとあまり変わりませんが、採用や、転職、ヘッドハンティング、外国人雇用向けのサービスが充実しており、海外での採用はLinkedinだということも最近増えてきています。新卒採用よりも中途採用を狙って広告を打つ企業が多いため、中途採用を考えている企業が広告を出す場合はおすすめです。

 

次回はHPにSNSを埋め込む方法について紹介します。

一見すると間違えそうな問題


(問題)

 ある感染症に 10000人 に 1人 の割合で感染しているとします。また、この感染症に関する検査では、本当に感染していた場合に 99.9% の確率で陽性反応を示し、感染していない場合でも 0.1% の確率で陽性反応を示すとします。

A氏がこの感染症の結果を受けた結果、「陽性」でした。A氏が本当に確率は何%でしょうか?
   

(解説)
 検査の精度が「99.9% の確率で陽性反応を示す」なのだから、A氏が本当に感染している確率は 99.9% なのでは?

と思ってしまいそうですが、実はそうではありません。
   
なぜなら、
検査結果が「陽性」で、本当に感染している確率は、

\begin{align*}
0.999 \times \frac{ 1 }{ 10000 } = 9.9 \times 10^{-5}.
\end{align*}

検査結果が「陽性」だが、本当は感染していない確率は、

\begin{align*}
0.001 \times \frac{ 9999 }{ 10000 } = 9.9 \times 10^{-5}
\end{align*}

となります。つまり、検査結果が「陽性」のとき、本当に感染しているかどうかに関わらず同じ確率となりますので、A氏が本当に感染している確率は 50% ということになります。

   
このように「感染症に 10000人 に 1人 の割合で感染」という条件を考えずに、「 99.9% の確率で陽性反応を示す」という条件のみに着目すると誤った結論を導く可能性があります。日常生活でも精度のみに惑わされないよう注意が必要です。

データサイエンス研究会2019年9月度

京都ビジネスアナライズ社では二ヶ月に一度、研究会を実施しております。

最近は特に、データ解析の最前線で働くデータサイエンティストから

実事例含めた最新状況に関して御教示頂いております。

 

<研究会>
2019年9月度のデータサイエンス研究会の様子をご紹介致します。

講師:田村光太郎様

今回は有名大学や有名一般企業で多岐に渡るデータ解析業務をされている

大変著名な方に様々な事例を紹介していただきました。

内容:データサイエンスとモデリングと称し、大別して、以下の2点に関してご説明をいただきました。

・データサイエンティストの定義と業務プロセス

・実際の事例紹介(データアナリシス事例、予測モデルの要件定義事例、基礎研究事例)

毎度のことですが、時間が足りないと思うほど、情報の密度が高い内容です…!

 

<懇親会>

ネットワークづくりを主とし、データサイエンスに興味がある面々で

懇親会を実施しています。データサイエンスのお話は勿論のこと、

各業界のお話も参考になることが多いです。

 

HPに動画を埋め込む方法とオススメの埋め込み方法

今回は、前回の記事『HPに動画を入れたほうがいいの? 動画導入のメリットとデメリット』

の続きの記事です。まだ前回の記事をお読みでない方は、下記リンクからお読みください。

 

前回の記事はこちら

 

前回の記事では、HPに動画を埋め込むメリットやデメリットについて書いていきましたが、今回は実際にHPに動画を埋め込む際、どのような方法で動画を埋め込んだら良いのかについて紹介し、どの方法がよりオススメなのかを書いていきます。

 

現在、HPに動画を埋め込む方法は主に2つあります。

1.埋め込みたい動画をHPのサーバーに入れて埋め込む方法

2.他社サービスを利用して動画を外部から埋め込む方法

 

以上が現在の殆どのHPで企業が実際に利用しているHP内に動画を埋め込む方法となっています。

 

  1. 埋め込みたい動画をHPのサーバーに入れて埋め込む方法

用意した動画をFTPツールやCMSのサービスを利用して、HPのサーバーに直接動画のデータを入れてそこからHPに動画を埋め込む方法です。

分かりづらいかと思いますが、実際この方法は難易度も高く、サーバーが高性能のものでない場合は動画を再生することすらできず、全体のHPの読み込み速度も下がってしまうためおすすめできません。

 

この方法が向いている企業の特徴

・全て自社で完結させたい

・サーバーのスペックがかなり高い

・ITの知識がある

 

2.他社サービスを利用して動画を外部から埋め込む方法

1.と違いYouTubeやvimeoなど、自社サーバーではなく他社の動画配信サービスから自社HPに紐づけて動画をHPに※iframe方式で埋め込む方法です。

 

この方法だと自社サーバーへの負担が殆どかからないためHPの低速化などの懸念は殆ど無くなります。

 

特にYouTubeはSEOを決めているGoogleの子会社なので今後SEOに深く関係してくる可能性が高いため、動画を埋め込む際は積極的にYouTubeを利用することをおすすめします。

 

しかしYouTubeのテーマカラーが赤なため、埋め込んだ動画にも一部赤色が出てくることもあり、サイトのイメージと合わない場合は青のVimeoで埋め込むということもデザイン的にはありだと思います。

 

どちらも無料で利用でき、少し勉強すれば誰でも埋め込めるようになるためおすすめです。

(一部有料コンテンツもあり)

 

※ Inline Frameの略で、src属性で指定したリンク先ページの内容をインラインフレーム表示できるHTMLタグの一つです。自分のHPの中に別のHPが表示される窓を設置する技術のことです。Googleマップをサイトに埋め込む際も同じ技術が利用されています。

 

この方法が向いている企業の特徴

・コスト(技術・費用・時間)を掛けずに動画をHPに埋め込みたい

・誰でも動画が埋め込めるようにしたい

 

この方法の場合、サービスが終了した際のことも考えておく必要があります。

主成分分析を図を使ってイメージする

 主成分分析とは、「データの次元を削減し、データの特徴を捉えやすくするために用いられる手法」です。主成分分析のイメージを図から感覚的に捉えてみましょう。

   

 図示可能な3次元データを例として用います。以下のような3次元データが得られたとします。


この3次元データを違う方向から見ると、ある平面上付近にデータが集まっていることがわかります。

よって、この平面上に新たな2軸を作成すると、今回の3次元のデータは2次元データとして捉えることが可能となります。

すべてのデータが平面上にはないので、平面に対して垂直方向のずれ(情報)は捨てることになりますが、

“平面上付近にデータが分布する”というデータの大きな特徴は捉えることができています。(主成分分析では、元のデータの80~90%の情報は残るように次元を調整します。)

このように、主成分分析では、新たな軸を設けて、次元を削減することによって、データの特徴をより簡略的に捉えることが可能となります。

HPに動画を入れたほうがいいの? 動画導入のメリットとデメリット

最近、採用サイトやコーポレートサイトに動画を導入するケースが増えています。

 

2010年のSEOの調査では動画を導入しているかしていないかで検索順位が1位で表示される数が53倍も変わっていたという研究結果(米 Forrester Research調べ)も出ていますが、

 

2010年、まだYouTubeなどの動画メディアもそれほど発達していない状況でHPに動画を導入するということは、動画を入れる入れない以前にそれだけHPに力を入れていた、だからSEOが上がっていたとも考えられるため、この研究結果を手放しに信用することはできないかと思います。

 

Googleは動画導入がSEOに関連づいているかどうかを明言していないため、直接的に動画自体がSEOに紐付いているとは現段階では考えにくいです。

 

しかし、一般的に大手と呼ばれている企業のサイトでは動画が導入されている。実際に弊社がサイト制作を行う際は動画の導入をおすすめしていますが、なぜSEO等にあまり関係のない動画をおすすめするのか、今回はその理由と動画導入のメリットデメリットについてお話をさせていただきます。

 

動画導入をおすすめする理由

まず、顧客がHPを見る際おそらくトップのイメージ画像と紹介文が目に入るかと思います。文字だけで的確に顧客に自社の伝えたい思いや商品・サービスを伝えることができれば良いのですが、文章だけで的確に顧客に伝えようと思うのならば、おそらくとても長い文章で表現しなくてはなりません。しかしあまりに長い文章になってしまうと、顧客は飽きてしまい最後まで読んでもらえません。短い文章や写真では伝えきれない部分で動画を導入する事によって、補うことができます。

自社で伝えたいメッセージをできるだけ的確に、簡潔に表現することができるため、サイトに動画を導入することが顧客満足度の上昇に繋がります。

更に動画を見ている時間はホームページの滞在時間にカウントされるため、間接的にSEOの上昇に貢献します。

しかしただ動画を導入すれば良いというわけではなく、伝えたいものを明確にした動画を制作する手間もかかるため、導入までにかなりコストが掛かってしまいます。そのため動画導入をする際は費用対効果を考えて慎重に導入する必要があります。

 

次回は実際にHPに動画を導入する方法をご紹介します。

 

動画導入のメリット

・自社の伝えたいイメージを伝えやすい

・間接的なSEOの上昇に起因する

・若年層へのアプローチに効果的

 

動画導入のデメリット

・コストが掛かる

今さら聞けないWeb知識「JavaScriptってなんだ?」

今回は、前回の記事『今さら聞けないWeb知識「HTMLとCSSってなんだ?」』

の続きの記事です。まだ前回の記事をお読みでない方は、下記リンクからお読みください。

 

前回の記事はこちら

 

前回はホームページを作る上で必ずと言って良い程、重要な役割を果たしているHTMLとCSSについて説明をさせていただきましたが、今回はホームページの隠れた優秀な機能「JavaScript」についてご説明をさせていただきます。

 

JavaScript(ジャバスクリプト)はWebサイトに動きをつけるために開発されたプログラミング言語の一つです。当初はWebサイトのスライドショーなどの簡易な機能としてのみ利用をされてきましたが、現在ではパスワードの認証システム・アプリなど、おそらく私達が1回も使ってない日はないと思える程JavaScriptは浸透しており、Web業界ではNo.1の人気を誇る言語です。

 

前述したとおり、アプリの開発などのバックシステムの中でもよくJavaScriptを利用することがあるのですが、今回は理解しやすいフロントの部分のみ簡単に説明させていただきます。

 

サイトのフロント部分にはよくJavaScriptの中のJqueryを利用してサイトに動きを出します。JqueryはJavaScriptをより簡単に扱いやすくしたファイルの1種です。(ライブラリと呼ばれる)

 

※ライブラリとは、通常であればいちいち記述しなくてはいけない部分をまとめて省略してしまい、簡単に呼び出すことができるようにした機能。

 

JavaScriptでそのまま使おうとすると

→右足を前方に出す+左足を前方に出す+姿勢は立ったまま+前方を見る=歩く

 

となるものが、

 

Jqueryを使うと

→歩く

 

だけで済むようになる機能のこと。(例外もあります)

 

 

前回記述したコード

 

HTML

< h1 >hello!< /h1 >

 

 

CSS

h1{color : #008000 ;

font-size :20px;

}

 

に、例えばボタンを押すとhello!の文字色が変わるエフェクトをJavaScriptでつけた場合、

HTMLとCSSの記述ファイルに加え、JavaScriptのファイルも追加します。

 

HTML

< h1 >hello!< /h1 >

 

 

CSS

h1{color : #008000 ;

font-size :20px;

}

 

(追加)

JavaScript

function changeColor(idname){

var obj = document.getElementById(idname);

obj.style.color = ‘#ff0000’;            //文字色を赤にする

}

 

そして、このままではHTML側でJavaScriptが読み込まれないため、HTMLにJavaScriptが読み込まれるよう記述し、押すと変わるボタンも設置します。

 

 

HTML

<!DOCTYPE html>

<html lang=”ja”>

<head>

<meta charset=”utf-8″>

<script src=”JavaScript”></script>

</head>

<body>

<h1 id=”target”>hello!</h1>

<input type=”button” value=” ボタン ” onclick=”changeColor(‘target’);” />

</body>

</html>

 

 

CSS

h1{color : #008000 ;

font-size :20px;

}

 

 

JavaScript

function changeColor(idname){

var obj = document.getElementById(idname);

obj.style.color = ‘#ff0000’;            //文字色を赤にする

}

 

このようなコードになり、ボタンを押すと前回指定した緑色から赤色に文字色が変わるようになります。(実際にこのような機能をホームページの制作に利用することは殆どありませんが、)今回は簡単にJavaScriptを説明するために紹介させていただきました。

 

プログラミングの特にフロントと呼ばれる部分。実は英語が読めるとある程度意味がわかることもあるので興味がある方はぜひ触れてみてください。

確率分布の特定が困難な場合の区間推定方法


(例題)

 1日当たりの来店者数を1年間調査したところ、以下のような度数分布が得られたとします。この度数分布から、平均値・中央値の信頼区間を求めてみます。


(問題点)
 ①上記の度数分布では、どのような確率分布を仮定するべきなのかわからない。
 ②中央値の信頼区間を求める解析的に解く方法がない。

   

(ブートストラップ法)
 このような問題の対処法の一つに、数値解析的に解く ブートストラップ法が用いられます。

ブートストラップ法は、“標本の分布は母集団の分布を再現している” という 仮定 のもと、標本の分布から復元抽出を行い、復元抽出した標本のデータをもとに 母集団の分布を推測 する方法です。

ブートストラップ法は以下の手順を踏みます。標本データ数を$n$とすると、
① $n$個の標本データから、新たに $n$ 個のデータを復元抽出する。
(ブートストラップ標本とよばれます)
② ブートストラップ標本の平均値・標準偏差・中央値を算出する。
③ ①と②を $B$ 回繰り返す。(今回は、$B=10000$ としました)
④ $B$ 回の繰り返しにより得られた平均・標準偏差・中央値の度数分布を確認する。
⑤ ④で得られた度数分布を元に区間推定を行う

   

(平均値の信頼区間)
 上記例において、ブートストラップ法の手順④まで計算を行うと、平均値の累積度数は以下のように得られました。

この結果から、例えば、”平均値 ≦$71$”となる確率は
\begin{align*}
(9+19+73+209+479)/10000 =0.079
\end{align*}
であり、”平均値 ≧ $79$” となる確率は
\begin{align*}
(1+2+10+50+115+304)/10000= 0.049
\end{align*}
なので、母集団の平均値のおおよその90%信頼区間は、
\begin{align*}
71 < 平均値 < 79
\end{align*}
と求められます。

   

(中央値の信頼区間)
 同様に、中央値の累積度数は以下のように得られました。

この結果から、例えば、中央値 ≦$65$ となる確率は
\begin{align*}
\dfrac{3+4+10+3+15+37+26+55+248}{10000} =0.040
\end{align*}
であり、 中央値 ≧ $76$ となる確率は
\begin{align*}
\dfrac{76+65+50+183+206}{10000}= 0.058
\end{align*}
なので、母集団の中央値のおおよその90%信頼区間は、
\begin{align*}
65 < 中央値 < 76
\end{align*}
と求められます。

新たなサンプルを抜きとったときの予測値


(新たなに抜き取ったりんごの重さは?)

   前回の記事では、あるりんご園からりんご 5個 をサンプリングした結果、その重さ $(\mathrm{g})$ がそれぞれ、
\begin{align*}
288&&292&&305&&298&&290
\end{align*}であった場合に、標本平均 $\overline{X}(=295)$ から、母集団の平均値を推定 する方法について述べました。

 

   しかし、例えば、出荷できるりんごの重さの範囲が決められているような場合には、知りたいのは平均値ではなく、新たなサンプル のリンゴを1個 抜き取った ときに、そのリンゴの重さが

$~~~~~~~~$1. $~~300\,\pm5$ の範囲にある 確率 はいくらか?
$~~~~~~~~$2.「$99.9$% の確率でこの 範囲 に入る」と言えるのは、$295\,\pm$ いくらか?

ということになります。ここでは、この疑問に対する答えを考えていきます。

 

(理論的な背景)

   新たなリンゴのサンプルを確率変数 $X$ と表します。前回の記事では、確率変数 $X$ の 期待値 $E(X)$ および 分散 $V(X)$ が、
\begin{align*}
E(X)=\mu\,,&&V(X)=\sigma^2
\end{align*}であるとき、その平均 $\overline{X}$ の 期待値 $E(\overline{X})$ および 分散 $V(\overline{X})$ は
\begin{align*}
E(\overline{X})&=\mu~,\\[6pt]
V(\overline{X})&=\frac{\sigma^2}{n}
\end{align*}となることを示しました。

 

   そこで、次に、確率変数 $X-\overline{X}$ について考えます。$X$ と $\overline{X}$ は独立なので、その期待値は
\begin{align*}
E(X-\overline{X})=E(X)-E(\overline{X})=\mu-\mu=0,
\end{align*}分散は、
\begin{align*}
V(X-\overline{X})=V(X)+V(\overline{X})=\sigma^2+\frac{\sigma^2}{n}=\left(1+\frac{1}{n}\right)\sigma^2
\end{align*}となります。つまり、確率変数
\begin{align*}
Z=\frac{X-\overline{X}}{\sqrt{\left(1+\dfrac{1}{n}\right)\sigma^2}}
\end{align*}は標準正規分布 $\mathrm{N}\left(0,1^2\right)$ に従います。決まった値である分散 $\sigma^2$ の代わりに、分布をもった推定量である不偏分散  $s^2$ を用いたとき、確率変数
\begin{align*}
t=\frac{X-\overline{X}}{\sqrt{\left(1+\dfrac{1}{n}\right)s^2}}
\end{align*}の分布は 自由度 $n-1$$t$ 分布 となることが知られています。

 

(6個目のリンゴの重さを予測する)

   初めの例 $(n=5)$
\begin{align*}
288&&292&&305&&298&&290
\end{align*}でいえば、
\begin{align*}
t=\frac{X-295}{\sqrt{\dfrac{6}{5}}\times 6.67}
\end{align*}であり、$X=295, 305$ に相当する $t$ はそれぞれ $t = 0 , 1.37$ であるから、自由度 $4$ の $t$ 分布を調べて、
\begin{align*}
&P\left(X< 295\right)=P\left(t< 0\right)=0.5~,\\[6pt]
&P\left(X> 305\right)=P\left(t> 1.37\right)=0.12~,\\[6pt]
\end{align*}となるので、新たに抜き取った 6 個目のリンゴ $X$ が $300 \pm 5$ に入る確率は
\begin{align*}
1-(P\left(X< 295\right)+P\left(X> 305\right))=0.378,
\end{align*}つまり、$37.8$% であると求められます。