第12回データサイエンス研究会

弊社では2ヶ月に1度、データサイエンス研究会を実施しております。

第12回目の研究会を2020/1/25(土) 14:00~ に開催しました。
今回は、15名の方に参加頂きました。
 
<研究会>
▪テーマ①「データサイエンス最前線」 
講師:増田 忠嗣

(概要)
統計学と機械学習の違いの説明や、AIブームの現状とGAN等の最近のトピックを紹介しました。

 
▪テーマ②「機械学習で変わる社会・産業・生活の事例研究」 
講師:前川 浩基氏

   人工知能・機械学習に関するセミナーを多数開催し、
   データ分析技術者の育成に尽力されています。

(概要)
機械学習の教師あり学習に関して、身近な事例を用いて、学習データの生成方法から決定木を用いた結果までを説明頂きました。また、モータ等のセンサデータ(時系列データ)から異常判定を行う際の特徴量抽出手法として、ウィンドウイングという方法を紹介いただきました。大変わかりやすく説明頂き、非常に好評でした。

 

 
<懇親会>
研究会後は、懇親会を実施しています。データサイエンスのお話は勿論のこと、各業界のお話も参考になることが多いです。


 
<今後の予定>

第13回 : 3月21日(土) 14:00~
第14回 : 5月16日(土) 14:00~
第14回 : 7月11日(土) 14:00~

 
本年度もどうぞよろしくお願い致します。

順序尺度の場合のアンケート分析②

順序尺度の場合のアンケート分析①では、定食Aの満足度に関するアンケート結果に関して、重回帰分析を行ったところ、以下の結果が得られたところまで解説しました。

設問1 設問2 設問3 設問4
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
この結果は、全体的な満足度が、以下のように推定できることを意味します。
 

 
重回帰分析する際に、各設問における回答結果を1つ消去しましたが、その消去した回答結果の点数は0となります。サンプル数が15と少数であったため、設問1の「普通」と「やや不満」の大小関係が逆転していますが、それ以外の大小関係は違和感ないものになっています。
 
全体的な満足度に最も影響する設問は、各設問の「最大値-最小値」の絶対値の大きさから判断します。

最大値-最小値の絶対値
設問1 設問2 設問3 設問4
1.7 1.4 3.7 3.0

 
よって、定食Aの全体的な満足度に影響する因子は、設問3の価格の満足度であり、次に設問4の提供時間の満足度であることがわかります。

今さら聞けないWeb 「ハッシュタグってなんだ?」

今回は個人・企業でSNS運用をしていく上で必須なハッシュタグについて説明をしていきます。

 

ハッシュタグとは、SNS投稿の文章の中で「#」が前についていてタグのようになっているキーワードのことを指します。Twitter・Instagramではそのハッシュタグをクリックすることができるようになっており、クリックすると同じハッシュタグをつけた自分や他人の投稿をチェックすることができるため、最近ではユーザーがハッシュタグから気になるワードを検索して、効率的に自分の望んだ投稿を探し出すことが一般的になりつつあります。

 

そのため、企業がSNS運用をする際はこのハッシュタグをより効果的に活用していく必要があります。

 

では、ハッシュタグを使うメリットを踏まえた上で、より効果的なハッシュタグの付け方についてご紹介していきます。

 

  • 不特定多数のユーザーの目に触れる機会を得ることができる。

SNSは基本的にユーザーとユーザーのつながりから広がるネットワークであることから、企業の活用には向いていないとされてきていました。しかし、前述の通り、ハッシュタグから検索をかけるユーザーが多い昨今のSNS事情においては、企業も1ユーザーとして、発信することができるため、活用次第ではより企業のコアなファンを作ることができる有用なツールとなっています。しかしそのためにはハッシュタグの効果的な運用が求められるため、既存のネットマーケティングの手法が当てはまりにくいというデメリットも存在しています。

 

  • ハッシュタグによってはユーザーが自主的に拡散してくれる

ハッシュタグを利用したキャンペーンや、プレゼント企画を用意することで、企画に参加したいユーザーが自主的に他のユーザーに拡散してくれるため、広告費を抑えることができます。場合によっては費用を全くかけずに集客ができることから、SNSは「無料集客のツール」と呼ばれることもあります。

 

以上を踏まえた上で実際にハッシュタグを投稿につけていく際にどのようにハッシュタグをつけたらいいのかを説明します。

 

 

1 オリジナルのキャンペーンなどの被らないワード

あえてワードを絞ることで、よりコアな潜在顧客の獲得につなげていきます。

オリジナルのキャンペーンを打ち出す場合などは特に、被らないことを意識することが重要です、被ってしまうとキャンペーンでリーチした顧客の数を正確に測ることができなくなり、効果の測定が難しくなってしまいます。

 

2 人気なワード

まず、SNSを始めた場合は、人気のワードを積極的に利用していくことが重要になります。

人気のワードはそれだけ関わっているユーザーも多いためSNSを始めたての場合は必須です。

 

3 20代を意識した内容

基本的にこのようなSNSを活用しているのは20代が主なため、発信していく内容も20代に馴染みやすいハッシュタグ、投稿を意識してください。もし、SNS運用を任せる事ができる社員がいる場合は、できるだけ若い年齢の人に任せたほうがより、ユーザーに刺さりやすい投稿・ハッシュタグを選ぶことが比較的得意なのでおすすめです。

順序尺度の場合のアンケート分析①

前回からの続きです。

アンケート調査票 その2

設問 1 定食Aの品数はどのように感じましたか?
 十分   普通   やや不十分   不十分

設問 2 定食Aの量はどのように感じましたか?
 多い   普通   少ない

設問 3 定食Aの価格はどのように感じましたか?
 高い   普通   安い

設問 4 定食Aの提供時間はどのように感じましたか?
 早い   普通   遅い

設問 5 定食Aの全体的な満足度を、10点満点で評価してください
 10点  9点  8点  7点  6点  5点  4点  3点  2点  1点

  
上記のアンケートを計15人に取った結果、以下の回答が得られたとします。

No. 設問1 設問2 設問3 設問4 設問5
1 十分 多い 高い 普通 8
2 十分 少ない 安い 早い 6
3 やや不十分 普通 普通 早い 5
4 やや不十分 多い 高い 普通 8
5 不十分 多い 普通 早い 10
6 普通 少ない 安い 遅い 7
7 普通 普通 高い 普通 4
8 十分 少ない 高い 遅い 3
9 十分 多い 普通 普通 6
10 不十分 普通 安い 早い 8
11 不十分 普通 普通 普通 5
12 やや不十分 普通 安い 早い 5
13 普通 少ない 普通 遅い 4
14 十分 少ない 普通 遅い 6
15 不十分 少ない 安い 早い 10

 
このアンケート結果から、以下のように各設問の点数を求めることを考えます。
 

 
そのために、まず設問1~設問4の回答結果を0と1で表す以下のような表を作成します。各設問において1つの回答結果を消去しています。これは、設問1を例にすると、「やや不十分」、「普通」、「十分」の値が0であることは「不十分」の値が1であることが判断できるためです。(この処理をしないと重回帰分析が計算できなくなります。)
 

設問1 設問2 設問3 設問4 設問5
No. やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 満足度
1 0 0 1 0 0 0 0 1 0 8
2 0 0 1 0 1 0 0 0 0 10
3 1 0 0 1 0 0 1 1 0 4
4 1 0 0 1 0 1 0 1 0 6
5 0 0 0 1 0 0 0 0 1 4
6 0 1 0 0 0 1 0 0 1 4
7 0 1 0 0 0 0 1 0 1 1
8 0 0 1 0 0 0 1 0 1 2
9 0 0 1 0 0 0 0 0 0 9
10 0 0 0 0 1 1 0 0 0 7
11 0 0 0 0 1 0 1 1 0 4
12 1 0 0 1 0 0 1 0 1 2
13 0 1 0 1 0 0 1 1 0 4
14 0 0 1 0 0 1 0 0 0 7
15 0 0 0 0 0 0 0 0 0 7

 
上記のテーブルを使って、重回帰分析を行うと、以下の結果が得られます。

設問1 設問2 設問3 設問4 設問5
やや不十分 普通 十分 普通 多い 普通 高い 普通 遅い 切片
回帰係数 1.4 1.2 1.7 0.1 1.4 -1.5 -3.7 -0.8 -3.0 7.0

 
次回、この結果の見方を解説します。

決定木を改良したランダムフォレスト

アンサンブル学習という手法群をご存じでしょうか?
平たく言うと、“多数決”によって最終的な結果を求める手法を指します。
ランダムフォレストは決定木のアンサンブル学習器として発明され、
一般に、決定木よりも精度が高くなることから、
実際によく使用されています。

 

■生成手順
ランダムフォレストのモデル生成手順を以下に示します。
1.学習データを用意する。
2.ブートストラップ法を用いて学習データを複数作成する。

  同手法は内容の異なる複数の学習データを作成する手法です。
  手順1で与えられた学習データから、
  ランダムに復元抽出を行うことで作成します。

3.一部の特徴量をランダムに削除する。
4.手順3で得られた学習データから決定木を各々に作成する。

 

■予測方法
ランダムフォレストとは、生成手順4で得た複数の決定木そのものです。
実際に生成したモデルを用いて予測を行う場合は、
各予測対象データを各決定木に入力します。
各決定木の出力結果に対して多数決を行った結果が
ランダムフォレストの結果となります。

今さら聞けないWeb 「サムネイル」ってなんだろう

インターネットブログや動画が普及して、その中身だけではなく、潜在顧客にクリックしてもらうためのサムネイルは非常に重要なものになってきています。

今回はそのサムネイルの概要と作成のコツを説明していきます。

 

サムネイルとは

サムネイルとは英語の直訳では「親指の爪」となってしまいますが、そのままの意味ではなく親指の爪のように小さい画像でも簡潔に中身を伝える事のできる記事や動画の表紙画像のことをサムネイルと言います。

 

例えば

「美味しい肉じゃがの作り方」

の記事や動画を作成するときに文字だけだとどの様な肉じゃがを作るのか、オーソドックスな肉じゃがなのか、それとも普通の作り方ではない作り方ではない肉じゃがなのかが、これから見ようとしているユーザーに上手く伝えることができずに、記事を開く前にユーザーの大半が離脱してしまいます。

 

しかし、離脱を防ぐためにサムネイルを用意することでタイトル文だけでは伝えることのできなかった情報をユーザーに的確に伝えることができ、離脱するユーザーを限りなく減らすことができ、ある程度の概要をサムネイルから読み解くことができるため、記事を開いたユーザーの満足度も高くなるため、サムネイルの設定は今のブログや動画においては必須です。

 

サムネイルを作成するポイント

サムネイルを作成する際、画像を切り抜いたり、文字を書き込んで凝ったサムネイルを作ることも当然可能ですが、その技術がない場合でも、少しのポイントを抑えておけば十分に効果的なサムネイルを設定することが可能です。

 

1.記事に則した画像を設定する

当たり前のことではありますが、記事と関係のない画像にすることは、意味がありません。ユーザーの満足度も下がり、SEOも下がるため必ず記事に則した画像を設定するようにしてください。

 

2.できるだけ目立つ画像にする

正直サムネイルは目立っていれば良いというところもあります。ユーザーの目を引くような画像が大切です。

3.少し結論を見せる

画像の中に結論を入れることができる場合は結論をサムネイルに入れてください。ユーザーが一番最初に知りたいことは結論で、その後に過程となるため結論を最初に結論を理解できるようにすることで、ユーザーの興味を引き、満足度を向上させることができます。但し、結論を最後まで取っておきたい記事の場合はこの限りではありません。

 

4.テイストを統一する

ブログや動画のサムネイルの場合、複数記事が同時に見られることになり、その差異テイストがバラバラだった場合には全体がごちゃついた印象になってしまうため、テイストを統一することで総合的なユーザーの満足度の向上につなげられます。

データサイエンス研究会2019年11月度

京都ビジネスアナライズ社では二ヶ月に一度、研究会を実施しております。
最近は特に、データ解析の最前線で働くデータサイエンティストから
実事例含めた最新状況に関して御教示頂いております。
2019年11月度のデータサイエンス研究会の様子をご紹介致します。

<研究会>
講師:里洋平様

   様々な企業でご活躍し、有名書籍を執筆されたご経験があります。
   ご存知の方も多いのではないでしょうか。

内容:“データサイエンス企業の分析事例”

   大別して以下の2点に関してご説明をいただきました。
   ・成功事例:再販予測、機器の故障予知
   ・失敗事例:売上予測、サービス退会予測、価格予測
         ⇒全てデータの信頼性や網羅性に関して不十分であった事例

 

<懇親会>
ネットワークづくりを主とし、データサイエンスに興味がある面々で
懇親会を実施しています。データサイエンスのお話は勿論のこと、
各業界のお話も参考になることが多いです。

 

アンケート調査における尺度の置き方


ある飲食店の店主がある定食Aの満足度調査を行うために、以下のアンケート調査票を作成したとします。

アンケート調査票 その1

設問 1 定食Aの味はご満足いただけましたか?
 満足(5点)   ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 2 定食Aの量はご満足いただけましたか?
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 3 定食Aの価格はご満足いただけましたか?
 満足(5点)   ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 4 定食Aの提供時間にはご満足いただけましたか?
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

設問 5 定食Aの全体的な満足度をご記入ください
 満足(5点)  ほぼ満足(4点)  普通(3点)  やや不満(2点)  不満(1点)

このアンケートでは、 満足度の間隔が「等間隔」 であるということを 前提 にした尺度を用いています。このような尺度は 間隔尺度 と呼ばれています。間隔尺度を用いる場合、重回帰分析を行うことによって、例えば、
\begin{align*}
全体的な満足度 = 0.35\times 設問1+0.23\times設問2+0.30\times設問3+0.15\times設問4
\end{align*}というような結果が得られ、設問1の点数が1点増加するごとに、全体的な満足度は0.35点増加するといった比例関係を見出すことが可能となります。

 

それでは、以下のようなアンケート調査票の場合はどうでしょうか?

アンケート調査票 その2

設問 1 定食Aの品数はどのように感じましたか?
 十分   普通   やや不十分   不十分

設問 2 定食Aの量はどのように感じましたか?
 多い   普通   少ない

設問 3 定食Aの価格はどのように感じましたか?
 高い   普通   安い

設問 4 定食Aの提供時間はどのように感じましたか?
 早い   普通   遅い

設問 5 定食Aの全体的な満足度を、10点満点で評価してください
 10点  9点  8点  7点  6点  5点  4点  3点  2点  1点

これらの質問は、設問5を除き、定性的な感覚を聞いているので 大小関係のみに意味 がある尺度となっており、等間隔ではありません。このような尺度は 順序尺度 と呼ばれます。順序尺度を用いる場合、尺度が等間隔ではありませんので、上述の
\begin{align*}
全体的な満足度 = 0.35\times 設問1+0.23\times設問2+0.30\times設問3+0.15\times設問4
\end{align*}というような比例関係の結果を導くことはできません。では、順序尺度の場合どのように分析したらいいのでしょうか?次回、順序尺度を用いた重回帰分析の解き方について解説致します。

今更聞けないWeb 「SNSを自社サイトに貼り付ける方法」

今回はSNSや動画を自社サイト内に実際に貼り付けようと思った際にどのように貼り付ければ良いのかを説明していきます。

皆さんも普段企業のHPを見たときにYouTubeの動画やTwitterやInstagramなどのSNSがサイト内に表示されているということを目にしたことがあると思います。傍から見るとすごく貼り付けるのは難しいのだろうとお考えになるかもしれませんが、実は動画やSNSを提供しているYouTube社やFacebook社が簡単に自社サイト内に貼り付けられるようなサービスを作ってくれています。今回はそのサービスの利用方法をよく企業HPで利用されるYouTube、Facebook、Instagramに絞り紹介させていただきます。

※動画・SNSは著作物です、自社のもの以外を使用する場合は注意してください。

1. YouTubeの貼り付け方

Ⅰ まずは、サイトに埋め込みたいYouTube動画をYouTubeにアップロードするもしくは貼り付けたい動画までYouTube内で移動する

Ⅱ 動画タイトルが表示されている場所の右下の方に「共有」と書いてあるボタンがあるのでクリックする

Ⅲ クリックして表示された項目の中の「埋め込む」と書かれているボタンをクリックする

Ⅳ <iframe>から始まるコードをコピーして自分のサイトの貼り付けたい場所にペーストする(この際コードに記載されているWidth『横幅』Height『縦幅』の数値を変更することでサイトに貼り付ける際のサイズ変更も可能です。)

2. Facebookの貼り付け方

Ⅰ 表示させたいFacebookページを用意して、Facebookページソーシャルプラグインにアクセスする

(https://developers.facebook.com/docs/plugins/page-plugin?locale=ja_JP)

Ⅱ 表示させたいFacebookページのリンクをコピーしてプラグイン内の「FacebookページのURL」に貼り付け、「幅」「高さ」を指定し、「コードを取得」と書かれているボタンをクリックし、表示されたコードをコピーし自社のサイトの貼り付けたい場所にペーストする。

3. Instagramの貼り付け方(単一投稿を貼り付ける方法)

Ⅰ 自社サイトに埋め込みたい投稿に移動し、右下にある「…」と書かれている場所をクリックする

Ⅱ 「埋め込み」をクリックし表示されたコードをコピーし自社のサイトの埋め込みたい部分にペーストする

4. Instagramの貼り付け方(アカウント全体を貼り付ける方法)※外部サービス

Ⅰ自社サイトに貼り付けたいアカウントにログインしておきSnapWidgetにアクセスする(https://snapwidget.com/)

Ⅱ「Get a free widget」と書かれたボタンをクリックし、アカウントを作成する(ニックネームとメールアドレス、パスワードで作成可能です)

Ⅲ「CHOOSE A SERVICE」をクリック、そのままInstagramを選択後、サイトに表示させたい形を選択しクリックする

Ⅳ「CONFIGURE WIDGET」をクリックしUsernameなどを指定し、下の方にある「GET WIDGET」をクリック、表示されたコードを自社サイトに貼り付けたい部分にペーストする

以上になります。次回はブログや動画におけるサムネイルの重要性についてご紹介します。

ディープラーニングでは不可能な“説明”

昨今、ディープラーニングが流行していますが、
今日時点の手法においては、欠点もあります。
実際にAIの適用を考える段階で、
“AIのモデルを生成した結果、何故、そのような分類結果となったのか?”を
説明することができないという点です。
このように、分類結果の根拠を説明できない手法群を“説明不可能なAI”と呼びます。

一方で、“説明可能なAI”の代表例として
決定木と呼ばれる手法が存在します。
本記事では同手法の概要を紹介します。

 

決定木は所謂、教師あり学習であり、
出力として予測精度および、
どのデータが重要であったかを示す重要度を
算出することが可能です。

試しに、下の散布図行列に示すirisデータを決定木で分類してみます。
散布図の結果から、pedal widthやlengthのデータに着目すれば
適切に分割できるように見受けられます。

次に、決定木でモデルを生成し、その構造を可視化しました。
・決定木は木構造を用いて空間を分割します。
・決定木は各分類ラベルを情報利得(図中の場合、”gini”の値)に基づいて分類をします。この値は、分類結果の各グループにおいて、ラベルが混在していない度合を定量的に示しています。この値が小さければ、綺麗に分類できていると言えます。

可視化結果を見ると、pedal widthやlengthを条件に、
枝を作っている箇所が木の根の近くに存在しており、
同データらが重要そうだと言えそうです。

さらに、重要度を可視化してみました。
値が高ければ重要であり、今回の分類事例においては、
全4種のデータのうちpedal widthが最も重要だと定量的に言えます。
このことは、上述の散布図から見受けた判断を裏付けることになり、
分類の根拠と言えます。

決定木はディープラーニングにはできない、上述のような根拠を提示することが可能です。ディープラーニングと比べると、精度は劣りますが、スモールスタートで妥当性を確認したい場合などは有効な手法だと言えます。