統計学がわかる

統計学がわかる



大学に入り、統計学は必須科目であり、検定やら推定やら習った。

1年かけて色々学んだわけだが、理論ばかりだったので、何の役に立つ
かわからなかったし、大学を卒業して使うこともなかったので、記憶に
残っていない。

回帰分析や因子分析については、別の本を先に読み、また数年前にも
統計や確率の本を読んでイメージしやすい題材だったこともあり、何に
使うかの理解はしているつもりだが、分析手法やさらにその基礎となる
検定や推定といった部分が知識として抜けていたので、この本で学習
した。

ハンバーガーショップのポテトという題材で、その長さの平均や分散を
計算すると行った高校レベルの初歩的な解説から始まり、

箱に入ったポテトを標本として、箱をいくつか無作為抽出して、箱に入っ
たポテトの平均本数が、すべての箱の平均本数を95%や99%の確率で
どの範囲に入っているかを推定する、区間推定、

推定では、分散ではなく、サンプルサイズ-1を使う不偏分散を使うことや、
推定区間を求めるためにt分布表を使うことも復習することができた。

あとは、検定。
自分の店とライバル店の間で売上構成に「差はない」仮説を立て、
それを確率分布表の1%や5%の部分より外に外れれば棄却、内に入って
いれば採択し、比較する内容によってカイ二乗検定、t検定、F検定がある
ことが復習できた。

最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
スポンサーサイト
[ 2017年08月31日 05:12 ] 数学 | TB(-) | CM(0)

統計学がわかる 【回帰分析・因子分析編】

統計学がわかる 【回帰分析・因子分析編】



6年ほど前に多変量解析の本を読んだ。(下記URLの第10位の本)
http://yama2190.blog.fc2.com/blog-entry-145.html


そのときに、参考にした「アイスクリーム統計学」のサイトについて本も出て
いるので、久しぶりに本を借りて読むことにした。

やはり、分かりやすかった。

私の統計に関する知識は、「相関係数の絶対値の大きさが大きいほど、
相関関係が強い」ぐらいのざっくりとした知識しか残っていなかったのだ
が、久しぶりに読んで、「無相関検定」と「偏相関」について思い出し、
理解することもできた。

相関係数が高ければ、則ち関係が高いかというとそうではなく、標本数
も関係するという、いわば当たり前の話だがちゃんと理解ができた。

例えば、標本数が3と極端に少ない標本では、縦一列に並んでいて、相関
係数が高かろうが、正三角形の形になって相関係数が低かろうが本当に
相関性があるかどうかは言えないというのは直感的に理解できる。

これが、標本数400で同じように縦一列に並んでいたら、相関性があるし、
バラバラだったら相関していないことが理解できる。

相関係数を語る上で、標本数が重要な要素になり、
「相関係数の絶対値の低さがある程度以下であれば相関関係がない」
と検定することを無相関検定であると理解できた。

ここで、なぜ相関があることを検定するのではなく、無相関であることを検
定するのかというと、相関があるかどうかというのは-1~1までの数値を
無限に取ることができてしまうが、相関がないかどうかというのは0という
値だけを検定すれば良いからだという。

これを「帰無仮説」という。

大学のときに「帰無仮説」とか習い、語呂だけ覚えていたのだが、その
意味することが理解(再復習)できてよかった。


最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年08月24日 04:08 ] 数学 | TB(-) | CM(0)

ようこそ「多変量解析」クラブへ

ようこそ「多変量解析」クラブへ



ビッグデータというキーワードが数年前から流行り、ここ1、2年はデータサ
イエンスというキーワードを聞くようになった。

データの分析といえば、大学3年のときに勉強した多変量解析と、このブ
ログを書きはじめて、何冊か多変量解析の本を読んだりした。

前に読んだのが、5年前であり、細かい部分の記憶がちょくちょく欠落して
いたので、また勉強しようとこの本を借りた。

多変量解析についての解説本だと思っていたのだが、なぜか萌えキャ
ラが出てくる本だった。

その萌えキャラたちは、とある高校の数学クラブの女子高生なのだが、
1人は数学に詳しく、もう2人はそれほどでもない。

それなのに、会話の内容が、多次元尺度構成法とか主成分分析、な
どの多変量解析の用語や、それの基本となる行列の固有値や固有
ベクトルと言った大学で習う知識をバシバシ使いこなしており、すごい
違和感があった。

なので、まったく知識のない人が読んだら、撃沈するだけの本だったが、
それでも根気よく読むと、多変量解析をどういう場面で使うのかがわか
るようにはなっていた。

他の本でもうちょっと勉強しようと思う。

最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年08月11日 04:36 ] 数学 | TB(-) | CM(0)

直感を裏切る数学

直感を裏切る数学




直感を裏切る数学をテーマに、20個のお題を紹介している。

不景気なのに、高所得者層、低所得者層とも平均所得が増えるという話は、
高所得者の中の下位層が、低所得者層の上位層になるためという理屈
は分かりやすかったが、それ以外はちゃんと解説を読まないと理解ができ
なかった。

私も直感を裏切られた。

印象に残った問題は四色問題と、モンティ・ホールの穴の問題。

四色問題とは、地図上の隣り合う国々を違った色で塗り分けるには最低
何色か?

答えは四色なのだが、これを証明するためにはシンプルな公式などでは
無理でコンピュータの力を借りなければ証明できない計算量が必要だと
いうことである。

数学者たちはコンピュータを用いたシンプルではない証明を怒りをもって
迎えたという。

次にモンティ・ホールの穴というのは次のような問題である。
・3つの箱の中に1つが当たり、2つがハズレである
・プレイヤーが1つの箱を選択する
・ゲームのオーナが3つの箱のうち1つを選んでそれがハズレだった

このとき、プレイヤーに残り2つの箱についてもう一度選択して良いという
チャンスが与えられた場合、どうするのが良いか?

という問題である。

ゲームのオーナが箱を開けてそれがハズレだったとしても、プレイヤーが
選択した箱に変わりはないのだから、箱を変えても変えなくても答えは同
じなはずなのだが、実際はプレイヤーがもう一つの箱を選択するというの
が最適な選択らしい。

この説明はブログでやるより、Wikiを見たほうがわかりやすいのでリンク
を貼っておく。

Wikipedia「モンティ・ホールの問題



最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年07月25日 04:51 ] 数学 | TB(-) | CM(0)

理系あるある

理系の人間ならありがちな話について、あるあるネタとしてまとめられた本。

私は、こういうあるあるネタについては、共感しないことのほうが多いのだが、
この本に書かれていることについては、おーある、あると共感することが多
かった。

素数にでくわすと喜ぶ、救急車のサイレンを聞いてドップラー効果と思う、
食品の成分表示をチェックするなどという行動は、私も無意識のうちにやっ
ており、この著者の文章の面白さも手伝って妙に親近感を感じた。

あと、ためになったというか、今後心がけたいなと思うのだが、測定誤差に
こだわる、標本の少ないアンケート結果を冷笑するといったことである。

数値について、例えばラクダは一度に134リットルの水を飲むと聞くと、一般
の人ならいっぱい飲むなーという感想を漏らすだけである。私も同じである。

しかし、理系の人間は、こういった数値には誤差があるものだと考え、有効
数字が何桁なのかと誤差にこだわる。

確かに、全てのラクダが134リットルの水を飲むのかというと、そんなことは
ないとちょっと気をつければ、考えが至るが、そういうところまでは意識し
ないものである。

でも、ラクダは一度に(130±10)リットルの水を飲むといったほうが正解だ
と思うし、有効数字にこだわることは大事だと思った。

あと、標本数の少ないアンケートを冷笑するというのは、確かに私もそうなの
だが、ポアソンゆらぎ(*)という言葉を使った解説があり、ためになった。

これで、統計データを見るときにはこのポアソンゆらぎの範囲なのかどうかと
無意識のうちに計算してみてしまうのだろう。

*ポアソンゆらぎ
平均値がNなら、√Nは変動するという意味。
例えば平均値が4だとしたら、√4つまり平均から前後2は揺らぐので、平均値
が4の統計に2や6の数字が出てきても、ただちに平均値が変わったと考える
のは早計であるということ。



最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年05月16日 04:53 ] 数学 | TB(-) | CM(0)

ラジアンとステラジアン

高校の数学では、空間図形も習うことは習うが主に平面上でのグラフについ
て習う。

そこで、最初に面喰らうのは三角関数あたりなのかもしれない。

角度に関する考え方が、中学までは日常生活でもおなじみの「度」を使うが、
高校からは基本的に「ラジアン」を使う。

このラジアンという単位は、文系の人も一応習うはずなので記憶の片隅に
あるかもしれないが、おさらいしておくと、
「円の半径に等しい長さの弧の中心に対する角度」である。
Radian_cropped_color_svg.png

一応そう習うが、度とラジアンの関係についてはこの程度の解説で、私の記
憶にもいまいち定着していなかった。

その後、三角関数を基本とする数式は180°をπ、360°を2πとして習い、
数学の学習者は当たり前のようにπを使いこなすようにはなるが、ラジアンと
いう言葉をあまり出てこなくなるので、「ラジアンってなんだっけ?」となるの
かもしれない。

あと、私は物理専攻でもないので習った記憶はないが、大学になり電磁波や
光学などを習う人はステラジアンという単位も習う。

このステラジアンは単位立体角であり、平面のラジアンに対応する値だが、
「球の半径の自乗と等しい面積の球面上の部分」
と定義される。
250px-Steradian_svg.png

光などの電磁波は、あらゆる方向に等しく放射される。そのような放射束は、
発生源を中心として次第に半径が大きくなる球と仮定することができる。

球の表面積の公式は4πr2なので、このr2に意味をもたせ、単位すると
何かと都合が良い。

これが、ステラジアンが放射束の計測に用いられる理由らしい。

最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年05月07日 04:07 ] 数学 | TB(-) | CM(0)

データ分析の基本と業務

自分の仕事で使うデータ分析といっても、平均や加重平均、あとはせいぜい
散布図でプロットを打って、相関分析や回帰分析(最小二乗法)する程度しか
しないので、この本に書かれている他の基本的なデータ分析の手法と活用例
は参考になった。

数学で習った相乗平均こと幾何平均は時系列のデータを使って成長率を計
算で使うことや、聞きなれない調和平均は交流回路の抵抗値の計算で既に
知っているという話とそれだけでなく仕事の生産性の分析をする際に役に立
つことなど、分析の活用例が載っていることがよかった。

あとは、大学で習ったはずだがさっぱり忘れている、主成分分析もEXCEL
の機能であるソルバーを使えば、複数の属性、例えば学校の科目の英語、
国語、数学、理科、社会といった点数から、生徒の得意な傾向が、英語、
国語、社会という文系科目が得意な生徒と、数学、理科といった理系科目
が得意な生徒が出てきて、主成分に文系科目、理系科目とあぶりだせる
ことができ、これがマーケティングでの傾向分析に役立てることができる
などがわかった。

あと、データマイニングの手法として、同時に起こる可能性の高い現象の
組み合わせを見つけるアソシエーション・ルールでは、マーケティングの
世界でよく言われるビールの売れ行きからいっしょに紙おむつが買われて
いるというのを見つけることができたり、次の行動を予測するシーケンスと
いう手法では、顧客の年齢や性別によって次に買うものを推測できるので、
メールマガジンで商品を紹介するといったことができるという。

他にもいろいろと紹介されていたが、私ぐらいのデータ分析しか仕事で使っ
ていない人が読むにはちょうどいい本だった。




最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2016年08月26日 04:47 ] 数学 | TB(-) | CM(0)

「P≠NP」問題

数学上の未解決問題のうち、解いたら100万ドルの懸賞金が与えられると
いうミレニアム懸賞問題といものがあり、有名なリーマン予想と共に、難問
に挙げられるP≠NP予想というものがある。

P≠NPが何なのかを知るためには、グラフというものを知る必要がある。

グラフとは点と辺でつないだものをいい、以下の様なものである。
graph_201605.jpg

グラフの中で、すべての辺を1回だけ通る道をオイラー路という。
いわゆる一筆書きできるかというものである。
上に挙げたグラフでは一筆書きできないのでオイラー路はない。

次に全ての節点(赤い点)を1回通る道をハミルトン路という。
上のグラフでは赤い点を1回だけ通る道は簡単に見つかるだろう。

どちらもアルゴリズムなど駆使しなくても解けるか解けないかが簡単にわかる
問題である。

これが次のようなグラフになってくるとどうだろうか?
O_44.gif

これはそう簡単にはわからないだろう。

アルゴリズムには、計算量という概念がある。

計算をする対象の数、ここでいう辺とか節点の数をnとした場合、その
計算量がn2とか、n3で解けるものを多項式時間といい、
計算量が2nとか、3nで解けるものを指数関数時間という。

この2とか3とかいう数が10とか20とかになってくると、指数関数時間の
アルゴリズムは爆発的な計算量が必要になる。

一筆書きのオイラー路の計算のような計算は多項式時間の計算量なので、
P問題のひとつである。
ハミルトン路の方は、多項式時間の計算量かどうかは不明だが、
答えが与えられていたら簡単だという問題に分類され、NP問題のひとつ
である。

解がある問題(NP問題)ではあるが、それが全て多項式時間で求められる
問題(P問題)なのかどうか?恐らく、P≠NPのものもあるだろうという予想が
立てられているが、それが正しいかどうか証明されていない。

これが、もし、証明されていたら、素因数分解の複雑さを利用したような
暗号化のアルゴリズムも何らかの工夫をすれば見つかるということを意味し、
それが見つかっていないのだからP≠NPだと考えられている。


以下の本を読んだが、この本は冗長な解説である最初の100ページを
読み飛ばして読むと何となく、雰囲気をつかむことができた。




関連記事
組合せ爆発とおねえさん(2015/8/11)
http://yama2190.blog.fc2.com/blog-entry-1707.html



最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2016年05月27日 04:33 ] 数学 | TB(-) | CM(0)

99.996%はスルー

図書館においてあった本。タイトルを見ると、情報に関する本だろうなと
薄々思いながら何の本か興味があったので借りてみた。

主語がないので、何の99.996%がスルーなのか、タイトルではわからな
いが、本を読んでみると、2009年時点のインターネットにおける情報の
流通量に対する消費量がたった0.004%とのことであった。

でもよく考えると、この消費量というのも同じデータが何回もインター
ネット上を流れているだろうから、実際はそれよりも少ないことになる
のではないかと思う。

ちなみに、人間の脳のスルー度合いというのは、インターネットの
流通量に対する消費量どころの騒ぎではなく、知覚した情報の
100万分の1しか消費していないらしい。

目に映ったものや、耳で聞いたもの全てを脳で知覚していては、あっ
というまに脳がパンクするから、こういうスルーする能力が備わった
そうで、大事な情報だけを受け取れる生物特有の感覚というのが
あるため、コンピュータと比べても、まだまだ人間は優秀であるとの
ことである。

あと、この本を読んで情報量の意味がよくわかった。

昔の情報処理試験とかでは、無機質に情報量は-log2Pと覚えたが
何がいいたいのかよくわからなかったが、この情報量という単位は
その情報の価値を表し、P(発生確率)が低いほど、情報量は大きく
なり価値のあるものであることを示していることが理解できた。





最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2016年05月05日 04:19 ] 数学 | TB(-) | CM(0)

面積の発見

現代人は、当たり前のように「面積」を使って生活している。

家の面積とか、田んぼや畑の面積、あまりに広い面積の場合、
東京ドーム何個分とか言って、余計広さがわからなくなるような表現を使ったり
する。

そんな面積は、小学校の時に縦×横で計算すると習う。

そういうものだと教えられる。

では、面積はなぜ縦×横なのか?

そういうものだから、そう定義しているから、という答えが返ってきそうだが、
そこで話を終わらせては面白くないと思うので、本で調べて深堀りしてみた。

面積という概念は、4大文明それぞれで発生したが、農作物の耕地とか、
そこで働く労働を量で表すために、単位長さを決め、その単位長さで作った
正方形を単位面積として面積を測ったということである。

農耕から必然的に必要になる概念なので、モンゴルの遊牧民の間では
発見されなかったというから、やはり量というのは必要があるから定義
されるものであると、改めて思った。



最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2015年09月01日 04:01 ] 数学 | TB(-) | CM(0)
カテゴリ

openclose

プロフィール

旅好きおやじの日記

Author:旅好きおやじの日記
職業はIT関係です。
趣味は海外旅行(22カ国制覇)、読書、資格取得です。
取得した資格は以下のとおりで、半分趣味のようになってます。

・情報処理
 ・ITストラテジスト
 ・システム監査
 ・プロジェクトマネージャ
 ・アプリケーションエンジニア
 ・テクニカルエンジニア(システム管理)
 ・テクニカルエンジニア(データベース)
 ・ネットワークスペシャリスト
 ・エンベデッドシステムスペシャリスト
 ・情報セキュリティアドミニストレータ
 ・情報処理一種
 ・情報処理2種
 ・情報セキュリティマネジメント
 ・ITパスポート
・元PMP
・ITIL V3 Foundation
・Oracle Master Gold
・日商簿記1級
・建設業経理士1級
・英検2級

最新記事
カレンダー
プルダウン 降順 昇順 年別

09月 | 2017年10月 | 11月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -



ブクログ
楽天
アクセスランキング
[ジャンルランキング]
日記
632位
アクセスランキングを見る>>

[サブジャンルランキング]
会社員・OL
132位
アクセスランキングを見る>>
検索フォーム
人気ブログランキング
ブロとも申請フォーム