あなたのまわりのデータの不思議

あなたのまわりのデータの不思議



最近は統計の中級者向けの本を多く読んでいたのだが、こういった初心者
向けの本でも気づきはあった。

新聞やらニュースの統計情報は、その新聞社の方針などが入り恣意的に
なるというのはよく知られた話である。

そういった、発表済みの既存データを利用する場合、その統計データを
うのみにするのではなく、データの出処をよく調べ、誰が、誰のために、
いつ、どんな目的で集めたデータか確かめることが重要だということが
書かれていた。

特に、政府、マスコミや政治団体(左派・右派問わず)が発表する統計
情報というのは用心が必要で、まずは主張ありきで、統計情報を利用
して主張に説得性を持たせるという手法がよく取られる。

この本には、世論調査は回答数より回収率のほうが重要であるという
ことが書かれていた。

例えば、ある調査で賛成か反対かというアンケートがあり、1000人から
回答があり、70%が賛成であっても、それが実は2000人を対象に聞いた
アンケートだったとしたら、答えなかった残り1000人は賛成が70%とは
限らず、統計データとしては信用出来ないわけである。

信じられない話だが、アンケート回収率が50%程度の世論調査というも
のが結構あるそうである。

今後、そんな回収率の低いアンケートを出すような組織があったとした
ら、アンケートの結果を見るまでもなく信用しないようにしようと思う。


最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
スポンサーサイト
[ 2018年03月09日 04:27 ] 数学 | TB(-) | CM(0)

高校で習わないゼロのゼロ乗

高校でべき乗というものを習い、

例えば、

2×2×2のように2を3つかける場合、23と習う。

では、掛けない場合はどうか

21の場合、そのまま2となる。

さらに20の場合はどうか。

これは掛け算ではイメージできないが、自然数の0乗は1と定義すると習う
ので理屈はよくわからないが、20=1と高校生たちは理解する。

同じ要領で考えると、自然数ではない0も、00=1になりそうだが、そうとも
言えないようである。

00=0が正しいという人がいる。

04=0×0×0×0=0
03=0×0×0=0
02=0×0=0
01=0=0

で0に何を掛けても0と習う人にとっては、0の0乗というのである。

これも、いわれてみれば正しそうである。

どっちが正しいのだろうか?

実は、これは答えは定まっているわけではなく、数学者の中でも、
00=1という人と00=0という説があり、答えが定まらないというのが正しい。

個人的には、0に何を掛けても0と言う理屈を、何も掛けていない00
こじつけるのは無理があり、00=1のほうが正しいといほうがしっくりくる。

答えがちゃんと決まらないものは、高校では習わないので、00も記憶して
いなかったのである。

最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2018年02月09日 04:54 ] 数学 | TB(-) | CM(2)

江戸の数学文化

江戸の数学文化



日本の江戸時代、同時期の世界各国と比べて、庶民層の学力が高かっ
たことは有名で、その潜在能力があったから、江戸時代末期から爆発
的に発展し、欧米に追いつくことができたと言われる。

その江戸時代には、数学を取り巻く世界は、学者層と庶民層に別れ、
学者層は、三角形の内側に大きな円を3つ、小さな円を1つ入れて内接
させ、三角形のそれぞれの辺の長さと、小さな円の直径を与えて、
大きな円の直径を求める、実用的ではないパズルのような問題を解い
たりすることに興じだという。

一方、庶民は、日常でやむを得ず使わなければならない、四則演算が
そろばんを通じて発達し、寺子屋に通う庶民層の約7割が計算できたと
いう。

当時は、実用的に計算するがゆえに、割り算の九九というものがあり、
そろばんの珠の動きを元に計算する手法があり、今の珠算でも用い
られているという。

江戸時代末期になり、学者の数学と、庶民の数学に転機が訪れた。

西洋数学が入ってきたのである。

江戸時代の学者の数学は、先に述べた難問は多かったが、それがで
きたからと言って、科学の発展に役立つものではなかった。
学者たちのプライドは高く、西洋数学に取り組もうともしなかったという。

こういう学者たちの態度に業を煮やした幕府は、エリートの若者たちに
西洋数学を学ばせ、軍事技術を学ばせたという。

これにより、和算は急速に廃れたという。

明治維新になり、もともと四則演算の得意な庶民たちは、小学校ができ
ても学問の習得が早く、明治維新後の富国強兵の原動力になったの
だろう。


最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2018年01月09日 04:43 ] 数学 | TB(-) | CM(0)

統計解析がわかる

統計解析がわかる



最近、ネットの力を借りて推定と検定のおさらいをしたのだが、どうしても
「分散分析」について理解ができなかった。

確か、過去にも統計の勉強をしたときに「分散分析」が理解できなかった。

これは、腰を据えて勉強しようと思い、借りたのがこの本である。

「分散分析」もさることながら、確率分布、推定、検定についても理解を
深めることができる本だった。

分散分析についてまとめておく。

2つの標本に対して平均の差を検定する場合はt検定を用いるが、3つ
以上の標本の差を検定するのが分散分析である。

分散分析でも、t検定と同じく、分散の比を見るためにF検定を利用する。

使われる事例としては、例えば、日本、中国、アメリカの男性の平均身
長の差について分析する場合、この分散分析を使う。

3つの国籍の人から10人づつ標本を選んで分析する場合、国籍という
1つの因子で分析し、一元配置の分散分析という。

さらに、都市出身、農村出身という因子を加えて影響を見る場合、
二元配置の分散分析という。

二元配置の分散分析では、国籍と出身といった2つの因子が互いに影
響を及ぼす「交互作用」の影響を考慮する必要があるが、第3の因子
の影響である「交絡」の影響も否定出来ないので、交互作用の影響を
見るのは「繰り返しのある」二元配置の分散分析でのみ行うという。

一元配置についてはt検定と同じノリで不偏分散を求めF検定すると
いう手順でわかりやすいのに対し、二元配置の場合繰り返しの有り
と無しで分析の方法も変わり、私の中でまだちゃんと腹落ちできてない。

最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年12月26日 04:10 ] 数学 | TB(-) | CM(0)

図解雑学 指数・対数

図解雑学 指数・対数



最近の状況はよく知らないが、私の高校生の時代、1年のときは数Iといっ
て中学の数学を発展させたような、イマイチ面白くない数学を学んだが、
高校2年のときに、基礎解析という科目があり、そこで初めてlogという
対数を表す記号を習った。

このlogという記号は、それまで退屈だった数学に新しい風が入ってきた
ような感覚があり、数学が好きになるキッカケだった記号でもある。

そういう、私にとっては恩人のような記号logや指数について、わざわざ
それだけを取り上げて本にされていたので借りてみた。

高2レベルの指数関数や対数関数の話、高3の指数関数、対数関数の
微積分、大学の複素関数論で学ぶオイラーの公式など数学的なことに
加え、物理学で具体的にどういうところで使われるかについても説明
があり、復習だけでなく勉強になった。

物理で学ぶ例を挙げておく

指数関数が使われる具体例
・湖水の透明度
・音階

対数関数が使われる具体例
・濾過の回数
・原子の半減期
・pH
・人間の感覚に関する強さ
 ・地震の強さ
 ・星の輝き
 ・騒音


最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年12月13日 04:02 ] 数学 | TB(-) | CM(0)

Excel 分析ツール 完全詳解

Excel 分析ツール 完全詳解



統計関係のツールで「ソルバー」というアドインツールというのを見てみた
ことがあるが、主成分分析とか連立方程式の解を求めるといったもので、
結構用途が限定されるものだった。

この本で解説される「分析ツール」というのはそれよりも基本的な19種類
の統計処理ができるものである。

手元にExcelさえあれば、平均、分散、尖度などの基本的な統計量はもち
ろんのこと、順位と百分位数、ヒストグラムといった中学生レベルの統計
処理や、乱数、サンプリング、相関や共分散、回帰分析、分散分析、t検定、
F検定、z検定といった本格的なものまでできるという。

それを簡単な例を元に解説されており、分かりやすかった。

使い方も去ることながら、この本で得たのは、分析の目的が
①要約
②検定
③モデル分析
④時系列分析
⑤データ分析

に分けられ、分析ツールでできる分析を分類すると以下のように分類され
るということが分かってよかった。
(細部まで詳細に理解するには、他の統計の本をもっと読む必要あり)

①要約
 相関
 共分散
 基本統計量
 ヒストグラム
 順位と百分位数

②検定
 分散分析(一元配置、二元配置(繰り返しあり)、二元配置(繰り返しなし))
 F検定
 t検定(標本が一対、等分散を仮定した2標本、等分散を仮定しない2標本))
 z検定

③モデル分析
 回帰分析

④時系列分析
 指数平滑
 フーリエ解析
 移動平均

⑤データ生成
 乱数
 サンプリング


最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年12月11日 04:52 ] 数学 | TB(-) | CM(0)

4つの検定の使い方

私が大学1年のときに、必須科目として統計学を受講した。

100人以上入ることができる教室の前のほうで、教授が講義しているのだ
が、教授が何を言っているかわからず、また、教科書も統計の手法につい
ての解説ばかり書かれていて、どういうシーンで使うのかということは
サラッとしか書かれていないので、検定とか推定と言われても、イマイチ
理解できなかった。

最近になり、データ分析などの本をよむようになり、検定というのは、サ
ンプリングした標本から母集団を検証する手法であることぐらいは理解
できたが、t検定、F検定、z検定、χ2乗検定がどういったものかの理解
があやふやだったので復習がてらまとめてみた。

■t検定

 母集団を日本国民全員として、その平均値やばらつき(分散)といった
 情報が分かっていた場合に、自分の街の人間は日本国民と同じ平均、
 分散で ばらついているといえるかを確認したり、
 例えば、東京都の人間と大阪府の人間の間の平均や分散に差がある
 かないかを確認するための手法がt検定である。

 さすがに自分の街の人間とか、東京都や大阪府の人間を全員集める
 のは非現実的なので、街の中から無作為に30人未満の標本を集める。

■t検定の種類

 t検定には先程述べた1つの母集団で検定する場合もあるが、普通は
 母集団の平均や分散がわかっているケースは稀である。
 また、母集団が2つ以上ある場合もある。
 2つ以上の母集団がある場合、次の3種類がある。

 ・対応のあるt検定
  多少無理のある例になるが、日本国民の朝の身長および夜の身長
  の平均を考える場合、母集団は2つ存在することになるが、朝の身長
  も夜の身長も同じ人間に対して計測するので対応のあるt検定という

 ・対応のないt検定
  日本国民でも男性と女性ではそれぞれ別人であり、対応関係がない。
  対応関係がない場合は、母集団の分散も同じとは限らない。
  (対応関係があっても母集団の分散が同じとは限らないのだが・・・)

  このとき、分散に差があるかどうかを検定する方法をF検定といい、
  F検定をするか、しないかというワンクッションが入る。

  また、母集団が3つ以上ある場合、t検定ではなく分散分析を行うが、
  分散分析については別の機会に学習したい。

■F検定

 t検定で母集団が2つある場合、その2つの母集団のばらつきが異なるか
 同じかを見るために実施するのがF検定になる。

 先程の例で、日本国民の男性の身長と女性の身長の間でばらつきかた
 が恐らく異なるだろうなというのはわかるが、なぜ異なるかと論理的に説
 明するのは難しい。

 そこで、ばらつきに差があるかを統計的に見るのがF検定となる。


■χ2乗検定

 日本国民の血液型は、A型40%、O型30%、B型20%、AB型10%とされてい
 るが、ある街で献血をしたところA型が37%、O型が33%、B型が18%、
 AB型が12%だったとして、この街の血液型の分布が日本国民の分布と
 同じとみなしていいかをどうかを検定する方法である。

 ちなみにF分布は2つの分散の比の確率分布だったが、χ2乗分布は、
 論理値と実際取りうる値の差の確率分布となる。

■z検定

 t検定では標本の数が30未満の場合、標本はt分布(自由度1の分布表、
 自由度2の分布表というように自由度ごとに分布表がある)に従うが、標
 本が30以上になってくると、正規分布に従うとみなして良いので、正規
 分布表をもって検定するのがz検定となる。
 また、標本の数が30未満でも、母集団の平均や分散がわかっている場合
 にも標本は同じ平均と分散になるから、正規分布に従うと見てz検定を
 することになる。

色々調べてみたが、母集団の平均や分散がわからない場合に、いくつか
標本を抽出してみて、その標本間での差の有無を確認することが、この
検定という行為の本質であることがあらためて理解できた。



最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年12月08日 04:03 ] 数学 | TB(-) | CM(0)

統計学がわかる

統計学がわかる



大学に入り、統計学は必須科目であり、検定やら推定やら習った。

1年かけて色々学んだわけだが、理論ばかりだったので、何の役に立つ
かわからなかったし、大学を卒業して使うこともなかったので、記憶に
残っていない。

回帰分析や因子分析については、別の本を先に読み、また数年前にも
統計や確率の本を読んでイメージしやすい題材だったこともあり、何に
使うかの理解はしているつもりだが、分析手法やさらにその基礎となる
検定や推定といった部分が知識として抜けていたので、この本で学習
した。

ハンバーガーショップのポテトという題材で、その長さの平均や分散を
計算すると行った高校レベルの初歩的な解説から始まり、

箱に入ったポテトを標本として、箱をいくつか無作為抽出して、箱に入っ
たポテトの平均本数が、すべての箱の平均本数を95%や99%の確率で
どの範囲に入っているかを推定する、区間推定、

推定では、分散ではなく、サンプルサイズ-1を使う不偏分散を使うことや、
推定区間を求めるためにt分布表を使うことも復習することができた。

あとは、検定。
自分の店とライバル店の間で売上構成に「差はない」仮説を立て、
それを確率分布表の1%や5%の部分より外に外れれば棄却、内に入って
いれば採択し、比較する内容によってカイ二乗検定、t検定、F検定がある
ことが復習できた。

最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年08月31日 05:12 ] 数学 | TB(-) | CM(0)

統計学がわかる 【回帰分析・因子分析編】

統計学がわかる 【回帰分析・因子分析編】



6年ほど前に多変量解析の本を読んだ。(下記URLの第10位の本)
http://yama2190.blog.fc2.com/blog-entry-145.html


そのときに、参考にした「アイスクリーム統計学」のサイトについて本も出て
いるので、久しぶりに本を借りて読むことにした。

やはり、分かりやすかった。

私の統計に関する知識は、「相関係数の絶対値の大きさが大きいほど、
相関関係が強い」ぐらいのざっくりとした知識しか残っていなかったのだ
が、久しぶりに読んで、「無相関検定」と「偏相関」について思い出し、
理解することもできた。

相関係数が高ければ、則ち関係が高いかというとそうではなく、標本数
も関係するという、いわば当たり前の話だがちゃんと理解ができた。

例えば、標本数が3と極端に少ない標本では、縦一列に並んでいて、相関
係数が高かろうが、正三角形の形になって相関係数が低かろうが本当に
相関性があるかどうかは言えないというのは直感的に理解できる。

これが、標本数400で同じように縦一列に並んでいたら、相関性があるし、
バラバラだったら相関していないことが理解できる。

相関係数を語る上で、標本数が重要な要素になり、
「相関係数の絶対値の低さがある程度以下であれば相関関係がない」
と検定することを無相関検定であると理解できた。

ここで、なぜ相関があることを検定するのではなく、無相関であることを検
定するのかというと、相関があるかどうかというのは-1~1までの数値を
無限に取ることができてしまうが、相関がないかどうかというのは0という
値だけを検定すれば良いからだという。

これを「帰無仮説」という。

大学のときに「帰無仮説」とか習い、語呂だけ覚えていたのだが、その
意味することが理解(再復習)できてよかった。


最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年08月24日 04:08 ] 数学 | TB(-) | CM(0)

ようこそ「多変量解析」クラブへ

ようこそ「多変量解析」クラブへ



ビッグデータというキーワードが数年前から流行り、ここ1、2年はデータサ
イエンスというキーワードを聞くようになった。

データの分析といえば、大学3年のときに勉強した多変量解析と、このブ
ログを書きはじめて、何冊か多変量解析の本を読んだりした。

前に読んだのが、5年前であり、細かい部分の記憶がちょくちょく欠落して
いたので、また勉強しようとこの本を借りた。

多変量解析についての解説本だと思っていたのだが、なぜか萌えキャ
ラが出てくる本だった。

その萌えキャラたちは、とある高校の数学クラブの女子高生なのだが、
1人は数学に詳しく、もう2人はそれほどでもない。

それなのに、会話の内容が、多次元尺度構成法とか主成分分析、な
どの多変量解析の用語や、それの基本となる行列の固有値や固有
ベクトルと言った大学で習う知識をバシバシ使いこなしており、すごい
違和感があった。

なので、まったく知識のない人が読んだら、撃沈するだけの本だったが、
それでも根気よく読むと、多変量解析をどういう場面で使うのかがわか
るようにはなっていた。

他の本でもうちょっと勉強しようと思う。

最後まで読んで頂きありがとうございます。こちらを押していただけると嬉しいです!!
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 オヤジ日記ブログへ
[ 2017年08月11日 04:36 ] 数学 | TB(-) | CM(0)
カテゴリ

openclose

プロフィール

旅好きおやじの日記

Author:旅好きおやじの日記
職業はIT関係です。
趣味は海外旅行(22カ国制覇)、読書、資格取得です。
取得した資格は以下のとおりで、半分趣味のようになってます。

・情報処理
 ・ITストラテジスト
 ・システム監査
 ・プロジェクトマネージャ
 ・アプリケーションエンジニア
 ・テクニカルエンジニア(システム管理)
 ・テクニカルエンジニア(データベース)
 ・ネットワークスペシャリスト
 ・エンベデッドシステムスペシャリスト
 ・情報セキュリティアドミニストレータ
 ・情報処理一種
 ・情報処理2種
 ・情報セキュリティマネジメント
 ・ITパスポート
 ・情報処理安全確保支援士試験合格
・元PMP
・ITIL V3 Foundation
・Oracle Master Gold
・日商簿記1級
・建設業経理士1級
・英検2級

最新記事
カレンダー
プルダウン 降順 昇順 年別

05月 | 2018年06月 | 07月
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30



ブクログ
楽天
アクセスランキング
[ジャンルランキング]
日記
560位
アクセスランキングを見る>>

[サブジャンルランキング]
会社員・OL
104位
アクセスランキングを見る>>
検索フォーム
人気ブログランキング
ブロとも申請フォーム