Rを使ってみる2
前回の続きで、Rのコマンドなどを書き記しておきます。なお、前回と今回はRで学ぶデータ・プログラミング入門 ―RStudioを活用する― / 石田 基広 著 | 共立出版を読みながら勉強した内容ですが、一部の言葉の使い方などは私の属性の人が読みやすいように変えている場合もあります。
- 頻度の表
> fib<- c(1, 1, 2, 3, 5, 8) > table(fib) fib 1 2 3 5 8 2 1 1 1 1
(平均(mean) = 10, 標準偏差(standard deviation) = 1の場合)
> dnorm(11, mean = 10, sd = 1) [1] 0.2419707
- 正規分布の確率分布関数 pnorm
(上記のもので、x = -inf 〜 11になる確率)
> pnorm(11, mean = 10, sd = 1) [1] 0.8413447
- 確率分布関数の逆関数 qnorm
> qnorm(0.8413447, mean = 10, sd = 1) [1] 11
- 確率の曲線のグラフ
(xが[-4, 4]の正規分布のグラフ。"x"は他の文字を使用してはいけない(←事前に"x"に何かを代入しているなどではない。1つ目の引数として、とにかく"x"の関数を渡す)。)
> curve(dnorm(x), -4, 4)
- 1標本の平均値の検定(ある基準となる平均値に変化がないかどうかを標本平均から調べる)
x, A, Bは、本記事の冒頭で触れた書籍のサポートページで入手できる、Chapter06.Rの中で使用している値。
xの平均が180であると言えるかどうか判断する。
> t.test(x, mu=180) One Sample t-test data: x t = -0.9591, df = 29, p-value = 0.3455 alternative hypothesis: true mean is not equal to 180 95 percent confidence interval: 179.4445 180.2008 sample estimates: mean of x 179.8227
xの平均は179.8227であり、真の平均値は95%の信頼性で179.4445〜180.2008の中にある。
→このxの真の平均値が180でない、とは言い切れない。
ここでtとは、標本平均と母平均(真の平均)の差を(標準偏差で割ることで)正規化したもの。今回の問題では、このtが信頼度95%と言える範囲に入っていれば、「xの平均が母平均と異なる、とは言い切れない」という結論が得られる。またp値とは、標本平均と母平均の差が検定統計量tで0.9591を超える確率であり、別の言い方をすれば確率密度関数のグラフを描いた時に、tより外側の部分の面積とも言える。
今回はp値が約0.35である、つまりtの内側の部分の面積が約65%であり、95%の境界の内側にある。そのため、「xの平均が母平均とは異なるとは言い切れない」という結論が得られる。
- 2標本の平均値の検定(2つの平均値に違いがあるかどうかを判断する)
AとBの平均に有意な差があるかを調べる。帰無仮説は「AとBの平均の差は0」。対立仮説は「AがBよりも平均が高い」とする片側検定。
> t.test (A, B, alternative = "less") (後略)
この調子で書いていくと、このシリーズが単なる私的メモ、または元になっている書籍のかなり大雑把な引用集のようになってしまうので、ちょっと書き方を考えていこうかと思います。