« アニソン三昧 | トップページ | 【便乗】アニメ・漫画でこれだけは見過ごせない刀の間違い 指・手編【エントリー】 »

2009年1月 2日 (金)

サンプル(標本)サイズ(大きさ)とサンプル(標本)の数

タイトルの事について、掲示板に色々書いたのですが、これは多分、統計の話の中でも重要な所だと思うので、こちらにも、適当に編集して載せてみます。

誤用や解釈の違いなどがあれば、ご指摘頂ければ幸いです。

了解しました。
じゃあ、帰無仮説が真の場合、有意水準5%で検定をやるとしたら、標本が100セットあったら、何セットぐらいは差が有意(帰無仮説が真にもかかわらず←もちろんこのことは検定をする人は知りません)となってしまってもおかしくないことになりますか?1000セットだったら?10000セットだったら?

# 「セット」という言葉は適当なんですが、検定理論ではなんというべきなんですかね?

このFSMさんの投稿(#567より引用)へのレスから書き始めたものを再構成します。

------------

この場合、標本「数」1000、標本「数」10000、となるのかな。「標本」とはそもそもデータの集合を指す訳ですしね。
なので、「標本サイズ(大きさ)」と分けるのですね。

だから、n が大きいのは、「多数」の標本では無く、「大標本」ですし、「少標本」では無く「小標本」。

標本に含まれる要素の数を表す時、「数」が入った語は、「データ数」とか「例数」が使われるようにも思います。

正確に考えると、そうなるのだと思います。間違っているかも知れませんけれど。

標本の大きさを n で表すように、標本の数を k で表す場合もあるようです。この場合、反復回数の1000とか10000とかですね(いくつかの統計の本で確認しましたが、ソース失念)。

でも、標本数と標本の大きさはごちゃごちゃ使われているので、セットとするのが解りやすいですよね。

青木氏@群馬大の掲示板を見ると、標本の大きさの意味で「標本数」という語を用いていたら、まずそこを指摘されるのを見ますね。

------------

ちなみに、「標本の大きさ」を使うべきなのは、単に、それがデータ数を指す語として使われているから、というだけでは無く、「標本数」が「別の概念を指す語」であるから、という理由もあると思います(青木氏の掲示板でのやり取りを参考にしました)。「標本」がデータの集合を指す訳ですので、そうするのが用法としても整合的であるように感じられます。

もちろん実際的には、文脈を考慮すればどちらの意味で用いているかは判別は出来ますけれども(場合によってはすごく混乱します)。

------------

参考資料として、この問題に言及したものをいくつか。

また見つけたら追加するかも。

最後のは、かなり強烈なエピソードが紹介されていますね。

------------

あー、後。

サンプルサイズを「N」とする場合がありますが、これも「n」を用いた方がいいんだと思います。「N」は母集団サイズですね。厳密にはそれが正しいのだ、と強く言っていいのかは判りませんけれども。

ちょっと、解りにくい例を考えてみました。軽くわざとらしいですが。

 ある母集団から、標本を1000個採る

データ数が1000で、ワンセットの標本? それとも、いくつかのデータのセットを1000採る?

みたいな。普通は前者でしょうけれど、標本分布の話をする場合には、後者の事もありますね。

これを、

 ある母集団から、大きさ1000の標本を採る

とすると、かなり明確ですね。

尤も、1000セット採る場合は、わざわざ「1000個」とはせず、「1000回」とするかと思いますが…(だからわざとらしい)。

追加

------------

数学的には、集合は英語で「set」のようですから、むしろセットが解りやすくて良いような気もするのですが、どうなのでしょうね(詳しい方がいらしたら、教えて頂ければありがたいです)。

少なくとも、私は敢えて「標本数」とする事は無いですね、FSMさんと同じく。誤解もしくは混乱させる可能性大、なので・・。

だから、「セット」を使ったり、上にも書いたように、データ数は標本サイズとして、標本数は「k ”回”抽出する」、としたりするのがいいのかなあ、と今の所は考えています。

|

« アニソン三昧 | トップページ | 【便乗】アニメ・漫画でこれだけは見過ごせない刀の間違い 指・手編【エントリー】 »

「科学論」カテゴリの記事

コメント

その部分,それで宜しいのではないでしょうか。

 統計のサンプル数については,自分は学生時代習っていて,ある1回のサンプリングが他のサンプリングに影響を与えない状況を想定しているということで,「ああ,平行宇宙の話ね」と理解した覚えがあります。それも厳密に言えば,ちょっと違うのですが,そうすると独立性については理解しやすいかなと。先に取ったサンプルを戻すの?とか,時間がずれていくと後の方だとサンプルが腐らないの?とかいうおかしな疑問を考えずに済みそうなので。
 勿論,母集団が巨大で,サンプリングが事象の変化における時間軸上で殆ど同一タイミングの抽出であるといえる場合は良いわけですけれど混乱する人が出てきますね。

 実際の自然科学のデータとりでは,そういう理想的なサンプリングが出来ないことの方が多々あるので,混乱する人も出てくるかなと思います。

投稿: complex_cat | 2009年1月 2日 (金) 12:13

complex_catさん、今日は。

こういうのって、考えれば考えるほど、色んな疑問が出てきて、混乱してきたりするんですよね・・。

最近は、やはり統計を理解するには、土台となる確率論をきちんとやらなきゃな、という事で、確率分布を勉強し直したりしています。

投稿: TAKESAN | 2009年1月 2日 (金) 12:51

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/13103/26717948

この記事へのトラックバック一覧です: サンプル(標本)サイズ(大きさ)とサンプル(標本)の数:

» 明けましておめでとうございます [瀬戸智子の枕草子]
あけましておめでとうございます。 初日が山から輝くばかりに出てくる様と重ねて、 [続きを読む]

受信: 2009年1月 2日 (金) 14:29

« アニソン三昧 | トップページ | 【便乗】アニメ・漫画でこれだけは見過ごせない刀の間違い 指・手編【エントリー】 »