ノート:心理学研究法(10)
○第8章 信頼性と妥当性(平井洋子)
数量で表される物理的な特性。身長や体重――巻尺や体重計で直接測れる
人の心理的特性――心というブラックボックスに入っていて、直接測れない。構成概念
心理学――測ろうとする心理的特性の強弱に応じて反応が分かれるような質問を与え、返ってきた反応を介して「間接的」に特性の強さを測ろうとする。
→測定誤差の混入(人の反応は状況によって変動するから)
§1 測定誤差
人の日常――行動や性格に一定の傾向と強さがある
外から観測出来る行動・態度・発言に注目し、その平均的なレベルが対象の特性レベルと考える。
心理学的測定(ここでは、古典的テスト理論の測定モデルに基づいて説明)――測定される行動や反応を、
- 平均で示される特性レベル
- 状況によって変動する部分
に分けて考える。
観察や心理検査の結果から、個人の特性レベルをあらわす得点を求めたとする。
- 観測された得点:X
- 個人の特性レベル:T
- 状況から受ける影響:E
X=T + E
と考える。
- T:真の得点(True Score)――同じ測定を繰り返した時、その人が示す平均的な特性のレベル。個人ごとに異なる定数。
- E:誤差(Error)――平均的な特性レベルと観測得点 X との食い違い。
- ランダムに発生する測定誤差
- 内的な要因
- 集中力、やる気、興味、体調 などの変動
- 勘違い、見落とし、度忘れ、記入ミス
- 外的な要因
- 検査場所(照明、騒音、机や筆記具など)、実施者、採点者、検査項目などの違い
- 採点ミス
- 内的な要因
- 系統的な測定誤差――どのような状況でも一貫して生じる誤差。真の得点 X に組み込まれる(本当に知りたい特性とは無関係な要因)。
- 内的な要因
- テスト不安・緊張性
- 何にでもYesと答える傾向
- 外的な要因
- 使用言語
- 内的な要因
- ランダムに発生する測定誤差
↑分類は状況によって変わる。
§2 信頼性の概念
▼誤差の大きさと信頼性係数
X=T + E だから、E が小さければ、X は T に近い値になる。T=X - E
E :その時々にランダムに発生する様々な要因の和。
信頼性係数(Reliability Coefficient):誤差Eの変動がどの程度大きいかを示す測定精度の指標――観測得点 X の変動の中で誤差 E の変動が占める割合を1から引いた値
観測得点 X の分散=真の得点 T の分散 + 誤差 E の分散
信頼性係数=1 - E の分散 / X の分散=T の分散 / X の分散 ※0から1の間の値をとる
信頼性係数が高ければ(誤差の占める割合が小さければ)、真の得点 T に近い得点が安定して観測される、と言える。
▼再検査法
▼代替検査法
▼項目の内的一貫性による方法
信頼性係数の大きさを推定する方法をまとめる。
- 再検査法――同じ被験者群に一定の時間間隔をおいて同じ測定を繰り返し、2回の得点間の相関係数を信頼性係数の推定値として用いる。
- 高い信頼性係数が得られた場合→測定の安定性を示すつまり、同じものを繰り返して同じ様な点が出れば、安定して測定出来ている、と看做せる
- 代替検査法
- 同じ心理的特性を同じ難易度で測定する検査が複数ある場合。→代替検査あるいは平行検査:記憶効果(同じ検査を行った場合、以前に実施した時の事を憶えている)などを考慮する際に用いられる
- 代替検査法――同じ被験者群に複数の代替検査を連続して実施→2回の得点間の相関係数を信頼性係数の推定値として用いる。
- 高い信頼性係数が得られた場合→測定の等価性を示すつまり、異なるテストが同じ様な得点を示すのであれば、同じものを測れていると看做す
- 検定試験や資格試験が好例←毎回設問が入れ替えられ、難易度は一定で、どの回を受検しても本質的な違いが無い(知っている問題が多く出るか、といったような運の要因が、ランダムな誤差として考えられる)
- 項目の内的一貫性による方法
- ある心理的特性を測りたい時、それを測る検査項目を多数集めて一つの尺度とする事がある。
- →異質な項目(別の心理的特性を測る項目や、ランダムな誤差の影響を受けやすい項目)がまじると、観測得点の中で測りたい特性が占める割合が下がる。
- 内的一貫性による方法――検査項目間の相関関係を利用して項目間の等質性を推定→クロンバックのアルファ係数(Cronbach's Coefficient Alpha)を求める
- アルファ係数――検査項目の全ての組み合わせについて相関係数を求めた時、それが全体的に高くなるほど係数の値が大きくなる性質がある。
- 高い信頼性係数が得られた場合→項目の等質性を示す参照⇒クロンバックの α 信頼性係数
参考資料⇒心理統計の注意点:信頼性についての注意点(大変重要な事柄が書かれていると思うので、是非参照して下さい)
§3 妥当性の概念
▼測定の適切さ
ランダムな測定誤差が少ないだけでは、良い測定とは言えない。
妥当性(Validity)――ある心理的特性を測るために、その検査なりを行うのがどの程度適切か、得られた得点がどの程度適切にしようされているか、と示す概念。つまり、測りたいものをちゃんと測れているか。測定の偏り。信頼性は、測定の精度を示す。
同一の検査でも、使い方によって妥当性が変わる。←妥当性が、被験者との適合性や測定結果の用いられ方まで含んだ概念だから
心というブラックボックスを間接的に測定せざるを得ないから、妥当性があるかどうかを常に意識しておく必要がある。体重や身長は明確だが、心理的特性のような構成概念は、測りたいものが全く測れない可能性もある
妥当性検証の局面
- 検査や尺度
- 適切な測定形式
- 適切な実施
- 適切な採点
- 測定結果(得点)
- 適切な解釈
- 適切な使用
- 心理的特性が的確に反映されているか
- 測定対象に適合するか
▼妥当性のさまざまな証拠
例:文章理解力の測定
測定が間接的→妥当性の検証も、証拠を積み上げながら間接的に行う。
- 内容からみた妥当性
- 検査や尺度が正しく、測定したい心理的尺度を反映しているか
- 検査項目⇔測定の内容領域⇔測定したい特性 ←これらの関係を検討する
- 一般的な文章読解力を測定した場合→バラエティに富む素材が用いられているか、一般的な文体や語彙、漢字が用いられているか、特定分野の予備知識が有利に働かないか
- 外部の専門家や現場の人に検討を依頼する
- 被験者の反応からみた妥当性
- 回答データの面から――被験者の回答が理論上想定した通りのパターンを示すかどうか。想定外のパターン→妥当性が無い。項目の正解率や項目間の相関係数、因子分析などを手掛かりにする。
- 回答データ以外――被験者の回答行動を観察、感想を尋ねる、など。回答に要する時間や設問の難度な、解き方など。
- 他の変数との関連性からみた妥当性
- 測定したい心理的特性に理論的に関連のある、別の心理的特性が存在する事が多い。例:文章読解力は、漢字能力や語彙力と理論的に強い関連があり、論理的思考力と中程度の関連があると想定出来る
- →それらの特性を測る検査を行い、文章読解力の得点との関連を調べ、相関関係を見る。
§4 よい測定を行うために
信頼性が低い→ランダムな測定誤差の割合が大きい:測定したい心理的特性が観測得点にあまり含まれない→妥当性も望めない
信頼性を高めようとして、内的一貫性を高め過ぎる→項目が等質になり過ぎる→測定内容が偏る→測定したい内容領域が部分的にしか測れない極端な話、全部同じ質問にする、とか
必要な高さの信頼性が確保されたら、妥当性を追求した方が良い。
| 固定リンク
「科学論」カテゴリの記事
- メタスパイラル(2011.12.14)
- 主観、主観、ただ主観(2011.12.12)
- 公衆衛生(2011.12.07)
- ひとまずまとめ――患者調査において、「宮城県の一部地域及び福島県の全域について調査を行わない」事について(2011.12.06)
- 科学コミュニケーション――科学語での会話(2011.12.04)
「ノート:心理学研究法」カテゴリの記事
- ノート:心理学研究法(12)(2011.09.07)
- ノート:心理学研究法(11)(2009.03.17)
- ノート:心理学研究法(10)(2008.12.29)
- ノート:心理学研究法(9)(2008.12.28)
- ノート:心理学研究法(8)(2008.12.17)
この記事へのコメントは終了しました。
コメント
TAKESANさん、こんばんは。
こんな書評がありました。
http://school.justblog.jp/book/2009/02/post-b9d1.html#more
結構おもしろそうです。
ご参考までに。
投稿: ドラゴン | 2009年2月27日 (金) 21:01
ドラゴンさん、今晩は。
お、吉田氏の本ですね。クリシンにも触れてあって、これは面白そうですね。
地元の図書館の検索してみたら、ラッキィな事に、置いてるみたいです。今度読んでみよう。
投稿: TAKESAN | 2009年2月28日 (土) 00:42