その1の続きです。まだの人は、先にどうぞ。
テストで成績を測るにはどうすればよいのか?
あまりにも巷に学力テストがありふれているため忘れられがちだが、「テストで成績を測る」というのは、それほどかんたんな行為ではない。ここでは、日本テスト学会編(2010)『見直そう,テストを支える基本の技術と教育』金子書房を参照しながら、この問題について考えてみよう。
テストの点数の質を低下させる原因は,テストの作成から実施,採点に至るまでの,そこかしこに潜んでいます。・・・(中略)・・・テストの点数が絶対に満たすべき条件は,測りたい能力や学力を正しく反映していることです。・・・(中略)・・・テストを作成するときには,テストを実施する目的があるはずです。・・・(中略)・・・こうした目的を達成するためにどのようなテストが必要かを考え,はじめにテストの基本設計を行います。その概要をまとめたものを「テスト仕様」と呼びます。テスト仕様に盛り込まれる主な事項としては,テストの目的,対象者,測定したい能力,問題項目形式(多枝選択式か自由記述式かなど),実施形態(ペーパーテストかコンピュータ上で行うものか実技か),解答に必要な知識や技能,問題項目の難易度の程度,知識・技能・難易度の組み合わせや配分される問題項目数,制限時間,実施時の環境条件や解答上の注意などです。(日本テスト学会編2010,pp.20-21)
他にもさまざまな注意点があるのだが、上記の文章を読むだけでも、全国学力・学習状況調査の問題点が明らかになる。以下、詳しく見ていくことにしよう。
全国学力・学習状況調査が測定したい能力とは何か?(妥当性の問題)
第一の問題点は、全国学力・学習状況調査が「測定したい能力」とはいったい何なのか?という点である。心理学などでは、これを「妥当性」の問題と呼ぶ。
全国学力・学習状況調査が、この「妥当性」の問題をまったく無視していることは、国立教育政策研究所のサイトを見ればわかる。ここには、全国学力・学習状況調査が「何を測定しているのか」に関する記述がまったく存在していない。
PISAやTIMSSといった国際学力調査を比較すると、この問題の深刻さはより明確になる。たとえば、PISAであれば、各年度ごとに、Assessment frameworks(評価の枠組み)が公開されているので、リンク先を参照してほしい。TIMSSも同様である。TIMSS 2015のウェブサイトでは、冒頭に評価の枠組みが記載されている。
このように、PISAやTIMSSといった国際学力調査と比較してわかるのは、全国学力・学習状況調査は「何を測っているかよくわからない」ということである。
全国学力・学習状況調査では、毎年のように都道府県別の正答率が公表され、各都道府県が順位に一喜一憂する。また、学校別の得点を公表する自治体や、テスト結果を受験に利用しようとする自治体もある。そこでは、「このテストがいったい何を測っているのか」という根本的な問題は無視されたままである。
最近は、学力テストの結果を利用し、○○をすれば学力が上がるとか、○○な人は学力が低いとかいった分析を行う、教育社会学や教育経済学の研究者たちが活躍しているが、かれらの分析も、多くの場合、このテストが何を測っているのかという問題を棚上げしている(※たとえば教育社会学では、学力テストの結果を「地位を配分する際に活用できる能力シグナル」であると捉えることによって、テストが何を測っているのかという問題を棚上げしている)。
研究者たちの議論は、たしかに重要な論点をいくつも含んでいる。しかし、こうした議論が、そもそも何を測っているのかよくわからないテストの結果に基づいた「何となくの学力議論」であるとすれば、これ以上議論を続ける価値はあるのだろうか?私にはよくわからない。
測定したい能力を測ることができたのか?(信頼性の問題)
すでに述べたように、全国学力・学習状況調査は妥当性の面で欠陥がある。ただ、それでは議論に値しない/即刻中止すべきという結論で終わってしまうので、前回の話と接続するために、ここであえて信頼性の問題に話を移そう。
信頼性とは、妥当性と対を成す重要な概念であり、大雑把に言えば、「測りたい能力をきちんと測ることができたのか」という観点である。大規模テストを行う際には、この点を確認するために、統計的な分析のみならず、複数回の予備調査が行われることが普通である。再び、日本テスト学会のテキストから引用しよう。
どれほど経験を積んでも,どれほど受験者層を知っていても,できあがったテストの問題項目が,実際にどのような働きをするのかを正確に予測することは困難です。けれども,それがわからないと,テスト仕様に沿ったテストを編集することができません。どうしても事前にデータを収集して,個々の問題項目の働きを把握しておく必要があります。大規模テストでは,この予備的な実施を何段階かに分けて入念に行います。
まず,ある程度の規模の予備テストを実施します。・・・(中略)・・・予備テストに合格した問題項目は,数百人規模の施行テストにかけられます。・・・(中略)・・・こうして残った良質の項目と,その統計的な指標の値に基づいて,テスト仕様に合致するテストが編集されるのです。(日本テスト学会編2010,p.24)
もちろん、全国学力・学習状況調査は、信頼性の面でも欠陥がある。ただ、ここで問題にしたいのは、信頼性を確保するためには、「学校での指導に役立てる」という現在の全国学力・学習状況調査の目的を放棄せざるを得ない、という点である。以下、この点について少し整理してみよう。
現在の全国学力・学習状況調査は、全員を対象にした悉皆調査であり、原則としてテスト後に全問を公開している。これは、(2)学校での指導に役立てるという目的からすれば、当然のことであろう。ところが、この方針が信頼性という観点からはアダになる。
PISAやTIMSSといった国際学力調査調査では、本番テストを実施する前に、事前に予備調査を行い、作成されたテストが本当に測りたい能力を測定しているのか、すなわちテストの信頼性は十分なのか入念に検討されている。この点は、PISAやTIMSSのTechnical Reportを見ればよい。
しかし、全国学力・学習状況調査のような悉皆調査では、予備調査を行うことができない。そんなことをすれば、受験者にテスト内容が漏洩してしまうからである。
要するに、(2)学校の指導に役立てる、という目的を達成するためには、テストの信頼性を犠牲にするしか無いのである。これは、全国学力・学習状況調査のもう一つの(そして、より重要なはずの)(1)全国的な児童生徒の学力・学習状況を把握する、という目的が達成できないということを意味している。
何が間違っているのだろうか。ここまでの説明が示すのは、(1)全国的な児童生徒の学力・学習状況を把握する、(2)学校での指導に役立てる、という2つの目的は、一つのテストの中で両立できないということである。(1)を優先するのであれば(2)は達成できない。逆に、(2)を優先するのであれば(1)は達成できないのである。
なお、厳密に言えば、(1)と(2)を両立する方法は存在する。それは、CBT(Computer Based Test)の導入である。
コンピュータを使えば、無数に用意した問題項目の中から、受験者の能力にあわせて、適切な難易度の問題項目を提示することができる。そのため、悉皆調査であっても、テスト内容の漏洩を心配する必要はそれほどない(問題項目は無数にあるので)。また、個々の学校・教師に、一人一人の結果を即座にフィードバックすることも可能である。
とは言え、そのようなシステムを構築するには、莫大な予算と労力が必要である。それを考えれば、CBTは今のところ現実的な解法とは言えないだろう。
まとめ
ここまでの議論の要点は、次のようになる。
- テストを作るのはそれほどかんたんな作業ではない
- 全国学力・学習状況調査は、テストの妥当性・信頼性のいずれの基準から見ても失格である
- 「学校での指導に役立てる」という目的を重視すると、テストの信頼性が確保できず、「全国的な児童生徒の学力・学習状況を把握する」ことができなくなる
それでは、望ましい全国学力・学習状況調査の在り方はどのようなものだろうか?次回は、この点について考えてみたい。
関連する文献
今回述べた内容は、実はほとんど木村(2006)「戦後日本において「テストの専門家」とは一体誰であったのか?」に書かれている。こうした指摘が、教育行政にほとんど届かない点に、日本の大きな課題があると言えるだろう。
テストについて詳しく知りたい方は、日本テスト学会の書籍がよいと思う。
なお、今回は触れなかったが、近年のテストでは、項目反応理論(Item Response Theory)と呼ばれるテスト理論が活用されている。この理論を知らずして、テストに関する議論はできないと言ってもよいくらい重要な理論である。