1. Величина теста. Чем длиннее тест, тем он надежнее. Выше отмечалось, что общая оценка теста состоит из истинной составляющей и ошибочной. Истинная составляющая, несомненно, больше ошибочной, и чем больше заданий в тесте, тем скорее сумма истинной составляющей будет возрастать, а ошибочной, соответственно, уменьшаться.
2. Непонятность и двусмысленность заданий. Непонятные и двусмысленные задания приводят к тому, что ответы на них даются случайным образом. То есть в двух тестированиях будут получены разные результаты, таким образом, корреляция между результатами тестирований снизится и, следовательно, надежность будет низкой.
3. Источники, связанные с испытуемыми: невнимательность, состояние здоровья и т.д. Все эти факторы снижают надежность тестирования. Однако в том случае, когда выборка для апробации теста достаточно велика, а инструкция для проведения четко определяет условия проведения, то многого из перечисленного удается избежать.
4. Субъективное оценивание. Результаты выполнения заданий должны оцениваться одинаково разными проверяющими. Другими словами, правильный ответ в тесте должен быть однозначным. В том случае, если это требование будет нарушено, то будут допускаться различия между оценками разных проверяющих и между оценками одного проверяющего в разных случаях. Как следствие различных оценок корреляция между результатами выполнения тестирования будет уменьшена и надежность теста будет невысокой.
|
|
5. Ошибки в подсчетах. В том случае, если задания имеют однозначную схему оценивания, причиной неудовлетворительной надежности могут стать случайные ошибки при подсчете баллов, их суммировании.
6. Инструкции для учащихся. В том случае, если задания имеют неясные, двусмысленные инструкции, то результаты двух тестирований будут существенно различаться, а надежность окажется невысокой.
7. Инструкции к тесту могут быть причиной низкой надежности. Инструкции должны обеспечивать одинаковость процедуры проведения тестирования, быть понятными и недвусмысленными. Если условия проведения тестирования в одном случае отличаются от другого, то и корреляция результатов тестирования в этих случаях будет невысокой.
Вопрос 4. Оценка критериальной валидности теста. Конструктивная валидность теста. Содержательная валидность теста.
Одной надежности для обоснования качества теста недостаточно. Еще одной важнейшей характеристикой теста является его валидность. Валидность - понятие, которое указывает, что и насколько хорошо тест измеряет. Цель процедуры установления валидности - выявить, как выполнение теста соотносится с другими независимо наблюдаемыми фактами исследуемых характеристик поведения или качеств личности. Отечественные и зарубежные исследователи различают три основных вида валидности: валидность по содержанию, конструктивная и критериальная валидность.
|
|
Критериальная валидность теста - характеристика теста, которая говорит о том, в какой мере данный тест можно использовать для оценки успеваемости учащегося. Если речь идет о тестах достижений, то критериальная валидность определяется тем, в какой мере результаты данного теста могут быть использованы для выводов об успеваемости испытуемого. Существует несколько видов эмпирических данных, на основании которых можно подтвердить критериальную валидность теста:
• оценки учащегося, его место в списке класса, ранжированность по успеваемости;
• результаты других тестов;
• отзывы педагогов.
Конструктивная валидность теста - гарантия, что тест измеряет то качество, которое имеет реальное психологическое содержание. Интеллект, самоуважение и креативность - примеры таких психологических конструктов. Свидетельства в пользу конструктивной валидности теста могут принимать самые различные формы. Один из подходов состоит в том, чтобы показать, что результаты выполнения заданий, составляющих один тест, взаимозависимы, и, следовательно, в ходе тестирования измеряется одно и то же качество. Для проверки существования связи между заданиями часто используют методы анализа корреляций и факторного анализа. Другой подход состоит в том, чтобы показать, что тест ведет себя так, как должно было бы вести себя измеряемое качество. Например, можно предполагать, что результаты теста на креативность будут сильнее коррелировать с результатами теста на художественную одаренность, чем с результатами теста на академическую успеваемость.
Содержательная валидность теста - степень, в которой задания теста отражают содержание определенной предметной области. О содержательной валидности теста обычно судят по плану теста и методам, которые используются при его разработке. Для определения данного вида валидности уместно задаться следующими вопросами. Была ли разумна процедура отбора, призванная обеспечить включение в тест нужного материала? Обеспечивает ли эта процедура возможность судить по выполнению отобранных заданий об уровне знаний испытуемого в данной области и овладении им специфическими для данной области навыками?