Понятие оценки и оценивания

Основы теории тестов

Понятие теста.

Тестированием заменяют измерение всякий раз, когда изучаемый объект недоступен прямому измерению. Например, практически невозможно точно определить производительность сердца спортсмена во время напряженной мышечной работы. Поэтому применяют косвенное измерение: измеряют частоту сердечных сокращений и другие кардиологические показатели, характеризующие сердечную производительность. Тесты используют и в тех случаях, когда изучаемое явление не вполне конкретно. Например, правильнее говорить о тестировании ловкости, гибкости и т.п., чем об их измерении. Однако гибкость (подвижность) в определенном суставе и в определенных условиях можно измерить.

В спортивной метрологии тестом называют измерение или испытание, проводимое с целью определения состояния или характеристик спортсмена, которое удовлетворяет следующим специальным метрологическим требованиям:

1. стандартизованность - соблюдение комплекса мер, правил и требований к тесту, т.е. процедура и условия проведения тестов должны быть одинаковыми во всех случаях использования их. Все тесты стараются унифицировать и стандартизировать;

2. надежность;

3. информативность;

4. наличие системы оценок.

Процесс испытаний называется тестированием; полученное в итоге измерения числовое значение — результатом тестирования (или результатом теста). Например, бег 100 м — это тест, процедура проведения забегов и хронометража — тестирование, время забега — результат теста.

Иногда используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа тестов называется комплексом или батареей тестов.

Что касается классификации тестов, то анализ зарубежной и отечественной литературы показывает, что существуют различные подходы к этой проблеме. В зависимости от области применения существуют тесты: педагогические, психологические, достижений, индивидуально-ориентированные, интеллекта, специальных способностей и т.д.

По методологии интерпретации результатов тестирования тесты классифицируются на нормативно-ориентированные и критериально-ориентированные.

Нормативно-ориентированный тест позволяет сравнивать достижения (уровень подготовки) отдельных испытуемых друг с другом. Нормативно-ориентированные тесты используются для того, чтобы получить надежные и нормально распределенные баллы для сравнения тестируемых.

Балл (индивидуальный балл, тестовый балл) - количественный показатель выраженности измеряемого свойства у данного испытуемого, полученный при помощи данного теста.

Критериально-ориентированный тест позволяет оценивать, в какой степени испытуемые овладели необходимым заданием (двигательным качеством, техникой движений и т.д.).

Тесты, в основе которых лежат двигательные задания, называют двигательными, или моторными (табл. 1). Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т.п.), либо физиологические и биохимические показатели.

Требования к тестам.

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.

Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой.

Четыре основные причины вызывают эту вариацию:

1. Изменение состояния исследуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).

2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.

3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора или судьи другим).

4. Несовершенство теста (есть такие тесты, которые заведомо малонадежные. Например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках).

Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность.

Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом.

Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест.

Если результаты спортсменов в тесте, который проводят разные специалисты (эксперты, судьи), совпадают, то это свидетельствует о высокой степени согласованности теста. Это свойство зависит от совпадения методик тестирования у разных специалистов.

Когда создается новый тест, обязательно нужно проверить его на согласованность. Делается это так; разрабатывается унифицированная методика проведения теста, а потом два или более специалиста по очереди в стандартных условиях тестируют одних и тех же спортсменов.

Эквивалентность тестов. Одно и то же двигательное качество (способность, сторону подготовленности) можно измерить с помощью нескольких тестов. Например, максимальную скорость — по результатам пробегания с ходу отрезков в 10, 20 или 30 м. Силовую выносливость — по числу подтягиваний на перекладине, отжиманий в упоре, количеству подъемов штанги в положении лежа на спине и т.д.

Эквивалентность тестов определяется следующим образом: спортсмены выполняют одну разновидность теста и затем после небольшого отдыха — другую и т.д.

Если результаты оценок совпадают (например, лучшие в подтягивании оказываются лучшими и в отжимании), то это свидетельствует об эквивалентности тестов. Коэффициент эквивалентности определяется с помощью корреляционного или дисперсионного анализа.

Применение эквивалентных тестов повышает надежность оценки контролируемых свойств моторики спортсменов. Если все тесты, входящие в какой-либо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека (например, комплекс, состоящий из прыжков с места в длину, вверх и тройного; оценивается уровень развития скоростно-силовых качеств). Если в комплексе нет эквивалентных тестов, то есть тесты, входящие в него, измеряют разные свойства, то он называется гетерогенным (например, комплекс, состоящий из становой динамометрии, прыжка вверх по Абалакову, бега на 100 м).

Надежность тестов может быть повышена до определенной степени путем:

а) более строгой стандартизации тестирования;

б) увеличения числа попыток;

в) увеличения числа оценщиков (судей, экспериментов) и повышения согласованности их мнений;

г) увеличения числа эквивалентных тестов;

д) лучшей мотивации исследуемых.

Л7

3. Информативность теста — это степень точности, с какой он измеряет свойство (качество, способность, характеристику и т.п.), для оценки которого используется. Информативность нередко называют также валидностью (от англ. validity — обоснованность, действительность, законность). В разных случаях одни и те же тесты могут иметь разную информативность.

Вопрос об информативности теста распадается на два частных вопроса:

1) что измеряет данный тест?

2) как точно он измеряет?

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена — о прогностической информативности. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическая информативность) и качественно — на основе содержательного анализа ситуации (содержательная или логическая информативность).

Если говорить об оценке подготовленности спортсменов, то наиболее информативным показателем является результат в соревновательном упражнении. Однако он зависит от большого количества факторов, и один и тот же результат в соревновательном упражнении могут показывать люди, заметно отличающиеся друг от друга по структуре подготовленности. Например, спортсмен с отличной техникой плавания и относительно невысокой физической работоспособностью и спортсмен со средней техникой, но с высокой работоспособностью будут соревноваться одинаково успешно (при прочих равных условиях).

Для выявления ведущих факторов, от которых зависит результат в соревновательном упражнении, и используются информативные тесты. Но как узнать меру информативности каждого из них? Например, какие из перечисленных тестов информативны при оценке подготовленности теннисистов: время простой реакция, время реакции выбора, прыжок вверх с места, бег на 60 м? Для ответа на эти вопросы необходимо знать методы определения информативности. Их два: логический (содержательный) и эмпирический.

Логический метод определения информативности тестов. Суть этого метода определения информативности заключается в логическом (качественном) сопоставлении биомеханических, физиологических, психологических и других характеристик критерия и тестов.

Предположим, что мы хотим подобрать тесты для оценки подготовленности высококвалифицированных бегунов на 400 м. Расчеты показывают, что в этом упражнении при результате 45 с примерно 72% энергии поставляется за счет анаэробных механизмов энергопродукции и 28 % - за счет аэробных. Следовательно, наиболее информативными будут тесты, позволяющие выявить уровень и структуру анаэробных возможностей бегуна: бег на отрезках 200—300 м с максимальной скоростью, прыжки с ноги на ногу в максимальном темпе на дистанции 100-200 м, повторный бег на отрезках до 50 м с очень короткими интервалами отдыха. Как показывают клинико-биохимические исследования, по результатам этих заданий можно судить о мощности и емкости анаэробных источников энергии и, следовательно, их можно использовать в качестве информативных тестов.

Приведенный выше простой пример имеет ограниченное значение, так как в циклических видах спорта логическая информативность может быть проверена экспериментально. Чаще всего логический метод определения информативности используется в таких видах спорта, где нет четкого количественного критерия. Например, в спортивных играх логический анализ фрагментов игры позволяет вначале сконструировать специфический тест, а затем проверить его информативность.

Эмпирический метод определения информативности тестов при наличии измеряемого критерия. Ранее говорилось о важности использования единичного логического анализа для предварительной оценки информативности тестов. Эта процедура позволяет отсеять заведомо неинформативные тесты, структура которых мало соответствует структуре основной деятельности спортсменов или физкультурников. Остальные тесты, содержательная информативность которых признана высокой, должны пройти дополнительную эмпирическую проверку. Для этого результаты теста сопоставляют с критерием. В качестве критерия обычно используют:

1) результат в соревновательном упражнении;

2) наиболее значимые элементы соревновательных упражнений;

3) результаты тестов, информативность которых для спортсменов данной квалификации была установлена ранее;

4) сумму очков, набранную спортсменом при выполнении комплекса тестов;

5) квалификацию спортсменов.

Чаще всего в спортивной метрологии критериями служат:

1) спортивный результат;

2) какая-либо количественная характеристика соревновательной деятельности (например, длина шага в беге, сила отталкивания в прыжках, процент точных передач в футболе и т.д.);

3) результаты другого теста, информативность которого доказана;

4) принадлежность к определенной группе. Например, можно сравнивать мастеров спорта и спортсменов низших разрядов; принадлежность к одной из этих групп является критерием;

5) так называемый составной критерий, например, сумма очков в многоборье.

При использовании первых четырех критериев общая схема определения информативности теста следующая.

А. Измеряются количественные значения критериев. Для этого необязательно проводить специальные соревнования. Можно, например, использовать результаты ранее прошедших соревнований. Важно только, чтобы соревнование и тестирование не были разделены длительным временным промежутком.

Если в качестве критерия предполагается использовать какой-либо элемент соревновательного упражнения, необходимо, чтобы он был наиболее информативным.

Б. Следующий шаг — проведение тестирования и оценка его результатов.

В. Последний этап работы — вычисление коэффициентов корреляции между значениями критерия и тестов. Полученные в ходе расчетов наибольшие коэффициенты корреляции будут указывать на высокую информативность тестов.

Вопрос о выборе критерия является, по существу, самым важным при определении реального значения и информативности тестов.

При практическом использовании показателей эмпирической информативности следует иметь ввиду, что они справедливы лишь по отношению к тем исследуемым и условиям, для которых они рассчитаны. Тест, информативный в группе начинающих, может оказаться совершенно не информативным в группе мастеров спорта.

Информативность теста неодинакова в разных по составу группах. В частности, в группах, более однородных по своему составу, тест обычно менее информативен.

Коэффициент информативности очень сильно зависит от надежности теста и критерия. Тест с низкой надежностью всегда мало информативен, поэтому не имеет смысла проверять малонадежные тесты на информативность. Недостаточная надежность критерия также приводит к снижению коэффициентов информативности.

Нет фиксированной величины информативности теста, после которой можно считать тест пригодным. Здесь многое зависит от конкретной ситуации: желаемой точности прогноза, необходимости получить хотя бы какие-то дополнительные сведения о спортсмене и т.п. Практически для диагностики используются тесты, информативность которых не меньше 0,3. Для прогноза, как правило, нужна более высокая информативность — не менее 0,6.

Информативность батареи тестов, естественно выше, чем информативность одного теста. Нередко бывает так, что информативность одного отдельно взятого теста слишком низка, чтобы им пользоваться. Информативность же батареи тестов, в которую он входит, может быть вполне достаточна.

Понятие оценки и оценивания.

Показанные спортсменами результаты (в частности, результаты тестов) во-первых, выражаются в разных единицах измерения (время, расстояние и т.п.) и поэтому непосредственно не сопоставимы друг с другом. Во-вторых, сами по себе не указывают, насколько удовлетворительно состояние спортсмена (скажем, время бега на 100 м, равное 12,0 с, может рассматриваться и как очень хорошее, и как очень плохое, в зависимости от того, о чем идет речь).

Поэтому результаты превращаются в оценки (очки, баллы, отметки, разряды и т.п.).

Последовательность действий при оценивании видна из приведенной схемы, в которую включены также этапы тестирования и измерения результатов теста.

Рис. 1. Схема оценивания спортивных результатов и результатов тестов.

Он состоит из следующих стадий:

1) подбирается шкала, с помощью которой возможен перевод результатов теста в оценки;

2) в соответствии с выбранной шкалой результаты теста преобразовываются в очки (баллы);

3) полученные очки сравниваются с нормами и выводится итоговая оценка. Она и характеризует уровень подготовленности спортсмена относительно других членов группы (команды, коллектива).

Не во всех случаях оценивание происходит по такой развернутой схеме. Порой промежуточное и итоговое оценивание сливаются.

Закон преобразования спортивных результатов в очки называют шкалой оценок.

Оценкой (или педагогической оценкой) называется унифицированная мера успеха в каком-либо задании, в частном случае — тесте. Процесс установления оценок называют оцениванием.

Основные задачи оценивания

1. Сопоставить разные достижения в одном и том же задании (тесте, спортивной дисциплине, упражнении, виде многоборья). Например, необходимо сопоставить спортивные результаты, равные норме мастера спорта и I разряда. Ставится задача: сколько перворазрядных результатов соответствует одному мастерскому?
2. Сопоставить достижения в разных заданиях. Главным здесь является уравнивание оценок за достижения одинаковой трудности в разных видах спорта или разных видах соревнований.

3. Определить нормы. В отдельных случаях (школьные оценки, комплекс ГТО и т.п.) нормы совпадают с градациями шкалы.

Решение указанных задач полностью определяет систему оценки спортивных результатов.

Как уже отмечалось выше, непосредственно сопоставлять достижения в разных заданиях нельзя (скажем, не ясно, что труднее — бег 100 м за 11,0 с или прыжок в высоту на 2,00 м). В таких случаях используют косвенные подходы, в частности перевод результатов в баллы или очки на основе шкал оценок.

Шкалы оценок.

Шкала оценок может быть представлена:

· таблицей;

· графиком функции;

· математической формулой.

Все шкалы можно разделить на две группы:

1. Пропорциональные (линейные) шкалы.

2. Нелинейные шкалы.

Принято выделять четыре основных типа шкал оценок (рис. 17).

I — пропорциональная шкала,

II — регрессирующая,

III — прогрессирующая,

IV — сигмовидная.

Первый тип — пропорциональные шкалы. Этот тип шкал предполагает начисление одинакового числа очков за равный прирост результатов (например, за каждые 0,1с улучшения результата в беге на 100м начисляется 20 очков).

Второй тип — регрессирующие шкалы. В этом случае за один и тот же прирост результата начисляются по мере возрастания спортивных достижений все меньшее число очков (например, за улучшение результата в беге на 100 м с 15,0 с до 14,9 с добавляются 20 очков, а за 0,1 с в диапазоне 10,0–9,9 с — только 15 очков).

Третий тип — прогрессирующие шкалы. Здесь, чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение (например, за улучшение времени в беге от 15,0 с до 14,9 с добавляются 10 очков, а от 10,0–9,9 с — 100 очков).

Четвертый тип — комбинированные, сигмовидные (или S-образные). В этих шкалах улучшение результатов в зонах очень низких и очень высоких достижений поощряется скупо; больше всего очков приносит прирост результатов в средней зоне достижений, т.е. в этих шкалах за равный прирост результата дается меняющаяся сумма баллов.

Стандартные шкалы

Относятся к группе пропорциональных шкал. Названы они стандартными потому, что масштабом в них служат стандартные отклонения. Наиболее популярна среди стандартных шкал Т-шкала. Здесь средняя величина приравнивается к 50 очкам, а стандарт — к 10 очкам, и расчет суммы баллов ведется по формуле:

Перцентильная шкала

Основана на мере преимущества каждого спортсмена по сравнению с более слабыми участниками соревнования. Если, например, проводится кросс с общим стартом, спортсмену можно начислять столько очков, сколько участников (в процентах) он обогнал. Если спортсмен опередил всех участников (99%), то он получает 99 очков, если опередил 72% — 72 очка и т.д. Тот же принцип можно использовать и в других тестах: число начисляемых очков приравнивается к проценту лиц, которых опередил (по результату) данный участник.

Шкала, построенная таким образом, называется перцентильной, а интервал этой шкалы — перцентилем.

Один перцентиль включает 1% всех испытуемых. 50%-ный перцентиль называется медианой.

Шкалы выбранных точек

Описанные шкалы можно построить, если известно статистическое распределение результатов теста: средняя, стандарты и другие параметры распределения. Такие данные не всегда удается получить. Это достижимо, например, при разработке таких шкал, как комплекс ГТО, нормы по физическому воспитанию в школе и т.п., и недостижимо при разработке таблиц по видам спорта.

В последнем случае обычно поступают так: берут какой-нибудь высокий спортивный результат (например, мировой рекорд или 10-й результат в истории данного вида спорта) и приравнивают его, скажем, к 1000 очкам. Затем на основе результатов массовых испытаний определяют среднее достижение группы слабо подготовленных лиц и приравнивают его, скажем, к 100 очкам. После этого, если используется пропорциональная шкала, остается выполнить лишь арифметические вычисления — ведь две точки однозначно определяют прямую линию. Шкала, построенная таким образом, называется шкалой выбранных точек.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2

Подборка статей по вашей теме: