Дифференциальный тест способностей пример задания. Батареи тестов специальных способностей

Методы диагностики способностей

Диагностика способностей должна осуществляться высококвалифицированным специалистом. Для выявления способностей психолог проводит комплексную консультацию, которая включает в себя проведение тестирования, рассмотрение и интерпретацию полученных результатов, а также создание индивидуальной схемы развития, которая зависит от наличия тех или иных способностей.

К наиболее распространенным методам диагностики способностей можно отнести : батарея тестов дифференциальных способностей (ДАТ) и батарея тестов общих способностей (ГАТБ). ДАТ – 8 субтестов (особенности развития словесного мышления, числовых способностей, абстрактного мышления, технического мышления и др.). ГАТБ - 12 субтестов, измеряющих уровень развития 9 способностей.

Кроме того специалисты используют специальные тесты, позволяющие установить особенности, а также уровень развития интеллекта. В некоторых случаях, психологи дополняют свои консультации иными диагностическими методиками.

Целью выявления способностей является их дальнейшее развитие, которое представляет собой процесс, включающий в себя развитие операционных механизмов, функциональной системы, оперативности в системе операционных и функциональных механизмов и прочее.

Комплексные батареи способностей - измеряют ряд способностей и дают профиль, образуемый показателями каждой способности. Тесты способностей делятся на:

Общие (интеллектуальные - применяются тесты интеллекта).

Специальные (применяются специальные тесты).

Различают тесты математических, технических, музыкальны художественных и других способностей. В зарубежной тесто ЮГИИ принято классифицировать тесты этого типа по двум основаниям:

а) по видам психических функций - сенсорные, моторные тесты;

б) по видам деятельности - технические и профессионализированные тесты, т. е. соответствующие той или иной профессии (конторские, артистические и т. д.).

Моторные тесты направлены на изучение точности и скорости движений, зрительно-моторной координации, ловкости движений пальцев и рук, тремора, точности мышечного усилия и др. Наиболее известны тест скорости манипулирования с мелкими предметами Крауфорда и др. В отечественной психологии известны тесты, разработанные М. И. Гуревичем и Н. И. Озе-рецким. Для проверки психомоторики испытуемым в быстром темпе предлагалось завязывать узлы, нанизывать бусы.

Сенсорные тесты разрабатываются для изучения разных характеристик восприятия. Например, острота зрения и слуха, различительная чувствительность, цветоразличение, дифференциация высоты, тембра, громкости звуков и др. В изучении слуха, наряду с отдельными пробами, большую популярность приобрел тест музыкальной одаренности Сишора, технический – Беннета.

Однако существуют и более общие методы изучения способностей - специальные тестовые батареи .

Наиболее известными являются батарея тестов дифференциальных способностей (ДАТ) и батарея тестов общих способностей (ГАТБ).

Диагностика общих умственных способностей осуществляется с помощью трех субтестов: «запас слов», «математическое мышление» и «пространственное восприятие в трехмерном пространстве»;

вербальные способности диагностируются с помощью заданий на определение синонимов и антонимов (словарный запас); числовые способности изучаются с помощью двух субтестов на вычисления и математическое мышление; пространственное восприятие анализируется с помощью геометрических разверток; восприятие формы представлено двумя субтестами, в которых испытуемый сопоставляет различные инструменты и геометрические формы; задания на скорость восприятия, требующуюся для клерка, представлены парами слов, идентичность которых необходимо установить; моторная координация проверяется заданием - сделать пометки карандашом в серии квадратов; ловкость рук (пальцевая моторика) изучается с помощью специального приспособления (4 субтеста).

Для диагностики некоторых видов творческих способностей разрабатываются стандартизованные тесты. Так, тесты художественных способностей включают задания:

1) на понимание произведений искусства (диагностируют одно из важнейших качеств, требуемых для творчества - эстетическое отношение к жизни). Например, в тестах на понимание произведений искусства испытуемому необходимо выбрать из двух или более вариантов изображения какого-либо объекта наиболее предпочтительный;

2) на продуктивность (т. е. технику, мастерство исполнения) деятельности.

Тесты на интеллект предназначены для изучения уровня интеллектуального, умственного развития человека. Под интеллектом в данном случае подразумеваются познавательные процессы и функции (мышление, память, внимание). Тесты интеллекта являются исторически ранними методиками психодиагностики. В качестве основного и достаточно стабильного показателя умственного развития используется понятие «коэффициент интеллектуальности» (IQ). Среди наиболее известных тестов интеллекта, использующихся отечественными психологами, можно назвать тесты Д.Векслера, Р.Амтхауера, Дж.Равена, Стенфорд-Бине.

Мера трудности задания дает информацию о степени задействования того параметра изучаемого свойства, которое оно призвано измерять. Иногда говорят, что мера трудности определяет соответствие задания целевой группе теста. В целом, можно сказать, что данный критерий позволяет судить и об этом.

Трудное задание или легкое, определяют путем подсчета доли неправильных ответов к каждому из них. Однако сегодня применяется и не совсем классический способ определения трудности задания -- умозрительно, на основе предполагаемого числа и характера тех элементов, которые участвуют в выполнении задания (и входят в параметр измеряемого свойства). Допустим, в тесте на объем памяти присутствует задание, связанное с произвольным запоминанием, в котором могут участвовать речь (проговаривание списка цифр вслух или "про себя"), мышление (построение ассоциативных связей) и т.п. В этом случае задание на запоминание числового ряда с отвлеканием испытуемого может повысить трудность его выполнения.

Дифференцирующая способность.

Дифференцирующая способность задания -- насколько оно может отличить сильного испытуемого от слабого по измеряемому свойству. Если по одному из заданий у всех испытуемых имеется одинаковое значение -- это задание нецелесообразно включать в тест. Очень сложно не сделать ошибку и не принять дифференцирующую способность задания за его трудность / легкость. Дело в том, что в тестах, измеряющих качество выполняемой деятельности, знаний и т.п., тестах достижений, ряд одинаковых ответов на задание будет означать два варианта: правильно / неправильно. Соответственно, по этому ряду можно сделать неверный вывод о трудности (в случае всех неправильных ответов) или легкости (в случае всех правильных ответов) задания.

Необходимо заметить, что данным критерием часто пренебрегают составители современных тестов. Это приносит большие неудобства и испытуемым, которым приходится отвечать на лишние вопросы, и психологам, которые вынуждены обрабатывать лишнюю информацию.

Педагогические науки УДК 37.011, 519.23

ДИФФЕРЕНЦИРУЮЩАЯ СПОСОБНОСТЬ ТЕСТОВЫХ МАТЕРИАЛОВ ДЛЯ ОЦЕНКИ КАЧЕСТВА ОБУЧЕНИЯ Елена Владимировна Алпацкая, кандидат педагогических наук, доцент, Николай Викторович Бубнов, старший преподаватель, Александр Васильевич Минченков, соискатель, Смоленская государственная академия физической культуры, спорта и туризма

(СГАФКСТ) Аннотация Статья посвящена проблеме подготовки тестовых материалов для оценки качества обучения. Любой контролирующий материал должен обладать рядом свойств (информативность, надежность, дифференцирующая способность). С этой целью преподаватель обязан подойти к подготовке своих тестовых материалов с научной точки зрения, используя методы математической статистики. В данной работе авторы на конкретных примерах рассматривают способы определения дифференцирующей способности теста, останавливаясь на различных типах вопросов. Представленные материалы призваны помочь преподавателям в оценке качества обучения студентов преподаваемым дисциплинам.

Ключевые слова: качество обучения, тесты, дифференцирующая способность.

DOI: 10.5930/issn.1994−4683.2015.11.129.p9−14

DIFFERENTIATING ABILITY OF THE TEST MATERIALS FOR ASSESSING THE

EDUCATION QUALITY

Elena Vladimirovna Alpatskaya, the candidate of pedagogic sciences, senior lecturer, Nikolay Viktorovich Bubnov, the senior teacher, Alexander Vasilyevich Minchenkov, the competitor, Smolensk State Academy of Physical Education, Sports and Tourism

The problem of the tests preparing to assess the students"- knowledge is considered in the article. The test material must be informative, reliable, showing the differentiating ability. The differentiating ability of the tests makes it possible to differentiate a strong test from a weak one. The authors consider in this study the examples for the methods of determining the differentiating ability of the test, concentrating on the different types of questions. The article should help a teacher to assess the quality of students"- education in the studied subjects.

Keywords: quality of education, test, differentiating ability.

Стремительный рост развития дистанционного образования в России заставляет очередной раз обратиться к вопросу тестирования знаний студентов. Но осуществляя обучение дистанционно, студент должен приобрести не только знания, но и умения и навыки, а преподаватель, в свою очередь обязан оценить и определить уровень их освоенности. Оперативный контроль с помощью тестирующих программ получил в последнее время все более широкое распространение. К этому способу контроля в преподавательской среде существует двоякое отношение, но его приходится принимать как объективную реальность . По роду своей профессиональной деятельности нам пришлось принимать участие в тестировании студентов по различным учебным дисциплинам, в том числе и профессионального цикла по направлению подготовки «Физическая культура». На основании этого был сделан вывод, что далеко не всегда программируемый контроль знаний дает преподавателю объективную информацию для управления познавательной деятельностью студентов и ее корректирования. Это можно объяснить неквалифицированным подходом к составлению и проверке качества контролирующего про-

граммируемого материала. Преподавателям, прежде чем внедрять тестирующие программы в учебный процесс необходимо провести проверку на трудность (дифференцирующую способность), надежность и информативность. И только после апробации и эмпирической проверки тестирующие программы могут эффективно выполнять различные дидактические функции: обучающую, контролирующую, управляющую, активизирующую и интенсифицирующую деятельность студентов. Проведенный анализ литературных источников позволил сделать вывод, что без корректного применения математико-статистического анализа, разработанные тестирующие программы, не могут иметь практической ценности для учебного процесса, тем более в условиях дистанционного обучения. Некоторые из таких методов проверки и оценки качества тестирующих программ, одним из первоочередных которых является выявление диагностической ценности (трудности или легкости) вопросов будут представлены ниже .

Диагностическая ценность определяется по процентному отношению правильных ответов к общему числу возможных. Вопрос считается достаточно трудным в том случае, когда на него отвечают не более 75% студентов. Чем ближе трудность вопроса к 100% или к 0, тем менее дифференцированную информацию можно получить с его помощью. Как показал анализ контрольных тестов, используемых в академии преподавателями по различным дисциплинам, тестирующие программы содержат вопросы, на которые отвечают не более 80−85% и не менее 10−15% студентов.

Корректность вопросов определяется их дифференцирующей способностью, которая выражается индексом дифференциации «И» . Он позволяет получить максимум информации о самом вопросе и системе вопросов с целью их дальнейшего качественного улучшения. Студентов учебной группы следует разделить на две подгруппы: сильную и слабую. Индекс дифференциации определяется по формуле: И = (О1-О2)^, где О: — количество правильных ответов в сильной подгруппе- О2 — количество ответов в слабой подгруппе- N — число тестируемых студентов.

Индекс дифференциации может изменяться от -1 до +1. В разработанной тестирующей программе для каждого вопроса считается допустимым значение Ы=+0,4. Меньшее значение говорит о том, что формулировка и качество данного вопроса не позволяет различать студентов по уровню их теоретической подготовки. Если индекс дифференциации отрицателен, то тогда вопрос следует переработать или заменить его другим. После анализа и устранения, неудовлетворительных с точки зрения трудности вопросов, можно получить тестирующие программы, содержащие примерно равно трудные вопросы .

Для максимальной дифференциации общее количество вопросов должно быть на уровне трудности 0,50. Дифференцирующая сила вопросов показывает степень, с которой то или иное задания позволяет различать положительные достижения студентов в условии проверяемого учебного материала.

В ходе экспериментальной проверки, анализ вопросов и расчета индекса дифференциации рекомендуется проводить, используя специальные таблицы. Такая виртуальная таблица приведена в таблице 1.

Таблица 1

Анализ вопросов входящих в тестирующую программу_

№ вопросов Сильная группа Г1 Слабая группа Г2 П1 Пг Индекс дифференциации И

Кол-во правильных ответов, п1 Кол-во правильных ответов, п2

Из таблицы следует, какие вопросы следует оставить в тестирующей программе, а также заменить или переработать. Также в тестирующих программах необходимо проводить и анализ ответов, предлагаемых на выбор по отдельным вопросам. Обсуждая с те-

стируемой группой вопросы, на которые были даны в большинстве случаев не однозначные, а различные ответы, можно выяснить причину их некорректности. Если вопросы и ответы сформулированы неудачно, их следует пересмотреть или вообще исключить из тестирующей программы.

Как было сказано выше, по результатам опроса, проведенного по тестирующим программам, студентов делят на две группы: сильную (Г!- с высоким количеством правильных ответов) и слабую (Г2- с низким количеством ответов). Для того, чтобы выяснить неудачно составленные вопросы можно провести анализ ответов по специальный таблице (таблица 2). В качестве примера приведен такой вариант.

Таблица 2

Анализ ответов, предлагаемых на выбор по отдельным вопросам _тестирующей программы_

№ Группа Выбранные ответы вопроса 1 2 3 4 5

N Г1 0 0 15 0 0

Примечание: выделены жирным шрифтом данные по правильным ответам, N — количество вопросов.

Варианты ответов на первой вопрос показывает, что выбор четвертого ответа связок с тем, что он содержащий в себе такую информацию, которая заставила шестерых студентов из сильной группы предпочесть его правильному ответу. Причину этого преподаватель может установить в ходе собеседования, попросив их обосновать выбранный ими вариант ответа.

Во втором вопросе ответы равномерно распределены по четырем ошибочным вариантам. Такой результат предполагает либо неудачную формулировку самого вопроса, либо правильного ответа.

Третий вопрос слишком трудный для испытуемых: 11 студентов из сильной группы и все 15 из слабой группы дали неправильный ответ. Несколько больший выбор четвертого ответа по отношению к остальным вариантам указывает на его правдоподобность, особенно для студентов слабой группы. Полное отсутствие правильных ответов в слабой группе говорит о том, что плохо знающему изучаемый курс студенту этот ответ (номер 2) кажется ошибочным. Эти свойства характеризуют высокую дидактическую ценность вопроса и выборочных вариантов ответа. Собеседование в тестирующей группе может показать, что данный вопрос в действительности не трудный, просто он относится к плохо усвоенному студентами разделу темы.

На М-й вопрос шесть студентов из слабой группы ответили неправильно. В данном случае по количеству выбранных ошибочных ответов мало, что можно узнать о корректности вопроса. Поэтому преподавателю необходимо провести обсуждение этого вопроса со студентами, которое даст возможность преподавателю выявить следующее: действительно ли вопрос слишком легкий и не представляет собой дидактической ценности, или сама формулировка ориентирует студентов на правильный ответ, или этот вопрос нужен, но относится к хорошо изученному испытуемыми учебному материалу. В первом случае вопрос необходимо исключить из тестирующей программы, во втором — переработать, а в третьем — оставить без изменения.

Аналогичный анализ вопросов и ответов следует проводить по каждой разработанной тестирующей программе. Это позволит своевременно внести коррективы в программируемый материал, до непосредственно внедрения его в учебный процесс.

Диагностическую ценность вопросов можно определить и другими методами. Приведем некоторые из них.

По результатам экспериментальной проверки тестирующей программы неправильные ответы студентов заносят в специальные таблицы (таблица 3).

Таблица 3

Вопросы Неправильные ответы в «слабой» группе, Ук Неправильные ответы в «сильной» группе, Ут Разность неправильных ответов в «сильной» и «слабой» группах (Ук-Ут) Сумма неправильных ответов в «сильной» и «слабой» группах (Ук+Ут)

Диагностическая ценность (Бу) каждого вопроса тестирующей программы опреде-

ляется по формуле: Бу =

К х (Ум+ут)

Где К — общее количество вопросов (следова-

тельно, и возможных ответов) — п — количество испытуемых (в «сильной» («слабой») N х 27 АГ _

группе). п =- где N — общее количество студентов, ответивших на вопросы те-

стирующей программы. Ум— неправильные ответы в «слабой» группе, Ут- неправильные ответы в «сильной» группе.

Для примера мы проводим оценку диагностической ценности тестирующей программы, в которой участвовало 60 студентов (Щ, причем неправильные ответы распределились так, как показано в таблице 4. Количество студентов в «слабой» и «сильной»

группе определится по формуле: п =

100 100 стирующей программе N (https://сайт, 15).

Диагностическая ценность первого вопроса:

Б = К х (Ум+Ут) = 10 (3 +1)

16. Количество вопросов в те-

2п (К -1) 2×16 (10 -1)

Аналогично диагностическая ценность второго вопроса БУ2=31%, третьего вопроса БУ3 =48%, а десятого вопроса БУ10 =59%.

Если значения БУ находится в пределах от 16% до 84%, то вопросы тестирующей программы имеют удовлетворительную ценность. Если меньше 16% - то вопросы слишком легкие для испытуемых, а если больше 84% - то слишком трудные.

Диагностическую ценность вопросов контролирующей программы можно определить по цифровым данным, представленных в четвертом и пятом столбцах таблицы 4. чем больше число (Уы-Ут), приведенное в четвертом столбце таблицы, тем выше диагностическая ценность, чем больше число (Ук+Ут), приведенное в пятом столбце, тем труднее вопросы.

Иногда числа, находящиеся в четвертом столбце, могут иметь отрицательные значения. Это означает, что на такие вопросы «сильные» студенты отвечают неправильно, а «слабые» — правильно. Это говорит о том, что такие вопросы сформулированы недостаточно четко и однозначно и требуют существенной переработки или замены.

В некоторых тестирующих программах задания (вопросы) варьируют (выполнено и не выполнено), т. е. каждое из них может иметь лишь два состояния (1 или 0, да или нет, «+» или «-»).

Поэтому для исследования их взаимосвязи можно использовать тетрахорический коэффициент сопряженности (корреляции): t _ (A х D ~B x C)~ 0,5 х n

4 yj (A + B) x (C + D) x (A + C) x (B + D) "-

где T4 — тетрахорический коэффициент корреляции. А, B, C и D — численность группы, или частоты вариант, распределенные по клеткам соответствующей четырехпольной корреляционной таблицы, n — объем выборки.

Rbs _ —s- у—(—1), где m1 и m2- средние арифметические альтернативных групп,

nj и n2- объемы этих групп, N=n1+n2 — общие число наблюдений или объем выборки, Sm-среднее квадратичное отклонение для всей выборки.

Для вычисления Rbs сопоставляется два статических ряда: один количественный, выражающий общую успешность ответа на предложенную тестирующую программу, чаще всего он означает число правильно выполненных студентами заданий, другой ряд -качественный. Он имеет две альтернативные группы (1 или 0, «+» или «-»). Первая означает, что задание выполнено, а вторая — что задание не выполнено. Бисериальный коэффициент сопряженности изменяется в пределах от -1 до +1. При m1=m2, Rbs=0. Значимость Rbs оценивается с помощью t-критерия Стьюдента.

В заключение следует отметить, что экспериментальную проверку тестирующих программ рекомендуется проводить на адекватном контингенте студентов. Если, например, тестирующие программы предназначены для студентов первого курса, то их стандартизацию проводят по данным эксперимента, в котором участвовали только первокурсники. Создавая контрольно-измерительные материалы преподаватель должен помнить, что разработанные тесты не могут считаться завершенными, если они не получают удовлетворительной оценки по надежности и информативности. Ограниченный объем статьи не позволяет нам рассмотреть эти два вопроса.

1. Аванесов, В. С. Научные проблемы тестового контроля знаний / В. С. Аванесов. — М.: Изд-во «Центр тестирования», 1994. — 240 с.

2. Алпацкая, Е. В. Оценка качества тестирующих программ методами математической статистики: методические рекомендации / Е. В. Алпацкая, Н. В. Бубнов. — Смоленск: [б. и.], 2012. -21 с.

3. Андреева, А. В. Использование автоматизированных информационных систем для оценки и управления качеством образования [Электронный ресурс] / А. В. Андреева // Современные проблемы науки и образования. — 2013. — № 1. — URL: http://es.rae.ru/science/195−881 (дата обращения 27.02.2015).

4. Майоров, А. Н. Теория и практика создания тестов для системы образования / А. Н. Майоров. — М.: Интеллект-центр, 2002. — 296 с.

1. Avanesov, V.S. (1994), The Scientific problems of test knowledge control, publishing house Testing Center, Moscow.

2. Alpatskaya, E.V. and Bubnov N.V. (2012), the Quality assessment testing programs methods of mathematical statistics, SGAFKST, Smolensk.

3. Andreeva, A.V. (2013), «The automated information systems for assessing and managing the Quality of Education», Journal of Modern problems of Science and Education, No. 1, available at: es.rae.ru/science/195−881, Moscow.

4. Majorov, A.N. (2002), The Theory and practice creating tests of Education, Intellect-Centre, Moscow.

Контактная информация: [email protected]

Статья поступила в редакцию 30.10.2015

МЕТОДИКА FOOTDRAWING В ТЕХНИЧЕСКОЙ ПОДГОТОВКЕ ФУТБОЛИСТОВ Аль Рубайе Нухад ХАббас, аспирант, Михаил Александрович Правдов, доктор педагогических наук, профессор, Шуйский филиал «Ивановский государственный университет», г. Шуя Аннотация В статье представлены результаты исследования по внедрению методики «рисование ногой» (footdrawing) в процессе технической подготовки футболистов. Установлено, что применение специальных двигательных действий, связанных с рисованием ногами, способствует развитию у футболистов координационных способностей. Определены основные виды линий для рисования, моделирующих траектории движений ноги с мячом. Представлено оборудование для рисования разными частями ног при имитации действий с мячом.

Ключевые слова: рисование ногой, траектории движений ноги футболиста, тренировочное оборудование, координационные способности.

DOI: 10.5930/issn.1994−4683.2015.11.129.p14−18

METHOD OF FOOTDRAWING IN THE TECHNICAL PREPARATION OF THE

FOOTBALL PLAYERS

Al Rubaye Nuhad Kh Abbas, the post-graduate student,

Mikhail Alexandrovich Pravdov, the doctor of pedagogical sciences, professor, Ivanovo State University, (Branch in Shuya), Shuya

The article presents the results of the study on implementation of the method «footdrawing» during the technical training of the players. It has been found that the use of the specific motor actions related to the footdrawing contributes to the development of the players"- coordination abilities. The main types of the lines for drawing, simulating the trajectory of movement of the foot with the ball, have been determined. The equipment for drawing with the different parts of the legs while simulating the actions with the ball has been presented.

Keywords: footdrawing, trajectory of football player legs, training equipment, coordination abilities.

ВВЕДЕНИЕ Важнейшей характеристикой степени мастерства игроков в футболе является уровень технической подготовленности. В настоящее время культурный пласт исследований, посвященных решению проблем технической подготовки игроков в футболе, представлен многочисленными научно-методическими разработками . При этом поиск новых подходов, форм, средств и методов технической подготовки по-прежнему остается наиболее актуальной проблемой для ученых и практиков. В спектре направлений совершенствования компонентов технической подготовки особое внимание привлекают проблемы, связанные с формированием у игроков двигательных умений высшего порядка — комплекса действий с мячом, отвечающих параметрам точности, быстроты выполнения при приеме, ведении, передачах, финтах и ударах . Анализ научных исследований позволяет заключить, что работ, посвященных изучению кинематики движений отдельных звеньев ноги при выполнении двигательных действий с мячом в дина-

Заполнить форму текущей работой
Другие работы

Рассматривается место культурологического подхода, отражающего ценностную направленность образования, среди современных образовательных парадигм. Дается характеристика образовательного пространства урока словесности как социально-воспитательной среды, приведены механизмы его конструирования, обоснован ресурсный потенциал реализации культурологического подхода. Рассмотрены такие показатели...

Представлена методическая концепция и ее реализация в инновационном образовательном проекте углубленного изучения основ современной квантово-релятивистской физики и космологии в средней школе. Исследование направлено на развитие физического образования в контексте современной образовательной парадигмы.

В статье рассматривается механизм взаимодействия всех заинтересованных сторон в решении проблемы релевантности деятельности образовательных организаций, спектра и качества образовательных программ социально-экономическим условиям, требованиям рынка труда, ожиданиям прямых потребителей образовательных услуг. В качестве ключевой фигуры в системе взаимоотношений...

Современное образование заставило нас по-новому взглянуть на процесс воспитательно-образовательной работы в детском саду. Значительную роль в этом может сыграть применение современных информационно-коммуникативных технологий. Благодаря возможностям современных компьютеров, том числе с сенсорными экранами, или используя планшетник, ребёнок имеет возможность действовать...

Предложен новый подход к формированию современной модели обучения. Рассмотрена структура информационной системы университета. Обсуждается технология интеллектуальной системы для формирования единой базы данных учебных материалов.

Компетенции не могут быть сформированы без достаточного фундамента ака-. ший подобные знания, растолковать, почему персонажи грибоедовской комедии так часто поминают Вольтера, почему мать Татьяны Лариной «была сама от Ричардсона без ума», а ее дочь «влюблялася в обманы и Ричардсона и Руссо»? Нечего и говорить о понимании современной литературы с ее интертекстуальностью, обилием античных...

  • Векслер Виталий Абрамович , кандидат наук, доцент, доцент
  • Саратовский государственный университет имени Н. Г. Чернышевского
  • ДИСКРИМИНАТИВНОСТЬ
  • ТЕСТИРОВАНИЕ
  • СТАНДАРТИЗАЦИЯ ТЕСТА
  • ПЕДАГОГИЧЕСКОЕ ТЕСТИРОВАНИЕ
  • ТЕСТОЛОГИЯ

В статье рассмотрены вопросы стандартизации теста и проверки его качества при помощи инструмента дискриминативности (проверка дифференцирующей способности теста и отдельного задания). Ход проверки теста продемонстрирван на примере.

  • Особенности проектирования нестандартных тестовых заданий
  • Особенности определения валидности педагогического теста
  • Использование программных средств тестирования в педагогической практике

Стандартизацией теста называется комплекс взаимосвязанных между собой процедур, позволяющий создать для всех испытуемых равные условия, и подразумевает единообразный подход к процедуре проведения и оценивания результатов выполнения испытуемыми заданий.

  1. Ни одному испытуемому не может даваться никаких даже минимальных преимуществ перед другими.
  2. Группа тестируемых, перед прохождением тестирования, должна быть «выровнена по мотивации».
  3. Тестирование различных групп испытуемых должно занимать равные временные промежутки и проводится при одинаковых внешних условиях. Если тест будет вторично использоваться в условиях, которые уже существенно отличаются от тех, где он был изначально проведен, то обязательно потребуется некоторое соотнесение этих условий друг с другом или адаптация теста к новым измененным условиям.
  4. Содержание теста должно соответствовать требованиям стандартов образования.
  5. Все испытуемые выполняют одни и те же задания (параллельные, подобные формы заданий).
  6. В тест включаются задания одной формы либо различных форм с соответствующими весовыми коэффициентами, значение которых получены статистическим путем.
  7. Установление норм. Норма теста – это некий условно сформированный уровень, который можно принять за средний, отражающий развитие некоторой, возможно большой, совокупности людей, условно похожих на данного испытуемого по определенному ряду выявленных, в ходе дополнительного исследования, социально-демографических характеристик. В большинстве случаев тестовый показатель индивидуума мы можем выявить на основе сравнения с оценками, полученными по данному тесту другими людьми. Норма теста обычно будет, определяется в результате тестирования большой выборки испытуемых определённого возраста и пола, с последующим усреднением полученных оценок с их последующим дифференцированием по группам: разделением по возрасту, полу, социальному положению, уровню урбанизации, психофизическим показателям и ряду многих других показателей необходимых в контексте именно данной дифференциации. При этом, данная группа людей будет, называется выборкой стандартизации и станет служить показателем для установления норм. Всякая норма, как правило, со временем может, изменяется коррелируя вместе с естественными или другими взаимосвязанными с ней изменениями, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет. Система подсчета баллов, на основе норм, должна быть предварительно разработана и применена ко всем ответам испытуемых без исключения.
  8. Проверка тестовых работ должна быть строго регламентирована, а именно проверяющим даются эталоны правильных ответов и стандартизованные критерии оценок.
  9. Стандартизация теста так же заключается в приведении процедуры оценок к общепринятым в учебной среде нормативам.
  10. Тест должен быть обязательно социокультурно адаптирован т.е необходимо соблюдать соответствие тестовых заданий и оценок, которые испытуемый получает по этим заданиям, особенностям культуры, сложившимся в том или ином обществе, где данный тест используется, если он заимствован в другой стране.
  11. Для полного обеспечения единообразия условий проведения теста, разработчик описывает подробные указания по проведению каждого вновь разработанного теста.
  12. Учет «внешних факторов». Например, зачитывая вслух инструкцию или задание, нужно принимать во внимание тон голоса, скорость речи, интонацию, паузы и выражение лица.
  13. Тест должен сопровождаться руководством для пользователя, в котором описываются:
    • назначение теста и его описание;
    • показания для применения;
    • состав теста;
    • информация об апробации теста (цели, объем и состав выборки, основные статистические характеристики);
    • инструкция по процедуре проведения тестирования;
    • ключи;
    • трудность и дискриминативность теста («дискриминативность» - «тонкость измерения», т.е. способность дифференцировать тестируемых относительно «минимальных» и «максимальных» результатов теста, дифференцирующая способность);
    • данные о надежности и валидности теста;
    • другие статистические материалы;
    • правила и инструкции для обработки данных;
    • устройство шкалы, правила и особенности интерпретации данных.

Таким образом, если тесты стандартизированы, то мы можем сказать, что возможно провести сравнение показателей, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Тем самым достигается адекватная интерпретация показателя отдельного испытуемого.

Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).

При разработке теста, безусловно, необходимо стремиться к тому, чтобы его задания как можно точнее могли измерять проверяемое свойство. Например, если в результате проведенного обследования почти все испытуемые получили примерно одинаковые результаты, то это может означать только то, что тест проводит измерения очень грубо и неточно, без особых градаций различающих особенности испытуемых. Чем большее количество градаций результатов можно получить при помощи теста, тем выше будет его разрешающая способность. Мера тонкости измерения (или степень диффиренцируемости результатов) теста называется дискриминативностью.

Дискриминативность теста измеряется показателем дельта Фергюсона (рис.1):

Рис.1. Показатель дельта Фергюсона

В данной формуле введены следующие обозначения: N – количество испытуемых, n – количество заданий, f i - частота встречаемости каждого показателя. Наименьшая дискриминативность теста определена при δ = 0, наибольшая при δ = 1.

Рассмотрим простейший пример расчета индекса дискриминативности заданий.

Проводится тестирование по теме «Информационные процессы». В тестировании принимают участие 7 человек, количество заданий - 4.

Цель задания: овладение навыком расчета индекса дискриминативности.

Алгоритм вычислений:

  1. Составьте таблицу частот встречаемости каждого показателя.
  2. Подсчитайте, как часто встречаются значения показателей для данного теста.
  3. Возведите эти числа в квадрат и просуммируйте их.
  4. Прибавьте единицу к количеству заданий.
  5. Возведите в квадрат количество испытуемых.
  6. Помножьте количество заданий на результат шага 4.
  7. Теперь у нас есть все элементы формулы. Подставьте их и рассчитайте коэффициент.
  8. Сделайте вывод о дискриминативности теста «Информационные процессы».

Оснащение: микрокалькулятор или компьютер, таблица первичных данных (рис. 2).

Рис. 2 – таблица первичных данных отражающая результаты в баллах у семи испытуемых

На основании таблицы первичных данных получим таблицу частот встречаемости каждого показателя (рис. 3).

Рис.3 – Таблица частот встречаемости каждого из показателей теста выполненная на основе анализа предложенной в рис.1 таблицы частотных данных.

Вычислим квадраты частот (рис.4):

Рис. 4 – таблица квадратов частот определенная по таблице частот показателей теста.

Произведем вычисления показателем дельта Фергюсона, где n=4 (количество заданий), N=7 (количество испытуемых), N 2 =49 (рис. 5).

Рис. 5 – Вычисление показателя дельта Фергюсона

На основании проведенного вычисления сделаем вывод: δ = 0,97 данный показатель указывает на высокую дискриминативность теста «Информационные процессы», так как наибольшая дискриминативность при δ = 1. Показатель δ = 0,97 приближается к единице.

Дискриминативность или дифференцирующая способность как показатель отражает общую способность созданного исследователем теста отделять испытуемых с высоким общим баллом по тесту от тех, кто получает низкий балл и позволяет проверить качество созданных заданий в тесте.

Для проверки качества отдельных заданий будем использовать метод крайних групп. Данный метод позволяет определить может ли задание дифференцировать учащихся. Задания, на которое одинаково хорошо могут ответить испытуемые, как с высокими, так и с низкими способностями, не обладает хорошей дифференцирующей способностью. Таким образом, цель использования на практике данного метода выражается в удалении некачественных заданий.

Для определения дифференцирующей способности задания будем использовать формулу метода крайних групп (рис. 6).

Рис. 6 – Формула для вычисления показателя, отражающего дифференцирующую способность задания методом крайних групп с расшифровкой составляющих

Опишем показатель интерпретации, полученный в результате вычисления результата:

a) если D в промежутке от 0,3 до 1 – задание эффективно (обладает высокой дифференцирующей способностью среди испытуемых, качество задания высокое);

b) если D в промежутке от 0,1 до 0,3 – задание обладает низкой степенью дифференциации (задание «слабое», его рекомендовано удалить и заменить другим);

с) если D меньше 0,1 – задание не качественное (оно должно быть удалено и заменено другим).

Рассмотрим простейший пример расчета показателя дифференцирующей способности по методу крайних групп.

Было проведено тестирование в группе из 30 испытуемых. Количество заданий - 10. Полученные результаты приведены в таблице частот встречаемости показателей (рис. 7). Цель исследования: необходимо проверить качество задания № 1.

Рис. 7 – Таблица частот встречаемости показателей теста (исходные данные для проведения вычисления)

Проведем вычисления основных индексов, которые нам понадобятся в основной формуле. Определим 27% от количества испытуемых для создания крайних групп. Примерно получим 8 испытуемых (округлим результаты). Таким образом, мы возьмем 8 человек набравших малое количеств баллов (в нашем примере 0,1,2,3 балла) – так сформирована слабая группа и 8 человек набравших наибольшее количество баллов (в нашем примере – 9,10 баллов) – так сформируем сильную группу. Теперь проверим, как эти испытуемые отвечали на задание № 1 (рис. 8).

Рис. 8 – результаты выполнения исследуемого задания (задания № 1) испытуемыми из крайних групп (сильная и слабая группа).

Приведем данные для подстановки в формулу метода крайних групп (рис. 9).

Подставим данные и получим следующий результат (рис. 10).

Рис. 10 – Вычисление показателя метода крайних групп.

На основе полученных данных мы можем сделать вывод: задание № 1 в тесте является эффективным, так как показатель находится в диапазоне от 0.3 до 1.

Таким образом, стандартизация теста является целенаправленным процессом позволяющим определить условия для качественного прохождения испытаний теста и сделать тест психологически комфортным при прохождении для испытуемых. Стандартизация теста наиболее важна и в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом важна выработка нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. Интерпретация результатов тестирования будет иметь значимых характер только в том случае если сам тест был создан качественно, одним из показателей данной характеристики может является и дискриминативность как теста в целом так и каждого задания в отдельности.

Список литературы

  1. Аванесов В.С. Тесты: история и теория // Управление школой, 1999, №12.
  2. Аванесов В.С. Формы тестовых заданий: учебное пособие для учителей школ, лицеев, преподавателей вузов и колледжей. 2-е изд. перераб. и расширен. - М.: Центр тестирования, 2005. - 156 с.
  3. Анастази А., Урбина С., Алексеев А.А. Психологическое тестирование - Санкт-Петербург, 2007. Сер. Мастера психологии (7-е международное издание)
  4. Векслер В.А. Психолого-педагогические аспекты тестирования// В.А. Векслер, О.Л.. 2015. Т. 1. № 35. С. 199-204.
  5. Векслер В.А. Эргономические требования к электронным образовательным ресурсам // Психология, социология и педагогика. 2015. № 5 (44). С. 37-39.
  6. Векслер В.А. Возникновение тестологии //Современные научные исследования и инновации. 2015. № 5-4 (49). С. 113-116.
  7. Ефремова Н.Ф., Звонников В.И., Челышкова М.Б. Педагогические измерения в системе образования //Педагогика. 2006. - № 2. - С. 14-22.
  8. Майоров А.Н. Теория и практика создания тестов для системы образования. – М.: «Интеллект-центр», 2001. -296 с.
  9. Равен Джон Педагогическое тестирование: Проблемы, заблуждения, перспективы / Пер. с англ. - М.:"Когито-Центр", 1999.-144 с.
  10. Самылкина Н.Н. Современные средства оценивания результатов обучения: учебное пособие - М.:Бином. Лаборатория знаний, 2012. - 197 с.

Помимо использования отдельных тестов специальных способностей, на Западе широко применяются батареи тестов, т.е. группы тестов, измеряющих относительно независимые особенности индивидов, в совокупности способствующие успешному осуществлению определенной деятельности. С помощью батарей можно получать профили тестовых показателей по относительно независимым существенным характеристикам, выявленным посредством факторно-аналитических исследований.

Первым опытом создания таких комплексных батарей способностей были Чикагские тесты основных умственных способностей (Primary Mental Abilities Tests - PMA) . Они основывались на концепции Л. Терстоуна о существовании 12 независимых первичных умственных способностей, лежащих в основе успешности учебной деятельности. Впервые опубликованные в 1941 г., они предназначались для учащихся старших классов и колледжей. Позднее эта батарея была усовершенствована (1962), в нее включили тесты для младших возрастов. Однако из-за наличия ряда существенных недостатков (низких надежности и валидности, неадекватности норм, необоснованности ряда показателей, чрезмерной зависимости результатов от скорости) в настоящее время она была вытеснена более современными методиками того же типа.

Одной из них является комплексная батарея Тестов различных способностей (Differential Aptitude Tests - DAT). Эта батарея, изданная в 1947 г., затем неоднократно пересматривалась; она предназначена для консультирования учащихся 8-12-х классов в процессе их обучения и профессиональной ориентации. Она применяется в двух эквивалентных формах S и Т, каждая из которых включает восемь субтестов.

Примеры заданий

1. Словесное мышление.

Выберите нужную пар)" слов, чтобы заполнить пропуски в предложении. Первое слово пары заполняет пропуск в начале предложения, второе в конце:

Вечером, а завтрак...

A. Ужин - угол.

B. Кроткий - утро.

C. Дверь - угол.

D. Течение - радость.

E. Ужин - утро. Правильный ответ - Е.

2. Числовые способности.

Для каждой задачи найдите правильный ответ: Сложить 13 и 12

Е. Ни одно из приведенных чисел. Правильный ответ - В.

3. Абстрактное мышление.

Каждое задание состоит из серии фигур, меняющихся по определенному правилу. Поняв правило изменения фигур в каждом задании, следует найти продолжение ряда фигур, выбрав ответ из пяти предложенных вариантов.

4. Скорость и точность восприятия.

В каждом задании теста подчеркнута одна из пяти предложенных комбинаций символов. На бланке ответов испытуемый должен был отметить точно такую же комбинацию.

5. Техническое мышление.

Каждое задание представляет собой изображенную ситуацию технического характера и короткий вопрос, ответ на который требует технического понимания.

6. Пространственные отношения.

В заданиях по изображенной развертке геометрической фигуры нужно найти се среди четырех вариантов ответов.

7. Грамотность.

Укажите, какое слово написано правильно, а какое с ошибкой.

  • (Символами х отмечены верные ответы).
  • 8. Использование языка.

Укажите, в какой из отмеченных буквами частей предложения содержится ошибка и отметьте эту часть на бланке ответов символом х. Если предложение не содержит ошибки, отметьте Н.

А. Нужноли нам /выходить/ на работу/ на следующей неделе?

Батарея DAT стандартизирована, проверена па валидность и надежность на выборке, репрезентативной популяции учащихся США 8-12-х классов. Выборка включала более 64 000 учащихся 76 школ из 33 штатов и округа Колумбия. Данные о валидности DAT составляют несколько тысяч коэффициентов, большая часть которых относилась к прогностической валидности достижений в школе и успешности последующего обучения (в вузах, на специализированных курсах и училищах и проч.). Признано, что эта батарея неплохо оценивает возможности индивидов в учебной деятельности общего характера. Однако учебный критерий далеко не всегда позволяет прогнозировать профессиональные достижения, а данных но профессиональным критериям недостаточно.

Поэтому в целях профессионального консультирования используются другие методики. Одной из наиболее признанных является Батарея тестов общих способностей (Général Aptitude Test Battery - GATB) . Она разработана Службой занятости США специально для применения в деятельности консультантов в государственных учреждениях. Посредством этой батареи измеряются девять факторов, в нее входят 12 тестов. В GATB представлены следующие факторы:

  • 1) общие способности к обучению (оцениваются по суммарному показателю трех тестов - словарного, математического мышления и восприятия трехмерного пространства);
  • 2) вербальные способности (измеряются словарным тестом, в котором испытуемый должен указать, какое из двух слов в каждом наборе имеет то же или противоположное значение);
  • 3) числовые способности (оцениваются тестами на вычисление и математическое мышление);
  • 4) пространственные способности (измеряются тестом восприятия трехмерного пространства, включающим задания на понимание отражения трехмерных объектов в двухмерном пространстве и на умения представлять результат движения в трех измерениях);
  • 5) восприятие формы (измеряется двумя тестами, в которых испытуемый сопоставляет чертежи деталей и геометрические формы);
  • 6) мысленное восприятие (тесты аналогичны тем, что используют для оценки восприятия формы, но сопоставляются названия, а не чертежи и формы);
  • 7) двигательная координация (измеряется простым тестом, в котором испытуемый делает в сериях квадратов определенные пометки карандашом);
  • 8) пальцевая моторика (измеряется двумя тестами, в которых испытуемый соединяет и разъединяет соответственно заклепки и шайбы);
  • 9) ручная моторика (оценивается с помощью двух тестов, в которых испытуемый перемещает и переворачивает фишки на доске).

Проведение всей батареи длится примерно 2,5 часа.

Батарея тестов общих способностей стандартизирована па выборке 4000 человек, репрезентативной популяции рабочих и служащих США. Были найдены системы показателей, в которых для каждой профессии установлены способствующие ее овладению особенности и их минимально допустимые уровни. Например, для бухгалтера необходимо получить показатели не ниже 105 по фактору общих способностей к обучению и не ниже 115 по фактору числовых способностей. Для слесаря минимальный показатель по фактору общих способностей к обучению равен 85, пространственных способностей и ручной моторики 85 и мысленного восприятия 75.

При консультировании профиль показателей индивида сопоставляется с нормативными показателями профессий, и тс профессии, нормативные показатели которых достигнуты или превышены испытуемым, могут при консультировании рекомендоваться ему.

Показатели разных видов надежности колеблются в пределах от 0,80 до 0,90. Удовлетворительны коэффициенты валидности. К недостаткам САТВ относят ориентацию тестов на скоростное выполнение, а также непредставленность многих способностей. Например, в этой батарее не оцениваются технические способности, находчивость и некоторые другие особенности. Поэтому ею не охвачены те профессии, где эти характеристики требуются.

Кроме того, было обнаружено, что тестовые профили высоко успешных представителей одной профессии могут различаться. Следовательно, при сопоставлении индивидуальных профилей с нормативными для тех или иных профессий далеко не всегда можно констатировать наличие профессиональной пригодности индивида. Это связано с тем, что возможна широкая компенсация одних особенностей, недостающих для успешного выполнения деятельности, за счет других. Как об этом уже говорилось выше, одного и того же уровня достижений можно добиться разными способами. Человеческая индивидуальность отличается высокой пластичностью, изменчивостью, способностью к развитию и совершенствованию. Изменчивость относится к миру многих профессий, к характеру тех требований, которые они предъявляют к работникам. Еще раз вспомним о решающей роли мотивации, интересов, склонностей человека.

Все сказанное объясняет, почему валидизация относительно критериев обучаемости отдельным профессиям дает коэффициенты валидности значимо выше, чем валидизация по критериям профессиональной успешности. Диагносты признают, что показатели GATB могут неплохо предсказывать успешность профессионального обучения и эффективность работы в начальный период (до двух лет стажа).

Чтобы облегчить использование показателей этой батареи для консультирования, профессии, выполнение которых требует сходных особенностей, в 70-е гг. XX в. были объединены в относительно небольшие по числу типы. Таких типов было выделено не многим более 60. Для каждого типа нормативные показатели устанавливались по трем наиболее важным характеристикам. Окончательная система показателей была названа системой Паттернов профессиональной пригодности (Occupational Aptitude Pattern - ОАР), охватывающих тысячи конкретных профессий и специальностей.

Для работы с учащимися старших классов, а также со всеми, кто проявил интерес к армейским специальностям, используется Батарея профессиональной пригодности Вооруженных сил США Armed Services Vocational Aptitude Battery - ASVAB), включающая 10 тестов, диагностирующих такие, например, параметры, как общие естественнонаучные знания, понимание параграфов инструкций, знания математики, техническое понимание, осведомленность в электронике и автотехнике и др.

Для отбора и распределения новобранцев в армии США используется Квалификационный тест вооруженных сил (Armed Forces Qualification Test - AFQT). Помимо этого, каждая из армейских служб (военно-воздушные силы, сухопутные войска и др.), используя субтесты Квалификационного теста, разрабатывает свои методики и комбинированные показатели по ним для отбора и распределения персонала в соответствии со своими критериями.

Служба занятости США для облегчения процедуры тестирования и поступления на работу малограмотных и культурно неразвитых людей разрабатывает специальные батареи, в которых используются особые процедуры, помогающие сориентироваться в тесте, правильно понять его задачи и характер. В эти батареи включаются материалы и планы бесед для снятия тревожности. Для этих категорий испытуемых издаются специальные брошюры, объясняющие, что значит хорошо выполнить тест, включающие примеры заданий и бланков ответов такого типа, какие использованы в GATB. К таким батареям, разработанным для особых категорий населения, относятся Тесты элементарной профессиональной грамотности (Basic Occupational Literacy Tests - BOLT), включающие тесты словарный, на понимание прочитанного, арифметических вычислений и математического мышления. Показатели этой батареи оцениваются в соответствии с требованиями, предъявляемыми разными группами профессий, а не школьным обучением.

Завершая обсуждение тестов и батарей специальных способностей, разработанных на Западе (главным образом в США), отметим, что эта область диагностирования является одной из наиболее развитых. Создано и используется большое число тестов и батарей специальных способностей как в системе образования, так и для профессиональных целей. Несмотря на позитивную в целом оценку возможностей этих тестов и батарей, психодиагносты продолжают собирать информацию относительно их надежности и валидности, уточняют параметры выборок, для которых они репрезентативны, выясняют воздействие разных факторов, влияющих на их выполнение, совершенствуют процедуры тестирования и их показатели, разрабатывают специальные приемы использования этих показателей.

Вместе с тем все чаще психодиагносты приходят к выводу, что прогнозы относительно учебной и профессиональной успешности возможны только на основе совокупной информации об индивиде, когда результаты тестов способностей рассматриваются не изолированно, а лишь как один из аспектов оценки наряду с показателями личностных методик, тестов достижений, биографических анкет и др. Так, Э. Гизелли нашел, что при обследовании водителей такси корреляция между их трудовой эффективностью и показателями тестов специальных способностей равнялась лишь 0,22. Но если учесть интересы и профессиональную мотивацию, то этот коэффициент можно существенно повысить - до 0,664 у водителей с высоким уровнем мотивации. В другом исследовании, выполненном Р. Грумсом и Н. Эндлером, было обнаружено, что успеваемость студентов с высокой тревожностью больше коррелирует с показателями тестов способностей (г = 0,63), чем у спокойных студентов (г = 0,19) .

Важно указать и на то, что в настоящее время западные диагносты признают зависимость тестов способностей от обученности индивидов, от приобретенных ими навыков и знаний. Так, исследователи пришли к выводу о том, что результаты Теста суждений об искусстве Мейера подвержены значительному влиянию профессионального обучения (корреляции от 0,4 до 0,69 между уровнем художественного образования и показателями теста Мейера). Найдена подверженность результатов Теста меры музыкальной одаренности Сишора влиянию практики и тренировки. Поэтому все чаще психодиагносты стремятся не использовать термин "способность" в названиях этой группы тестов, заменяя его понятиями "эффективность", "успешность" и др. Считается, что лучше отказаться от понятия "способность" применительно к тестам и говорить о различиях в знаниях и умениях, позволяющих в определенных условиях добиваться определенных достижений .

  • Анастази А. Психологическое тестирование: в 2 т. М.. 1982. 2 Там же.
  • Анастази А.
  • Анастази А. Психологическое тестирование: в 2 т. М., 1982.
  • Arntzen F. Einfuhrung in die Begabungspsychologie. Gottingen. 1976.