Что влияет на уровень трудности теста. Показатель трудности тестового задания как важнейший тестообразующий фактор. Характеристика тестовых заданий

Показатель трудности тестового задания как важнейший тестообразующий фактор.

Крашенинникова Галина Геннадьевна

канд. пед. наук, Магаданский филиал РГГУ

Одной из основных характеристикой тестового задания является его трудность. Уровень трудности задания, а также уровень подготовленности тестированного – это латентные параметры, которые не поддаются непосредственному наблюдению. Для того, чтобы оценить эти параметры, требуется использовать тесно связанные с ними индикаторы. При тестировании знаний студентов в качестве индикатора выступают сами тестовые задания. Возникает задача: преобразовать значения индикаторов в значения латентных параметров. Существуют различные подходы к решению этой задачи. Классическая и современная теории тестирования предлагают свои методы оценивания латентных параметров.

Традиционной мерой трудности задания в классической теории тестов долгие годы остаётся отношение числа правильных ответов на данное задание к общему числу испытуемых в группе. Чем легче задание, тем выше процент справившихся с этим заданием .

Однако данное определение несёт в себе смысловую неточность: увеличение числового значения статистического показателя говорит об уменьшении уровня трудности задания, и наоборот. Поэтому в последнее время предпринимаются попытки введения новых единиц трудности. Классическая мера трудности заменяется на противоположную и представляет собой долю неправильных ответов в группе испытуемых, что, на наш взгляд, более точно отражает смысл параметра «трудность задания».

Современная теория тестирования – Item Response Theory (IRT) – основывается на созданной П. Лазарсфельдом теории латентно-структурного анализа (ЛСА). В IRT, в отличие от классической теории, латентный параметр трактуется не как постоянная величина, а как непрерывная переменная. Методы IRT можно классифицировать по числу используемых в них параметров. Наиболее известны однопараметрическая модель Г. Раша, двух- и трехпараметрические модели А. Бирнбаума.

Георг Раш разместил на одной шкале и уровень подготовленности тестируемого и уровень трудности задания, введя для них общую единицу измерения – логит. Один логит трудности задания равен натуральному логарифму отношения доли неправильных ответов на это задание к доле правильных ответов .

Несмотря на то, что IRT получила в последнее время широкое распространение, она, тем не менее, обладает множеством недостатков. В частности, при тестировании учебных достижений отмечаются значительные расхождения между расчетными значениями и эмпирическими данными. Доказана также высокая корреляция (около 0,9) между результатами, полученными по модели Раша и результатами, полученными классическими методами . Этот факт позволяет нам без ущерба точности вычислений пользоваться методами классической теории тестов для характеристики трудности тестовых заданий.

Хотя классическая формула расчета трудности задания достаточно удобна для исполнения и последующей трактовки полученных результатов, на наш взгляд, она не лишена некоторого субъективизма: трудность задания напрямую зависит от выборки тестируемых. В связи с этим рассмотрим еще один взгляд на оценку уровня трудности тестового задания, который, хотя и не является широко распространенным, но представляет для нас определенный интерес.

Чтобы подойти к сущности латентного параметра «трудность», обратимся к классификации уровней усвоения знаний, принятых в педагогической литературе. Можно заметить вполне объективное возрастание степени трудности усвоения для каждого последующего уровня усвоения знаний. Таким образом, мы можем сделать вывод о существовании прямой зависимости между уровнями усвоения и уровнями трудности заданий, соответствующих каждому уровню усвоения. Это позволяет нам отождествлять такие понятия как «уровень трудности» и «уровень усвоения» применительно к тестовым заданиям. Взяв за основу классификацию В.П. Беспалько , мы выделяем четыре уровня трудности: «ученический», типовой, эвристический, творческий.

В настоящее время в педагогике широко используются экспертные методы. Поэтому заслуживает внимание экспертное оценивание уровня трудности тестовых заданий как ещё один из вариантов оценки показателя трудности. Например, в работе А.П. Иванова приводится описание подобной оценки, когда до начала тестового эксперимента нескольким экспертам предлагается оценить трудность заданий всех вариантов теста в баллах. Для получения экспертной оценки автор приводит перечень из восьми факторов с соответствующими критериями оценивания от 1 до 5 баллов по каждому.

В хорошо составленном тесте на трудность задания не должна влиять ни форма, ни сама организация тестирования. Показатель трудности зависит только от содержания и уровня подготовленности тестируемых. Правда, встречается мнение, что на степень трудности задания оказывает влияние месторасположение этого задания в структуре теста. В этом случае рекомендуется использовать несколько вариантов теста, отличающихся последовательностью расположения заданий . В.С. Аванесов полагает основным принципом разработки содержания педагогических тестов возрастающую трудность тестовых заданий . По его мнению, только после определения степени трудности, задание имеет шанс стать тестовым. До этого оно остается просто заданием в тестовой форме.

Включение в тест большого числа заданий средней трудности повышает его надежность, но, приводит к снижению его содержательной валидности. Тест, состоящий из легких заданий, проверяющих минимальные знания, не может дать представления о реальном уровне знаний. Подбор тестовых заданий высокой степени трудности может способствовать усилению мотивации в учебе, но может повлиять и в обратную сторону. Таким образом, тесты из трудных заданий тоже искажают результаты тестирования. Кроме того, содержание теста должно варьироваться в зависимости от уровня подготовленности групп учащихся. Трудность теста для слабых студентов заметно отличается от уровня трудности теста, предлагаемого сильным студентам.

По А. Анастази и С. Урбиной выбор уровня трудности задания зависит от назначения теста, от того как предполагается использовать тестовые показатели. Для предметно-ориентированных тестов трудность заданий должна быть на уровне 0,8-0,9. Определяя по уровню трудности задания его информативность, авторы показывают, что наиболее информативно задание со средним уровнем трудности, равным 0,50.

Таким образом, можно сделать вывод, что наибольшей дифференцирующей способностью обладают задания со средним уровнем трудности. И, если целью тестирования является дифференциация тестируемых, сравнительная оценка их уровня знаний, то из теста следует исключать наиболее простые и наиболее трудные задания. Если же назначение теста определить, овладел ли обучаемый в достаточной мере определённым набором компетенций, необходимым для перехода к следующему этапу обучения, то в нём могут быть как самые лёгкие, так и самые трудные задания.

Библиографический список

1. Аванесов В.С. Применение заданий в тестовой форме в новых образовательных технологиях // Школьные технологии. – 2007. – № 3. – С. 146–163.

2. Анастази А., Урбина С. Психологическое тестирование. – СПб. : Питер, 2002. – 688 с.

3. Беспалько В.П. Слагаемые педагогической технологии. – М.: Педагогика, 1989. – 192 с.

4. Иванов А.П. Систематизация знаний по математике в профильных классах с использованием тестов. – М.: Физматкнига, 2004. – 416 с.

5. Ингенкамп К. Педагогическая диагностика. – М.: Педагогика, 1991. – 240 с.

6. Ким В.С. Анализ результатов тестирования в процессе Rasch measurement // Педагогические измерения. – 2005. – № 4. – С. 39–45.

7. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. – Chicago & London, 1980. – 199 p.

Теперь рассмотрим некоторые приемы, которые включаются в понятие неформализованные диагностики. К числу таких приемов относятся наблюдения, опросы, беседы (интервью), анализ продуктов деятельности.

Метод наблюдения. Это старейший метод психологической диагностики С его помощью можно получить обширную информацию о человеке. Он является незаменимым там, где не разработаны или неизвестны стандартизированные процедуры. При этом исследователю для проведения наблюдения не требуется согласия или иной формы участия наблюдаемых.Особо важное значение метод наблюдения имеет для изучения психологических особенностей детей, поскольку ребенок как объект исследования представляет большие трудности для экспериментального изучения, чем взрослый человек

Опрос. Это метод сбора первичных данных на основе вербальной коммуникации При соблюдении определенных правил он позволяет получить не менее надежную информацию о событиях прошлого и настоящего, об устойчивых склонностях, мотивах тех или иных поступков, о субъективных состояниях, чем метод наблюдения.Было бы ошибкой считать, что опрос - самый "легкий" для применения метод Искусство использования этого метода состоит в том, чтобы знать, как спрашивать, какие задавать вопросы, как убедиться в том, что можно верить полученным ответам.

Интервью. Это проводимая по определенному плану беседа, предполагающая прямой контакт интервьюера с респондентом (отвечающим) По форме оно бывает свободное (беседа без строгой детализации вопросов, но по общей программе стройная стратегия в общих чертах, а тактика свободная), стандартизированное (осуществлена детальная разработка всей процедуры, включая общий план беседы, последовательность вопросов, варианты возможных ответов: стойкие стратегия и тактика); частично стандартизированное (стойкая стратегия, а тактика более свободная) Психолог стремится к более естественным формам беседы. Чаще всего интервью имеет следующую структуру

а) введение- настройка на беседу, на сотрудничество;

б) свободные высказывания испытуемого;

в) общие вопросы (например: "Ты можешь мне что-нибудь рассказать о школе?"),

г) подробное исследование;

д) снятие возникшего напряжения и выражение признательности за участие в беседе.

Анализ продуктов деятельности (контент-анализ). В психодиагностике существует еще один способ получения информации - это количественно-качественный анализ документальных источников, позволяющий изучать продукты человеческой деятельности Под понятием "документальный источник" понимаются письма, автобиографии, дневники, фотографии, записи на кинопленке, произведения искусства, материалы средств массовой информации (газеты, журналы и т п.).

Для того чтобы при изучении документов можно было преодолеть субъективизм исследователя, выявить достоверную информацию и достаточно точно ее регистрировать, был разработан специальный метод, получивший название "контент-анализ" (буквально "анализ содержания") Впервые он начал применяться начиная с 20-х

гг. нашего столетия для обработки материалов средств массовой коммуникации Это более или менее формализованный метод анализа документов, когда на основе гипотезы исследователя в документальных материалах выделяются специальные единицы информации, а затем подсчитывается частота их употребления.Таким образом, основная процедура контент-анализа связана с переводом качественной информации на язык счета. С этой целью выделяются два типа единиц-смысловые, или качественные, единицы анализа и единицы счета, или количественные Основная трудность при работе с документальными источниками - умение провести качественный анализ, т е выделить смысловые единицы Это во многом зависит от личной компетентности исследователя, уровня его творческих возможностей.

21.Изучение анамнестических данных ребенка. Структура анамнеза.

Личный анамнез ребенка содержит следующие сведения: особенности беременности матери; длительность приема лекарственных препаратов и влияние вредных факторов на беременность; особенности родов; характер помощи во время родов; наличие у ребенка врожденных пороков развития, судорог и др.; вес ребенка при рождении, время начала его кормления, срок пребывания в роддоме. Перечисляются перенесенные ребенком заболевания, особенности лечения, наличие осложнений. Указывается, где, как и кем воспитывался ребенок до момента поступления в дошкольное учреждение. « В семейном анамнезе анализируются данные о семье ребенка и наследственности; описывается состав семьи, возраст и образовательный уровень каждого ее члена, характерологические особенности родителей; фиксируются психические, неврологические, хронические соматические заболевания родственников, патологические особенности их физического облика. Описываются семейно-бытовые условия, в которых воспитывается ребенок, место и характер работы родителей; дается оценка взаимоотношений в семье, отношения к ребенку; фиксируются случаи приверженности одного или обоих родителей к алкоголю или наркотикам.
Педагоги и воспитатели знакомятся с результатами медицинского обследования по документации: изучают историю развития ребенка, заключения специалистов. Это поможет им сориентироваться в имеющихся у ребенка проблемах и создать необходимые условия для его развития в дошкольном учреждении.

22.Изучение медицинской документации – наблюдение педиатра.

На первой неделе жизни ребенка осматривают как можно более тщательно. Педиатр-неонатолог проверяет функцию сердца и легких, органы брюшной полости и половые органы, исследует кожу, скелет и рефлексы. У новорожденного обязательно берут анализ крови (так называемый скрининг новорожденных), чтобы исключить нарушения обмена веществ и гормональные нарушения. Проводится обследование тазобедренных суставов, проверка слуха.

 После выписки из роддома, примерно в 1 месяц, проводится второе обследование. Ребенка взвешивают, измеряют объем головы и рост. Педиатр пропальпирует внутренние органы и проверит осанку, которая в это время еще наклонена вперед. У мальчиков врач проверит, оба ли яичка в мошонке. Кроме того, он проведет несколько тестов, дающих информацию о функции органов чувств и рефлексов.

1) Общий анализ крови - отклонения от нормативов могут указать на почечные заболеваний, анемию, лейкоцитоз и многие другие патологии, которые визуально не определяются
2) Общий анализ мочи - выявляет отклонения в деятельности мочевыводящих органов
3) Моча на сахар - выявляет предрасположенность к диабету, обычный анализ мочи фиксирует эту патологию только в стадии обострения болезни
4) Кал 6) УЗИ головного мозга (или нейросонография) - выявляет пороки развития головного мозга7) УЗИ внутренних органов - 
8) УЗИ тазобедренных суставов -

С 3-го по 4-й месяц ребенок делает огромные успехи в развитии. Наряду с обычным контролем веса, роста и окружности головы на переднем плане - проверка двигательных функций.
Отдельное внимание уделяется тому, может ли ребенок следить глазами за игрушкой; проверяются тазобедренные суставы, родничок ребенка. 
 В 6 месяцев врач проверит способность младенца, положенного на спину, переворачиваться на бок, живот, менять положение своего тела, хорошо держать голову, опираться на выпрямленные ладошки рук в положении лежа на животе, точно схватывать разные предметы. Удостоверится в способности малыша сидеть при поддержке с боков. При проверке органов чувств врач, кроме возможных нарушений слуха, может заметить и дефекты глаз, например, косоглазие. Проверяется также развитие речи ребенка (гуление, лепет), реакция на обращение к нему (богатство эмоционального спектра). При оценке умственного развития педиатру необходимо знать: интересуется ли маленький пациент игрушками, которые ему показывают, боится ли чужих людей. В 9 месяцев требуется осмотр у детского стоматолога, который проверит ротовую полость ребенка на наличие заболеваний слизистой (кандидоз, стоматит), проконтролирует прорезывание и рост зубов, даст рекомендации по уходу за полостью рта.

В год ребенок уже должен уметь сидеть с прямой спиной и ходить, держась за опору. Еще один важный момент - игровое поведение. Теперь ребенок проявляет большой интерес ко всем деталям игрушки. Он реагирует на свое имя и может произносить удвоенные слоги, например "мама" и "папа". Врач в беседе с ребенком захочет также узнать о привычках ребенка в еде и питье. При необходимости можно обсудить подверженность ребенка инфекциям.

23.Неврологическое обследование детей с ОВЗ

Неврологическое обследование новорожденного начинается с наблюдения за поведением ребенка во время кормления, бодрствования и сна, за положением головы, туловища, конечностей, спонтанными движениями. В результате физиологической гипертонии мышц сгибательной группы, которая преобладает у ребенка первых месяцев жизни, конечности новорожденного согнуты во всех суставах. 

Руки прижаты к туловищу, а ноги слегка отведены в бедрах. 

Мышечный тонус симметричен, голова – по средней линии или слегка запрокинута назад из-за повышения тонуса в разгибателях головы и шеи. Новорожденный совершает и разгибательные движения, но сгибательная поза преобладает особенно в верхних конечностях (эмбриональная поза).

24.Оценка психического статуса ребенка врачем- психиатром

Психическое состояние оценивается детским психиатром (психоневрологом). Прежде всего отмечаются особенности внешнего вида и поведения ребенка: выразительность, адекватность мимики, особенности позы, движений, походки, гиподинамия либо двигательное беспокойство, расторможенность. Анализируются отношение к беседе, ориентировка в месте, во времени и собственной личности.

Особенности интеллектуального развития ребенка подробно исследуются в процессе психологического, педагогического и логопедического обследования. Тем не менее в беседе с ребенком врач фиксирует особенности его внимания, некоторые особенности памяти, мышления, речи. Описываются особенности эмоциональной сферы ребенка, его настроения: безразличие, холодность, эмоциональная вялость либо раздражительность, дурашливость и т.п. Фиксируется наличие эмоциональной лабильности, истощаемости, склонности к аффектам, наличие тоски, страхов, навязчивых переживаний. В беседе выявляются особенности сферы инстинктов и влечений: наличие повышенной сексуальности, чрезмерное влечение к еде либо отказ от пищи, склонность к бродяжничеству и т.п. В процессе беседы иногда могут быть выявлены и психотические расстройства: нарушение сознания, галлюцинации, бред.

На основании клинического изучения ребенка врач-психиатр (психоневролог) формулирует психиатрический диагноз

Задачи детского психиатра:

* раннее выявление психических заболеваний,

* оказание лечебной, консультативной и профилактической помощи,

* наблюдение за выявленными детьми по группам "Д" и "К",

* правильное ведение медицинской документации,

* работа с представителями МВД, реабилитационных цент ров,

* социальная помощь детям-инвалидам и их реабилитация,

* проведение районных медико-педагогических комиссий,

* организационно-методическая работа.

25.Цели, задачи и основные требование к организации психологического обследования

Цель психологической диагностики (оценки) - выявление специфики развития ребенка, отражающей ключевые особенности формирования психических структур, построение предположений о вероятных причинах и механизмах, приведших к данному варианту дизонтогенеза.

К специфическим диагностическим задачам, решаемым психологом специального образования, следует также отнести:

Контроль динамики психического развития и эффективность специализированной помощи в коррекционной помощи ребенку;

Определение на основе оценки динамики психического развития ребенка его дальнейшего образовательного маршрута, в частности, решение вопроса о необходимости (целесообразности) дальнейшего пребывания ребенка в данном образовательном учреждении (экспертная деятельность);

Выявление в процессе сопровождения ребенка эмоционально-аффективных и личностных особенностей, препятствующих адекватной социально-психологической адаптации в образовательной среде и социуме;

Определение возможностей и способностей ребенка, обучающегося в коррекционном образовательном учреждении, для решения вопросов профориентации и профадаптации.

К основным принципам диагностической деятельности психолога следует отнести:

1) системность диагностической деятельности, выражающуюся в понимании непрерывности и специфичности психического развития ребенка на всем протяжении его жизни, учете неразрывной взаимосвязи всех процессов, функций и сфер его психики (структурно-динамический принцип) при оценке его психического развития;

2) построение гипотезы и процедуры психологического обследования, а также анализа его результатов на основе целостного представления о ребенке с привлечением знаний различных отраслей психологии, педиатрии, детской психиатрии и неврологии, медицинской генетики, специальной (коррекционной) педагогики;

3) использование в полной степени алгоритма изменения диагностической гипотезы в свете получаемых данных (правило Байеса, которое говорит об изменении гипотезы обследования на следующем этапе диагностики в зависимости от результатов, получаемых на предыдущем этапе);

4) построение процедуры обследования в соответствии с актуальным возрастом, особенностями поведения ребенка, его обучаемости, адекватности, критичности; использование адекватных этим характеристикам методов, диагностических приемов и средств;

5) использование полифункциональных диагностических средств, позволяющих получать многофакторную (многофункциональную) информацию за счет особенностей построения методик, специфики предъявления стимульного материала и проведения исследования;

6) системный многоуровневый анализ получаемых данных с применением технологий интегративной оценки результатов, дающий максимальную информацию не только о специфике развития и формирования различных функций и систем на феноменологическом уровне, но и позволяющий выявить комплекс и иерархию причин и механизмов, приводящих к данному варианту развития.

26.Понятие психологического эксперимента

Экспериментом называется искусственное изменение условий наблюдения с целью определения отношений между явлением и условиями его возникновения.

Позднее В.М. Бехтерев (1907) ввел понятие «объективное исследование», заложив методическую основу для экспериментального подхода к восприятию, запоминанию, вниманию, ассоциативному мышлению и т.п. Некоторые из разработанных им методик («Сравнение понятий», «Определение понятий») не потеряли своей актуальности до настоящего времени.

В настоящее время психологический экспериментальный метод, оснащенный широким спектром конкретных методик, активно используется в психологии и психиатрии. В эксперименте перед испытуемым ставится задача выполнить определенные действия, по психологической структуре близкие к реальности. В этом плане можно полностью согласиться с Б.В. Зейгарник (1986), что экспериментальное исследование может быть приравнено к функциональной пробе - методу, широко используемому в испытании деятельности какого-либо органа. В ситуации психологического эксперимента роль функциональной пробы могут играть те задачи, которые в состоянии актуализировать умственные операции, которыми пользуется человек в своей жизнедеятельности, его мотивы, побуждающие эту деятельность. В психологическом эксперименте высвечивается, согласно Б.В. Зейгарник, реальный пласт жизни человека.

27.Методики изучения познавательного развития детей с ОВЗ

Простой и надежной методикой для оценки общего уровня развития памяти и внимания школьника является субтест «Счет» из батареи тестов интеллекта Д. Векслера. Сущность методики (она применяется только для индивидуальной работы) заключается в следующем. Экспериментатор зачитывает ряд цифр, а испытуемый должен, внимательно прослушав, запомнить и воспроизвести их. Обследование проводится в два этапа. Вначале экспериментатор зачитывает цифры и испытуемый повторяет их в том же «порядке (последовательности). Затем (на втором этапе) зачитанные экспериментатором цифры испытуемый должен повторить в обратном порядке

Для выявления уровня общих мыслительных способностей может быть использован так называемый «Культурно-свободный тест интеллекта», разработанный Р. Б. Кеттелом. Он предназначен для измерения «чистого», врожденного интеллекта. Как считает Р. Б. Кеттел и другие психологи, результаты тестирования по этой методике относительно независимы от влияния специального образования, приобретенного опыта, культурных и социальных различий людей. Тест имеет несколько вариантов. Мы рекомендуем для практического использования тот из вариантов (см. прилагаемые таблицы), который обычно применяется для обследования детей старшего школьного возраста и взрослого населения. Этот вариант состоит из четырех субтестов: 1. «Серии». Данныйсубтест включает 12 примеров, предусматривающих распознание и продолжение закономерных изменений в рядах предлагаемых фигур.

2. «Классификация». Состоит из 14 примеров. Испытуемый должен определить общие черты и особенности фигур (исключить «лишнюю» фигуру).

3. «Матрицы». Состоит из 12 примеров. Испытуемый должен к заданным комплектам фигур сделать необходимое дополнение.

4. «Условия». Состоит из 6 примеров. Испытуемый должен из пяти предложенных на выбор рисунков отметить один, в котором соблюдаются условия, заданные в образце.

Узнавание перечеркнутых изображений,узнавание реалистических изображений,наложенные изображения

28.Тестирование развитие интеллекта у лиц с ОВЗ

Тест Векслера

Тест включает методическое руководство, стимульный материал,содержащий серию заданий вербальной (6 субтестов) и невербальной (6 субтестов) батареи. Методические рекомендации: перед тем как использовать данный тест в работе, психологу необходимо самому хорошо изучить методическое руководство, уметь ориентироваться в демонстрационном материале и в бланках для испытуемого по субтестам. Психологу также необходимо четко знать инструкции к субтестам, уметь корректно ответить на вопросы ребенка, если они возникнуть после объяснения инструкции. При этом важно соблюдать все правила проведения методики, чтобы не перейти на «подсказывание». Все субтесты выполняются четко по времени, поэтому психологу необходимо не только записывать ответы испытуемого, но и следить за временем, а также знать, после какого количества ошибок необходимо прекращать тестирование в каждом субтесте. В нормативных таблицах значение 100 – соответствует среднему возрастному уровню развития интеллекта. Значения в диапазоне 85-115 рассматриваются как соответствующие норме, 70-85 – пограничные, ниже 70 – свидетельствующие о снижении интеллекта. Значения в диапазоне 115-130 – показатель высокого уровня развития, выше 130 – одаренности. Эти границы в значительной мере условны и могут рассматриваться лишь как ориентировочные.

Соотношение трех показателей позволяет охарактеризовать разные аспекты умственного развития. Более детальную характеристику дает анализ данных по каждому из 12 субтестов.

Время проведения теста – 90 – 100 минут. Тест Векслера требует значительных временных затрат как на процедуру проведения, так и на обработку результатов. Поэтому данный тест удобнее использовать при индивидуальном запросе.

Тестирование проводится в индивидуальной форме

Разработаны два отдельных комплекта методики: для детей от 5 до 16 лет и для взрослых старше 16 лет.

Прогрессивные матрицы Равена (RavenProgressivMatrices) - тест интеллекта. Предназначен для измерения уровня интеллектуального развития. Предложен Л.Пенроузом и Дж. Равеном в 1936 г. Прогрессивные матрицы Равена разрабатывались в соответствии с традициями английской школы изучения интеллекта, согласно которым наилучшим способом измерения фактора "g" является выявление отношений между абстрактными фигурами.

Согласно Равену – это тест испытания способностей воспринимать определенные формы, охватывать их особенности, характер, взаимные отношения или ансамбль, совокупность отношений, а поэтому он требует по отдельным задачам метода логических рассуждений. Автор не считает, что таким образом можно производить измерения некоего абсолютного интеллекта, однако существующие результаты дают понять, что измеренные тестом мнения и навыки в определенной мере репрезентуют интеллект.

Существует два варианта теста:

1. Цветной вариант (предназначен для детей от 5 до 11 лет и иногда рекомендуется для лиц старше 65 лет).

2. Черно-белый (для обследования подростков 14-16 лет и взрослых от 16 до 65 лет).

Материал черно-белого варианта состоит из 60 матриц с пропущенными элементами.

Задания разделены на 5 серий (А, В, С, D, Е) по 12 однотипных, но возрастающих по сложности матриц в каждой серии. Трудность заданий возрастает также при переходе от серии к серии.

Испытуемый должен выбрать недостающий элемент матрицы среди 6, 8 предложенных вариантов.

При необходимости первые 5 заданий серии А испытуемый может выполнять с помощью экспериментатора.

Каждая серия заданий составлена по определенному принципу:

А – принцип взаимосвязи в структуре матриц;

В – аналогия между парами фигур;

С – принцип прогрессивных изменений в фигурах матриц;

D – принцип перегруппировки фигур;

E – принцип разложения фигур на элементы.

Культурно-свободный тест на интеллект Р. Кеттелла

Предназначен для измерения уровня интеллектуального развития независимо от влияния факторов окружающей среды (культура, образование и т.п.). Может применяться как для индивидуального, так и для группового обследования.

В данном пособии предложен вариант теста для детей 8-12 лет и взрослых, не имеющих высшего образования.

Тест состоит из двух частей, каждая из которых имеет четыре субтеста. Все задания имеют графическую форму.

Время выполнения каждого субтеста ограничено.

В стимульном материале перед каждой частью методики и перед каждым субтестом сформулированы инструкции. Все инструкции зачитываются вслух экспериментатором, который объясняет неясные моменты испытуемому.

Все тесты имеют примеры, и поэтому перед началом работы с тестом тестируемый учится решать задачи из "Примеров" вместе с исследователем, а затем допускается к решению тестовых задач в условиях определенного времени.

При решении заданий из пяти предложенных вариантов ответов, которые обозначены буквенно, надо выбрать только один правильный и отметить его в бланке ответов, вычеркнув соответствующую букву. Перед началом работы над каждым тестом экспериментатор засекает время. По его истечении он останавливает испытуемого с просьбой отложить в сторону бланк для ответов.

29.Использование комплексных тестов интеллекта (тест Векслера)

Тест Векслера (или Шкала Векслера) является одним из самых известных тестов для измерения уровня интеллектуального развития и разработана Дэвидом Векслером в 1939 году. Тест основан на иерархической модели интеллекта Д. Векслера и диагностирует общий интеллект и его составляющие - вербальный и невербальный интеллекты.

Тест Векслера состоит из 11 отдельныхсубтестов, разделенных на 2 группы, - б вербальных и 5 невербальных. Каждый тест включает от 10 до 30 постепенно усложняющихся вопросов и заданий. К вербальнымсубтестам относятся задания, выявляющие общую осведомленность, общую понятливость, способности, нахождение сходства, воспроизведения цифровых рядов и т. д. К невербальным субтестам относятся следующие: шифровка, нахождение недостающих деталей в картине, определение последовательности картин, сложение фигур. Выполнение каждого субтеста оценивают в баллах с их последующим переводом в унифицированные шкальные оценки, позволяющие анализировать разброс.

Выполнение каждого субтеста оценивают в баллах с их последующим переводом в унифицированные шкальные оценки, позволяющие анализировать разброс. Учитывают общий интеллектуальный коэффициент (IQ), соотношение «вербального и невербального» интеллекта, анализируют выполнение каждого задания. Количественная и качественная оценки выполнения испытуемым заданий дают возможность установить, какие стороны интеллектуальной деятельности сформированы хуже и как они могут компенсироваться. Низкий количественный балл по одному или нескольким субтестам свидетельствует об определенном типе нарушений. Выделяют качественные и количественные признаки, характерные для той или иной формы нервно-психической патологии.

30.Использование теста "Прогрессивные матрицы Равенна"

Чёрно-белые прогрессивные матрицы Равена (в оригинальном варианте) состоят из 60 матриц (размер 7,5^11 см.), в каждой из которых отсутствует один из составляющих её элементов. Обследуемый должен выбрать недостающий элемент матрицы среди 6-8 предложенных вариантов. Задания сгруппированы в 5 серий - А, В, С, D, Е, каждая серия состоит из 12 матриц.

Принцип «прогрессивности» в Стандартных матрицах реализуется двояким образом:

А) внутри каждой серии задания расположены с учётом их возрастающей сложности;

Б) все серии отличаются различной трудностью, которая возрастает от серии А к серии Е.

Возрастающая трудность заданий определяется:

Увеличением числа элементов в матрице;

Увеличением предлагаемых вариантов решения;

Усложнением логического принципа, лежащего в основе каждой композиции, который испытуемому необходимо понять, чтобы закономерно выбрать недостающий элемент.

Расположение матриц в определённой последовательности соответственно принципу возрастающей сложности мыслительных операций, необходимых для решения, не исключает варианта парциальной несформированности умственных операций у обследуемого. В этом случае профиль суммарных оценок за 5 серий не будет отражать нарастающую сложность.

Возможны два варианта в использовании Стандартных матриц Равена. Первый вариант - в качестве теста скорости, с ограничением времени выполнения заданий. Второй вариант использования матриц Равена в качестве теста интеллекта исключает введение временных ограничений.

Характеристика тестовых заданий

Сбор и статистическая обработка результатов тестирования

Для удобства обработки тестовых данных результаты заносятся в специальную таблицу – матрицу тестовых результатов. Работа с матрицей результатов тестирования представлена в практическом занятии 2 (с. 33).

По результатам апробационного тестирования определяются характеристики тестовых заданий – трудность, дискриминативность и валидность задания.

Трудность задания в классической теории тестов определяется через соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых, т.е. трудность задания – это доля учащихся, которые справились с заданием .


Трудность задания вычисляется по формуле

где p j - доля правильных ответов на j-ое задание; Y j - количество испытуемых, выполнивших j - ое задание верно, N - число испытуемых в группе, j - номер задания. Или в процентах, P j – трудность j – ого задания в процентах: .

В хорошо сбалансированном по трудности тесте есть несколько самых трудных заданий со значением . Есть несколько самых легких с . Остальные задания по значениям p занимают промежуточное положение между крайними ситуациями и имеют в основном трудность 60 - 70 % в критериально-ориентированном тесте и 40-60 % в нормативно-ориентированном.

Дискриминативность тестового задания

Дискриминативность (дифференцирующая способность, различающая способность) задания – это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых . Если задание одинаково выполняется и слабыми, и сильными, то можно говорить о низкой дискриминативности задания. Если задание выполняется сильными испытуемыми, а слабые дают отрицательный результат, то мы имеем высокую дискриминативность.

Высокая дискриминативность тестовых заданий важна для нормативно-ориентированных тестов, основная цель которых - ранжирование учащихся по уровню достижений.

Если индекс дискриминативности выше нуля (больше 0,3 считается удовлетворительным), а еще лучше стремится к 1, то это свидетельствует о том, что задание обладает хорошим (максимальным) дифференцирующим эффектом.

Для оценки дискриминативности задания будем использовать метод крайних групп , расчет по формуле:

Где – индекс дискриминативности для j-ого задания теста; (P 1) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (P 0) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% худших учеников по результатам выполнения теста.

Индекс дискриминативности изменяется в пределах [-1; 1]. Максимального значения он достигает в том случае, когда все ученики из подгруппы сильных верно выполняют данное задание, а из подгруппы слабых это задание не выполняет верно никто. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения индекс дискриминативности достигает тогда, когда в обеих подгруппах доли учеников, справившихся с заданием равны. Соответственно дифференцирующего эффекта нет вообще. Значение меньше 0 будет в ситуации, когда данное задание теста слабые ученики выполняют успешнее, чем сильные. Естественно, что задания, у которых индекс дискриминативности равен или ниже нуля необходимо удалить из теста (табл. 6).



С помощью подсчета значений бисериальной или точечно-бисериальной корреляции также оцениваетсявалидность отдельных заданий теста. В целом задание можно считать валидным, если r pbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно. Если цель – дифференциация учеников по уровню подготовленности, то валидные задания должны четко отделить хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Значения r pbis близкие к нулю, указывают на низкую дифференцирующую способность заданий теста. Все задания у которых r pbis <0, подлежат удалению из теста, так как на эти задания верно отвечают слабые ученики, а сильные либо ошибаются либо пропускают это задание.

Таблица 6

№ задания P j для всех испытуемых Группа Индекс r дис
P j для слабой P j для сильной
21,0 6,5 32,0 0,26
94,0 90,0 97,0 0,065
64,0 42,0 97,0 0,55
59,0 68,0 58,0 -0,097
27,0 16,0 29,0 0,13
70,0 29,0 94,0 0,65
30,0 13,0 42,0 0,29
12,0 9,7 16,0 0,065
33,0 16,0 52,0 0,35
73,0 42,0 90,0 0,48

Анализ качества дистракторов в заданиях закрытой формы

Одно из важнейших требований, которое предъявляется к заданиям закрытой формы – это правдоподобность дистракторов равноценная вероятность выбора дистрактора при неправильном ответе. Оценка качества дистрактора называется дистракторным анализом.

Дистракторный анализ предполагает подсчет долей испытуемых, выбравших каждый дистрактор. В идеальном варианте каждый дистрактор должен выбираться в равной доле от всех неправильных ответов. В таблице 7 показано идеальное распределение долей.

Таблица 7

№ задания 1 ответ 2 ответ* 3 ответ 4 ответ
j 0,1 0,7 0,1 0,1

В таблице 8 показано, что правильно выполнили задание (выбрали 2-й ответ) 70 % испытуемых. Остальные 30 %, которые дали неправильные ответы, равномерно выбрали 1, 3, 4 ответы, т.е. в задании были даны равновероятные дистракторы.

В предыдущей статье были рассмотрены девять принципов разработки содержания педагогических тестов. В фокусе этой статьи - десятый принцип: возрастающая трудность заданий теста.

Если педагогический тест определить кратко как систему заданий равномерно возрастающей трудности, то станет понятно, что трудность заданий является важнейшим, скажем так, тест образующим показателем. Немало руководителей школ считают, что их учителя в состоянии "придумать" за короткое время могут сколько угодно "тестов". На самом же деле можно придумать довольно много заданий в тестовой форме. А совсем не тесты, а только задания. Их нельзя включать в настоящий тест до тех пор, пока не станет известной мера их трудности, а также и другие характеристики. Мера трудности проверяется эмпирически. Из этого требования становится понятной обязательность предварительной эмпирической проверки каждого задания, до начала тестирования. В процессе проверки многие задания не выдерживают предъявляемых к ним требований, и потому не включаются в тест. Первое требование к тестовым заданиям: в тесте задания должны различаться по уровню трудности, что вытекает из данного ранее определения теста и рассматриваемого принципа.

Внимательный читатель вероятно уже уловил различия в лексике трех как бы "незаметно" введенных здесь основных понятий теории педагогических измерений: понятие педагогического теста, задания в тестовой форме и тестового задания. Требования к первому из них уже было рассмотрено в статье "Определение педагогического теста" (УШ № 30, август 1999г.).

Требования ко второму понятию лучше ввести сейчас, сделав это хотя бы кратко перечислив их, для того чтобы не отвлечься от основной темы статьи. К заданиям в тестовой форме предъявляются следующие требования:

Краткость;

Технологичность;

Правильность формы;

Правильность содержания

Логическая форма высказывания;

Одинаковость правил оценки ответов;

Наличие определенного места для ответов;

Одинаковость инструкции для всех испытуемых;

Правильность расположения элементов задания;

Аванесов В.С. Основы педагогической теории измерений // Педагогические Измерения, 1, 2004г. С. 17.

Подробное истолкование этих требований последует в следующих статьях, а сейчас хотелось бы обратить внимание читателя на то, что здесь нет требования известной трудности задания, в то время как к тесту и к тестовому заданию такое требование предъявляется. Из размышления над этим и ранее опубликованным материалом можно сделать два вывода. Первый - что в тесте нет места заданиям с неизвестной мерой трудности. И второй - что не все предлагаемые задания в тестовой форме могут стать тестовыми заданиями: это разные понятия. В первом понятии самыми существенными являются требования содержания и формы. К тестовым же заданиям в первую очередь предъявляется требование известной трудности, то, что явно не требуется у заданий в тестовой форме. Можно повторить, что задания имеют шанс стать тестовыми только после эмпирической проверки меры их трудности, на типичных группах испытуемых.

Показатель трудности теста и тестовых заданий является содержательным и формальным одновременно. Содержательным, потому что в хорошем тесте трудность может зависеть только от трудности содержания заданий и от уровня подготовленности самих испытуемых. В то время как в плохом тесте на результаты начинают заметно влиять форма заданий (особенно если она не адекватна содержанию), плохая организация тестирования, если имеются возможности списывания, утечки информации. Особого упоминания в этой связи заслуживает вредная практика нацеленной подготовки учащихся единому государственному экзамену. Педагогов, занимавшихся таким делом, министр образования России 1907 года И.Толстой называл натаскивателями. Но педагоги виноваты менее всего. Виновата ошибочная система "егирования", которая подталкивает к такой ошибочной практике. Каков контроль, таково и образование.

Формальная составляющая сторона показателя трудности возникает при рассмотрении тестирования как процесса противоборства испытуемого с предлагаемым ему заданием. Получаемый при этом исход полезно рассматривать как результатменно такого противоборства. При упрощенном истолковании каждого случая предъявления задания часто, но совсем ен обязательно рассматриваются два исхода: победа испытуемого при правильном решении задания, где он получает один балл, или поражение, за что даётся ноль баллов. Оценка результата противоборства зависит от соотношения уровня знания тестируемого к уровню трудности задания, от избранной единицы измерения знаний и от заранее принятого правила (конвенции) - что считать "победой" испытуемого, и допустима ли ничья, если говорить языком спорта.

Принцип возрастающей трудности используется при изложении содержания многих учебников и пособий, особенно по тем учебным дисциплинам, которые построены по кумулятивному принципу, что означает: знание последующих элементов курса в явном виде зависит от знания предыдущих учебных элементов. Такое построение присуще учебникам по математике, логике, иностранным языкам, статистике, техническим и многим другим наукам. В них ранее изученные понятия активно используются в последующих темах. Поэтому изучать такие дисциплины нужно только с самого начала, и без пробелов.

Большинство авторов, особенно зарубежных, не делают различий между понятиями "трудность" и "сложность". Многие разработчики тестов - то же. Однако есть работы, в которых эти понятия определяются различно. Например, А.Н.Захаров и А.М.Матюшкин отмечают, что степень трудности учебного задания не совпадает с его сложностью. Степень сложности учебного материала характеризуется реальной (объективной) насыщенностью учебного задания и формой его изложения, а степень трудности всегда предполагает соотнесение подлежащего усвоению учебного материала с ранее усвоенным учебным материалом и интеллектуальными возможностями учащихся (1).

Л.Н. Ланда объяснял трудность учебной задачи тем, что учащиеся часто не знают тех операций, которые надо производить, чтобы найти решение. Если систему операций для решения некоторого класса задач назвать методом решения, то, по его мнению, трудность связана с незнанием метода, с незнанием, как нужно думать в процессе решения, как и в какой последовательности надо действовать с условиями задачи (2). Возникающие затруднения объясняются тем, что педагог часто старается дать знания о содержании изучаемого и значительно меньше заботится о том, как надо думать, рассуждать (там же). Подобное истолкование пересекается с идеей о связи сложности задания с числом операций, которые необходимо совершить для достижения успеха. Эти определения трудности и сложности являются, по большей части, психологическими; они полезны при психологическом анализе содержания тестовых заданий.

Традиционной мерой трудности каждого задания долгие годы была доля правильных ответов в группе испытуемых, изображаемая символом p j , где индекс j указывает на номер интересующего задания (1, 2 и т. д.). Например, если правильные ответы испытуемых на третье задание теста оценивать одним баллом, а неправильные - нулем, то значение показателя p 3 можно найти из элементарного отношения:

P 3 = R 3 /N,

где R 3 означает число правильных ответов на данное задание, а N - общее число испытуемых в группе. Общая формула расчета доли правильных ответов на любое задание (j) имеет соответственно вид

p j = R j / N

Показатель p j . долго использовался в качестве меры трудности в так называемой классической теории тестов (3). Позже была осознана содержащаяся в ней смысловая неточность: ведь увеличение значения p j указывает не на возрастание трудности, а, наоборот, на возрастание легкости, если можно использовать такое слово. Поэтому в последние годы с показателем трудности заданий стали ассоциировать противоположную статистику - долю неправильных ответов (q j). Эта доля вычисляется из отношения числа неправильных ответов (Wj- от англ слова Wrong - неправильный) к числу испытуемых (N):

q j = W j / N

Естественным образом принимается, что p j + q j = 1. В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах психологических и педагогических теорий тестов больше внимание стало уделяться характеру умственной деятельности учащихся в процессе выполнения тестовых заданий различных форм (4).

Содержание теста не может быть только легким, средним или трудным. Здесь в полной мере проявляется известная мысль о зависимости результатов применяемого метода. Легкие задания теста создают только видимость наличия знаний у учащихся, потому что ими проверяются минимальные знания. В этой связи можно заметить, что ориентация федерального органа управления образованием на проверку минимального уровня знаний не дает, и не может, даже по определению, дать представление о реальном уровне знаний, т.е. дать ту информацию, которая давно уже нужна обществу и органам управления. Искажает результаты тестирования и подбор заведомо трудных заданий, в результате чего у большинства школьников оказываются заниженные баллы. Ориентация на трудные задания нередко рассматривается как средство усиления мотивации к учебе. Однако это средство действует неоднозначно. Одних трудные задания могут подтолкнуть к учебе, других - оттолкнуть от нее. Подобная ориентация искажает результаты и в итоге, снижает качество педагогического измерения. Если тест построен строго из заданий возрастающей трудности, то этим открывается путь к созданию одной из самых интересных шкал измерения - шкалы Л. Гутмана.

При определении теста уже отмечалось, что все задания теста, хотелось бы подчеркнуть, независимо от содержания тем, разделов и от учебных дисциплин, располагаются в порядке возрастающей трудности. Распространенная, до недавнего времени, рекомендация включать в тест больше заданий средней трудности, оправдана с точки зрения определения надежности измерения по формулам т.н. классической теории тестов. Существующие в этой теории методы оценки надежности теста дают снижение надежности при включении в тест легких и трудных заданий. В то же время увлечение заданиями одной только средней трудности приводит к серьезной деформации содержания теста: последний теряет способность нормально отображать содержание изучаемой дисциплины, в которой всегда есть легкий и трудный материал. Таким образом, в погоне за абстрактной теоретически высокой надежностью теряется содержательная валидность тестовых результатов. Стремление же поднять валидность результатов теста нередко сопровождается снижением их точности. Этот феномен в теори известен как парадокс теоретика американской психометрики Ф.Лорда

Если тестируется слабая, по подготовленности, группа учащихся, то оказывается, что трудные задания теста просто не работают, потому что ни один учащийся не может правильно на них ответить. Такие задания из дальнейшей обработки данных изымаются. В адаптивных контролирующих системах они не предлагаются. Содержание теста для слабых учащихся будет заметно отличаться от содержания теста для сильных учащихся. У последних, наоборот, не работают легкие задания, так как все знающие испытуемые на легкие задания отвечают правильно. Таким образом, содержание традиционного теста существенным образом варьирует в зависимости от уровня подготовленности тех групп учащихся, на измерение знаний которых нацелен тест.

Оптимальное отображение содержания учебного материала в тестовые задания требуемого уровня трудности предполагает возможность выбора подходящей формы. Содержание теста выражается в одной из четырех основных форм заданий. Это: 1) задания с выбором одного или нескольких правильных ответов из числа предложенных; 2) задания открытой формы, где ответ испытуемый дописывает сам, в отведенном для этого месте; 3) задания на установление соответствия, и 4) задания на установление правильной последовательности действий.

Литература

1. Захаров А.И., Матюшкин А.М. Проблемы адаптивных систем обучения // Кибернетика и проблемы обучения. - М.: Прогресс, 1970.- 389с.

2. Ланда Л.Н. Алгоритмизация в обучении. М ., Просвещение , 1966

3. Gulliksen H. Theory of Mental Tests. N - Y. Wiley. 1950 - 486 p. и мн. др.

4. Tatsuoka, K.K. Item construction and psychometric models appropriate for constructed response. Prinston, N-J, 1993. - 56 pp; Frederiksen, N., Mislevy R.J., Bejar I. J. (Eds). Test theory for a new generations of tests. Lawrence Erlbaum Ass. Publ. 1993, Hillsdale, N-J, 404pp. и др .

Составитель заданий к тестам не должен забывать, что тестовые задания по своей трудности есть нечто противоположное так называемым творческим, или «олимпиадным», заданиям. Если для «олимпиад» уместны трудные задания, позволяющие дифференцировать прежде всего лучших от самых лучших, то для тестов нужны элементарные задания, позволяющие скорее дифференцировать неподготовленных (худших) от умеренно подготовленных («середнячков»). Кроме того, следует учесть, что тесты даются с ограничением времени: на 20 заданий отводить целесообразно не более 10 минут. Лучший балл здесь показывает тот, кто уверенно и быстро применяет базовые знания, кто способен показать хороший умственный темп, высокую степень автоматизации основных навыков, «свернутость» понятий и умственных операций. Хороший ориентир в том, какой трудности должны быть тестовые заданий, может быть сформулирован так:

БЕЗ ОГРАНИЧЕНИЙ ВРЕМЕНИ ОТЛИЧНИК ДОЛЖЕН УМЕТЬ ОТВЕТИТЬ НА ВСЕ 100 ПРОЦЕНТОВ ТЕСТОВЫХ ЗАДАНИЙ, НО ПРИ ОГРАНИЧЕНИИ ВРЕМЕНИ ОТЛИЧНИК СО СРЕДНИМ УМСТВЕННЫМ ТЕМПОМ ДОЛЖЕН ОТВЕТИТЬ ТОЛЬКО НА 70-80 ПРОЦЕНТОВ ТЕСТОВЫХ ЗАДАНИЙ.

Самый эффективный метод выяснения трудности заданий - проведение пилотажного эксперимента. К этому эксперименту можно, например, привлекать учеников из более старшего класса, для которых он может стать хорошим поводом повторить материал и выяснить пробелы перед экзаменами.

Скорость ПИЛОТИРОВАНИЯ теста и расчета трудности заданий значительно возрастает, если учитель располагает компьютерным классом и специализированной программой для оперативного тестирования, такой, например, как ТЕСТАН («Гуманитарные технологии», МГУ). При помощи специализированного редактора-формуляра этой программы легко ввести в компьютер сами тексты заданий, тесты вариантов ответа, ключи, интерпретационные сообщения. Копирование с дискету на дискету (или встроенные диски компьютеров) - самый быстрый и доступный метод размножения теста. В любой момент после сбора группы протоколов можно включить режим обработки данных и расчета тестовых норм. Тренинговый режим программы позволяет тут же выдавать на экран объяснения для ученика, допустившего ошибку.