Вопросы определения качества данных при моделировании поведения пользователей в образовании

21 June 2018 -2 mins read time
Большие данные Интеллектуальный анализ образовательных данных

Аудитория: специалисты-практики, педагоги.

Заблуждение «грубой вычислительной силы»

Хотя появление «больших данных» (Big Data) и науки о данных (data science) породило убеждение, что наборы данных популяционного масштаба по своей сути позволяют создавать модели с более высокой степенью обобщающей способности, данное исследование утверждает: не все данные созданы равными. В контексте образовательного моделирования — в частности, для платформы Carnegie Learning Cognitive Tutor Algebra (CTA) — исследование демонстрирует, что принцип «больше» не обязательно означает «лучше». Напротив, тщательно отобранная часть образовательных данных может эффективно представлять весь исходный массив; это позволяет предположить, что стратегии машинного обучения должны сместить акцент с неизбирательного поглощения данных на выявление высококачественных подмножеств. Для руководителей это открывает путь к критически важной эффективности: снижение уровня «шума» в «больших данных» посредством избирательного включения информации позволяет создавать более надежные и практически применимые модели поведения учащихся, избегая при этом накладных расходов на обработку низкокачественных сигналов.

Выявление сегментов данных с высокой полезностью

В рамках исследования проверялась гипотеза о том, могут ли внешние метаданные — такие как местоположение школы, ее размер или социально-экономический статус (СЭС) — служить эффективными факторами группировки для тонкой настройки моделей. Любопытно, что традиционные демографические маркеры, подобные географическому расположению школы или соотношению числа учеников и учителей, оказались статистически незначимыми для точности прогнозирования. Наиболее ценными («качественными») данными оказались внутренние метрики использования системы и показатели, полученные непосредственно из модели, — в частности, среднее количество учебных модулей, пройденных учеником, а также параметры «сдвига» (intercept) и «наклона» (slope) кривой освоения навыка. Это позволяет предположить, что поведенческая вовлеченность и усердие являются более надежными предикторами, нежели статичные демографические данные. Выполнив кластеризацию школ на основе этих факторов, ориентированных на показатели эффективности, авторы исследования выявили «четко обособленную» группу школ с высокой интенсивностью использования системы; эта группа эффективно послужила оптимальным обучающим набором данных для моделирования поведения всей более широкой популяции учащихся.

Операционные выводы: курирование данных как конкурентное преимущество

Полученные результаты подтверждают «рабочую гипотезу» о том, что качество данных является функцией степени вовлеченности и усердия пользователя. Школы с большим количеством учащихся или низким социально-экономическим статусом (СЭС) часто демонстрировали более низкий уровень вовлеченности в работу с тьютором; это приводило к появлению «некачественных» данных, которые существенно ухудшали производительность модели. Следовательно, эффективная стратегия машинного обучения для высшего руководства предполагает избирательный подход к включению данных: приоритет отдается данным от «состоявшихся» пользователей, которые соответствуют рекомендованным пороговым значениям активности (например, 48 часов за семестр). Применяя избирательный, а не всеохватывающий подход, организации могут создавать модели, которые не только отличаются большей точностью, но и более полно отражают те учебные цели, ради достижения которых и разрабатывалась данная технология.

Подготовлено с помощью ИИ и проверено на точность 🤖

Слайды