Убийственные большие данные. Как математика превратилась в оружие массового поражения - Дегтярева Виктория Анатольевна страница 2.

Шрифт
Фон

Однако в конце 2010–2011 учебного года Высоцки получила крайне низкий результат в тесте IMPACT. Проблема заключалась в новой системе подсчета, известной как моделирование коэффициента улучшения знаний учеников, которая оценивала эффективность преподавания математики и языковых навыков. Этот результат, выданный алгоритмом, составлял половину общей оценки Сары Высоцки – и он перевесил положительные оценки со стороны школьной администрации и местного сообщества. У округа не осталось выбора, кроме как уволить ее вместе с другими 205 учителями, результат теста у которых оказался ниже минимального порога.

Это не выглядело ни охотой на ведьм, ни сведением счетов. В таком подходе городского школьного совета есть логика. В конце концов, администраторы могут просто дружить с очень плохими учителями. Они могут восхищаться их стилем или лояльностью. Плохие учителя вполне могут производить впечатление хороших. И в Вашингтоне, как и во многих других школьных округах, минимизировали фактор человеческой предвзятости и сосредоточились на результатах, основанных на объективных данных: достижения детей в математике и чтении. Официальные лица пообещали, что цифры будут говорить сами за себя, что цифры более справедливы.

Разумеется, Высоцки посчитала цифры ужасно несправедливыми и захотела узнать, откуда они взялись. «Я не думаю, что кто-либо понимал это», – позже сказала она мне. Как хороший учитель может получить такой ужасный результат? В чем заключалась система подсчета увеличения коэффициента знаний учеников?

Дело оказалось весьма запутанным. Школьный округ пригласил консалтинговую компанию Mathematica Policy Research (MPR) из Принстонского университета, чтобы она помогла разработать критерии оценки. Задачей MPR было оценить прогресс в образовании учеников округа, а затем подсчитать, в какой степени улучшение или ухудшение их результатов зависело от учителей. Задача, конечно, была непростой. Исследователи знали, что на результаты может повлиять множество факторов, от социально-экономической ситуации до специфических индивидуальных нарушений способности к обучению. Алгоритмы MPR должны были учитывать эти факторы, и это было одной из причин, по которой они оказались такими сложными.

И в самом деле, попытки вместить человеческое поведение, деятельность и потенциал в алгоритмы – это непростая работа. Чтобы понять, с чем пришлось столкнуться MPR, представьте себе десятилетнюю девочку, которая живет в бедном квартале на юго-востоке города Вашингтон. В конце учебного года она сдает стандартизированный тест для пятого класса. После этого ее жизнь продолжается. У нее могут появиться семейные или финансовые проблемы. Она может переехать в другой дом или переживать за брата, у которого возникли проблемы с законом. Она может страдать из-за собственного лишнего веса или бояться какого-нибудь школьного хулигана. В любом случае в следующем году она сдает еще один стандартизированный тест, теперь уже предназначенный для шестиклассников.

Если вы сравните результаты двух тестов девочки, количество набранных баллов должно остаться стабильным или, в лучшем случае, увеличиться. Но если она наберет меньше баллов, чем в прошлом году, будет очень просто увидеть разницу между ее результатами и результатами более успешных учеников.

Но насколько эта разница возникла по вине учителя? Сложно сказать, и модели MPR располагают лишь несколькими числами для сравнения. В компаниях Больших данных, таких как Google, напротив, исследователи проводят постоянные тесты и отслеживают тысячи переменных. Они могут изменить шрифт рекламного объявления с синего на красный, испытать каждую версию на десяти миллионах пользователей и отследить, на какую из версий пришлось больше кликов. Они используют этот отклик, чтобы оттачивать свои алгоритмы и их действия. И хотя у меня есть много претензий к Google (до этого мы еще доберемся), нельзя не признать, что такой тип тестирования – это эффективное использование статистики.

Попытка подсчитать, какое воздействие один человек может иметь на другого в течение учебного года, – гораздо более сложная задача. «Есть столько факторов, которые вмешиваются в процесс обучения, что проанализировать их крайне сложно», – говорит Высоцки. Более того, попытка оценить эффективность учителя, проанализировав результаты тестов всего лишь 25 или 30 учеников, статистически несостоятельна и просто смехотворна. Эти числа слишком малы, учитывая потенциальное количество вариантов, в которых «что-то пошло не так». В самом деле, если бы мы анализировали учителей со статистической тщательностью интернет-поисковика, нам пришлось бы привлечь для теста тысячи или даже миллионы случайно выбранных учеников. Специалисты по статистике оперируют большими числами, чтобы сбалансировать исключения и аномалии. (И ОМП, как мы увидим, зачастую наказывает тех, кто оказывается исключением.)

Что не менее важно, статистические системы требуют ответной реакции – чтобы вовремя увидеть, что алгоритмы сбились с курса. Специалисты по статистике используют ошибки, чтобы «натренировать» свои модели и сделать их более интеллектуальными. Если Amazon.com в результате ошибочной корреляции начнет предлагать девочкам-подросткам книги по уходу за лужайками, количество кликов резко снизится – и алгоритм будет оттачиваться, пока заново не настроится. Без обратной связи, однако, статистический механизм может и дальше работать с ошибками и искажать анализ, при этом не обучаясь на этих ошибках.

Многие компоненты ОМП, которые я буду обсуждать в этой книге, включая систему оценки прогресса учеников, введенную школьным округом Вашингтона, ведут себя именно так. Они предлагают собственное определение реальности и исходят из него, чтобы оправдать свои результаты. Это самовозобновляющийся, крайне деструктивный – и весьма распространенный тип модели.

Когда система оценивания MPR объявляет Сару Высоцки и 205 других учителей бездарностями, город их увольняет. Но откуда система узнает, что она выдала правильный результат? Ниоткуда. Сама система определила их как бездарностей – и именно в таком качестве они и рассматриваются. Двести шесть «плохих» учителей уходят. Один этот факт призван продемонстрировать эффективность оценивающей модели – ведь она избавляет школьный округ от недостаточно хорошо работающих учителей. Вместо того чтобы искать правду, система оценки становится ее воплощением.

Это один из примеров петли обратной связи ОМП. В этой книге мы увидим и множество других примеров подобных петель. Работодатели, например, все более широко используют кредитную историю соискателей для оценки потенциальных новых работников. Считается, что люди, которые вовремя платят по кредитам, с большей вероятностью будут следовать правилам и не опаздывать на работу. На самом деле есть множество ответственных людей и хороших работников, которым случалось пережить неудачное стечение обстоятельств, от которых пострадала их кредитная история. Но убеждение в том, что плохая кредитная история коррелирует с плохим исполнением рабочих обязанностей, оставляет людям, имевшим проблемы с выплатами кредитов, гораздо меньше шансов найти работу. Безработица подталкивает их к бедности, что еще сильнее ухудшает их кредитную историю – и еще сильнее понижает шансы на получение работы. Это спираль, ведущая вниз. Работодатели никогда не узнают о том, какое количество хороших работников они потеряли из-за того, что сосредоточились на кредитной истории кандидатов. В ОМП многие вредные установки прикрываются математикой – и с этого момента практически не проверяются и не подвергаются критическому анализу.

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке