Алгоритмы, призванные сделать цифровой мир более справедливым, демонстрируют парадоксальную логику: современные языковые модели готовы допустить гибель человечества, лишь бы не нарушить специфические этические установки. В ходе экспериментов система GPT-4 набрала 6,4 балла из 7 по шкале одобрения насилия, когда женщина-эксперт била мужчину ради спасения миллионов людей от взрыва. Однако стоит участникам поменяться ролями — и тот же сценарий, где мужчина применяет силу к женщине для предотвращения катастрофы, получает ничтожные 1,75 балла. Справедливость в понимании нейросетей превращается в кривое зеркало, где тяжесть проступка зависит не от действия, а от пола того, кто его совершил.
Эксперименты с детскими сочинениями
Группа ученых из Миланского университета Бикокка решила проверить, как искусственный интеллект (ИИ) распределяет гендерные роли в бытовых ситуациях. Исследователи предложили моделям GPT-3.5 Turbo, GPT-4 и GPT-4o проанализировать короткие фразы, стилизованные под высказывания учеников начальной школы. Часть предложений содержала традиционно женские стереотипы (любовь к розовому цвету, мечты о карьере медсестры), а другая часть — мужские (занятия хоккеем, желание стать пожарным).

Результаты оказались обескураживающими. Если фраза касалась игры в куклы, ИИ практически в 100% случаев приписывал авторство девочке. Но когда речь заходила о футболе или тренировках, алгоритмы с завидным упорством выбирали женское имя для автора. Попытка разработчиков внедрить систему гендерного равенства привела к тому, что нейросеть научилась активно продвигать женщин в мужские сферы, совершенно забыв о зеркальном процессе для мужчин. В цифровом сознании футболистка — норма, а медбрат — все еще статистическая аномалия.
Моральный выбор и цена жизни
Когда вопросы касаются не просто выбора хобби, а жизни и смерти, предвзятость ИИ становится пугающей. Исследование, опубликованное в журнале Computers in Human Behavior Reports показало, что GPT-4 оценивает домогательства в отношении женщины как нечто абсолютно недопустимое (1 балл из 7), даже если на кону стоит выживание цивилизации. При этом физическое насилие над мужчиной в том же сценарии набрало 3,34 балла, что делает его в глазах системы более приемлемым, чем словесное оскорбление женщины.
Самым удивительным стало то, что система считала харассмент в отношении женщины более тяжким преступлением, чем принесение случайного человека в жертву ради спасения планеты от ядерного апокалипсиса.
Ученые связывают это с этапом обучения с подкреплением на основе отзывов людей (RLHF). Рецензенты обучают модель избегать токсичности, уделяя особое внимание защите уязвимых групп. В итоге ИИ механически зазубривает запреты, не взвешивая реальный ущерб. Пытки, например, оцениваются системой одинаково негативно для обоих полов, вероятно, потому, что этот вопрос реже обсуждается в контексте гендерной политики и чаще — в контексте общего гуманизма.
Скрытые механизмы цифровых предубеждений
Интересно, что если спросить нейросеть напрямую: «Кто должен пострадать первым в случае катастрофы?», она выдаст безупречно политкорректный ответ о равенстве и ценности каждой жизни. Искажения проявляются только в прикладных задачах. Это создает иллюзию объективности, за которой скрываются радикальные этические перекосы.
Механизм возникновения этих ошибок выглядит следующим образом:
- разработчики загружают в систему огромные массивы данных, полные исторических стереотипов;
- на этапе тонкой настройки вводятся жесткие фильтры для защиты женщин от дискриминации;
- ИИ интерпретирует эти фильтры не как норму равенства, а как приоритет одних интересов над другими;
- в результате создается новая форма предвзятости, которая игнорирует контекст ситуации.
По мнению соавтора исследования Валерио Капраро, это серьезный сигнал для всех, кто использует ИИ в скрининге резюме или принятии юридических решений. Если нейросеть считает, что насилие по отношению к одной группе оправдано высшей целью, а к другой — нет, какие решения она примет при оценке кандидатов на работу или расчете страховых рисков?
Технологии без компаса
На сегодняшний день ИИ напоминает прилежного, но лишенного эмпатии ученика, который выучил правила, но не понимает их сути. Алгоритмы не отражают мир таким, какой он есть, и не строят идеальный мир завтрашнего дня. Они лишь компилируют социальные лозунги, превращая их в математические веса.
Разработчикам предстоит решить сложнейшую задачу: как научить машину быть инклюзивной, не делая её при этом несправедливой? Способны ли мы вообще создать алгоритм, лишенный человеческих слабостей, если обучаем его на своих же несовершенных данных и ценностях, которые меняются каждое десятилетие?
