Искусственный интеллект всё чаще выступает в роли медицинского советчика, и люди обращаются к нему с вопросами о здоровье. Недавнее исследование показало неожиданный результат: участники эксперимента не смогли отличить советы врачей от рекомендаций, созданных алгоритмами. Более того, они склонялись к тому, чтобы больше доверять машинным ответам, даже когда те содержали ошибки. Почему это происходит и какие риски таит подобное доверие? Разбираемся в деталях нового научного открытия, опубликованного в журнале NEJM AI.
Как проходило исследование доверия к цифровым консультантам
Авторы работы решили проверить, насколько хорошо обычные люди различают медицинские рекомендации от живых специалистов и те, что генерируются языковыми моделями. Команда учёных собрала 150 анонимных вопросов с форума HealthTap, охватывающих шесть областей медицины.
Затем исследователи использовали GPT-3 для создания альтернативных ответов на каждый из этих запросов. Четыре врача оценили точность машинных рекомендаций, разделив их на высокоточные и содержащие неточности. В экспериментах приняли участие три группы по сто человек, каждая из которых выполняла свою задачу.
- первая группа пыталась определить источник ответа (врач или алгоритм);
- вторая оценивала понятность, достоверность и полноту информации;
- третьей сообщали предполагаемый источник рекомендации, после чего просили дать оценку.
Участники отвечали на вопросы о том, станут ли они искать дополнительные сведения, последуют ли совету и обратятся ли за медицинской помощью. Результаты оказались весьма показательными.
Почему люди предпочитают советы алгоритмов врачебным
Участники эксперимента не сумели эффективно различить ответы, созданные искусственным интеллектом, и рекомендации медицинских специалистов, но продемонстрировали явное предпочтение машинным вариантам.
Высокоточные рекомендации алгоритмов получили значительно более высокие оценки по параметрам достоверности, надёжности и полноты по сравнению с другими типами ответов. Интересно, что даже низкоточные машинные советы оценивались примерно так же, как и рекомендации врачей.
Возможно, дело в том, что языковые модели формулируют ответы более структурированно и подробно? Алгоритмы не спешат, не устают и не экономят слова. Каждый ответ выглядит тщательно проработанным, что создаёт впечатление компетентности. А может, люди просто не привыкли сомневаться в технологиях, которые кажутся им объективными и беспристрастными.
Опасная сторона чрезмерного доверия к технологиям
Самое тревожное открытие заключается в том, что участники не только считали низкоточные машинные рекомендации столь же заслуживающими доверия, как и советы врачей, но и демонстрировали высокую готовность следовать потенциально вредным медицинским указаниям. Более того, они склонны были ошибочно обращаться за ненужной медицинской помощью на основании таких ответов.
Представьте ситуацию: человек получает неверный совет, который звучит убедительно, и начинает действовать по нему. Последствия могут варьироваться от напрасной траты времени до реального вреда здоровью. Неправильный диагноз, отсрочка необходимого лечения или, наоборот, излишние медицинские процедуры — всё это становится возможным.
Эксперты и обычные участники сходились во мнении, что машинные ответы кажутся более тщательными и точными, чем те, что дают живые специалисты. Однако люди всё же ценили участие врача в процессе предоставления медицинских рекомендаций. Когда участникам сообщали, что высокоточный ответ дан доктором, их доверие возрастало ещё больше.
Применение языковых моделей в медицинской сфере
За последние годы использование искусственного интеллекта в здравоохранении выросло многократно. Алгоритмы анализируют рентгеновские снимки, помогают в диагностике психических расстройств, участвуют в разработке лекарств. Одно из самых популярных применений — ответы на вопросы пациентов.
Прежние исследования показали, что ChatGPT способен создавать более качественные и эмпатичные ответы по сравнению с живыми докторами. В области диагностики алгоритмы тоже проявили себя неплохо: в одном эксперименте они превзошли врачей, работающих самостоятельно. Когда же специалисты использовали помощь технологий, их результаты сравнялись с результатами самих алгоритмов, и обе группы опередили врачей без поддержки.
Но есть нюанс. Ответы на форумах вроде HealthTap часто даются врачами добровольно, в свободное время, и могут быть менее детальными, чем консультации на приёме. Вполне вероятно, что в условиях реальной клинической практики, где специалисты стремятся дать максимально полный ответ, соотношение качества могло бы измениться.
Что означают результаты для будущего медицинских консультаций
Исследование ставит важные вопросы о роли технологий в здравоохранении. С одной стороны, алгоритмы могут стать ценным инструментом для предоставления быстрых и структурированных рекомендаций. С другой — чрезмерное доверие к ним без критической оценки может привести к серьёзным последствиям.
Авторы работы подчёркивают: повышенное доверие к неточным или неуместным машинным советам способно привести к неправильному диагнозу и вредным последствиям для тех, кто ищет помощи. Эксперты оценивали ответы алгоритмов значительно выше, когда не знали их источника. Это говорит о том, что предвзятость работает в обе стороны — и в пользу технологий, и в пользу специалистов, в зависимости от контекста.
Нужен баланс. Технологии могут дополнять работу врачей, но не заменять их полностью.
Важно развивать у людей критическое мышление и учить их проверять информацию, особенно когда речь идёт о здоровье. Возможно, стоит разработать системы, которые явно указывают на ограничения алгоритмов и напоминают о необходимости консультации с живым специалистом в серьёзных случаях.
Исследование раскрывает неожиданную закономерность: люди склонны переоценивать надёжность цифровых советников в медицинских вопросах. Высокоточные рекомендации алгоритмов действительно могут быть полезными, но неточные ответы получают незаслуженное доверие, сравнимое с тем, которое оказывается врачам. Это создаёт риски для здоровья и требует внимательного отношения как со стороны разработчиков технологий, так и со стороны пользователей. Критическая оценка информации и понимание ограничений искусственного интеллекта становятся важными навыками в эпоху, когда машины всё чаще выступают в роли советчиков.