На первый взгляд, кажется, что современные ИИ-модели способны решать любую задачу — особенно в медицине, где важна точность и понимание сути. Однако недавние исследования показали обратное: даже самые продвинутые системы начинают «теряться», если медицинский вопрос немного переформулировать. Пара изменённых слов — и точность ответов резко падает. Это ставит под сомнение надёжность таких моделей в реальных условиях, где формулировки редко бывают идеальными. Как устроены эти тесты, почему ИИ так уязвим перед языковыми изменениями и что из этого следует — об этом расскажет статья.
Как устроено тестирование ИИ на медицинских вопросах
В последние годы крупные языковые модели всё чаще начинают применять в области медицины — от поддержки врачей до автоматизированной диагностики. Чтобы оценить их пригодность, используются тесты, имитирующие реальные медицинские ситуации. Чаще всего это вопросно-ответные сессии, построенные на базе авторитетных медицинских источников, таких как экзаменационные задачи для студентов-медиков или клинические кейсы.
Особенность таких тестов — строгость формулировок и опора на фактические знания. Модели проверяют на способность отвечать на медицинские вопросы, максимально приближённые к тем, с которыми сталкиваются врачи на практике.
Например, система может получить вопрос: «Пациент с выраженной одышкой и хрипами. Какое первичное вмешательство необходимо?» — и должна выбрать правильный вариант ответа из нескольких.
Однако исследования показали, что стоит лишь немного переформулировать задачу, не меняя её сути — и даже самые мощные модели начинают ошибаться.
Почему даже топовые модели «проваливаются» на переформулированных задачах
Команда исследователей из клиники Майо и Университета Джонса Хопкинса провела масштабный эксперимент с четырьмя крупнейшими ИИ-системами, включая GPT-4. Им давали две версии одного и того же медицинского вопроса: оригинальную и переформулированную (с сохранением смысла, но с изменением порядка слов, синонимами и лёгкими перестройками).
Результаты оказались неожиданно слабыми. Точность резко снижалась: у некоторых моделей — до 40% разницы между оригинальным и видоизменённым вопросом. При этом изменения в формулировке не меняли саму медицинскую суть — только оболочку.
Это говорит о серьёзной зависимости моделей от текстовой структуры, а не от понимания смысла. Вместо анализа сути они часто просто распознают шаблоны, по которым давали верные ответы раньше. И если шаблон нарушен, они теряются.
Особенности лингвистической уязвимости искусственного интеллекта
Эта уязвимость — результат того, как обучаются большие языковые модели. Внутри они опираются не на медицинскую логику, а на вероятностные связи между словами. Система просто «угадывает» следующее слово в контексте, но не «думает», как человек.
Вот примеры, как это проявляется:
- Синонимы вводят в заблуждение. Заменили «одышка» на «затруднённое дыхание» — модель может выбрать неправильный диагноз.
- Нарушение привычного порядка сбивает ориентацию. Если предложение начинается с второстепенной детали, ИИ игнорирует главную.
- Негативные формулировки вызывают особенно много ошибок, например: «Какое из следующих не является…»
Подобные «мелочи» для человека не имеют значения — смысл остаётся прежним. Но ИИ это воспринимает как принципиально новую задачу.
Что это значит для медицины и диагностики будущего
Пока что использовать ИИ как автономный диагностический инструмент — преждевременно. Он может быть полезен как помощник, предлагающий гипотезы или проверяющий версии врача. Но вслепую полагаться на такие системы нельзя.
Ошибки, вызванные изменением формулировки, особенно опасны в неотложной медицине, где счёт идёт на минуты. Если ИИ не распознает суть запроса из-за лексической перестановки, он выдаст неправильный совет. А это может стоить жизни.
В долгосрочной перспективе такие исследования подчёркивают, что будущее медицинского ИИ — не просто в увеличении объёма обучающих данных, а в улучшении способности понимать смысл, а не только текст. Это значит — меньше слепой генерации, больше логики, интерпретации и связи с реальным опытом.
Такой сдвиг — от «угадайки» к мышлению — станет ключевым шагом на пути к безопасному и надёжному использованию ИИ в здравоохранении.