ИИ ошибается при первичном диагнозе в более чем 80% случаев

ИИ ошибается при первичном диагнозе в более чем 80% случаев –Исследование

В мире

14 Апрель 2026

12:28

ИИ ошибается при первичном диагнозе в более чем 80% случаев –Исследование

Большие языковые модели искусственного интеллекта пока не готовы к самостоятельному применению в клинической практике, поскольку в более чем 80% случаев не способны корректно сформировать дифференциальный диагноз. Об этом говорится в новом исследовании, опубликованном в журнале JAMA Network Open.

Как сообщает БР со ссылкой на журнал, работа проведена исследователями из Mass General Brigham – одной из крупнейших некоммерческих медицинских и научных систем США. Согласно выводам, генеративному ИИ по-прежнему не хватает механизмов клинического рассуждения, необходимых для безопасного использования в медицине.

В ходе исследования специалисты проанализировали 21 языковую модель, включая версии Claude, DeepSeek, Gemini, GPT и Grok. Оценка проводилась на основе 29 стандартизированных клинических случаев с применением специального инструмента PrIME-LLM, который позволяет тестировать модели на разных этапах врачебного мышления – от первичного диагноза до выбора лечения.

Результаты показали, что ИИ-системы демонстрируют относительно высокую точность при постановке окончательного диагноза – от 60 до более чем 90% в зависимости от модели, особенно при наличии полной клинической информации, включая лабораторные и визуализационные данные. Однако на ранних этапах, когда информация ограничена, модели испытывают значительные трудности.

«Несмотря на постоянный прогресс, большие языковые модели массового назначения пока не готовы к автономному использованию в клинике», - отметил соавтор исследования Марк Суцци. По его словам, ИИ пока не способен воспроизводить дифференциальную диагностику, которая лежит в основе клинического мышления.

Автор исследования Арья Рао подчеркнула, что модели хорошо справляются с задачами при наличии полной картины, однако испытывают сложности в условиях неопределенности, характерной для начальных этапов диагностики.

По итогам анализа к числу наиболее эффективных моделей были отнесены Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash и Gemini 3.0 Pro.

Эксперты подчеркивают, что, несмотря на потенциал технологий, их использование в здравоохранении должно сопровождаться обязательным участием специалистов. «Человеческое клиническое суждение остается незаменимым», - отметила представитель Испанского общества семейной и общественной медицины Сусана Мансо Гарсия.

Исследователи также рекомендуют использовать ИИ-инструменты с осторожностью и при любых проблемах со здоровьем обращаться к квалифицированным медицинским работникам.

Поделиться новостью: