Война между OpenAI, Gemini, ChatGPT за наиболее точные ответы и более глубокий вопрос о смысле…

Сейчас опубликовано множество статей от разных групп, сравнивающих ChatGPT с Gemini, OpenEvidence, Claude, Uptodate и AskJeeves (шутка).

В этих статьях задается вопрос: какая платформа дает наиболее точный ответ? (по мнению 2, 3, 4 или X случайных врачей). В одних статьях говорится о Gemini, в других — об OE. И комментаторы яростно спорят. «Мой ИИ лучше, черт возьми!» — утверждают они.

В одной из недавних статей есть то, что мне нравится: в ней приводятся конкретные запросы, которые оцениваются. Детальный анализ этих запросов может дать нам перспективу, которая сейчас упускается из виду. Он может помочь найти смысл медицины. Вот 3 реальных вопроса:

Целесообразно ли проводить 4-й цикл FOLFOX у пациента с метастатической холангиокарциномой, у которого доза оксалиплатина уже была снижена на 25%, а болюсное введение 5-фторурацила было отменено после 1-го цикла, при значениях ANC 1390, 1450 и 1300 до 2-го, 3-го и 4-го циклов соответственно, и при тенденции к снижению количества тромбоцитов с исходного уровня 110-120 до 79 до 4-го цикла?

Каково лечение хронической фазы ХМЛ с количеством лейкоцитов 500?

Что такое болезнь Кастлемана?

(Я выбираю вопросы по онкологии, потому что я онколог, поэтому у меня есть свои мысли).

Эти вопросы меня очень интересуют. Предполагается, что это реальные вопросы, заданные в одном инструменте ИИ реальными врачами, наблюдающими реальных пациентов.

Рассмотрим их в обратном порядке:

Что такое болезнь Кастлемана? — Этот вопрос больше подходит для студентов-медиков. Если у вас возник этот вопрос, я бы порекомендовал начать с Википедии, или же я склоняюсь к этой статье Дэвида Файгенбаума, который, как известно, страдал болезнью Кастлемана и написал хорошую книгу о своем опыте. Это случай, когда врач лечит себя сам.

Я могу только представить, что лечащий врач задаст этот вопрос из чистого любопытства. Если у врача пациент с болезнью Кастлемана, и он спросит: «Что такое болезнь Кастлемана?», то, Боже, помоги пациенту.

Каково лечение хронической фазы ХМЛ с количеством лейкоцитов 500?

Мой первый вопрос… Я просто перепроверяю, правильно ли вы поставили диагноз, коллега. С тех пор, как я увидел, как врачи пропустили пациента с сердечной недостаточностью в журнале Nature Medicine (видео по ссылке), я беспокоюсь о своей компетентности.

Пожалуйста, подтвердите: вы посмотрели мазок, и это ХМЛ, а не ОМЛ или ХЛЛ? Мне нужно, чтобы вы подтвердили, что посмотрели. Прочитайте мне дифференциальный диагноз. И нет бластных клеток/ускоренной фазы? И вы подтвердили наличие bcr-abl? И у пациента нет признаков лейкостаза? Вы задали соответствующие вопросы?

А потом, я думаю, начинается самое сложное. Потому что я знаю многих крупных специалистов по ХМЛ. Я могу закрыть глаза и представить, что скажут Брайан или Хагоп, но думаю, между ними возникнет спор. У меня есть своё мнение о том, как следует сочетать внутривенное введение жидкостей, гидрею, ингибиторы тирозинкиназы, аллопуринол, расбуриказу (возможно, потребуется) и т.д. У меня есть свои предпочтения в лечении. Иматиниб по-прежнему мой первый выбор, кстати (все остальные ошибаются ;) ).

Думаю, справедливо будет сказать, что хотя есть некоторые аспекты лечения, по которым мы все можем согласиться, разные специалисты будут лечить пациента по-разному. И опять же, я бы расстроилась, если бы была пациенткой и знала, что мой врач проводит этот поиск. Если бы у меня была ХМЛ в хронической фазе, 500 лейкоцитов, и врач задавал бы этот вопрос, я бы попросила перевести меня в больницу Хопкинса.

Последний вопрос наиболее интересен:

Что ж, давайте еще раз все проверим. Этот пациент находится на второй линии терапии? У него наблюдалось прогрессирование заболевания после цис-гемолитической терапии с дурвой? (Это кажется мне наиболее логичным вариантом). Нет мутаций? Нет IDH?

Да уж, действительно, невольно задаешься вопросом, не упускает ли врач правильный ответ, формулируя свой вопрос: костный мозг пациента полон холангиокарциномы, потому что он умирает у тебя на глазах (может, дело именно в этом?) — в конце концов, это лечение второй линии — и диагноз может быть поставлен уже давно — и эти тромбоциты могут быть не следствием токсичности химиотерапии, а следствием заболевания — и вместо того, чтобы обсудить ситуацию в хосписе, ты воспринимаешь это как вопрос о дозировке лекарств. Могу ли я просмотреть снимки? Могу ли я осмотреть пациента? Могу ли я проверить, задаешь ли ты вообще правильный вопрос?

Возможно, правильный вопрос — это экзистенциальный вопрос. Очнись, доктор, ты уверен, что этому пациенту нужно больше химиотерапии? Ты уверен, что вопрос о снижении дозы — это то, что нас волнует? Как сказал мне один мудрый онколог 13 лет назад, когда я только начинал: «Легко дать больше химиотерапии, трудно быть честным». Моя интуиция, основанная на многократном опыте работы в подобных ситуациях, подсказывает, что здесь всё гораздо сложнее, чем кажется на первый взгляд.

Искусственный интеллект — это замечательно, но он не может просто выпрыгнуть из экрана и задать вам все эти вопросы. Он не может прикоснуться к пациенту и посмотреть ему в лицо. И потрогать его ноги, и послушать сердце и лёгкие.

Получать разные ответы на эти вопросы и позволять случайным врачам решать, какие ответы хорошие, плохие, лучшие или худшие, — это, на мой взгляд, недостаточно, неадекватно и упускает суть. Врачи, оценивающие ответ, могут не обладать достаточными знаниями, чтобы определить, близок ли ответ к истине или нет. И у разных врачей-экспертов могут быть совершенно разные мнения. Я знаю отличных онкологов, которые соглашаются или не соглашаются со мной в разных случаях.

В медицине нет канонического «правильного» ответа на многие, возможно, большинство вопросов; вместо этого существует множество неправильных ответов и более короткий список обоснованных вариантов. У нас, например, нет рандомизированных контролируемых исследований, ограниченных пациентами с ХМЛ в хронической фазе и количеством лейкоцитов > 500. У нас есть исследования всех типов пациентов, но для очень высокого количества белых пациентов необходима значительная детализация. И даже не начинайте говорить о литературе по лейкоферезу — если кто-то об этом заговорит.

А платформы обновляются ежеминутно. То, что находится на первом месте утром, может не оказаться на первом месте за ужином. Если оценивают 6 случайных врачей, их оценка может отличаться от оценки 6 врачей, которые глубоко погружены в этот вопрос. И оценка врачей также меняется на протяжении нашей карьеры — часто на основе ярких примеров, которые мы помним. Те же 6 могут проголосовать год спустя.

И наконец, я отказываюсь верить, что большинство врачей выбирают, какую платформу ИИ использовать, основываясь на том, какая из них получила лучшие оценки в препринте или рецензируемой публикации.

Вместо этого врачи хотят быструю систему, которая напомнит нам о том, что, как нам кажется, мы помним, стимулирует наше мышление, направит нас в нужное русло, предложит варианты, о которых мы не думали, будет нас инфантильной и поможет нам сосредоточиться на главном.

Я думаю, что верны 4 утверждения:

Искусственный интеллект уже делает удивительные вещи и превосходит 90% врачей.

Врачи будут использовать ИИ по всем вышеперечисленным причинам.

Попытки доказать, что ваша технология «самая точная», упускают из виду главное.

Позволяя случайным врачам судить, какой ответ лучше всего подходит для этих вопросов, мы никуда не продвигаемся. Подобные работы ошибочны.

А если вы пациент, ничто не заменит врача, который никогда не забывает о том, что действительно важно в жизни.

Vinay Prasad's Observations and Thoughts

Поиск по этому блогу

wrote about

Война между OpenAI, Gemini, ChatGPT за наиболее точные ответы и более глубокий вопрос о смысле…

Комментарии

Отправить комментарий

Популярные сообщения из этого блога

Армения производит одни из самых интересных вин в мире

Что на самом деле делает «сакральную геометрию» священной: от символов к источнику

Что такое хантавирус, который стал причиной смерти трех человек на борту круизного лайнера