Підроблені рентгенівські знімки, створені ШІ, змогли обдурити і рентгенологів, і самі мовні моделі

Зображення Freepik

Синтетичні рентгенівські знімки, згенеровані за допомогою штучного інтелекту для імітації реальних результатів обстежень пацієнтів, можуть вводити в оману не лише досвідчених рентгенологів, а й самі інструменти штучного інтелекту. Це показало дослідження, опубліковане в журналі Radiology.

17 рентгенологів із шести країн перевірили 264 знімки

У дослідженні 17 рентгенологів із 12 лікарень у шести країнах переглянули 264 рентгенівські знімки. Половина з них була створена за допомогою інструментів штучного інтелекту ChatGPT або RoentGen. Автори наголошують, що великі мовні моделі здатні створювати реалістичні синтетичні медичні зображення, або діпфейки, що викликає занепокоєння через ризики їх недоброчесного використання.

Метою було перевірити, чи можна відрізнити фальшиві рентгенограми від справжніх

Дослідники поставили за мету оцінити, наскільки рентгенологи та мультимодальні великі мовні моделі здатні відрізняти синтетичні рентгенограми, згенеровані ChatGPT, від справжніх клінічних зображень. Дослідження мало ретроспективний дизайн діагностичної точності і проводилося з квітня по серпень 2025 року.

Дослідження складалося з трьох етапів

На першому етапі рентгенологи, не знаючи справжньої мети роботи, оцінювали якість зображень і формулювали діагностичні висновки щодо 154 рентгенограм різних анатомічних ділянок. Із них 77 були синтетичними, згенерованими за допомогою ChatGPT (GPT-4o; OpenAI), а ще 77 — автентичними клінічними зображеннями.

На другому етапі, після розкриття мети дослідження, рентгенологи мали визначити, чи є випадково представлені рентгенограми згенерованими GPT-4o, чи справжніми. Таке саме завдання виконували чотири великі мовні моделі: GPT-4o, GPT-5, Gemini 2.5 Pro та Llama 4 Maverick.

На третьому етапі автори проаналізували ще 110 рентгенограм органів грудної клітки: 55 синтетичних зображень, створених за допомогою RoentGen, і 55 автентичних. Для статистичних порівнянь використовували критерій Мак-Немара та t-критерій.

Частина лікарів запідозрила підробку ще до розкриття мети дослідження

41 % рентгенологів, які спочатку не знали, що серед матеріалів є зображення, створені штучним інтелектом, самостійно запідозрили наявність синтетичних рентгенограм у наборі даних.

Після попередження точність розпізнавання залишилася далекою від ідеальної

Після того як учасникам повідомили, що частина рентгенограм є синтетичною, статистично значущої різниці в загальній точності розпізнавання між набором GPT-4o і набором RoentGen не виявили. Для набору GPT-4o точність становила 75 % при 95 % довірчому інтервалі 68–81, а для набору RoentGen — 70 % при 95 % довірчому інтервалі 62–78; різниця не досягла статистичної значущості (P = 0,07).

Жодна з великих мовних моделей не виявила всі фальшиві знімки

Жодна з протестованих великих мовних моделей не змогла виявити всі синтетичні рентгенограми в жодному з двох наборів даних. Водночас рентгенограми, згенеровані GPT-4o, точніше відрізняли від справжніх сама модель GPT-4o з точністю 85 % і GPT-5 з точністю 83 %, ніж Llama 4 Maverick із точністю 59 % та Gemini 2.5 Pro із точністю 56 %; в усіх випадках P було менше 0,001.

Загальна точність чотирьох великих мовних моделей у виявленні підроблених зображень коливалася від 57 % до 85 %. Навіть ChatGPT-4o, модель, яка створила діпфейки, не змогла виявити їх усі, хоча й показала кращий результат, ніж інші великі мовні моделі.

Синтетичні знімки мали характерні ознаки

Серед найтиповіших ознак синтетичних рентгенограм автори назвали двобічну симетрію, однорідну зернистість, ледь помітну неприродну текстуру м’яких тканин і надто гладку поверхню кісток.

Автори вказують на юридичні та кібербезпекові ризики

Керівник дослідження доктор Мікаель Торджман з Медичної школи Ікана (медичний комплекс Маунт-Сайнай, Нью-Йорк) в коментарі Reuters заявив, що наявність підроблених рентгенівських знімків, достатньо реалістичних, щоб обдурити радіологів, «створює високу вразливість до шахрайських судових процесів», якщо, наприклад, сфабрикований перелом неможливо відрізнити від справжнього. Він також попередив про значний ризик для кібербезпеки, якщо хакери отримають доступ до мережі лікарні та впровадять штучні зображення для маніпулювання діагнозами пацієнтів або спричинять масштабний клінічний хаос, підриваючи надійність цифрової медичної карти.

Дослідники закликають до цифрового захисту

Автори дослідження вважають, що потрібні цифрові інструменти, які допоможуть відрізняти справжні зображення від підроблених і запобігати фальсифікації, зокрема за допомогою невидимих водяних знаків, що позначають право власності. «Ми потенційно бачимо лише верхівку айсберга», — сказав Торджман, маючи на увазі можливість появи фальшивих КТ та МРТ-сканувань. За його словами, створення навчальних наборів даних та інструментів виявлення вже зараз є критично важливим.

Редакція MedReporter

Долучайтеся до MedReрorter у Telegram, WhatsApp та Facebook.