
Зображення Freepik
Експерти застерігають, що відкритий доступ до біологічних даних може допомогти системам штучного інтелекту (ШІ) розробляти небезпечні патогени. Понад 100 дослідників закликають запровадити заходи безпеки щодо наборів біологічних даних високого ризику, аби запобігти неправомірному використанню ШІ, яке, на їхню думку, може призвести до створення смертельних патогенів. Про це йдеться в матеріалі Еuronews.
Моделі штучного інтелекту для біології значною мірою залежать від великих масивів біологічних даних, зокрема генетичних послідовностей і характеристик патогенів. Водночас, за словами авторів, постає питання: чи має така інформація бути повністю загальнодоступною — і яким чином забезпечити її законне використання?
Попередження науковців і відкритий лист
Понад 100 дослідників наголошують, що необмежений доступ до окремих біологічних наборів даних може дозволити системам штучного інтелекту сприяти розробці або вдосконаленню небезпечних вірусів. У зв’язку з цим вони закликають до посилення запобіжників і процедур безпеки, щоб зменшити ризик зловживань.
У відкритому листі дослідники з низки провідних установ — зокрема Університету Джонса Гопкінса, Оксфордського університету, Фордхемського університету та Стенфордського університету — зазначають: попри те, що відкритий доступ до наукових даних сприяв прискоренню відкриттів, невелика підмножина нових біологічних даних може створювати ризики для біобезпеки у разі неправильного використання.
«Ставки управління біологічними даними високі, оскільки моделі штучного інтелекту можуть допомогти створити серйозні біологічні загрози», — пишуть автори.
Які ризики описують автори
Як зазначається, моделі ШІ, що застосовуються у біології, здатні прогнозувати мутації, виявляти закономірності та сприяти створенню більш заразних варіантів пандемічних патогенів.
Автори характеризують це як «можливість, що викликає занепокоєння», оскільки вона, на їхню думку, може пришвидшити та спростити створення передаваних біологічних патогенів, здатних спричиняти пандемії серед людей або подібні події у тварин, рослин чи довкілля.
Вони підкреслюють: загалом біологічні дані мають залишатися у відкритому доступі, однак «щодо даних про патогени» потрібні жорсткіші перевірки безпеки.
«Ми зосереджуємося на визначенні та управлінні найбільш актуальними наборами даних, перш ніж вони стануть загальнодоступними для розробників штучного інтелекту», — написали вони, пропонуючи нову систему регулювання доступу.
Моріц Ханке, співавтор листа з Університету Джонса Гопкінса, заявив: «У час, коли по всьому світу домінують моделі біологічного штучного інтелекту з відкритою вагою, обмеження доступу до конфіденційних даних про патогени для законних дослідників може бути одним із найперспективніших шляхів зниження ризику».
Що роблять розробники
Наразі, за словами авторів, не існує універсальної системи, яка б регулювала такі набори даних. Хоча окремі розробники добровільно виключають дані з високим рівнем ризику, дослідники наголошують: чіткі та послідовні правила мають застосовуватися до всіх.
Зокрема, розробники провідних моделей біологічного ШІ — Evo (створеної Arc Institute, Стенфордом і дослідниками TogetherAI), а також ESM3 від EvolutionaryScale — приховали певні вірусні послідовності зі своїх навчальних даних.
У лютому 2025 року команда EVO 2 повідомила, що виключила зі своїх наборів даних патогени, які інфікують людей та інші складні організми, посилаючись на етичні та безпекові ризики, а також на необхідність «запобігти використанню Evo для розробки біологічної зброї».
EVO 2 описують як модель ШІ з відкритим кодом для біології, яка може прогнозувати наслідки мутацій ДНК, розробляти нові геноми та виявляти патерни генетичного коду.
«Наразі немає жодних експертних рекомендацій щодо того, які дані становлять суттєві ризики, що змушує деяких розробників на передових етапах розробляти власне припущення та добровільно виключати вірусні дані з навчання», — написав у LinkedIn автор дослідження Джассі Пану, співавтор листа.
Різні типи ризикованих даних: запропонована шкала
Автори зазначають, що запропонована структура стосується лише невеликої частини біологічних наборів даних.
Вона передбачає п’ятирівневу шкалу рівнів біобезпеки даних (BDL) для категоризації даних про патогени. Дані класифікуються за рівнем «ризику» — залежно від того, наскільки вони можуть дозволяти системам штучного інтелекту вивчати загальні вірусні закономірності та біологічні загрози як для людей, так і для тварин. Шкала включає:
-
BDL-0: Дані повсякденної біології. Вони не повинні мати жодних обмежень і можуть вільно поширюватися.
-
BLD-1: Основні вірусні «будівельні блоки», наприклад генетичні послідовності. Не потребують суворих перевірок безпеки, але введення та доступ слід контролювати.
-
BLD-2: Дані про характеристики вірусів тварин, зокрема стрибки між видами або виживання поза межами хазяїна.
-
BLD-3: Дані про характеристики вірусів людини — передача, симптоми та стійкість до вакцин.
-
BLD-4: «Модернізовані» віруси людини — наприклад мутації вірусу COVID-19, які роблять його більш заразним. Для цієї категорії передбачаються найсуворіші обмеження.
Як пропонують забезпечити безпечний доступ
Щоб гарантувати безпечний доступ, у листі йдеться про необхідність спеціальних технічних інструментів, які дозволять постачальникам даних перевіряти законних користувачів і відстежувати можливі зловживання.
Серед запропонованих рішень називають водяні знаки (вбудовування прихованих унікальних ідентифікаторів у набори даних для простішого відстеження витоків), походження даних і журнали аудиту, що фіксують доступ і зміни за допомогою підписів, захищених від несанкціонованого втручання, а також поведінкову біометрію, яка може відстежувати унікальні моделі взаємодії користувачів.
Дослідники підкреслюють: пошук балансу між відкритістю та необхідними обмеженнями безпеки для даних високого ризику матиме ключове значення, оскільки системи штучного інтелекту стають потужнішими та дедалі ширше доступними.