Обучение ИИ на защищенных произведениях

Обучение ИИ на защищенных произведениях

Для создания мощных моделей искусственного интеллекта требуются огромные объёмы данных. Современные системы генеративного ИИ, такие как GPT-4, DALL-E, Midjourney или Stable Diffusion, обучаются на миллиардах текстов, изображений, музыкальных произведений и других медиафайлов. Значительная часть этих данных защищена авторским правом, что порождает фундаментальный вопрос: законно ли использовать произведения, охраняемые авторским правом, для обучения нейросетей?

Этот вопрос находится на пересечении технологических инноваций и традиционного права интеллектуальной собственности, создавая сложные правовые и этические дилеммы.

Технологическая основа проблемы

Прежде чем углубляться в правовые аспекты, важно понять, как именно используются защищённые произведения при обучении ИИ:

Процесс обучения нейронных сетей

Современные языковые модели и генераторы изображений основаны на технологиях глубокого обучения. В процессе обучения алгоритм анализирует предоставленные данные, выявляя в них закономерности и взаимосвязи. Это не простое копирование или запоминание, а скорее изучение статистических зависимостей и структур.

Например, языковая модель GPT-4 не хранит полные тексты, на которых она обучалась, а вместо этого представляет обработанную информацию в виде весовых коэффициентов нейронной сети. Эти веса определяют, как модель будет генерировать новый текст.

Масштаб использования данных

Для достижения высокого качества современным моделям ИИ требуются беспрецедентные объемы данных. Например:

  • GPT-3 был обучен на корпусе текстов объёмом около 45 ТБ, что эквивалентно миллионам книг;
  • Модель LAION-5B, использовавшаяся для обучения Stable Diffusion, содержит 5,85 миллиардов пар "изображение-текст";
  • MusicLM от Google обучался на более чем 280,000 часов музыки.

Собрать такие объемы данных, используя только произведения, находящиеся в общественном достоянии или созданные специально для обучения, практически невозможно. Поэтому разработчики ИИ часто включают в обучающие наборы и защищённые авторским правом материалы.

Правовые подходы в разных юрисдикциях

Законодательство об авторском праве различается от страны к стране, и это создаёт мозаику подходов к вопросу об использовании защищённых произведений для обучения ИИ:

США: Доктрина добросовестного использования

В США ключевым фактором является доктрина "fair use" (добросовестное использование), которая допускает ограниченное использование материалов, защищенных авторским правом, без получения разрешения правообладателя, если это соответствует определённым критериям. При оценке "fair use" суды учитывают четыре фактора:

  1. Цель и характер использования (коммерческое vs. некоммерческое, образовательное vs. развлекательное);
  2. Природа защищенного произведения;
  3. Объём и существенность использованной части произведения;
  4. Влияние использования на потенциальный рынок или стоимость оригинального произведения.

В контексте ИИ эта доктрина создаёт значительную правовую неопределённость. С одной стороны, обучение ИИ может рассматриваться как трансформативное использование, которое создает что-то принципиально новое. С другой стороны, коммерческий характер большинства проектов ИИ и использование произведений целиком может говорить против "fair use".

В 2023 году начались первые судебные разбирательства по этому вопросу, включая иски группы авторов против OpenAI и Meta, а также иск Getty Images против Stability AI. Эти дела могут создать важные прецеденты.

Европейский Союз: Исключения для анализа текста и данных

В Европейском Союзе Директива об авторском праве на Едином цифровом рынке (DSM Directive, 2019) предусматривает специальные исключения для анализа текста и данных (text and data mining, TDM):

  • Статья 3 разрешает TDM в научно-исследовательских целях без необходимости получения разрешения правообладателей;
  • Статья 4 предусматривает более общее исключение для TDM, но с правом правообладателей отказаться от такого использования своих произведений (opt-out).

Таким образом, в ЕС использование защищенных произведений для обучения ИИ может быть законным при определенных условиях, но правообладатели имеют право запретить такое использование.

Япония: Прогрессивный подход

Япония приняла один из самых прогрессивных подходов, внеся в 2018 году поправки в закон об авторском праве, которые конкретно разрешают анализ данных и использование защищенных произведений для обучения ИИ без разрешения правообладателей, при условии, что это не конкурирует с нормальным использованием произведений.

Китай: Развивающееся законодательство

В Китае в 2020 году были внесены изменения в закон об авторском праве, которые расширили определение "добросовестного использования", но конкретные положения об обучении ИИ отсутствуют. Однако, учитывая стратегическое значение ИИ для Китая, можно ожидать, что будут приняты нормы, благоприятствующие разработчикам.

Технические и договорные решения

В условиях правовой неопределённости разработчики ИИ и правообладатели ищут практические решения проблемы:

Системы отказа от использования (opt-out)

Некоторые разработчики ИИ внедряют механизмы, позволяющие авторам исключить свои работы из обучающих наборов:

  • Файл robots.txt для веб-контента;
  • Специализированные метаданные и HTML-теги;
  • Прямые запросы через формы на сайтах разработчиков.

Например, после судебных исков Stability AI и Common Crawl разработали системы, позволяющие правообладателям исключить свой контент из обучающих наборов данных.

Лицензирование и партнёрство

Другой подход — формальное лицензирование контента для обучения ИИ:

  • OpenAI заключила соглашение с Associated Press на использование архива новостей;
  • Microsoft подписала соглашения с несколькими издательствами;
  • Stability AI ведёт переговоры с различными правообладателями о лицензировании визуального контента.

Такие соглашения создают более ясную правовую базу, но требуют значительных финансовых вложений, что может ограничить доступ к технологиям ИИ для небольших компаний и некоммерческих организаций.

Тщательный отбор данных

Некоторые разработчики ИИ фокусируются на использовании только тех данных, которые точно можно использовать без нарушения авторских прав:

  • Произведения в общественном достоянии;
  • Материалы с открытыми лицензиями (Creative Commons, Open Data Commons и т.д.);
  • Специально созданные или приобретенные для этой цели наборы данных.

Однако, как упоминалось выше, это значительно ограничивает объем и разнообразие обучающих данных.

Этические вопросы и баланс интересов

Помимо правовых аспектов, использование защищённых произведений для обучения ИИ поднимает важные этические вопросы:

Справедливое вознаграждение

Создатели произведений искусства, литературы, музыки и других творческих работ вложили свой талант, время и ресурсы в их создание. Использование этих произведений без компенсации для обучения ИИ-систем, которые потенциально могут заменить человеческое творчество, вызывает вопросы о справедливом вознаграждении.

Конкуренция с оригинальными авторами

ИИ, обученный на произведениях конкретного автора, может генерировать контент в его стиле, потенциально снижая уникальность и ценность оригинальных работ. Это особенно проблематично для начинающих авторов и художников, которые ещё не имеют устоявшейся репутации.

Баланс инноваций и защиты творчества

Строгие ограничения на использование защищённых произведений могут замедлить развитие технологий ИИ, которые имеют потенциал для решения важных социальных проблем. В то же время, полная свобода использования может подорвать экономические основы творческих индустрий.

Перспективы и рекомендации

Ожидаемые изменения в законодательстве

В ближайшие годы можно ожидать значительного развития законодательства в этой области:

  • Принятие специальных исключений для обучения ИИ, аналогичных японской модели;
  • Развитие механизмов коллективного управления правами для использования произведений в обучении ИИ;
  • Стандартизация требований к системам отказа от использования (opt-out);
  • Формирование судебных прецедентов, которые прояснят применение существующих доктрин, таких как fair use, к обучению ИИ.

Рекомендации для разработчиков ИИ

В текущей ситуации правовой неопределённости разработчикам ИИ рекомендуется:

  1. Проводить правовой аудит источников данных для обучения;
  2. Внедрять надежные системы отказа от использования (opt-out);
  3. Рассмотреть возможность лицензирования контента для обучения;
  4. Документировать процесс сбора и обработки данных, что может быть важно в случае судебных споров;
  5. Следить за развитием законодательства в разных юрисдикциях и адаптировать свои практики соответственно.

Рекомендации для правообладателей

Авторам и другим правообладателям стоит рассмотреть следующие стратегии:

  1. Использовать доступные механизмы отказа от использования (opt-out);
  2. Включать в свои лицензионные соглашения положения об использовании для обучения ИИ;
  3. Рассмотреть возможность участия в коллективных соглашениях с разработчиками ИИ;
  4. Отслеживать использование своих произведений в контексте ИИ;
  5. Участвовать в общественных обсуждениях и консультациях по законодательным инициативам в этой области.

Заключение

Вопрос об использовании защищенных произведений для обучения ИИ не имеет простого или универсального ответа. Он требует сбалансированного подхода, учитывающего как потребность в инновациях и развитии технологий ИИ, так и необходимость защиты прав и интересов создателей контента.

По мере развития технологий ИИ и связанного с ними законодательства, этот баланс будет продолжать меняться. Однако уже сейчас очевидно, что диалог и сотрудничество между разработчиками ИИ, правообладателями и законодателями является ключевым для нахождения оптимальных решений.