Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3 — презентация
logo
Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
  • Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
  • содержание
  • Введение
  • Text-to-Speech (TTS)
  • Как работают TTS- модели
  • Обучение TTS- модели
  • Пример датасета для файнтьюнинга
  • Особенности использования:
  • Популярные TTS- инструменты
  • Пример работы в voice.ai
  • Файнтюнинг модели под свой датасет
  • ШАГ 1. Создание обучающего набора данных
  • Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
  • Составление датасета со своим голосом
  • Шаг 3: Генерация аудио с новой моделью
  • Сплит компонентов аудио
  • Сплит компонентов аудио
  • Нейронные сети для склеивания и достраивания переходов
  • Перенос стиля ( Style Transfer)
  • Нейронные сети для обработки аудио
  • конвейерные сервисы
  • Пример генерации музыки
  • разница между видео и анимацией
  • Эффекты движения
  • Fusion brain
  • Fusion brain
  • Fusion brain
  • Псевдовидео
  • Генерация анимации из одного изображения
  • Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
  • Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
  • Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
  • Анимация - превращение одного объекта в другой
  • Пример редактора: CapCut
  • сервисы комплексной генерации
  • Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
  • сервисы комплексной генерации
  • создание цифровых аватаров
  • Heygen – сервис для создания AI-аватаров
  • Регистрация heygen
  • подбор видео для создания аватара и подтверждение личности
  • интерфейс heygen
  • применение созданного аватара
  • Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3
1/44

Первый слайд презентации

Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3. Генерация и обработка аудио / видео при помощи нейросетей. Разработка цифровых генеративных моделей Анастасия Киструга

Изображение слайда

Слайд 2: содержание

2 Введение Text-to-Speech Как работают TTS- модели Обучение TTS- модели Особенности использования Популярные TTS- инструменты Пример датасета Файнтюнинг модели под свой датасет Составление датасета со своим голосом Сплит компонентов аудио Нейронные сети для склеивания и достраивания переходов Перенос стиля Нейронные сети для обработки аудио Разница между видео и анимацией Эффекты движения Псевдовидео Генерация анимации Анимация - превращение одного объекта в другой Пример редактор Сервисы комплексной генерации – создание аватара Генерация и обработка аудио / видео при помощи нейросетей.

Изображение слайда

Слайд 3: Введение

3 Мы рассмотрим современные инструменты и технологии для работы с аудио и видео: Text- to - Speech (TTS): Преобразование текста в речь. Обработка аудио: Разделение, склеивание, добавление эффектов. Генерация видео и анимации: Создание динамичного контента из статичных изображений. Генерация и обработка аудио / видео при помощи нейросетей.

Изображение слайда

Слайд 4: Text-to-Speech (TTS)

4 Генерация и обработка аудио / видео при помощи нейросетей. Text- to - Speech (TTS) – это технология преобразования текста в естественную речь с помощью нейросетей. Она используется в голосовых помощниках, автоматическом озвучивании видео, аудиокнигах и многом другом.

Изображение слайда

Слайд 5: Как работают TTS- модели

5 Генерация и обработка аудио / видео при помощи нейросетей. 1. Предобработка текста Нормализация (расшифровка сокращений, чисел) Разбиение на токены 2. Фонетизация Преобразование текста в фонемы (звуки) 3.Синтез речи 4.Постобработка Сглаживание, коррекция громкости и пауз Применение: Голосовые помощники, навигация, озвучивание текстов, помощь людям с нарушениями зрения.

Изображение слайда

Слайд 6: Обучение TTS- модели

6 Генерация и обработка аудио / видео при помощи нейросетей. 1. Создание датасета : Аудиозаписи с разными голосами и темами Обработка и разметка текста 2. Анализ аудио: Аудио разбивается на фрагменты Каждый фрагмент имеет уникальный «рисунок» на спектрограмме 3. Обучение нейросети: Установление соответствия между текстом и спектрограммами Обучение генерации речи по примерам 4. Улучшение естественности: Модели для предсказания пауз и интонации Учет контекста для правильной интонации и смысловых акцентов

Изображение слайда

Слайд 7: Пример датасета для файнтьюнинга

7 Генерация и обработка аудио / видео при помощи нейросетей. Are you sure everything’s gonna be okay I can't shake this nervous feeling in my stomach

Изображение слайда

Слайд 8: Особенности использования:

8 Генерация и обработка аудио / видео при помощи нейросетей. Требует качественных данных для обучения Зависит от языка, акцента и стиля речи Возможность кастомизации под конкретные задачи

Изображение слайда

Слайд 9: Популярные TTS- инструменты

9 Генерация и обработка аудио / видео при помощи нейросетей. voice.ai naturalreaders.com

Изображение слайда

Слайд 10: Пример работы в voice.ai

10 Генерация и обработка аудио / видео при помощи нейросетей. В voice.ai можно использовать TTS, пример работы сервиса в этом режиме :

Изображение слайда

Слайд 11: Файнтюнинг модели под свой датасет

11 Генерация и обработка аудио / видео при помощи нейросетей. Для дообучение модели н ужно взять open-source модель ( Coqui, VITS) и загрузить в Google Colab или Yandex DataSphere или на локальный сервер. Google Colab : Простой доступ к GPU/TPU Неограниченное количество проектов Ограничение по времени работы сессии (12 часов) Обучение требует качественного датасета и мощной видеокарты. Сервис replicate.com дает возможность простого файнтьюнинга готовых моделей (платно). Далее будет инструкция по использованию этого сервиса.

Изображение слайда

Слайд 12: ШАГ 1. Создание обучающего набора данных

12 Генерация и обработка аудио / видео при помощи нейросетей. Соберите аудио : Первый шаг — создание качественного набора аудиофайлов. Это можно сделать вручную, но это долго и сложно. 2. Автоматизируйте процесс : Используйте модель для автоматического создания датасета из YouTube-видео: Введите youtube_url — ссылку на видео, содержащее голос, который вы хотите склонировать. Укажите audio_name — уникальное имя для вашего набора данных. М одель для автоматического создания датасета

Изображение слайда

Слайд 13

13 Генерация и обработка аудио / видео при помощи нейросетей. 1. Используйте модель replicate / train-rvc-model для обучения RVC-модели: Загрузите dataset_zip — ZIP-файл с вашим датасетом. Установите необходимые параметры 2. После завершения обучения вы получите ZIP-файл с обученной моделью. Шаг 2: Обучение модели голоса

Изображение слайда

Слайд 14: Составление датасета со своим голосом

14 Генерация и обработка аудио / видео при помощи нейросетей. 1. Рекомендации по длительности дорожек Оптимальная длительность: 5–15 секунд 2. Частота упоминания фонем 3. Лучшие тексты для записи в датасет : Художественная литература Диалоги Новости Технические тексты 4. Высокое качество записи (Минимизация шума, микрофон, формат сохранения записи - WAV, FLAC ) 5. Разметка данных

Изображение слайда

Слайд 15: Шаг 3: Генерация аудио с новой моделью

15 Генерация и обработка аудио / видео при помощи нейросетей. 1. Используйте модель zsxkib / realistic-voice-cloning для создания аудио: Загрузите исходный аудиофайл (или укажите его URL через API). В поле rvc_model выберите CUSTOM. Укажите custom_rvc_model_download_url — URL вашей обученной модели. 2. Настройте дополнительные параметры. 3. Экспериментируйте с параметрами, чтобы получить наиболее натуральный голос.

Изображение слайда

Слайд 16: Сплит компонентов аудио

16 Генерация и обработка аудио / видео при помощи нейросетей. Сплит компонентов аудио - это процесс разделения аудиозаписи на отдельные составляющие: Голос (вокал) Музыка (инструменты) Шумы (фоновые звуки) Используется для анализа, обработки или извлечения нужных элементов. Нейронные сети учатся распознавать и разделять разные компоненты звука При м ер сервиса : vocalremover.org

Изображение слайда

Слайд 17: Сплит компонентов аудио

17 Генерация и обработка аудио / видео при помощи нейросетей. Пример использования сервиса vocalremover : Загружаем исходный файл, процесс обработки длится около 10 секунд Исходный файл Обработанный файл : инструментал После обработки был отделен голос от инструментала, теперь можно регулировать громкость каждой составляющей отдельно

Изображение слайда

Слайд 18: Нейронные сети для склеивания и достраивания переходов

18 Генерация и обработка аудио / видео при помощи нейросетей. Склеивание: Плавное соединение фрагментов аудио Достраивание: Генерация недостающих частей аудио Нейронные сети анализируют контекст аудио и генерируют плавные переходы между фрагментами

Изображение слайда

Слайд 19: Перенос стиля ( Style Transfer)

19 Генерация и обработка аудио / видео при помощи нейросетей. Перенос стиля - изменение стиля аудио Нейронные сети анализируют особенности стиля (темп, тональность, интонацию) и применяют их к новому аудио. Например, в сервисе Suno можно исполнить песню в другом стиле

Изображение слайда

Слайд 20: Нейронные сети для обработки аудио

20 Генерация и обработка аудио / видео при помощи нейросетей. Нейронные сети используются для добавление эффектов, изменение тональности, очистки звука Популярные нейронные сети WaveNet NSynth (Google) Инструменты и сервисы Adobe Audition iZotope RX

Изображение слайда

Слайд 21: конвейерные сервисы

21 Генерация и обработка аудио / видео при помощи нейросетей. Пример сервиса – SUNO Suno  — это генеративная модель машинного обучения, с помощью которой можно создавать музыку, не владея нотной грамотой и игрой на музыкальных инструментах. Регистрацию можно пройти через google. В сервисе есть несколько режимов : автоматический и продвинутый. В автоматическом режиме можно сгенерировать песню, просто описав ее словами

Изображение слайда

Слайд 22: Пример генерации музыки

22 Генерация и обработка аудио / видео при помощи нейросетей. Сервис генерирует 2 песни, по заданному описанию Также сервис имеет продвинутый режим – сочинение песен, используя текст пользователя. Пример работы был представлен ранее.

Изображение слайда

Слайд 23: разница между видео и анимацией

23 Генерация и обработка аудио / видео при помощи нейросетей. Видео - запись реальных событий или объектов. Состоит из последовательности кадров. Анимация - создание движущихся изображений с нуля. Может быть 2D, 3D или CGI (компьютерная графика).

Изображение слайда

Слайд 24: Эффекты движения

24 Генерация и обработка аудио / видео при помощи нейросетей. Эффекты движения - добавление динамики к статичным изображениям. Примеры сервисов: lumalabs.ai В сервисе fusion brain можно написать промпты для каждого кадра, а также добавить нужные переходы

Изображение слайда

Слайд 25: Fusion brain

25 Генерация и обработка аудио / видео при помощи нейросетей. Промпт : Ярко-оранжевые медузы у поверхности воды, 8k, детализированная кожа, мягкое солнечное освещение Промпт : Морской конёк плавает среди кораллов, 8k, прозрачные плавники

Изображение слайда

Слайд 26: Fusion brain

26 Генерация и обработка аудио / видео при помощи нейросетей. Промпт : Крохотный краб рассматривает цветные кораллы, 8k, детализированные клешни, реалистичная текстура панциря, яркие кораллы вдалеке Промпт : Маленькая черепаха плывёт сквозь лучи солнца в воде, 8k, детализация панциря, мягкие блики на поверхности воды

Изображение слайда

Слайд 27: Fusion brain

27 Генерация и обработка аудио / видео при помощи нейросетей. Итоговое видео c добавлением переходов :

Изображение слайда

Слайд 28: Псевдовидео

28 Генерация и обработка аудио / видео при помощи нейросетей. Генерация видео из одного или нескольких изображений. Нейронные сети анализируют изображение и создают промежуточные кадры. Сервис : Lumalabs

Изображение слайда

Слайд 29: Генерация анимации из одного изображения

29 Генерация и обработка аудио / видео при помощи нейросетей. Анализ изображения Предсказание движения Генерация кадров Создание анимации Сервис : Lumalabs

Изображение слайда

Слайд 30

30 Генерация и обработка аудио / видео при помощи нейросетей. Генерация анимации из нескольких изображений Нейронные сети анализируют несколько изображений и создают плавные переходы. Особенности генерации : Размытие частей, которые не очевидны к отрисовке Большое влияние разрешения исходных изображений на качество результата Артефакты на границах объектов Искажение пропорций Сервис : Lumalabs

Изображение слайда

Слайд 31

31 Генерация и обработка аудио / видео при помощи нейросетей. Генерация анимации из нескольких изображений Если исходные изображения будут сильно далекие, то генерация может поучиться не очень хорошая, так как нейронной сети будет сложно дорисовать переходы Сервис : Lumalabs

Изображение слайда

Слайд 32

32 Генерация и обработка аудио / видео при помощи нейросетей. Работа в Lumalabs Пример работы : Результат работы :

Изображение слайда

Слайд 33: Анимация - превращение одного объекта в другой

33 Генерация и обработка аудио / видео при помощи нейросетей. Нейронные сети генерируют промежуточные состояния между объектами. Состоит из двух основных компонентов: Генератор создает новые изображения Дискриминатор оценивает реалистичность результатов Сервис : openai

Изображение слайда

Слайд 34: Пример редактора: CapCut

34 Генерация и обработка аудио / видео при помощи нейросетей. CapCut - бесплатный видеоредактор для мобильных устройств и ПК. Позволяет редактировать видео, аудио и добавлять эффекты. Возможности для работы с аудио и анимацией : Импорт сгенерированных файлов Сведение аудио и видео Добавление эффектов

Изображение слайда

Слайд 35: сервисы комплексной генерации

35 Генерация и обработка аудио / видео при помощи нейросетей. Существуют сервисы, которые по вашему промпту могут составить полноценный ролик Пример : ai.invideo.io Сервис предоставляет возможность выбрать нужные настройки, такие как язык, акцент, музыку и другие.

Изображение слайда

Слайд 36

36 Генерация и обработка аудио / видео при помощи нейросетей. Процесс настройки представлен на видео Обратим внимание, что наш запрос преобразован в заголовок - на этом этапе можно оценить, насколько точно сервис понял контекст. В итоге получили такой результат

Изображение слайда

Слайд 37: сервисы комплексной генерации

37 Генерация и обработка аудио / видео при помощи нейросетей. Особенности: при запросе на генерацию чего-то реалистичного - получится хорошо. семантически далёкие понятия(вряд ли попавшие в датасет ) будут генерироваться плохо (как на примере, рассмотренном ранее) Бонусы - можно дообрабатывать результат текстом, т.е. добавлять промпт и отправлять на повторную генерацию - где исходником генерации будет выступать ранее созданная анимация

Изображение слайда

Слайд 38: создание цифровых аватаров

38 Генерация и обработка аудио / видео при помощи нейросетей. Процесс создания : Запись исходного видео Обработка видео Обработка голоса Инструменты и технологии : AI-анимация Motion Capture ( MoCap ) Синтез речи Редактирование

Изображение слайда

Слайд 39: Heygen – сервис для создания AI-аватаров

39 Генерация и обработка аудио / видео при помощи нейросетей. Основные возможности: Генерация реалистичных AI-аватаров Синхронизация речи и движений губ Поддержка 40+ языков Настройка одежды, фона и эмоций Процесс работы : Загрузите обработанное видео и запишите видео-согласие После подтверждения аватар отправится на обработку (10 минут – 1,5 часа)

Изображение слайда

Слайд 40: Регистрация heygen

40 Генерация и обработка аудио / видео при помощи нейросетей.

Изображение слайда

Слайд 41: подбор видео для создания аватара и подтверждение личности

41 Генерация и обработка аудио / видео при помощи нейросетей.

Изображение слайда

Слайд 42: интерфейс heygen

42 Генерация и обработка аудио / видео при помощи нейросетей.

Изображение слайда

Слайд 43: применение созданного аватара

43 Генерация и обработка аудио / видео при помощи нейросетей.

Изображение слайда

Последний слайд презентации: Модуль 4. Применение генеративных нейронных моделей в мультимедиа Блок 3

44 Генерация и обработка аудио / видео при помощи нейросетей. Благодарю за внимание.

Изображение слайда

Похожие презентации

Ничего не найдено