Компанія Microsoft представила VibeVoice — нову відкриту модель штучного інтелекту, яка дозволяє користувачам створювати подкасти та інші аудіоформати, ставлячи її у протистояння до популярної платформи NotebookLM від Google.
Ключові переваги
Однак є суттєві відмінності. Модель тексту у мовлення VibeVoice здатна генерувати чотири голоси та забезпечувати до 90 хвилин аудіозапису якості подкасту, тоді як NotebookLM пропонує лише два голоси.
Додатково, VibeVoice читає та організовує текст, у той час як NotebookLM обробляє документи та перетворює їх на подкасти для двох учасників. Користувачі можуть також запитувати та отримувати резюме документів, згідно з даними технологічної компанії Hugging Face.
Це означає, що VibeVoice не намагається зрозуміти текст, а просто відтворює його в звуковій формі, фактично замикаючи функції звукозаписної студії.
Ринок голосового штучного інтелекту
VibeVoice є останньою новинкою в технології голосового штучного інтелекту, яка користується значною увагою інвесторів. У 2024 році стартапи в цій сфері залучили 2,1 мільярда доларів, що вісім разів більше в порівнянні з попереднім роком, згідно з даними агентства CB Insights.
Зростає інтерес до голосового шопінгу: згідно з звітом PYMNTS Intelligence, 30,4% споживачів покоління Z щотижня здійснюють покупки за допомогою голосових команд, в той час як серед тисячолітніх цей показник також високий. В середньому по всіх вікових групах цей показник становить 17,9%.
Технічні характеристики VibeVoice
VibeVoice працює на базі 1,5 мільярда параметрів, що є відносно невеликим для моделі, яка здатна підтримувати діалог між кількома учасниками. Вона була навчена на основі відкритої моделі Qwen2.5 від Alibaba, що забезпечує природний обмін репліками та розуміння контексту під час розмов.
Згідно з заявами Microsoft, VibeVoice може забезпечити плавні бесіди між чотирма голосами і зберігати унікальні характеристики кожного голосу навіть у тривалих розмовах.
Як використовувати VibeVoice
Потенційні області застосування VibeVoice включають:
Прототипування подкастів та навчального контенту
- Користувачі можуть створювати макети подкастів, панельних дискусій або навчальних модулів за допомогою кількох голосів ШІ, що дозволить зекономити час та кошти на найм акторів для тестування діалогів.
Доступність та освіта
- Освітні матеріали, підручники чи наукові роботи можуть бути перетворені в аудіо з різними оповідачами, що допоможе людям, які краще сприймають інформацію через слух.
Розробка ігор та медіа
- Розробники ігор або сценаристи можуть використовувати VibeVoice для створення діалогів між персонажами, що дозволяє проводить повні розмови в ігровому процесі без потреби у запису сесій.
Зважаючи на ризики, пов’язані з діпфейками, Microsoft заявила, що VibeVoice має захист: кожен аудіофайл міститиме дисклеймер, наприклад, “Цей сегмент був згенерований ШІ”, та приховану цифрову водяний знак.
Модель забороняє імітацію голосів, дезінформацію і використання діпфейків у режимі реального часу, включно з конверсією голосу під час дзвінків. Наразі вона підтримує лише англійську та китайську мови. Доступ до моделі надається для досліджень, але не для комерційного використання.
Читайте також:
- Виклики для широкого впровадження голосових інтерфейсів
- Партнерство AWS та Vonage для розподілу “природно звучних” голосових агентів
- Meta робить ставку на стартап Voice AI PlayAI