Данас смо корак ближе безвременској будућности славних личности која нам је увек била обећана (од априла). Мета је представио Воицебок, свој модел конфигурације текста у говор који обећава да ће за изговорену реч учинити оно што су ЦхатГПТ и Далл-Е урадили, уз поштовање, за генерисање текста и слика.
У суштини, то је генератор текста у излаз, баш као ГПТ или Далл-Е – само уместо да ствара прелепу прозу или слике, он испушта аудио клипове. Мета дефинише систем као „нерегресивни модел аутоматског усклађивања тока који је обучен да попуни говор, дат аудио и текстуални контекст“. Обучен је на преко 50.000 сати нефилтрираног звука. Конкретно, Мета је користио снимљени говор и текст из низа аудио књига у јавном власништву написаних на енглеском, француском, шпанском, немачком, пољском и португалском.
Овај разноврстан скуп података омогућава систему да произведе више конверзацијског говора, без обзира на језике које свака страна говори, према истраживачима. „Наши резултати показују да модели препознавања говора обучени на вештачком говору генерисаном говорном кутијом раде скоро исто као и модели обучени на стварном говору. Штавише, компјутерски генерисани говор је изведен са смањеном стопом грешке од само 1 проценат, у поређењу са смањењем од 45 до 70 процената у тренутним моделима претварања текста у говор.
Систем је прво научен да предвиди слогове говора на основу слогова који их окружују, као и текста слога. „Научивши да попуни говор из контекста, модел то може применити на задатке генерисања говора, укључујући креирање фрагмената усред аудио снимка без потребе да потпуно поново креира унос“, објаснили су истраживачи Мета.
Наводно, Воицебок је такође способан да активно уређује аудио клипове, елиминише буку из говора, па чак и замењује погрешно изговорене речи. „Особа може да идентификује било који почетни део говора који је покварен буком (као што је лавеж пса), исече га и упути моделу да поново створи тај одломак“, као што је коришћење софтвера за уређивање слика за чишћење слика, рекли су истраживачи.
Генератори за претварање текста у говор постоје већ минут – тако су ваши ТомТомс родитељи могли да вам дају неухватљива упутства за вожњу гласом Моргана Фримана. Модерне итерације као нпр одржао говор или АИ Воице Приме од Елевенлаб Они су много способнији, али и даље прилично захтевају гомилу изворног материјала како би правилно опонашали своју тему – а затим још једну брдо различитих података за сваки. нежења. последњи. Тема на којој желите да вежбате.
Воицебок ради, захваљујући новом новом ТТС методу обуке без клипинга. Резултати бенцхмарк-а нису ни близу јер Мета-ин АИ наводно надмашује тренутно стање технике у јасноћи (стопа грешке од 1,9 процената наспрам 5,9 процената) и „аудио сличности“ (композитни резултат од 0,681 до 0,580 у СОА), сваки И то док ради до 20 пута брже од данашњих врхунских система за претварање текста у говор.
Али немојте још увек доводити у ред своје познате навигаторе, ни апликација Воицебок ни њен изворни код тренутно нису објављени у јавности, потврдио је Мета у петак, наводећи „потенцијалне ризике од злоупотребе“ упркос „импресивној употреби“. Случајеви за моделе генеративног говора.“ Уместо тога, компанија је објавила низ аудио примера (погледајте горе/доле) поред почетног истраживачког рада програма. Истраживачки тим се нада да ће у будућности технологија наћи свој пут у протетици. за пацијенте са оштећењем гласних жица, и НПЦ-е и дигиталне асистенте у игри.
„Комуникатор. Љубитељ музике. Сертификовани пионир сланине. Заговорник путовања. Суптилно шармантан фанатик друштвених медија.“
More Stories
Овај ГаН пуњач од 100 В је танак и склопив
Куо: Надоградња РАМ-а на 12 ГБ следеће године биће ограничена на иПхоне 17 Про Мак
Верданск се коначно враћа у Цалл оф Дути Варзоне, и фанови су срећни због тога