децембар 17, 2024

Beogradska Nedelja

Најновије вести из Србије на енглеском, најновије вести о Косову на енглеском, вести о српској економији, српске пословне вести, вести о српској политици, балканске регионалне вести у …

Мета Воицебок АИ је Далл-Е за претварање текста у говор

Мета Воицебок АИ је Далл-Е за претварање текста у говор

Данас смо корак ближе безвременској будућности славних личности која нам је увек била обећана (од априла). Мета је представио Воицебок, свој модел конфигурације текста у говор који обећава да ће за изговорену реч учинити оно што су ЦхатГПТ и Далл-Е урадили, уз поштовање, за генерисање текста и слика.

У суштини, то је генератор текста у излаз, баш као ГПТ или Далл-Е – само уместо да ствара прелепу прозу или слике, он испушта аудио клипове. Мета дефинише систем као „нерегресивни модел аутоматског усклађивања тока који је обучен да попуни говор, дат аудио и текстуални контекст“. Обучен је на преко 50.000 сати нефилтрираног звука. Конкретно, Мета је користио снимљени говор и текст из низа аудио књига у јавном власништву написаних на енглеском, француском, шпанском, немачком, пољском и португалском.

Овај разноврстан скуп података омогућава систему да произведе више конверзацијског говора, без обзира на језике које свака страна говори, према истраживачима. „Наши резултати показују да модели препознавања говора обучени на вештачком говору генерисаном говорном кутијом раде скоро исто као и модели обучени на стварном говору. Штавише, компјутерски генерисани говор је изведен са смањеном стопом грешке од само 1 проценат, у поређењу са смањењем од 45 до 70 процената у тренутним моделима претварања текста у говор.

Систем је прво научен да предвиди слогове говора на основу слогова који их окружују, као и текста слога. „Научивши да попуни говор из контекста, модел то може применити на задатке генерисања говора, укључујући креирање фрагмената усред аудио снимка без потребе да потпуно поново креира унос“, објаснили су истраживачи Мета.

Наводно, Воицебок је такође способан да активно уређује аудио клипове, елиминише буку из говора, па чак и замењује погрешно изговорене речи. „Особа може да идентификује било који почетни део говора који је покварен буком (као што је лавеж пса), исече га и упути моделу да поново створи тај одломак“, као што је коришћење софтвера за уређивање слика за чишћење слика, рекли су истраживачи.

Генератори за претварање текста у говор постоје већ минут – тако су ваши ТомТомс родитељи могли да вам дају неухватљива упутства за вожњу гласом Моргана Фримана. Модерне итерације као нпр одржао говор или АИ Воице Приме од Елевенлаб Они су много способнији, али и даље прилично захтевају гомилу изворног материјала како би правилно опонашали своју тему – а затим још једну брдо различитих података за сваки. нежења. последњи. Тема на којој желите да вежбате.

Воицебок ради, захваљујући новом новом ТТС методу обуке без клипинга. Резултати бенцхмарк-а нису ни близу јер Мета-ин АИ наводно надмашује тренутно стање технике у јасноћи (стопа грешке од 1,9 процената наспрам 5,9 процената) и „аудио сличности“ (композитни резултат од 0,681 до 0,580 у СОА), сваки И то док ради до 20 пута брже од данашњих врхунских система за претварање текста у говор.

Али немојте још увек доводити у ред своје познате навигаторе, ни апликација Воицебок ни њен изворни код тренутно нису објављени у јавности, потврдио је Мета у петак, наводећи „потенцијалне ризике од злоупотребе“ упркос „импресивној употреби“. Случајеви за моделе генеративног говора.“ Уместо тога, компанија је објавила низ аудио примера (погледајте горе/доле) поред почетног истраживачког рада програма. Истраживачки тим се нада да ће у будућности технологија наћи свој пут у протетици. за пацијенте са оштећењем гласних жица, и НПЦ-е и дигиталне асистенте у игри.