logo
Wojtek Laski/East News
Reklama.
  • Microsoft prezentuje VALL-E, czyli narzędzie do imitowania ludzkiej mowy w oparciu o nagrania audio
  • System jest w stanie "nauczyć się" naśladować głos, korzystając z zaledwie 3-sekundowej próbki
  • VALL-E kopiuje nie tylko barwę głosu, ale i "charyzmę" i styl mówienia
  • W internecie przybywa artykułów na temat sztucznej inteligencji. Dzieje się tak w dużej mierze za sprawą ChatGPT, który stał się w ostatnim czasie niezwykle popularny. Okazuje się, że całkiem już zaawansowana AI jest w stanie doradzić nam, jaki prezent wybrać dla osoby o konkretnych zainteresowaniach - albo opowiedzieć ciekawą i spójną logicznie bajkę z wskazanym przez nas motywem przewodnim.

    A teraz przyszedł czas na system, który potrafi kopiować głos.

    Microsoft zaprezentował VALL-E - narzędzie bazujące na sztucznej inteligencji, które jest w stanie "ukraść" głos nagranej osobie. Zatrważającym jest fakt, że aby móc w miarę sprawnie posługiwać się mową swojej "ofiary", VALL-E potrzebuje zaledwie... 3-sekundowej próbki.

    Jak działa VALL-E?

    Jak podaje autor kanału Coding Money na YouTube, na podstawie bazowych kilku sekund program może wygenerować przemówienie naśladujące "intonację, charyzmę i ogólny styl mówienia" osoby.

    System najpierw odczytuje oryginalną próbkę, a następnie przystępuje do jej analizy, gromadząc potrzebne dane. Następnie przetwarza fragment, który ma "wypowiedzieć". Efekt końcowy to nagranie audio, na którym VALL-E "odczytuje" wspomniany fragment głosem z oryginalnej próbki.

    Jeśli oryginalne nagranie zawiera jakieś zakłócenia w tle - bo na przykład mówca był na dworcu kolejowym czy poczcie - to również nie umknie to uwadze VALL-E. Okazuje się bowiem, że poza barwą głosu, tonem i manierą wypowiedzi model potrafi "zapożyczać" dźwięki ze środowiska mówiącego.

    Czytaj także:

    A poza tym umie wygenerować wypowiedź o wybranym przez użytkownika zabarwieniu emocjonalnym. Chcemy, by ton był radosny, gniewny czy znudzony? To nie stanowi problemu dla VALL-E.

    Na razie system "nauczył się" kopiować mowę jedynie po angielsku. Narzędzie wytrenowano w oparciu o 60 tysięcy godzin nagrań 7 tysięcy osób w tym języku. Zapewne nabycie przez VALL-E umiejętności władania innymi językami pozostaje kwestią czasu.

    VALL-E - plusy i minusy

    Zaawansowaną technologię imitującą ludzki głos można wykorzystać na różne sposoby. Przykładami są czytanie audiobooków czy napisów do filmów.

    Czytaj także:

    Ponadto twórcy zapowiadają, że VALL-E ma działać w powiązaniu z ChatGPT, co oznacza, że rozmowa ze sztuczną inteligencją naśladującą mowę wybranego przez nas delikwenta staje się powoli faktem.

    Jak to zazwyczaj bywa, jeśli są korzyści, to zapewne pojawią się także i zagrożenia. Na pewno znajdą się i tacy, którzy będą chcieli wykorzystać VALL-E do oszustw i nadużyć. W związku z tym model nie jest póki co dostępny publicznie.

    Polska policja kupiła szpiegowskie oprogramowanie

    Co dotyczy innych wieści na temat kopiowania danych, to w czwartek pisaliśmy o intrygujących zakupach Komendy Głównej Policji. Służby zakupiły trzyletnią licencję na izraelskie oprogramowanie hakujące Cellebrite.

    System, który kosztował niemało, bo ponad 6,5 miliona złotych, może skopiować z hakowanego urządzenia dosłownie wszystko - od zdjęć po dane w chmurze i historię naszych lajków w portalach społecznościowych.