Microsoft ukradnie Twój głos. Wystarczy 3-sekundowa próbka
Microsoft zaprezentował VALL-E. To kolejne narzędzie działające w oparciu o AI. Tym razem system kopiuje barwę głosu, a także styl mówienia i emocje nagranej osoby.
Reklama.
Microsoft zaprezentował VALL-E. To kolejne narzędzie działające w oparciu o AI. Tym razem system kopiuje barwę głosu, a także styl mówienia i emocje nagranej osoby.
W internecie przybywa artykułów na temat sztucznej inteligencji. Dzieje się tak w dużej mierze za sprawą ChatGPT, który stał się w ostatnim czasie niezwykle popularny. Okazuje się, że całkiem już zaawansowana AI jest w stanie doradzić nam, jaki prezent wybrać dla osoby o konkretnych zainteresowaniach - albo opowiedzieć ciekawą i spójną logicznie bajkę z wskazanym przez nas motywem przewodnim.
A teraz przyszedł czas na system, który potrafi kopiować głos.
Microsoft zaprezentował VALL-E - narzędzie bazujące na sztucznej inteligencji, które jest w stanie "ukraść" głos nagranej osobie. Zatrważającym jest fakt, że aby móc w miarę sprawnie posługiwać się mową swojej "ofiary", VALL-E potrzebuje zaledwie... 3-sekundowej próbki.
Jak podaje autor kanału Coding Money na YouTube, na podstawie bazowych kilku sekund program może wygenerować przemówienie naśladujące "intonację, charyzmę i ogólny styl mówienia" osoby.
System najpierw odczytuje oryginalną próbkę, a następnie przystępuje do jej analizy, gromadząc potrzebne dane. Następnie przetwarza fragment, który ma "wypowiedzieć". Efekt końcowy to nagranie audio, na którym VALL-E "odczytuje" wspomniany fragment głosem z oryginalnej próbki.
Jeśli oryginalne nagranie zawiera jakieś zakłócenia w tle - bo na przykład mówca był na dworcu kolejowym czy poczcie - to również nie umknie to uwadze VALL-E. Okazuje się bowiem, że poza barwą głosu, tonem i manierą wypowiedzi model potrafi "zapożyczać" dźwięki ze środowiska mówiącego.
A poza tym umie wygenerować wypowiedź o wybranym przez użytkownika zabarwieniu emocjonalnym. Chcemy, by ton był radosny, gniewny czy znudzony? To nie stanowi problemu dla VALL-E.
Na razie system "nauczył się" kopiować mowę jedynie po angielsku. Narzędzie wytrenowano w oparciu o 60 tysięcy godzin nagrań 7 tysięcy osób w tym języku. Zapewne nabycie przez VALL-E umiejętności władania innymi językami pozostaje kwestią czasu.
Zaawansowaną technologię imitującą ludzki głos można wykorzystać na różne sposoby. Przykładami są czytanie audiobooków czy napisów do filmów.
Ponadto twórcy zapowiadają, że VALL-E ma działać w powiązaniu z ChatGPT, co oznacza, że rozmowa ze sztuczną inteligencją naśladującą mowę wybranego przez nas delikwenta staje się powoli faktem.
Jak to zazwyczaj bywa, jeśli są korzyści, to zapewne pojawią się także i zagrożenia. Na pewno znajdą się i tacy, którzy będą chcieli wykorzystać VALL-E do oszustw i nadużyć. W związku z tym model nie jest póki co dostępny publicznie.
Co dotyczy innych wieści na temat kopiowania danych, to w czwartek pisaliśmy o intrygujących zakupach Komendy Głównej Policji. Służby zakupiły trzyletnią licencję na izraelskie oprogramowanie hakujące Cellebrite.
System, który kosztował niemało, bo ponad 6,5 miliona złotych, może skopiować z hakowanego urządzenia dosłownie wszystko - od zdjęć po dane w chmurze i historię naszych lajków w portalach społecznościowych.