Microsoft ukradnie Twój głos. Wystarczy 3-sekundowa próbka

Dagmara Kottke
13 stycznia 2023, 13:12 • 1 minuta czytania
Microsoft zaprezentował VALL-E. To kolejne narzędzie działające w oparciu o AI. Tym razem system kopiuje barwę głosu, a także styl mówienia i emocje nagranej osoby.
Wojtek Laski/East News
Więcej ciekawych artykułów znajdziesz na stronie głównej

W internecie przybywa artykułów na temat sztucznej inteligencji. Dzieje się tak w dużej mierze za sprawą ChatGPT, który stał się w ostatnim czasie niezwykle popularny. Okazuje się, że całkiem już zaawansowana AI jest w stanie doradzić nam, jaki prezent wybrać dla osoby o konkretnych zainteresowaniach - albo opowiedzieć ciekawą i spójną logicznie bajkę z wskazanym przez nas motywem przewodnim.

A teraz przyszedł czas na system, który potrafi kopiować głos.

Microsoft zaprezentował VALL-E - narzędzie bazujące na sztucznej inteligencji, które jest w stanie "ukraść" głos nagranej osobie. Zatrważającym jest fakt, że aby móc w miarę sprawnie posługiwać się mową swojej "ofiary", VALL-E potrzebuje zaledwie... 3-sekundowej próbki.

Jak działa VALL-E?

Jak podaje autor kanału Coding Money na YouTube, na podstawie bazowych kilku sekund program może wygenerować przemówienie naśladujące "intonację, charyzmę i ogólny styl mówienia" osoby.

System najpierw odczytuje oryginalną próbkę, a następnie przystępuje do jej analizy, gromadząc potrzebne dane. Następnie przetwarza fragment, który ma "wypowiedzieć". Efekt końcowy to nagranie audio, na którym VALL-E "odczytuje" wspomniany fragment głosem z oryginalnej próbki.

Jeśli oryginalne nagranie zawiera jakieś zakłócenia w tle - bo na przykład mówca był na dworcu kolejowym czy poczcie - to również nie umknie to uwadze VALL-E. Okazuje się bowiem, że poza barwą głosu, tonem i manierą wypowiedzi model potrafi "zapożyczać" dźwięki ze środowiska mówiącego.

Czytaj także: https://innpoland.pl/188503,jak-stworzyc-playliste-przy-uzyciu-ai-prosty-i-szybki-sposob

A poza tym umie wygenerować wypowiedź o wybranym przez użytkownika zabarwieniu emocjonalnym. Chcemy, by ton był radosny, gniewny czy znudzony? To nie stanowi problemu dla VALL-E.

Na razie system "nauczył się" kopiować mowę jedynie po angielsku. Narzędzie wytrenowano w oparciu o 60 tysięcy godzin nagrań 7 tysięcy osób w tym języku. Zapewne nabycie przez VALL-E umiejętności władania innymi językami pozostaje kwestią czasu.

VALL-E - plusy i minusy

Zaawansowaną technologię imitującą ludzki głos można wykorzystać na różne sposoby. Przykładami są czytanie audiobooków czy napisów do filmów.

Czytaj także: https://innpoland.pl/188926,sztuczna-inteligencja-polak-wsrod-tworcow-chatgpt-to-wojciech-zaremba

Ponadto twórcy zapowiadają, że VALL-E ma działać w powiązaniu z ChatGPT, co oznacza, że rozmowa ze sztuczną inteligencją naśladującą mowę wybranego przez nas delikwenta staje się powoli faktem.

Jak to zazwyczaj bywa, jeśli są korzyści, to zapewne pojawią się także i zagrożenia. Na pewno znajdą się i tacy, którzy będą chcieli wykorzystać VALL-E do oszustw i nadużyć. W związku z tym model nie jest póki co dostępny publicznie.

Polska policja kupiła szpiegowskie oprogramowanie

Co dotyczy innych wieści na temat kopiowania danych, to w czwartek pisaliśmy o intrygujących zakupach Komendy Głównej Policji. Służby zakupiły trzyletnią licencję na izraelskie oprogramowanie hakujące Cellebrite.

System, który kosztował niemało, bo ponad 6,5 miliona złotych, może skopiować z hakowanego urządzenia dosłownie wszystko - od zdjęć po dane w chmurze i historię naszych lajków w portalach społecznościowych.