Skip to content

Jak działają aplikacje do identyfikacji muzyki, takie jak Shazam?

1 de lipiec de 2021
Shazam App

Aplikacje do identyfikacji muzyki na początku wydają się magiczne, ale pod maską kryje się wyrafinowany algorytm, który może błyskawicznie znaleźć utwory. Oto jak działają.

Magia identyfikacji muzycznej

To chyba zdarzyło się nam wszystkim. Jesz obiad w miłej restauracji, spędzasz czas w kawiarni lub spacerujesz po sklepie, gdy nagle z głośników słyszysz świetną piosenkę. Może to piosenka, której słuchałeś wcześniej lub utwór, którego nigdy nie słyszałeś. Wyciągasz więc telefon, otwierasz Shazam i trzymasz urządzenie pod sufitem. W mgnieniu oka aplikacja informuje o tym, czym jest utwór, kim jest artysta i gdzie go przesyłać strumieniowo.

Są szybkie, niezwykle dokładne i potrafią zidentyfikować nawet najbardziej niejasne piosenki. Krótko mówiąc, pracują poprzez wyodrębnienie utworu z nagrania i przeszukiwanie go w obszernej bazie danych utworów. Ale technologia stojąca za tym, jak to robią, jest dość złożona i imponująca.

Możesz być zszokowany wiedząc, że aplikacja Shazam, którą znamy dzisiaj, została wydana w 2002 roku, a system był wtedy tak samo dokładny i szybki jak teraz. To wszystko dzięki unikalnemu algorytmowi, który zrewolucjonizowałby świat muzyki.

To nie tylko teksty

Na pierwszy rzut oka aplikacje do identyfikacji muzyki, takie jak Shazam, mogą wydawać się proste. Możesz pomyśleć, że po prostu słuchają tekstu, tak jak każdy asystent głosowy, i przeszukują go w bazie danych tekstów piosenek, aby powiedzieć ci, co to za piosenka.

Jednak większość aplikacji do identyfikacji muzyki jest w stanie powiedzieć, jaki jest tytuł utworu instrumentalnego, a nawet piosenkarza coveru. To dlatego, że zamiast analizować tekst utworu, szukają „odcisków palców”, które są unikalne dla każdego utworu w ich obszernych bazach danych.

Technologia odcisków palców

Shazam na iPhonie X

Prawdopodobnie masz urządzenia, które można odblokować za pomocą odcisku palca, czyli układu małych linii na palcu, które są unikalne dla Ciebie. Podobnie, gdy trzymasz mikrofon, aby nagrać krótki klip utworu, ten klip zamienia się we wzorce danych, które Shazam lub inna aplikacja może wyszukać w swojej bazie danych.

Na pierwszy rzut oka ta metoda wydaje się podatna na kilka problemów. W większości przypadków, gdy słuchasz muzyki w miejscach publicznych, w głośnikach słychać szumy tła i zniekształcenia, które mogą uniemożliwić identyfikację utworów lub spowodować niedokładne dopasowania. Ponadto nawet krótki klip dźwiękowy zawiera wiele danych, co może spowolnić wyszukiwanie tych wzorców w bazie danych zawierającej miliony utworów.

W rozmowie z Amerykański naukowiec w 2003 roku Avery Li-Chun Wang, główny naukowiec zajmujący się danymi i współzałożyciel Shazam, wyjaśnia, w jaki sposób ich algorytm rozwiązuje te problemy. Informacje o klipie audio można wizualizować za pomocą wykresu 3D znanego jako spektrogram, który przedstawia zmianę częstotliwości w czasie. Uwzględnia również amplitudę, czyli głośność dźwięku. Jest to reprezentowane na spektrogramie za pomocą intensywności koloru.

Spektrogram muzyczny Shazam

W ten sam sposób, w jaki ludzie nie mogą odbierać dźwięku, jeśli nie znajdują się na określonej częstotliwości, zamiast brać pod uwagę cały utwór podczas wyszukiwania, Shazam przyjmuje tylko „szczyty”, czyli najwyższą zawartość energii w klipie audio . Odciski palców, które przechwytuje, obejmują tylko punkty o najwyższej częstotliwości w danym przedziale czasowym, a następnie punkty o szczytowej amplitudzie w tych częstotliwościach.

W pracy naukowej dla Uniwersytet Columbia, Wang stwierdził, że metoda pozwala im usunąć większość niepotrzebnych części klipu audio, takich jak szum tła, i usunąć zniekształcenia. Dzięki temu rozmiar odcisków jest na tyle mały, że zidentyfikowanie piosenki w ich ogromnej bazie danych zajmuje zaledwie milisekundy.

Wpływ Shazama

Oprócz tego, że są pomocne dla przeciętnych słuchaczy, którzy słyszą ulubioną piosenkę, aplikacje do identyfikacji muzyki pomagają również kształtować świat muzyki.


Stacje radiowe i serwisy streamingowe często wykorzystują dane dotyczące tego, kim ludzie są Shazamami najczęściej, aby dowiedzieć się, jakich utworów słucha publiczność. Jest to pomocne, ponieważ wskazuje na chwytliwość utworu i potencjalną popularność, niezależnie od wykonawcy. Gdy zidentyfikujesz utwór z aplikacją, natychmiast zobaczysz, ile osób również próbowało go zidentyfikować.

Identyfikacja muzyki Soundhound

Od czasu powstania Shazama pojawiła się również garstka konkurentów. Soundhound twierdzi, że jest w stanie zidentyfikować piosenkę po prostu śpiewając lub nucąc do niej, z mieszanymi wynikami. Istnieje również identyfikator utworu zintegrowany z aplikacjami głosowymi, takimi jak Asystent Google, które działają bardzo podobnie do systemu Shazama.

Czy ten post był pomocny?