Article··10 min

Com funciona la detecció de gèneres musicals amb IA

Com els models d'IA moderns identifiquen gèneres musicals des d'àudio en brut: CLAP, aprenentatge zero-shot i què fa que la detecció de gènere sigui precisa.

GAGenre AI · engineering & ml

Què és la detecció de gèneres musicals amb IA?

La detecció de gèneres musicals amb IA és el procés d'utilitzar models d'aprenentatge automàtic per analitzar un senyal d'àudio i classificar-lo en un o més gèneres musicals — de manera automàtica i en temps real. Sistemes moderns com el detector en línia gratuït de Genre AI poden identificar gèneres com House, Techno, Hip-Hop, Jazz i més de 200 altres en menys de 3 segons a partir de pocs segons d'àudio.

A diferència dels antics sistemes basats en regles, que depenien de característiques dissenyades manualment (tempo, tonalitat, timbre, MFCCs), els detectors de gènere actuals impulsats per IA fan servir xarxes neuronals profundes entrenades d'extrem a extrem sobre milions de pistes etiquetades. El resultat: un únic model que ha interioritzat eficaçment la taxonomia musical d'internet modern — incloses barreges, subgèneres de fusió i variants regionals que cap sistema basat en regles podria seguir.

La tecnologia: CLAP i aprenentatge contrastiu

Els sistemes de detecció de gènere més avançats del 2026 utilitzen CLAP (Contrastive Language-Audio Pretraining) — una arquitectura de model que aprèn representacions compartides entre àudio i text. Desenvolupat originalment per LAION (article: arXiv:2211.06687), CLAP es va inspirar en el model CLIP d'OpenAI però adaptat a l'àudio.

La idea clau: en lloc d'entrenar un classificador amb una llista fixa d'etiquetes de gènere, CLAP aprèn a incrustar tant àudio com descripcions de text al mateix espai vectorial. Això permet la classificació zero-shot de gèneres — la capacitat d'identificar gèneres amb els quals el model mai no s'ha entrenat explícitament, simplement comparant els embeddings d'àudio amb embeddings de text com «electronic dance music» o «acoustic folk guitar».

Genre AI utilitza un model basat en CLAP entrenat amb centenars de milers de pistes d'àudio en més de 200 categories de gènere. Quan graves àudio amb el detector de gènere, el model extreu un embedding de 512 dimensions de l'àudio i calcula la similitud cosinus amb els embeddings de text dels gèneres — retornant les millors coincidències amb puntuacions de confiança.

Dins de CLAP: encoders, pèrdua i matemàtiques

Mecànicament, CLAP té dos encoders que s'optimitzen conjuntament:

  • Encoder d'àudio — habitualment HTSAT (Hierarchical Token-Semantic Audio Transformer), una variant de Swin-Transformer que ingereix espectrogrames log-mel i produeix un embedding de 512 dimensions per a una finestra de 10 segons. PANNs (Pretrained Audio Neural Networks) és una alternativa més antiga però encara habitual.
  • Encoder de text — un model estil BERT/RoBERTa, congelat o ajustat, que mapeja una descripció com «trance edificant amb lead de sintetitzador arpejat a 138 BPM» al mateix espai de 512 dimensions.

L'entrenament optimitza una pèrdua contrastiva (InfoNCE): per a cada parell (àudio, descripció) en un mini-batch de N, el model és empès a maximitzar la similitud cosinus d'aquell parell mentre minimitza la dels altres N-1 parells no coincidents. Després de prou entrenament, l'àudio i les descripcions semànticament similars s'agrupen, independentment de quina etiqueta exacta s'hagués utilitzat durant l'entrenament.

En inferència, la classificació zero-shot de gènere és simplement tres línies de matemàtiques: codifica l'àudio una vegada, codifica cada prompt de gènere una vegada (en memòria cau), i després pren argmax(cos_sim(audio_emb, [genre_emb_1, genre_emb_2, ...])). El «prompt de gènere» pot ser tan simple com «a track in the genre of {genre}» o tan detallat com una descripció de diverses frases — Genre AI utilitza un ensemble multi-prompt curat per categoria per reduir el biaix d'un únic prompt.

Quina precisió té la detecció de gènere amb IA?

Els millors detectors de gènere IA assoleixen 90–96% de precisió en benchmarks estàndard com GTZAN (10 gèneres, sovint criticat per soroll en les etiquetes) i MagnaTagATune (188 etiquetes, multi-etiqueta). Genre AI reporta un 96% de precisió top-1 al seu conjunt intern de prova a través de més de 200 gèneres, i un 99% de precisió top-3 — és a dir, el gènere correcte és en les tres millors coincidències retornades gairebé sempre.

  • Durada de l'enregistrament: 5–10 segons és l'òptim. Per sota de 3 segons l'embedding es torna sorollós; per sobre de 15 segons pagues computació amb rendiments decreixents.
  • Qualitat de l'àudio: el soroll de fons, la baixa taxa de bits (per sota de 96 kbps en MP3) i la normalització de volum agressiva redueixen la precisió entre 5 i 15 punts percentuals.
  • Ambigüitat de gènere: moltes pistes modernes barregen diversos gèneres. Una cançó que és 60 % trap i 40 % drill no és «errònia» sota cap de les dues etiquetes.

Com hem provat aquestes xifres de precisió

El nostre conjunt intern de prova abasta 24.000 pistes reservades de l'entrenament, mostrejades per equilibrar la cua llarga (sobremostregem deliberadament gèneres de nínxol perquè un titular del 96 % no estigui dominat per categories fàcils com «rock» i «pop»). Cada pista s'avalua en segments de 10 segons; una predicció compta com a correcta si coincideix amb una de fins a dues etiquetes assignades per humans (avaluació multi-etiqueta), ja que la majoria de les pistes modernes pertanyen legítimament a més d'una categoria. Tornem a executar l'avaluació després de cada actualització del model i publiquem internament la matriu de confusió gènere per gènere per detectar regressions a temps. Les xifres d'aquest article reflecteixen l'avaluació de maig del 2026.

Detecció de subgèneres: més enllà de la categoria principal

En lloc de retornar només «Electronic», Genre AI distingeix entre House, Deep House, Tech House, Minimal Techno, Melodic Techno, Progressive House, Afro House i desenes d'altres subgèneres — cadascun amb la seva pròpia puntuació de confiança. Això és possible perquè l'encoder de text del model entén descripcions d'àudio matisades com embeddings semànticament distincts: «deep house with warm Rhodes chords» i «minimal techno with sparse 909 percussion» es mapegen a regions clarament separades de l'espai de 512 dimensions.

Què passa quan prems Gravar

  1. El navegador captura àudio mitjançant la Web Audio API a 44,1 kHz.
  2. Un clip de 5–10 segons es codifica (habitualment com Opus o WAV PCM de 16 bits) i s'envia al backend d'IA.
  3. El clip es converteix a un espectrograma log-mel (128 bandes mel, salt de 25 ms).
  4. L'encoder d'àudio CLAP (HTSAT) produeix un embedding de 512 dimensions.
  5. Es calcula la similitud cosinus enfront dels més de 200 embeddings de text de gènere precalculats.
  6. Es retornen el gènere principal i les alternatives amb percentatges de confiança.

Tota la canalització s'executa en menys de 3 segons. Prova-ho amb el detector de gènere musical en línia gratuït.

Per què la detecció de gènere és més difícil que la classificació d'imatges

Si has treballat amb models d'imatge, podries esperar que la detecció de gènere fos un problema resolt. No ho és, per tres raons:

  • Els gèneres són difusos per definició. Una fotografia d'un gos és inequívocament un gos. Una pista rarament és inequívocament d'un sol gènere — les etiquetes són construccions socials que canvien amb el temps i entre regions. «UK garage» i «2-step» se superposen; «bedroom pop» no existia abans del 2017.
  • L'àudio és seqüencial i depèn del context. El mateix patró de bateria pot ser techno, house o breaks depenent del que soni per sobre. Els classificadors d'imatge poden basar-se en una única característica decisiva (un bec = un ocell); els classificadors d'àudio necessiten integrar informació espectral, rítmica i harmònica al llarg del temps.
  • Les etiquetes d'entrenament són sorolloses. Spotify, Bandcamp i Beatport etiqueten la mateixa pista de manera diferent. Fins i tot benchmarks curats a mà com GTZAN tenen exemples mal etiquetats coneguts.

Limitacions que hauries de conèixer

  • Els enregistraments en viu de converses o soroll del carrer poden confondre el model i retornar una etiqueta «ambient» o «field recording» amb baixa confiança. El detector retorna puntuacions de confiança per una raó — tracta qualsevol valor per sota del ~40 % com a incert.
  • Les pistes generades per IA molt processades de vegades cauen en gèneres veïns però erronis perquè les seves dades d'entrenament tenen els seus propis biaixos. Combina una comprovació de gènere amb el nostre detector de música IA si l'origen importa.
  • Subgèneres completament nous que han sorgit després del tall d'entrenament del model es classifiquen en la categoria existent més propera. La solució és el reentrenament periòdic; el truc és inspeccionar els tres millors resultats, no només el primer.

Què ve després per a la detecció de gènere amb IA?

La propera frontera és la detecció temporal de gènere — identificar com el gènere d'una pista canvia amb el temps (intro vs. drop vs. breakdown). Els prototips de recerca ja existeixen, amb sistemes de grau producció esperats per al 2027. Una altra àrea emergent és l'anàlisi multimodal de gènere combinant àudio amb lletres i metadades de l'artista, on la predicció de gènere es condiciona per allò que el cantant diu realment. Eines com Genre AI són les primitives sobre les quals s'està construint aquest futur — i l'arquitectura subjacent estil CLAP és també el que impulsa el nostre detector de música IA complementari.

Last edited 11 de maig del 2026 · cite as: Genre AI, “Com funciona la detecció de gèneres musicals amb IA” (Genre AI Blog, 2026).

Prova el detector de gèneres IA gratuït

Identifica qualsevol gènere musical en segons — sense necessitat de registre.

Com funciona la detecció de gèneres musicals amb IA