E’ possibile prevedere il successo di una composizione musicale valutando a livello statistico una serie di parametri oggettivi legati alla costruzione del brano?
E’ l’intrigante interrogativo alla base di uno degli esercizi più complessi del corso The Analytics Edge del Massachusetts Institute of Technology la prima università al mondo che è sbarcata sui Mooc costruendosi una propria piattaforma di formazione (assieme all’Università di Harvard) e creando un offerta formativa che, nel caso del corso in questione, prevede la perfetta corrispondenza dei contenuti veicolati online a quelli in aula (praticamente il corso online è lo stesso di quello che si può seguire nella sede del Mit).
La domanda all’origine di questo post non è oziosa perchè se si considera che dietro il lancio di un album vi sono enormi investimenti a livello di studio di registrazione, marketing, distribuzione, attività di promozione e concerti, è sicuramente di grande interesse per un etichetta discografica capire in anticipo quali sono gli album potenzialmente vincenti su cui puntare maggiormente così da razionalizzare gli investimenti. Dal punto di vista del pubblico il rischio è quello di vedersi proporre opere massificate, abbastanza standardizzate su certi parametri, con poco spazio alla creatività e al fuori norma. Il processo è comunque inarrestabile: con l’avvento dei Big Data sono nati anche una serie di strumenti statistici per analizzarli e trarne indicazioni operative che le principali aziende al mondo stanno utilizzando a piene mani per prendere decisioni in tempo reale.
Nel nostro esercizio useremo R un linguaggio di programmazione statistica open source molto potente sviluppato da una comunità enorme di supporter. Per chi è abituato ad avere a che fare con applicazioni sempre più visuali e semplici, usare R è un salto a piè pari verso il passato: è tutto codice che è necessario scrivere di volta in volta su una barra di comando che ricorda il famigerato MS-DOS. Dopo un impatto iniziale da pugno nello stomaco, ci si inizia ad abituare. Poichè è case sensitive si diventa più attenti alle lettere maiuscole e minuscole e alla sintassi. L’artigianalità del linguaggio ha come controeffetto quello di farti apprezzare maggiormente ciò che riesci a tirare fuori dai dati perchè può essere solo ragionato, con nessun spazio al caso e all’improvvisazione.
Lavoreremo su una base dati costituita da 7.574 canzoni proveniente dalla Echo Nest, una società specializzata nella classificazione dei brani musicali, contenente le seguenti informazioni:
- year, songtitle, artistname: i dati identificativi dei brani in termini di anno di pubblicazione, titolo e artista;
- timesignature e timesignature_confidence: due variabili che stimano il “tempo” del brano e l’affidabilità di tale stima in termini di probabilità, compresa tra zero e 1.
Gran parte della musica pop è scritta in 4/4, ed è abbastanza frequente trovare i 2/2. A partire dagli anni settanta tuttavia alcuni gruppi rock hanno introdotto i cosiddetti “tempi dispari” (ad esempio Money dei Pink Floyd è in 7/4) ed altri hanno iniziato a usare frequenti cambi di tempo nello stesso brano musicale. Il brano più celebre per gli innumerevoli cambi di tempo è probabilmente The Dance of Eternity dei Dream Theater che ha al suo interno 2/4, 3/4, 4/4, 5/4, 6/4, 3/8, 5/8, 7/8, 9/8, 11/8, 12/8, 15/8, 5/16, 6/16, 7/16. In tal caso la stima del timesignature è un valore medio che avrà una timesignature_confidence molto bassa perchè, data la variabilità, la media ha scarso valore nel rappresentare il tempo del brano. Pertanto potremo considerare il timesignature_confidence come un indicatore della complessità di un brano (più il valore è basso, più il brano è complesso); - loudness: è una variabile espressa in decibel che indica la pressione sonora. Può essere modificata artificialmente in sede di mix del brano musicale e recentemente si è sviluppata una certa polemica su tali manipolazioni perchè le registrazioni a volume alto riducono la gamma dinamica e introducono distorsioni che fanno decadere la qualità del suono. In questo esempio sul brano Money for Nothing dei Dire Straits è mostrato a livello sonoro e grafico ciò che si perde;
- tempo e tempo_confidence: due variabili che stimano i battiti per minuto (BPM) del brano e l’affidabilità di tale stima. Anche qui come nel timesignature_confidence, un valore basso del tempo_confidence indica una variabilità molto alta dei BPM all’interno di una canzone e quindi una struttura di brano complessa. Ad esempio il brano dei Queen Bohemian Rhapsody presenta BPM fortemente diversificati;
- key e key_confidence: due variabili che stimano la chiave della canzone (C, C#, . . ., B) e il livello di confidenza della stima;
- pitch: una variabile continua che definisce il tono della canzone più o meno “alto” o “basso”;
- timbre_0_min, timbre_0_max, timbre_1_min, timbre_1_max, . . . , timbre_11_min, timbre_11_max: 24 variabili che indicano il valore minimo e massimo per ognuno dei dodici valori del timbro;
- Top10: una variabile binaria che assume valore 1 o zero a seconda che la canzone si sia classificata tra i primi dieci posti della classifica Billboard Hot 100 Chart. E’ questo l’indicatore del successo commerciale del brano.
Per rispondere alla domanda iniziale, dobbiamo capire se la funzione che costruiremo sarà capace di prevedere il successo del brano considerando le variabili citate. Divideremo l’insieme dei brani in due parti: la prima ci servirà per creare la funzione, la seconda per testarla. Useremo la regressione logistica perchè la variabile da prevedere è dicotomica: Top 10 si/no.
Dopo una serie di tentativi, volti ad individuare ed eliminare le variabili affette da multicollinearità (cioè variabili indipendenti che in realtà sono correlate tra loro e che indeboliscono il modello) elaboriamo una funzione che è capace di prevedere il successo di un brano con oltre l’87% di probabilità. I parametri significativi di questa funzione sono quelli contrassegnati con gli asterischi nella tabella seguente.
Come si interpretano? Nel grafico a fianco della tabella vi è la rappresentazione della distribuzione di tutti i brani secondo due delle variabili significative (timesignature_confidence e tempo_confidence) con l’indicazione in rosso dei brani di successo. Già da qui è possibile intuire che i brani che entrano tra i primi 10 in classifica tendono a concentrarsi in alto verso destra, quindi verso valori di stima del tempo e dei BPM prossimi a 1 e pertanto brani piùttosto “semplici”. Considerando tutte le significatività possiamo dire che i brani di maggior successo commerciale hanno in generale:
- struttura poco complessa;
- suono “forte” con bassi accentuati;
- utilizzo di particolari tipi di armoniche.
Questo esercizio suggerisce che le major discografiche (che possono lavorare con strumenti sofisticati su base dati molto più articolate di quella usata in questa sede) hanno a loro disposizione tutti gli elementi per valutare l’offerta musicale in grado di massimizzare i propri profitti. Possono anche influenzarla in sede di produzione.
C’è da sperare che opere con una forte componente creativa abbiano ancora la possibilità di raggiungere chi sappia apprezzarle.
Davvero interessante Antonio. L’esempio musicale è appropriato visti gli investimenti coinvolti, esiste qualcosa del genere anche per le arti grafiche ?
Interessantissimo Antonio!!!
Grazie per i commenti. Al momento non mi risultano database sufficientemente articolati per poter creare funzioni predittive sulla arti grafiche. Sicuramente le case d’aste e le grosse gallerie d’arte avranno tutta una serie di inormazioni sulle quotazioni di opere e artisti nel corso del tempo. Sarebbe interessante capire come le usano.