Departamento de Artes da UFPR
Revista Eletrônica de Musicologia
Vol. 5.2/dezembro de 2000
Home

SEGMENTAÇÃO AUTOMÁTICA DE FLUXOS MUSICAIS: UMA ABORDAGEM VIA AGENTES RACIONAIS

 

Ernesto Trajano, Didier Guigue,

e Edilson Ferneda

 

Resumo

A segmentação é uma das tarefas principais na análise musical. Pode-se dizer que a segmentação é a partição de um fluxo musical em segmentos homogêneos, de acordo com determinados critérios, critérios estes particulares de cada modelo analítico. Este artigo discute algumas questões relacionadas com uma metodologia de análise musical baseada no conceito de objeto sonoro. Neste modelo, o objeto sonoro pode ser definido como a combinação e interação de vários componentes da escrita musical. Uma ruptura de continuidade em pelo menos um destes componentes identifica, teoricamente, uma nova unidade estrutural/lógica (um novo objeto sonoro). Este artigo também discute a automação deste processo de segmentação. Propomos o uso do conceito de agente racional para a segmentação e apesar da pesquisa se encontrar ainda em um estágio inicial, apresentamos alguns insights no que concerne a utilização deste conceito para a segmentação de fluxos musicais. 

1 Introdução

Em inteligência artificial, diversos trabalhos evidenciam, implícita ou explicitamente, a importância de ambientes computacionais apropriados para o apoio aos pesquisadores na tarefa de organização de dados experimentais e na geração, avaliação, refutação e revisão de conhecimentos teóricos sobre um domínio. Nosso projeto de pesquisa integrada com o GIA (Grupo de Inteligência Artificial da Universidade Federal da Paraíba) evidencia a utilização da aprendizagem automática aplicada aos sistemas de apoio à descoberta. Trabalhamos na anatomia de um agente racional, evidenciando o conjunto dos dados, das heurísticas e dos mecanismos que intervêm para que um tal agente realize tarefas simples de raciocínio em um domínio específico: a geometria [Fer92]. Dadas as restrições de modelagem de um agente racional, os conceitos que ele formula na forma de conhecimento são normalmente sujeitos a erros. Como o domínio da geometria é bem conhecido, o agente humano é capaz de determinar contra-exemplos que embaracem o agente racional. Uma vez que o agente racional não tem por objetivo produzir um conhecimento exato e sim um conhecimento argumentável e que possa ser corrigido através de um protocolo de diálogo, pode-se então tentar provocar uma revisão do conhecimento do agente.

Nós buscamos a concepção de um ambiente capaz de lidar com alguns problemas da área da análise musical auxliada por computador. Em particular, nosso trabalho trata da concepção de um agente racional capaz de segmentar automaticamente fluxos musicais (1).

 

2 Análise musical e segmentação

A análise musical é um ramo da musicologia que procura compreender e explicar a estrutura de uma obra musical. Para o analista, uma obra é definida como um "complexo de elementos interdependentes articulados entre si" [Mee94]. é a articulação destes elementos interdependentes, ou unidades lógicas, a determinante da estrutura, isto é, da forma de uma obra musical. "Tratar da forma musical e de sua segmentação é tratar da própria análise musical" [Mee94].

Uma das primeiras tarefas envolvidas na análise musical é a segmentação. Mesnage define segmentação como sendo "uma parte do processo de análise musical que consiste em delimitar em uma obra musical os segmentos utilizados como entidades significativas na análise" [Mes94]. Os procedimentos de segmentação podem classificados em dois: os de base extrínseca, isto é, os que se baseiam em conceitos e pressupostos exteriores à obra a ser examinada; e os de base intrínseca, que baseiam-se, enquanto possível, apenas nos elementos presentes na obra [Mee94].

À primeira vista, o processo de segmentação pode parecer simples. Mas, os questionamentos envolvidos em tal processo não são de forma alguma triviais, mesmo para analistas experientes. Encontrar fragmentos dentro de uma obra musical não necessariamente indica que estes sejam fragmentos estruturalmente importantes. Cabe ao analista, após uma comparação em diversos aspectos entre os fragmentos encontrados, considerá-los como tal. De acordo com a peça, o método e o escopo da análise, o analista contempla material de níveis estruturais mais baixos, tais como as classes de notas, e a forma como este material forma as estrturas harmônicas ou mélodicas, ou ele pode contemplar os chamados parâmetros secundários [Mey89], como por exemplo densidades, timbres, andamentos e dinâmicas.

 

3 Segmentação automática de fluxos musicais

Nossa abordagem é baseada no conceito de objeto sonoro [Gui97a, Gui97b]. Neste modelo, um objeto sonoro é definido como "uma estrutura complexa descrita pela interação de vários componentes da escrita musical e cuja articulação é capaz de conter a forma como um todo ou em parte" [Gui97b]. Os componentes que formam o objeto sonoro são, são de maneira geral, os que Mayer chama de parâmetros secundários [Mey89, Gui97b]. Os objetos sonoros funcionam como uma estrutura de nível médio, em oposição às estrutras de nível inferior (notas ou estruturas de classes de notas) e às estruturas de nível superior (macro estrutura). A figura 1 mostra os níveis estruturais.

 

Figura 1: objetos sonoros e sua posição nos níveis estruturais. 

 

A maneira como estes objetos de nível médio são ligados é um vetor importante da forma na música do Séc. XX. Assim, nossa abordagem pode ser descrita como orientada a objetos. Esta abordagem busca esclarecer:

1. as inter relações entre o nível médio dos objetos sonoros, o nível inferior das classes de notas e o nível superior da macro estrutura;

2. a dinâmica transformacional entre os objetos consecutivos, que configura um aspecto crucial da kinesis formal das peças e permite que a forma seja inferida da sucessão de objetos sonoros mais ou menos contrastantes.

O primeiro passo do modelo é reconfigurar o fluxo musical em uma seqüência discreta de unidades lógicas - os objetos sonoros. Assumimos que uma ruptura na continuidade estrutural de ao menos um de seus componentes implica em uma ruptura na continuidade sonora e, conseqüentemente, identifica uma nova etapa estrutural, isto é, um novo objeto sonoro [Gui97a]. Assim, segmentação significa encontrar as rupturas de continuidade em cada componente.

Entretanto, estes componentes do objeto sonoro não são nem equivalentes na capacidade de gerar rupturas no contínuo, e assim orientar a segmentação, nem linearmente permutáveis. Eles agem sobre níveis mais ou menos globais da superfície musical. Rupturas podem, por exemplo, ser: silêncios, fermatas, ...; mudanças na pulsação básica, no andamento global ou no compasso, mudanças sônicas globais (isto é, grupos instrumentais na música orquestral; mudança de pedal na música para piano, etc.); interrupções no fraseado e articulação; rupturas na homogeneidade de componentes relevantes como intensidades, registros, densidades, etc.

A estrutura algorítmica na qual trabalhamos é baseada nas seguintes premissas e passos:

1. O computador recebe um conhecimento preliminar dos parâmetros nos quais as rupturas podem ocorrer. Este é um exemplo:
(a) Macro rupturas:
i. parâmetro som/silêncio: o mais geral é identificado na partitura através do silêncio ou sinais de suspensão e outras indicações gráficas ou textuais da interrupção do som;

ii. mudanças macro formais (mudanças de tempo, de unidade métrica, etc).

(b) Rupturas globais:

i. mudanças globais de sonoridade: alterações na estrutura, distribuição ou densidade instrumental (ações normalmente atribuídas ao parâmetro orquestração), alterações globais na produção individual do som (ação nos pedais do piano - ativação ou interrupção -, sordinas em instrumentos de metais, mudança de registro no órgão, pizzicato e outras modalidades de produção de som nos instrumentos de arco, etc);

ii. final (ou início) de uma articulação global (geralmente indicada por ligaduras ou semelhantes);

iii. rupturas globais de intensidades;

iv. rupturas globais de registração.

(c) Mudança na configuração de outros componentes do som: densidade relativa, modos de distribuição (a maneira como os sons são distribuídos espacialmente ou temporalmente), direcionalidade, marcas de articulação, padrões de pulsação, etc.(2).

2. O algoritmo tem que permitir que o usuário delimite a profundidade da análise a ser efetuada, através de uma taxa de precisão. Assim, o usuário determina a quantidade de dados a serem avaliados e retornados. Obviamente, esta taxa de precisão deve ser considerada pelo programa a cada passo.

3. Cada peça (ou seção de um peça, dependendo do escopo da análise) gera sua própria hierarquia de parâmetros relevantes para os critérios de rupturas estruturais. Isto significa que nem todos os parâmetros da base de conhecimento preliminar são válidos para qualquer música, nem que sua posição hierárquica permanece a mesma. A aplicação de métodos estatísticos no algoritmo pode ajudar na decisão da hierarquia a ser estabelecida.

4. Ao mesmo tempo, a análise do arquivo de entrada deve permitir ao algoritmo definir, para cada parâmetro relevante, o valor interválico mínimo (3), a partir do qual será considerada e existência de rupturas estruturais. Obviamente, um intervalo de zero resultará em uma análise realmente microscópica, onde cada novo valor corresponderá a uma ruptura estrutural, o que está longe de ser uma informação útil. Este intervalo mínimo está correlato à taxa de precisão previamente determinada pelo usuário.

5. O algoritmo deve ter como resultado dois grupos principais de dados:

(a) o resultado da segmentação, na forma de seqüências lineares de unidades lógicas. Este resultado pode ser representado por uma coleção de pequenos arquivos MIDI ou arquivos áudio.

(b) uma quantificação do grau de ruptura (gap weight) que mostre em que proporção um objeto B entra em relação de discontinuidade com o objeto imediatamente anterior A, sendo que esta proporção é quantificada em relação à média da avaliação das discontinuidades observadas no conjunto das listas de valores obtidas através da análise dos parâmetros selecionados dentro da base de conhecimento.

A figura abaixo descreve o processo de segmentação segundo esta metodologia:

 

 

Figura 2: Descrição do processo de segmentação. Legenda: retângulos azuis: arquivos de entrada e de saída; retângulos pretos: o cerne do programa; precision rate: taxa de precisão definida pelo usuário; M.I.V.: cálculo do valor interválico mínimo.

 

Os principais problemas nesta implementação computacional do processo de segmentação surgem da necessidade do computador saber e/ou decidir o seguinte:

1. Dada uma entrada - uma obra musical devidamente codificada - e assumindo que foi dado ao sistema uma base de conhecimentos, quais são os componentes estruturalmente relevantes? Isto é, como segmentar uma obra musical apenas a partir de sua representação e de uma base de conhecimento?

2. Como classificar hierarquicamente destes componentes, assumindo que alguns são mais importantes que outros na determinação da estrutura de uma obra musical?

3. Até que ponto as metas analíticas permitem a inferência das escolhas anteriores? Em outras palavras: como a interface do usuário pode permitir que ele especifique o nível ou escopo da segmentação que o computador irá realizar?

 

4 Agentes inteligentes

Um agente é uma entidade que percebe o ambiente no qual está inserido através de sensores e age sobre este ambiente através de efetuadores [RN95]. Os agentes possuem uma série de características. Entre elas, a autonomia é uma das mais importantes. Um agente é autônomo quando a sua escolha de ações é determinada pela sua experiência. Assim, a autonomia está intimamente ligada à quantidade de conhecimento que o agente dispõe.

Existe uma grande variedade de designs de agentes, dependendo do tipo de informação explicitada e utilizada em seu processo de decisão. Fatores como eficiência e flexibilidade são levados em consideração, mas o design final dependerá das percepções, das ações e metas do agente, além do ambiente onde ele estará inserido (4).

4.1 Agentes racionais

Os agentes racionais podem ser vistos como um tipo de agente inteligente que possuem uma característica particular: eles são capazes de explicar como resolveram um dado problema. Na verdade sua racionalidade, sua capacidade de explicação, é comunicacional: é ela que permite que o agente se relacione com outras máquinas e com os humanos [Sal97]. Para ser racional o agente deve respeitar os seguintes fatos:

1. O princípio da razão: ele gera a casualidade, pois nada existe sem uma razão;

2. O princípio da identidade: ele mantêm a permanência (A é o mesmo que A);

3. O princípio da contradição: nada existe sem o seu contrário.

O agente racional existe para organizar, manter e distribuir um conhecimento, sendo assim um servidor de informação. Ele é concebido para nos ajudar a categorizar e a teorizar [Sal97] e, como tal, é construído através de estruturas categoriais e definidas em função de grandes invariantes estruturais. Ele possui três quadros conceituais:

1. Um quadro para definir a forma;

2. Um quadro para definir as normas e

3. Um quadro para definir as relações entre formas e normas.

Os agentes racionais teorizam através das comunicações realizadas entre eles: são elas que servem para construir uma teoria semi-empírica. São estas comunicações que geram os fatos, hipóteses, objetos, conceitos, lemas, etc., sobre o domínio.

 

5 Agentes e segmentação

A importância da aplicação do conceito de agente racional à segmentação automática de fluxos musicais se encontra principalmente na capacidade deste agente produzir um conhecimento argumentável. à medida que o agente vai teorizando e categorizando um domínio, a interação deste agente com o usuário especialista pode levar a uma explicação mais completa e coerente do domínio. Por exemplo, se o agente entrega ao especialista uma pré-segmentação que parece ser incoerente com a experiência do analista, este pode pedir que o agente revise o seu conhecimento e realiza uma nova pré-segmentação baseada nesta revisão do conhecimento.

A importância desta interação e da revisão do conhecimento do agente resultante desta interação é pertinente para o nosso contexto. Uma metodologia analítica, e conseqüentemente suas regras gerais para a segmentação, assume que em um dado contexto - um sistema tonal ou não-tonal, por exemplo - certas coisas acontecem. Mas é sabido que a arte, e a música em particular, não é um contexto estático e pré-definido e que as coisas podem acontecer de uma forma não prevista. Um agente racional certamente se deparará com situações não representadas em seu conhecimento do domínio, em sua teoria. Uma maneira de resolver este problema é permitir que o agente interaga com o usuário e reveja a sua teoria.

A figura 3 mostra as interações dos agentes no sistema que propomos. Ela introduz um novo elemento: o grupo de trabalho. O grupo de trabalho possui uma atividade epistêmica: ele formula regras e prescrições sobre um micro mundo (no nosso caso, uma obra musical). Sua tarefa é determinar os termos que permitem que o agente racional raciocine e atue neste micro mundo [Sal97].

Figure 3: descrição do software.

 

Basicamente, o processo de segmentação é feito da seguinte maneira: o usuário dá ao agente, e eventualmente ao grupo de trabalho, sua análise prévia da obra (5). O agente irá interagir com o grupo de trabalho tentando resolver o problema, de acordo com as opiniões do usuários. O grupo de trabalho verificará as opiniões do usuário e os resultados do agente consultando alguns algoritmos estatísticos implementados no ambiente PatchWork©. Estes algoritmos verificam a existência de similaridades de parâmetros entre objetos sonoros (6). Se os objetos sonoros resultantes da segmentação apresentam similaridades em um número pré-determinado de parâmetros, a segmentação é considerada como válida. Se o grupo de trabalho não encontra similaridades entre os objetos resultantes da pré-segmentação, ele pode sugerir que o agente refaça a segmentação. O agente, então, tem que decidir se ele pedirá ao usuário mais informações ou se seu conhecimento é suficiente para tentar inferir uma nova ordem na qual os parâmetros devem ser considerados.

 

6 Conclusões prévias e trabalhos futuros

Como foi dito, este é um trabalho em andamento. Ainda assim, podemos apresentar algumas conclusões prévias a respeito do modelo proposto:

1. Na parte musicológica, o processo de segmentação já foi testado, mesmo que não automaticamente, e funciona de acordo com as nossas expectativas [Gui97b, Tra98];

2. O uso do conceito de agente racional no processo de segmentação automática de fluxos musicais é, até onde sabemos, novo;

3. A capacidade do agente racional de produzir conhecimento argumentável é uma característica importante para o seu uso no processo de segmentação automática;

4. Uma arquitetura multiagente permite que o agente colabore com outros agentes, representados aqui pelo grupo de trabalho e pelo próprio usuário. Devido à complexidade da tarefa de segmentação, colaboração é uma característica desejável.

Para o prosseguimento do trabalho, prevê-se as seguintes tarefas:

1. é necessário que a arquitetura do agente seja testada: apesar da arquitetura do agente (fig.2) parecer correta e respeitar os vários aspectos do modelo musicológico, não se pode afirmar que ela seja válida para nosso propósitos. Apenas uma implementação e testes com este agente podem verificar a validade desta arquitetura;

2. Outra ponto importante é o grupo de trabalho. Tem que ser estabelecido quantos agentes o comporão, assim como as capacidades destes agentes. O uso dos patches pelo grupo de trabalho também precisa ser definido;

3. Um estudo sobre a complexidade computacional deste modelo também é importante;

4. O modelo de comunicação entre o agente e o grupo de trabalho tem que ser definido, assim como o modelo de comunicação entre o agente e o usuário.


Notas

(1) Este artigo é parte de um projeto de pesquisa coordenado pelo Prof. Dr. Didier Guigue e subvencionado pelo CNPq, no qual Ernesto Trajano está desenvolvendo uma dissertação de mestrado em informática, orientado pelos Profs. Drs. Edilson Ferneda e Didier Guigue. (volta)

(2) Este parâmetros e critérios estão exaustivamente descritos em [Gui97a, Gui97b]. (volta)

(3) Intervalo aqui não possui o significado usual utilizado por músicos, isto é, o da distância entre duas notas. Aqui, intervalo significa a distância entre dois valores numéricos de uma lista. (volta)

(4) Existe uma calssificação dos ambientes e da influência destes no design final de um agente em [RN95], pp. 45-49. (volta)

(5) Esta análise prévia é a descrição dos parâmetros que parecem ser mais relevantes para a peça. (volta)

(6) Para uma descrição completa destes algoritmos vide [Gui97]. (volta)


Referências

[Ber87] BERRY, Wallace. Structural Functions in Music. New York: Dover, 1987.

[Coo94] COOK, Nicholas. A Guide to Musical Analysis. Oxford: Oxford University Press, 1994.

[Fer92] FERNEDA, Edilson. "Conception d'un Agent Rationnel et Examen de son Raisonnement en Géométrie".Tese de Doutorado, Université de Montpellier II, 1992.

[Gui97a] GUIGUE, Didier. "Sonic object: A model for twentieth-century music analysis". Journal of New Music Research, Vol. 26, No.4:346-375, 1997.

[Gui97b] GUIGUE, Didier. Une étude "pour les Sonorités Opposées": Pour une analyse orientée objets de l'oeuvre pour piano de Debussy et de la musique du XX` e siècle. Presses Universitaires du Septentrion, Villeneuve d'Ascq, 1997.

[Mee94] MEEÙS, Nicolas. "De la forme musicale et de sa segmentation". Musurgia, Vol. 1, No. 1:7&endash;23, 1994.

[Mes94] MESNAGE, Marcel. "Techniques de segmentation automatique en analyse musicale". Musurgia, Vol. 1, No. 1:39&endash;49, 1994.

[Mey89] MEYER, Leonard B. Style and Music. Chicago: The University of Chicago Press, 1989.

[Rus97] RUSELL, Stuart J. "Rationality and intelligence". Artificial Intelligence, No. 94:57&endash;77, 1997.

[RN95] RUSELL, Stuart J. and NORVIG, Peter. Artificial Intelligence: A Modern Approach. Englewood-Clifs(NJ): Prentice-Hall, 1995.

[Sal97] SALLANTIN, Jean . Les Agents Inteligents: Essai sur la Rationalité des Calculs. Paris: Hermès, Collection informatique, 1997.

[Tra98] TRAJANO, Ernesto. "A Klavierstück XI de Stockhausen: "uma imensa melodia" de timbres". In: Anais do XI Encontro Nacional da ANPPOM, pages 286-291, 1998.

[Val95] VALIANT, Leslie G. "Rationality". In: Proc. of the 8th Annual Conference on Computer Learning Theory, Santa Cruz (CA), July 5-8, 1995.

 

Copyright©2000 Revista Eletrônica de Musicologia, vol. 5.2/Dezembro de 2000