AMX | AXU-MSP24 | Relations entre Perception Globale et Composition de Séquences

M´emoire de Master 2 :
Relations entre Perception Globale
et Composition de S´equences Sonores
Aymeric DEVERGIE
Etudiant en Master 2 Informatique, sp´ecialit´e SAR, parcours
ATIAM
Universit´e Pierre et Marie Curie, Jussieu, Paris VI
Laboratoire d’accueil : IRCAM, Paris
Equipe : Perception et Design Sonore
Responsable : Patrick SUSINI
Mars / Septembre 2006
R´
esum´
e
Peu de travaux consacr´es `a l’´etude perceptive de s´equences de sons de l’environnement
tiennent compte des effets de la m´emoire auditive `a court terme. Ce rapport pr´esente une
´etude de l’influence de ces effets sur le jugement global de s´equences sonores. Pour ´etudier
ces effets, nous proposons aux sujets des s´equences compos´ees de trois cat´egories de sons :
Trafic, Parc et Pr´esence humaine. A la fin de chaque s´equence, nous pr´esentons un label
correspondant `a l’une des cat´egories. Le sujet doit r´epondre le plus rapidement possible `a
la question : ”Est-ce que le mot ´evoque correctement la s´equence ?”. Nous mesurons des
temps de r´eponse. Le jugement global porte sur l’ensemble de la s´equence. Il n’est pas
demand´e aux sujets de tenir compte uniquement des derniers ´el´ements entendus mais
de la totalit´e de la s´equence pour construire leur jugement. En analysant les donn´ees,
nous ´evaluons l’effet de la position de la cat´egorie cible sur le temps de r´eponse. Nous
d´emontrons que le jugement global d´epend de la r´ecence de la cat´egorie cible. Plus la cible
est r´ecente, plus le taux de r´eponse ”oui” est ´elev´e et plus le temps de r´eponse est court.
Ces r´esultats sont en accord avec les ´etudes men´ees sur la m´emoire auditive des sons
verbaux et non verbaux. Nous observons, d’autre part, des diff´erences de taux et temps
de r´eponse en fonction des cat´egories de sons. Les r´esultats montrent un net avantage de
m´emorisation pour les sons humains. Pour chaque cat´egorie, le temps de r´eponse ´evolue
diff´eremment en fonction de la position temporelle de celle-ci dans la s´equence.
Remerciements
Je tiens `a remercier :
Patrick SUSINI pour m’avoir accueilli dans son ´equipe, et ´egalement pour m’avoir propos´e un sujet de stage aussi passionnant. Merci pour son d´evouement et son soutient.
Olivier HOUIX et Nicolas MISDARIIS pour les conseils avis´es, et leurs r´eflexions
pertinentes.
Toute l’´equipe Perception et Design Sonore pour sa bonne humeur intarissable, avec
une mention sp´eciale pour Julien T.
Merci `a tous pour votre sens de la communication et du partage. L’´echange de point
de vues au cours des r´eunions d’´equipe s’est av´er´e extrˆemement constructif et motivant.
Introduction
Le travail rapport´e ici se d´eroule dans le cadre de recherches concernant la perception de s´equences sonores men´ees dans l’´equipe Perception et Design sonore `a l’IRCAM.
Cette ´equipe, cr´ee en 1999, s’int´eresse `a la perception auditive de stimuli non verbaux.
L’une de ses missions consiste `a ´evaluer les processus cognitifs intervenant dans la perception auditive. Nous nous int´eressons ici `a l’influence de la composition temporelle sur
le jugement global de s´equences compos´ees de sons de l’environnement. Cette th´ematique
f´ed`ere deux axes de recherches. Le premier axe concerne la repr´esentation cognitive des
sons de l’environnement en termes de cat´egories s´emantiques. Le second axe de recherche,
qui est d’avantage le point central de cette ´etude, s’int´eresse aux effets de la m´emoire
dans le cas de la perception globale d’une s´equence sonore.
En effet, les travaux men´es dans le domaine de la m´emoire auditive avec des sons
verbaux mettent en ´evidence une limitation temporelle `a court terme concernant la
r´etention d’informations ; limitation aussi bien au niveau des m´ecanismes (boucle phonologique) qu’au niveau sensoriel (m´emoire ´echo¨ıque). Par cons´equent, la courbe de rappel
g´en´eralement obtenue pour des sons verbaux a une forme de ”U” indiquant un bon rappel pour les premiers (effet de primaut´e) et les derniers (effet de r´ecence) ´el´ements de
la liste. L’avantage pour les derniers ´el´ements est un effet essentiellement observ´e lors
d’une pr´esentation auditive. En 2005, P. Guelton et al. ont mis en ´evidence des effets
similaires pour les listes de sons de l’environnement, avec cependant une capacit´e de
r´etention accrue par rapport aux sons verbaux. D’autre part, P. Susini et al., en 2002,
ont montr´e que le jugement global en sonie d’un son pur de 1 kHz non stationnaire sur
quelques dizaines de secondes d´epend de la position temporelle des variations du niveau
sonore. Dans ce cas, les mod`eles classiques de mesure de la sonie ´echouent pour rendre
compte de la sonie globale. Il apparaˆıt donc naturel de s’interroger sur l’influence de la
m´emoire `a court terme sur la perception d’une s´equence temporelle. Notre objectif, `a
travers cette ´etude, est de prendre en compte les effets de m´emoire auditive pour analyser les processus perceptifs mis en jeu lors d’une tˆache consistant `a ´evaluer l’impression
globale d’une s´equence sonore.
Nous dresserons, dans le chapitre 1, un ´etat de l’art concernant la perception de
s´equences sonores, la structure et les m´ecanismes de la m´emoire. Nous aborderons ´egalement les effets de la m´emoire sur la perception auditive. Nous d´etaillerons, ensuite, dans
le chapitre 2, l’exp´erience proprement dite. Nous discuterons `a partir des r´esultats de
iv
l’influence de l’organisation temporelle sur le jugement global de s´equences de sons de
l’environnement. Pour finir, nous aborderons, dans le chapitre 4 les perspectives envisag´ees pour poursuivre dans cet axe de recherche.
Table des mati`
eres
Introduction
1 Etat de l’art
1.1 Perception de s´equences sonores . . . . . . . . . . .
1.1.1 S´equences de sons purs et sons verbaux . .
1.1.2 S´equences de sons de l’environnement . . .
1.2 Effets de la m´emoire sur la perception globale . . .
1.2.1 Pr´esentation succincte de la m´emoire . . . .
1.2.2 Manifestations de la m´emoire `a court terme
1.2.3 Effets inh´erents au protocole exp´erimental .
iii
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
: R´ecence et
. . . . . . .
2 Exp´
erience
2.1 Pr´esentation . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Rappel des objectifs . . . . . . . . . . . . . . .
2.1.2 Protocole . . . . . . . . . . . . . . . . . . . . .
2.1.3 Mesure du temps de r´eaction . . . . . . . . . .
2.2 S´election et description du Mat´eriau sonore . . . . . .
2.2.1 Extraction d’une base de sons existante . . . .
2.2.2 Cat´egorisation des sources sonores . . . . . . .
2.2.3 D´efinition et ajustement du niveau sonore . . .
2.3 Mat´eriel . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Stimuli . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Sons utilis´es . . . . . . . . . . . . . . . . . . . .
2.4.2 Organisation temporelle des s´equences . . . . .
2.4.3 Mots cibles . . . . . . . . . . . . . . . . . . . .
2.4.4 Bruit de fond . . . . . . . . . . . . . . . . . . .
2.5 Proc´edure . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Sujets . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 R´esultats . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1 R´esultats concernant les s´equences Test . . . .
2.7.2 Pourcentage de r´eponse pour chaque cat´egorie
position temporelle . . . . . . . . . . . . . . . .
2.7.3 Temps de r´eponse pour chaque cat´egorie cible .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
en
. .
. .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Primaut´e
. . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
fonction
. . . . .
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
de la
. . . .
. . . .
1
1
1
2
4
4
7
9
11
11
11
11
12
13
13
14
18
20
21
21
21
21
23
23
25
25
25
26
27
`
TABLE DES MATIERES
2.8
vi
2.7.4 Pourcentage et Temps de r´eponse
2.7.5 Discussion des r´esultats . . . . .
Discussion g´en´erale . . . . . . . . . . . .
2.8.1 Effet de la m´emoire . . . . . . .
2.8.2 Sons de l’environnement . . . . .
pour la cat´egorie
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
Traffic
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Conclusion
36
4 Perspectives
4.1 Exp´erience de jugement global de s´equences . . . . . . . .
4.2 Exp´eriences de rappel de listes de sons environnementaux
4.3 Exp´erience de jugement pour chaque cat´egorie . . . . . .
4.4 Exp´erience de jugement d’agr´ement . . . . . . . . . . . . .
A Description du bruit de fond
A.1 Description du bruit de fond . . . .
A.1.1 Int´erˆet . . . . . . . . . . . .
A.1.2 Analyse Spectrale . . . . .
A.1.3 Synth`ese par M´ethode LPC
28
29
32
32
33
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
37
38
38
.
.
.
.
39
39
39
39
40
B Mat´
eriau sonore
43
B.1 Liste compl`ete des sons extraits de la base de sons . . . . . . . . . . . . . 43
C Ajustement ´
ecologique en sonie
44
Table des figures
1.1
1.2
1.3
1.4
. . . . . . . . . . . . . .
.
R´ecence et Primaut´e pour une liste d’items verbaux . . . . . . . . . . . . . . .
R´ecence et Primaut´e pour une liste de sons de l’environnement . . . . . . . . . .
Mod`ele de la M´emoire S´emantique selon Collins et al.
Mod`ele de la M´emoire S´emantique par Comparaison d’attributs selon Smith et al.
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
D´eroulement des s´equences au cours de l’exp´erience de Jugement global
A.1
A.2
A.3
A.4
M´ethode LPC
.
.
.
.
6
6
7
8
. . . . . . . .
Effectif pour chaque cat´egorie en fonction de la position de la cible
. . .
Temps de r´eponse en fonction de la cat´egorie cible . . . . . . . . . . .
% de l’effectif pour la cat´egorie Trafic en fonction des configurations
. .
Temps de r´eponse pour la cat´egorie Trafic en fonction des configurations .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
16
17
18
19
22
22
24
25
26
27
28
29
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
Spectre et enveloppe spectrale du bruit de fond analys´e . . . . .
Spectre et Enveloppe spectrale du bruit de fond synth´etis´e . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
41
41
42
C.1 Niveaux ´ecologique en dB SPL des sons de Pr´esence Humaine . . . . . . . . . . . .
C.2 Niveaux ´ecologique en dB SPL des sons de Parc . . . . . . . . . . . . . . . . . . .
C.3 Niveaux ´ecologique en dB SPL des sons de Trafic . . . . . . . . . . . . . . . . . .
44
45
45
Repr´esentation arbor´ee de la cat´egorisation des sons
. . . . . . .
. . . . . . .
Interface d’ajustement en Sonie sous PsiExp .
Structure temporelle d’une s´equence ”type” . .
Structure temporelle d’une s´equence ”test” . .
Liste des sons du corpus d´efinitif
Prototypes retenus par les sujets
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Interface Utilisateur pour l’exp´erience de Jugement Global sous Max/MSP
Pourcentage de r´eponse en fonction du type de s´equence
Bruit de fond ´etudi´e par V. Maffiolo
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Chapitre 1
Etat de l’art
Nous rapportons dans ce chapitre les travaux concernant les deux axes que nous
avons d´egag´e dans l’introduction `a savoir la repr´esentation des sons de l’environnement
en cat´egories s´emantiques et les effets de la m´emoire sur la perception de s´equences
sonores. Dans un premier temps, nous pr´esentons les travaux concernant la perception
de s´equences de sons. Puis, nous abordons un chapitre concernant les effets de la m´emoire
sur la perception de s´equences sonores.
1.1
Perception de s´
equences sonores
Les travaux mentionn´es dans cette section r´ev`elent des effets de la m´emoire auditive.
Historiquement, l’´etude des s´equences de sons a d´ebut´e avec des sons purs. Ces stimuli
sont simples `a produire et les param`etres acoustiques sont contrˆolables. Par la suite,
des ´etudes ont ´et´e men´ees sur la perception de s´equences de sons verbaux. Enfin, nous
pr´esentons une ´etude concernant la perception de s´equences de sons environnementaux.
Ce type d’´etude manque cependant de contrˆole permettant de mettre en ´evidence des
effets de la m´emoire.
1.1.1
S´
equences de sons purs et sons verbaux
S´
equence de sons purs
En 2002, P. Susini et al. [SMS02] ont men´e une exp´erience concernant l’estimation
instantan´ee et globale de l’intensit´e d’un son pur variant en intensit´e au cours du temps.
L’hypoth`ese qui a conduit `a ces travaux est la suivante : les caract´eristiques temporelles
des variations de l’intensit´e modifient la perception globale d’intensit´e sonore. Le stimulus
pr´esent´e au sujet est un son pur de 1 kHz dont l’intensit´e varie entre 60 et 90 dB SPL.
Deux jugements sont demand´es aux sujets. Le premier est un jugement instantan´e
suivi d’un jugement global en sonie. Le second jugement demand´e est un jugement global
en fin de pr´esentation. La position temporelle des pics d’intensit´e conditionne le jugement global d’intensit´e. Les positions qui influencent le plus le jugement sont celles pour
1.1 Perception de s´
equences sonores
2
lesquelles les effets de m´emoire `a court terme sont pr´esents, c’est `a dire au d´ebut (effet
de primaut´e) et `a la fin (effet de r´ecence) de la s´equence.
S´
equence de voix parl´
ee
L’´etude de la voix se distingue de l’´etude de sons purs. La voix est le vecteur d’informations s´emantiques. Notre connaissance de la langue est impliqu´ee dans l’´ecoute de la
voix. Cela modifie profond´ement notre mani`ere de percevoir une s´equence de voix parl´ee.
L. Gros et al. [GC01] en 2001, ont ´etudi´e des s´equences de voix parl´ee. Cette ´etude
porte sur le jugement instantan´e et global de la qualit´e de la voix. Cette ´etude est
men´ee pour appr´ehender les effets de perte de qualit´e de la voix dans les transmissions
t´el´ephoniques. Le stimulus utilis´e dans l’exp´erience est un discours prononc´e par une
personne, num´eris´e et trait´e par informatique de mani`ere `a simuler les d´egradations
inh´erentes `a la tranmission par t´el´ephonie. La qualit´e de la voix ´evolue au cours du
temps. Le jugement demand´e est un jugement instantan´e, `a donner pendant la diffusion
de la s´equence, suivi d’un jugement global `a la fin de l’´ecoute.
Le jugement instantan´e suit parfaitement l’´evolution de la qualit´e de la voix dans la
s´equence. Les sujets per¸coivent plus rapidement les d´egradations que les am´eliorations
de la qualit´e. Le sujet cr´ee, selon les auteurs de cette ´etude, des attentes lorsqu’il est
confront´e `a des stimuli qui ont une signification. Plus la modification apparaˆıt tard, plus
le jugement global est affect´e.Les sons purs ne sont pas des sons auxquels nous sommes
expos´es quotidiennement.
1.1.2
S´
equences de sons de l’environnement
Les sons de l’environnement constituent une cat´egorie distincte `a la fois des sons
verbaux et des sons purs. Historiquement, les ´etudes de stimuli sonores ont concern´e
les sons purs, puis les sons verbaux. Les sons de l’environnement sont en fait tous les
sons qui n’entrent pas dans ces deux cat´egories. Chaque son que nous percevons active
une ou plusieurs connaissances ou concepts acquis ant´erieurement. Nous percevons et
identifions les sources sonores qui nous entourent, nous en parlons. Nous sommes parfois
amen´es `a d´ecrire les qualit´es du son. Nous comparons les stimulations sensorielles avec nos
repr´esentations en m´emoire. Ce processus d’identification se d´eroule avant tout processus
de qualification du son. Les enquˆetes de terrains et le recueil d’impressions des sujets
permettent de constituer des corpus de sons pertinent. Ce point sera ´evoqu´e ici, en
mˆeme tant que les param`etres propos´es par J. Ballas concernant l’identifiabilit´e des sons
environnementaux.
Facteurs influen¸
cant l’identification
En 1993, Ballas [A.B93] m`ene une ´etude permettant de d´efinir les facteurs impliqu´es
dans l’identification des sons brefs de l’environnement. Ballas d´efini la notion d’identifiabilit´e comme ´etant le temps n´ecessaire `a l’identification des sons de l’environnement.
Les facteurs qu’il met en ´evidence ne sont pas uniquement des facteurs acoustiques.
1.1 Perception de s´
equences sonores
3
Le premier param`etre qui nous int´eresse est la typicalit´e. Rosh d´efinit, en 1975, la notion de typicalit´e. Un item est typique s’il est repr´esentatif de la cat´egorie `a laquelle
il appartient. J. Ballas affirme que la typicalit´e influence le temps d’identification, ce
qui corrobore les donn´ees recueillies par Collins et Quillian,[CQ69], pour expliquer l’organisation hi´erachique de nos connaissances. Nous reviendrons en d´etail sur ce mod`ele
d’organisation. J.Ballas identifie comme second param`etre important le contexte. Un son
pr´esent´e en dehors de sons contexte est plus difficilement identifi´e.
Enquˆ
etes de terrain
Pour recueillir l’impression des sujets confront´es `a des environnements sonores, des
enquˆetes de terrain ont ´et´e men´ees. Ce type d’´etude permet d’appr´ecier le jugement et
la repr´esentation d’espaces sonores selon le point de vue des sujets.
V. Maffiolo et al. [MVP+ 97] m`enent, en 1997, une enquˆete aupr`es de la population
parisienne. Celle-ci est men´ee dans le but de cr´eer un corpus de sons de l’environnement
tenant compte des impressions et jugements des individus. Il est demand´e aux sujets
de dessiner un environnement sonore. Par la suite, les sujets doivent ´evoquer un espace
sonore de m´emoire. Les repr´esentations propos´ees par les sujets sont de 4 types, `a savoir :
des sch´emas abstraits, des cartographies, des lieux sp´ecifiques ou encore des sources non
organis´ees dans un site. Cette ´etude a permis d’identifier les lieux les plus souvent cit´es, et
de montrer qu’il existe une structure dans l’appr´ehension d’un lieu, en terme de topologie,
d’appr´eciation qualitative, du rapport au sujet qui en parle. La place que tient le sujet
et l’activit´e qu’il peut avoir dans la sc`ene sont aussi mentionn´ees dans leur description.
Appr´
eciations subjectives de s´
equences sonores
V. Maffiolo et al. [MCD98] proposent, en 1998, une ´etude concernant le jugement de
s´equences r´eelles. Ces derniers d´emontrent que l’appr´eciation subjective et la strat´egie
d’´ecoute d´epend du contenu de la s´equence.
Les extraits sont choisis `a partir de r´esultats d’enquˆetes men´ees aupr`es des sujets,
comme celles mentionn´ees plus haut.
Chaque sc`ene extraite des ambiances, enregistr´ees in situ, dure entre 15 et 20 secondes.
Deux types de sc`enes sont extraites : les sc`enes ”´ev`enementielles”, consistant en un
ensemble d’´ev`enements discriminables et identifiables et les sc`enes ”amorphes” compos´ees
d’un bruit de fond continu sans ´ev´enements particuliers. Les auteurs d´emontrent que les
sc`enes ´ev´enementielles sont trait´ees s´emantiquement et que les sc`enes amorphes le sont
physiquement.
Le caract`ere ´ev`enementiel ou amorphe a une grande influence sur l’´evaluation de
l’intensit´e per¸cue par les sujets. Pour une ´etude des sons de l’environnement le nombre et
l’identification de sons discriminables est un crit`ere pertinent. Les donn´ees verbales sont
essentiellement constitu´ees de deux types de descripteurs : les descripteurs de param`etres
physiques et les descripteurs de sources. L’hypoth`ese est verifi´ee.
1.2 Effets de la m´
emoire sur la perception globale
4
S´
equence de sons de l’environnement
A l’instar de J. Hellbr¨
uck, S. Namba et S. Kuwano [HKZ+ 01], R. Weber m`ene, en 1991
[Web91], une ´etude sur la perception de bruits de circulation. Cette ´etude concerne le
jugement subjectif des variations continues du niveau sonore pour s´equences enregistr´ees
en situation r´eelle. Le niveau r´eel en dBA est mesur´e simultan´ement. Cette ´etude r´ev`ele
une d´ependance non lin´eaire entre le jugement subjectif et niveau r´eel mesur´e. Les auteurs
notent aussi une grande variabilit´e entre les sujets. Les sujets d´etectent avec un d´ecalage
temporel les variations de niveau sonore. C’est en cela que la d´ependance est non lin´eaire.
Les trois ´etudes concernant les s´equences sonores (sons purs, sons verbaux et sons de
l’environnement) montrent que les jugements d’intensit´e sonore pour les sons purs et de
qualit´e pour la parole d´ependent de l’organisation temporelle des s´equences pr´esent´ees.
Nous ´etudierons des s´equences de sons de l’environnement dont l’agencement temporel sera contrˆol´e. Cet agencement sera ´egalement s´emantique. Pour savoir si le contenu
s´emantique des sons `a une incidence sur la perception de s´equences, nous organiserons
les s´equences en fonction de la cat´egorie `a laquelle appartient chacun des ´ev`enements
sonores.
1.2
Effets de la m´
emoire sur la perception globale
Pour comprendre comment la m´emoire peut influencer la perception globale nous
pr´esenterons succinctement l’organisation g´en´erale de la m´emoire. Nous d´etaillerons davantage l’organisation de nos connaissances en m´emoire. Ensuite, nous pr´esenterons deux
manifestations de la m´emoire `a court terme ; l’effet de r´ecence et l’effet de primaut´e. Enfin, nous exposerons des effets que nous devrons int´egrer pour mettre en place le protocole
exp´erimental.
1.2.1
Pr´
esentation succincte de la m´
emoire
Structure de la m´
emoire
La structure de la m´emoire que nous exposons ici repose sur un mod`ele propos´e en
1968 par Atkinson et Shiffrin. Notre objectif ne consiste pas `a ´etudier les mod`eles les
plus r´ecents propos´es dans la litt´erature. Des am´eliorations de ce mod`ele sont propos´ees,
mais dans le fond la distinction entre le court et le long terme reste d’actualit´e.
La m´
emoire sensorielle La m´emoire sensorielle peut se d´efinir comme la r´etention
temporaire des effets d’une stimulation sensorielle. C’est la trace mn´esique la plus courte.
Elle peut ˆetre maintenue sur une p´eriode de 300 `a 500 ms. Elle est dite ´echo¨ıque pour
les stimuli auditifs, et iconique pour les stimuli visuels.
Elle a pour fonction de collecter les stimuli qui vont ˆetre trait´es. Lorsque le stimulus
parvient au syst`eme auditif p´eriph´erique de mani`ere intermittente, la m´emoire ´echo¨ıque
permet l’illusion de continuit´e auditive.
1.2 Effets de la m´
emoire sur la perception globale
5
La m´
emoire `
a court terme D´enom´ee m´emoire `a court terme, m´emoire imm´ediate ou
encore m´emoire primaire, elle permet la restitution imm´ediate de l’information per¸cue.
Les stimulis peuvent ˆetre maintenus pendant 30 `a 90 secondes. La m´emoire `a court terme
est sensible aux interf´erences. Elle est ´egalement sensible `a l’interposition de stimuli
parasite entre le test et le rappel de la liste. La m´emoire `a court terme est ´egalement
sensible aux troubles attentionnels, comme la baisse de la concentration.
La m´emoire `a court terme, simple unit´e de stockage, est d´ecrite par Baddeley et
Hitch (1974), [Bad02], permet d’expliquer un lien entre MCT et MLT. La MCT devient
la m´emoire de travail et elle se divise alors en quatre sous syst`emes. Cette repr´esentation
porte le nom de mod`ele modal. Les quatre sous syst`emes sont : la boucle phonologique,
le registre visuo-spatial, le buffer ´episodique et le centre executif.
La m´
emoire `
a long terme La m´emoire `a long terme est la m´emoire de stockage
permanent. L’acc`es aux informations contenues dans cette m´emoire est un acc`es lent
compar´e `a l’acc`es dans la MCT. Il est courant de s´eparer au sein de la MLT la m´emoire
explicite ou d´eclarative de la m´emoire implicite ou non d´eclarative. La m´emoire explicite
fait r´ef´erence `a tout ce que nous apprenons par association entre un stimulus et une
´etiquette, une repr´esentation. Le langage constitue un apprentissage explicite. A l’oppos´e,
l’apprentissage implicite n’´etablit pas de relation univoque et pr´ecise entre un stimulus
et une repr´esentation en m´emoire. L’apprentissage de fonctions locomotrices, comme
apprendre `a faire du v´elo, par exemple, est un apprentissage implicite.
Organisation des connaissances en m´
emoire s´
emantique
Mod`
ele hi´
erarchique Le premier mod`ele est propos´e par Collins et Quillian en 1969.
Il s’agit du mod`ele hi´erarchique (figure 1.1). Les connaissances des mots sont hi´erachis´ees
s´emantiquement. Chaque noeud repr´esente un concept. Les concepts de bas niveau sont
inclus dans les concepts de haut niveau. En haut de la hi´erachie se trouve les concepts
g´en´eriques, par exemple : v´ehicule. Au niveau de base, niveau interm´ediaire, nous trouvons, voiture. Enfin, au niveau inf´erieur, nous trouvons les concepts d´etaill´es, berline.
Ceci est l’inclusion de concepts, tel que le d´efinit Collins. [Gal05]. L’´economie cognitive
s’est r´eduite la quantit´e d’informations `a m´emoriser en ”factorisant” les propri´et´es de
chaque concept. Les concepts des noeuds inf´erieurs h´eritent des propri´et´es des niveaux
sup´erieurs. Il n’y a pas de redondance des propri´et´es.
Mod`
ele par comparaisons d’attributs Smith, Shoben et Rips proposent, en 1974,
le mod`ele par ”comparaison d’attributs”. Le sens des mots est d´efini par ses attributs.
(figure 1.2). Il y a deux types d’attributs : les attributs de d´efinition et les attributs de caract´erisation. Si un exemplaire ne pr´esente pas les attributs de d´efinition d’une cat´egorie,
il n’appartient pas `a cette cat´egorie. S’il ne pr´esente pas un attribut de caract´erisation,
il peut tout de mˆeme appartenir `a la cat´egorie. Lors de la pr´esentation d’un stimulus, un
processus de comparaison s’effectue en deux ´etapes, toujours d’apr`es Smith et al. . La
premi`ere ´etape consiste en la comparaison de tous les attributs, afin de juger du degr´e
de similarit´e entre le test et le pr´edicat en m´emoire. Si les deux exemplaires sont tr`es
1.2 Effets de la m´
emoire sur la perception globale
Animal
Oiseau
Canari
chante
jaune
se déplace
mange
respire
peau
Poisson
vole
ailes
plumes
Autruche
6
ne vole pas
grande
longues pattes
Requin
mord
nage
ou¨ies
nageoires
Saumon
rose
migrateur
dangereux
Fig. 1.1 – Mod`ele de la M´emoire S´emantique selon Collins et al.
semblables ou bien tr`es dissemblables alors le processus de comparaison est termin´e. Si
la situation n’est pas aussi tranch´ee, une seconde comparaison est n´ecessaire. La comparaison porte sur les attributs de d´efinition. Ce mod`ele permet d’expliquer les effets de
typicalit´e. Des items similaires vont n´ecessiter une seule ´etape de comparaison. Ainsi une
forte typicalit´e suscite des temps de r´eponse courts. Si les items sont peu similaires, les
temps de r´eponses seront plus long.
Faible Similarité
Etape 1:
Forte Similarité
Comparer tous les attributs entre prototype et item
Etape 2:
Comparer les attributs de définition
Ne correspond pas
Dissemblance
Correspond
Ressemblance
Fig. 1.2 – Mod`ele de la M´emoire S´emantique par Comparaison d’attributs selon Smith et al.
1.2 Effets de la m´
emoire sur la perception globale
1.2.2
7
Manifestations de la m´
emoire `
a court terme : R´
ecence et Primaut´
e
Les effets connus sous le nom de r´ecence et de primaut´e sont des manifestations claires
de processus de notre m´emoire. Glanzer et Cunitz (1966) montrent que l’effet de r´ecence
est dˆ
u `a notre m´emoire `a court terme. Pour cela, ils proposent une tˆache de rappel de liste
de mots. L’effet de r´ecence est r´eduit s’ ils demandent aux sujets de compter `a rebours
jusqu’`a 30 avant de rappeler les mots. Cette tˆache interm´ediaire affecte le contenu de la
m´emoire `a court terme.
Les deux auteurs ´etudient ´egalement l’effet de primaut´e. Ils affirment que l’effet de
primaut´e est dˆ
u `a notre m´emoire `a long terme. Pour la mˆeme tˆache de rappel libre,
si le nombre de mots diminue, la disponibilit´e en m´emoire est plus grande et l’effet de
primaut´e observ´e est plus important. La figure 1.3 illustre ces effets dans une tˆache de
rappel d’une liste d’items verbaux.
%Rappel correct
100%
10%
n°items
Primauté
Récence
Fig. 1.3 – R´ecence et Primaut´e pour une liste d’items verbaux
Travaux ant´
erieurs
Les travaux de P. Guelton et al. , en 2005 [Gue05], concernent la perception et la
m´emorisation des listes de sons de l’environnement.
Les travaux ont ´et´e men´es afin d’´etudier des tˆaches de rappel libre et s´eriel d’une
liste de sons de l’environnement. L’hypoth`ese ´eprouv´ee dans cette ´etude est que les sons
environnementaux, par leur complexit´e, sont moins bien rappel´es que des sons verbaux.
Les stimuli pr´esent´es aux sujets sont des sons environnementaux d’une dur´ee moyenne
comprise entre 1 et 4 secondes, ´echantillonn´es `a 44100 Hz, mix´e en st´er´eo sur 32 bits. Les
listes comprennent 14 sons. Il est demand´e aux sujets diff´erentes tˆaches. Pour un premier
groupe, le rappel est libre. L’ordre dans lequel les sujets se rappellent n’est pas important.
Seul compte la position du mot dans la liste. Un second groupe doit en revanche rappeler
1.2 Effets de la m´
emoire sur la perception globale
8
les mots dans l’ordre dans lequel ils sont apparus. A la fin, les deux groupes sont amen´es
`a identifier et nommer les sources pr´esent´ees.
Les r´esultats de la figure 1.4 infirment l’hypoth`ese. Le taux de rappel moyen est
meilleur que pour le rappel de sons verbaux. On peut donc supposer que le processus
cognitif d’identification a permis de mieux m´emoriser les stimuli pr´esent´es. Cette hypoth`ese est `a v´erifier.
%Rappel correct
100%
50%
n°items
Primauté
Récence
Fig. 1.4 – R´ecence et Primaut´e pour une liste de sons de l’environnement
D’autre part, les travaux mettent en ´evidence un ph´enom`ene de r´ecence relative. Le
ph´enom`ene de r´ecence est dˆ
u `a notre m´emoire `a court terme. Son empan est limit´e. Les
travaux men´es ici montrent que l’effet persiste alors que le nombre d’items concern´es par
cet effet est sup´erieur au nombre propos´e par Miller. L’origine de cette prolongation de
l’effet de r´ecence reste peu comprise.
Sur un autre plan, D.L. Hintzman, [Hin03] ´etudie, en 2003, l’effet de l’identification
des items pr´esent´es sur le jugement de r´ecence. Pour les deux premi`eres exp´eriences, les
stimuli sont des listes de 550 mots diff´erents. Les mots sont r´ep´et´es de 1 `a 6 fois dans la
liste pr´esent´ee. La liste de mots est de longueur variable comprise entre 5 et 30 items.
Une liste de mots est pr´esent´ee sur un ´ecran. Certains mots sont r´ep´et´es. Le sujet doit
dire si le mot qui apparaˆıt est nouveau ou ancien. Si le mot est ancien, le sujet doit dire
quelle est l’anciennet´e du mot. Pour l’exp´erience suivante, le jugement de r´ecence est fait
sur une ´echelle de 1 `a 6. Un enjeu de comp´etition avec les autres sujets est mis en place.
Cela permet de renforcer la motivation du sujet.
Les jugements de r´ecence sont meilleurs pour les cat´egories de mots reconnus. La trace
en m´emoire pour les mots anciens est plus forte et ce quelque soit la dur´ee des listes.
Le jugement de r´ecence tient ´egalement compte de la modalit´e de pr´esentation. Les jugements de r´ecence et l’identification empreintent des chemins diff´erents. La fr´equence,
la dur´ee et la force de la trace en m´emoire affecte prioritairement les jugements de r´ecence.
1.2 Effets de la m´
emoire sur la perception globale
1.2.3
9
Effets inh´
erents au protocole exp´
erimental
Contexte de pr´
esentation
Nous ´etudions des sons l’environnement extrait de leur contexte d’origine. Snodgrass
et Vandervart ont montr´e, en 1980, cf [G´er04], que des sons isol´es peuvent ne pas ˆetre
identifi´es hors contexte `a cause de l’incertitude causale.
Il existe, selon Smith et al., [Smi88], deux types de contexte : le contexte significatif
et le contexte accidentel. Le contexte significatif est porteur de sens. Il peut s’agir de
mat´eriel s´emantique ou verbal, comme les instructions fournies par l’exp´erimentateur. Ce
mat´eriel oriente directement les processus de s´election effectu´es par le sujet. En revanche,
le contexte accidentel n’a aucun sens vis `a vis des stimuli que se soit implicitement ou
explicitement. Il n’influence donc pas les processus de s´election.
Importance de la consigne exp´
erimentale
Tout indice verbal ou non verbal pr´esent´e avant le d´ebut du test amorce des processus cognitifs. Les indices donn´es peuvent constituer un amor¸cage explicite, ”Vous allez
entendre des sons de voiture, d’oiseau, ou de foule”, ou bien implicite : ”Vous allez entendre des sons extraits de l’environnement urbain”. Nous devons ´etudier ce probl`eme
avant d’envisager le protocole exp´erimental. Cette proc´edure d’amor¸cage peut faire partie
int´egrante de l’exp´erience, dans ce cas nous devons la d´efinir pr´ecis´ement.
Nous indiquerons au sujet dans quel contexte il se situe. Ballas et Mullin prouvent
en 1991, [BM91], que l’amor¸cage linguistique n’alt`ere pas l’effet du contexte. Si nous
proposons par un amor¸cage linguistique un contexte de ”Port” et que le contexte ´evoque
un environnement de ”Ville”, alors l’amor¸cage n’interf´erera pas avec l’effet de contexte.
Nous pr´esentons un nombre important de s´equences de sons de l’environnement.
Le fait de r´ep´eter les sons d’une s´equence `a l’autre n’influencera pas les capacit´es de
reconnaissance dˆ
u `a un amor¸cage. En revanche, il ne faut pas exclure un ph´enom`ene
d’apprentissage.
Identification et rappel
J. Ballas en 1993, [A.B93] montre que la rapidit´e d’identification est li´e `a la facilit´e
de repr´esenter un stimulus par une image mentale. La similarit´e entre le son et le r´ef´erent
prototypique associ´e en m´emoire facilite l’identification. L’auteur montre ´egalement que
des notions subjectives comme l’agr´ement ou l’agressivit´e d’un son alt`ere la rapidit´e
d’identification.
Le contexte dans lequel seront pr´esent´ees les s´equences de sons de l’environnement
est donc un ´el´ement important. L’amor¸cage que nous proposerons aux sujets avant de
d´ebuter l’exp´erience sera lui aussi important. Nous devrons donner des indices aux sujets,
qui orientent leur ´ecoute mais qui ne biaise pas l’exp´erience. Nous ´elaborerons le protocole
exp´erimental en int´egrant ces deux param`etres. Tous les sons que nous pr´esenterons
auront ´et´e reconnus. Il n’est pas n´ecessaire que les sujets soient en mesure de les nomm´es,
1.2 Effets de la m´
emoire sur la perception globale
10
mais au moins qu’ils les associent aux cat´egories de sons que nous leur proposerons. Nous
d´etaillerons ces points au cours de la pr´esentation de l’exp´erience de cat´egorisation.
Les diff´erents travaux conduits sur la perception de s´equences sonores mettent en
avant des effets de la m´emoire sur le jugement global. Les effets de la m´emoire que nous
observons dans les tˆaches de rappel, qui interviennent ´egalement dans le jugement global
sont des processus mn´emoniques `a court terme. Afin d’´etudier plus pr´ecis´ement ces effets,
nous allons contrˆoler l’organisation temporelle des s´equences de sons de l’environnement.
Les mod`eles d’organisation de nos connaissances en m´emoire s´emantique reposent
sur des relations hi´erarchiques (mod`ele de Collins) entre des concepts imbriqu´es, ou
bien sur des processus de comparaison d’attributs (mod`ele de Smith). Les diff´erences de
traitements en fonction des cat´egories de sons ne sont pas int´egr´ees dans ces mod`eles.
A pr´esent, nous pr´esentons dans ce qui suit l’exp´erience proprement dite.
Chapitre 2
Exp´
erience
2.1
2.1.1
Pr´
esentation
Rappel des objectifs
Nous souhaitons d´emontrer que la composition d’une s´equence de sons de l’environnement a une influence sur le jugement global. Nous pr´esentons trois cat´egories de sons.
L’organisation temporelle de la s´equence est la variable ind´ependante dans l’exp´erience.
Son effet sur les r´eponses apport´ees par les sujets sera ´evalu´e `a la fois sur le type de
r´eponse fourni, i.e : OUI/NON et dans le cas de r´eponse positive nous examinerons le
temps de r´eponse.
2.1.2
Protocole
Chaque sujet sera confront´e `a des s´equences de sons de l’environnement urbain. Chacune de ces s´equences dure 1’24. A la fin de chaque s´equence, un label cible sera affich´e
imm´ediatement sur un ´ecran. Ce label sera appris au cours d’une pr´e-exp´erience. D`es
que label s’affiche le sujet r´epondra par OUI ou NON. Le temps mis pour r´epondre OUI
sera mesur´e. Le sujet d´ecide quand d´eclencher la s´equence suivante. Les s´equences se
succ`edent dans un ordre al´eatoire, figure 2.1.
Cat´
egorie
1
1
2
2
...
2
1
1
2
...
3
1
3
2
...
Cible
1
1
3
3
...
Fig. 2.1 – D´eroulement des s´equences au cours de l’exp´erience de Jugement global
2.1 Pr´
esentation
2.1.3
12
Mesure du temps de r´
eaction
En plus de comptabiliser le nombre de r´eponses positives, et par compl´ementarit´e le
nombre de r´eponses n´egatives, nous mesurons le temps de r´eponse dans le cas de r´eponses
positives.
Contexte
Nous pr´esentons une s´equence de sons de l’environnement suivi d’une cible. Nous
demandons au sujet d’appuyer sur la barre d’espace du clavier apr`es la pr´esentation de
la cible. Le sujet peut choisir de ne pas appuyer sur la barre d’espace. Du point de vue
de la proc´edure exp´erimentale, cela s’appelle un Go/NoGo. Le sujet ne doit pas faire de
choix parmi plusieurs propositions.
Cons´
equences
Tous les temps introduits entre les ´ev´enements sonores et la cible visuelle doivent ˆetre
sciemment choisis.
Comme l’exp´erience dure environ une heure, il est important de maintenir l’attention
du sujet au cours de l’exp´erience. Deux moyens ont ´et´e propos´e par R.D. Lee, [Lee86]. La
premi`ere solution est de diffuser un signal bref apr`es la pr´esentation du stimuli, appel´e
signal de r´eaction. Ce signal indique au sujet qu’il peut r´epondre. Ce signal de r´eaction
doit durer pendant 500 ms tout au plus. Dans notre cas, nous substituons ce signal auditif
par la cible visuelle. Elle durera 1,5 seconde avant de disparaˆıtre de l’´ecran.
La seconde option pour maintenir l’attention du sujet est de lui fournir un feedback
sur ces performances au cours de l’exp´erience. On peut envisager, dans cette perspective,
d’offrir une gratification si les r´eponses donn´ees sont correctes. Ceci pr´esuppose qu’il y
est une bonne ou une mauvaise r´eponse, ce qui n’est pas notre cas ici. Nous fournirons
un feedback concernant l’´etat d’avancement de l’exp´erience.
Par ailleurs, plus la dur´ee entre la fin de la s´equence et l’apparition de la cible est
grande plus le temps de r´eponse est long. Cet intervalle est d´enomm´e foreperiod. Nous
pr´esenterons la cible imm´ediatement apr`es la s´equence. Les temps de r´eaction devront,
par cons´equent, ˆetre les plus courts possibles.
Enfin, le dernier facteur influant le temps de r´eaction est le niveau sonore et la dur´ee
de chaque son dans la s´equence.
Mesure effectu´
ee
Comme nous utilisons le paradigme Go/NoGo nous devrons tenir compte des fausses
alarmes. Celles-ci correspondent aux appuis accidentels ou volontaires mais incorrects
sur la barre d’espace. Pour tenir compte de ces fausses alarmes, nous enregistrons les
temps d’affichage du stimuli et de r´eponse du sujet par un chronom`etre ind´ependant. La
diff´erence des temps donn´es par cette horloge donnera une mesure du temps de r´eaction.
L’interface informatique que nous utilisons pendant l’exp´erience introduit un temps
de latence dont il faut tenir compte pour mesurer le temps de r´eaction du sujet, cf
2.2 S´
election et description du Mat´
eriau sonore
13
´equation 2.1 avec TR : Temps de r´eponse et Lr : latence du syst`eme. Le temps entre
l’appui sur la barre d’espace et la r´eception du signal d’appui par le syst`eme est de 8
ms. Le temps d’int´egration des donn´ees propre au syst`eme est de 26 ms. Cela d´epend
essentiellement de la taille des donn´ees ´echang´ees entre les diff´erents composants de
l’interface. Nous retirerons 34 ms aux temps affich´es dans l’interface.
Le temps de r´eaction se d´ecompose, selon Donders, cf [ML01], en trois temps :
´equation (2.2). Ta : Temps de d´etection, Tb : Temps de discrimination et Tc : Temps
moteur. On suppose que le temps moteur est constant pour un individu quelque soit la
tˆache a effectuer. Cette d´ecomposition du temps de r´eponse d´epend de la tˆache a effectuer. Dans notre exp´erience, le sujet doit choisir si oui ou non le mot ´evoque la s´equence.
La d´ecomposition que nous proposons ici s’inscrit dans le cadre de notre exp´erience.
(2.1)
TRmesure = TR + Lr
(2.2)
TR = Ta + Tb + Tc
2.2
S´
election et description du Mat´
eriau sonore
Le choix des sons repr´esente une ´etape importante. Il ne faut pas introduire de biais
en utilisant des sons environnementaux trop h´et´erog`enes en terme de qualit´e ou de dur´ee.
2.2.1
Extraction d’une base de sons existante
Nous choisissons des sons pr´esents dans un environnement de type environnement urbain. V.Shafiro et B.Gygi proposent dans l’´etude mentionn´ee ici, [SG04], une
m´ethodologie pour choisir correctement les sons utilis´es comme stimuli. Ils ont montr´e que
les sons doivent ˆetre retenus pour leur pertinence et leur ad´equation avec la probl´ematique.
Les qualit´es acoustiques sont `a consid´erer dans un second temps uniquement. Effectivement dans notre cas, l’approche repose essentiellement sur la reconnaissance et non le
jugement de qualit´es acoustiques.
Base de sons
Pour un gain de temps ´evident, nous recherchons les extraits sonores dans les bases de
sons existantes. Il existe diff´erent types de sons r´ef´erenc´es dans ce type de base de donn´ees.
Vis `a vis de notre probl´ematique, nous choisirons les sons parmi un inventaire d’extraits
de sources isol´ees et vari´ees. Les sons ont ´et´e extrait de la base de sons SoundIdeas
disponible sur le r´eseau interne de l’IRCAM. Les extraits sont ´echantillonn´es `a 44100 Hz
sur 16 bits et mix´e en st´er´eo.
2.2 S´
election et description du Mat´
eriau sonore
14
Types de sons extraits
Nous ´etudions l’effet de la m´emoire s´emantique sur la perception de s´equences de sons
environnementaux. L’acc`es aux repr´esentations en m´emoire s´emantique ne devra pas ˆetre
d´ependante du type de stimuli. Nous distinguons ici trois types de stimuli : les sources
isol´ees, les sources ´etendues et les ambiances sonores. Le tableau figurant en Annexe B.1,
dresse la liste des sons soumis aux participants lors de l’exp´erience de cat´egorisation.
2.2.2
Cat´
egorisation des sources sonores
Pour valider le panel de sons que nous utiliserons dans l’exp´erience principale,
nous effectuons un test de cat´egorisation orient´ee. Cette ´epreuve de cat´egorisation est
importante. Le but est de valider le corpus, et de supprimer toutes les sources qui sont
ambig¨
ues. Notons que le groupe de sujets auquel nous soumettons notre panel de sons
ne sera pas le groupe avec lequel nous travaillerons sur l’exp´erience proprement dite.
Cat´
egories propos´
ees
Pour d´efinir les cat´egories pr´ecis´ement, mentionnons les travaux de V. Maffiolo,
[Maf99]. V. Maffiolo d´emontre qu’un paysage sonore peut ˆetre de deux natures diff´erentes.
Il peut ˆetre amorphe. Dans ce cas, aucune source ou ´ev`enement n’est discernable dans
la sc`ene auditive. La rumeur de trafic dans un environnement urbain peut ˆetre consid´er´e
comme l’un de ces paysages amorphes. La sc`ene sonore peut ´egalement ˆetre ´ev`enementielle.
La sc`ene sonore est alors constitu´ee d’´ev`enements ´emergants et ais´ement identifiables.
Nous souhaitons constituer trois cat´egories de sons de l’environnement urbain. Nous
devons contrˆoler de mani`ere robuste la d´enomination et la d´efinition de ces cat´egories.
V. Maffiolo montre que l’identit´e d’une sc`ene sonore est d´efinie en terme d’´ev`ements,
de bruits et d’activit´es propres `a cette sc`ene. Ainsi nous d´efinirons les cat´egories de la
mani`ere suivante.
Cat´
egorie Trafic Tout ´ev´enement ou bruit se produisant dans un contexte de circulation en milieu urbain.
Cat´
egorie Parc Tout ´ev´enement, bruits ou activit´e humaine se produisant dans un
espace vert, parc ou square de ville.
Cat´
egorie Pr´
esence humaine Tout ´ev´enement, bruits ou activit´e r´ev´elant la pr´esence
humaine dans un contexte urbain type zone pi´etonne ou centre ville.
Ces d´efinitions tiennent lieu de postulat et seront ´evoqu´ees lors de l’exp´erience de
cat´egorisation.
2.2 S´
election et description du Mat´
eriau sonore
15
Exp´
erience de cat´
egorisation
Sujets Les participants `a cette exp´erience sont ˆag´es de 18 `a 48 ans . Le panel de sujet
est compos´e de 11 femmes et 21 hommes. Les sujets sont tous normo-entendants.
Stimuli Les sons diffus´es sont ceux de la base des sons retenus dans l’exp´erience de
cat´egorisation. Ces sons ont une dur´ee de 4 secondes. Ils sont ´echantillonn´es sur 16 bits.
La fr´equence d’´echantillonnage est de 44100 Hz.
Dispositif Les sons sont diffus´es dans un casque. Ce syst`eme de diffusion a ´et´e retenu pour les raisons suivantes. La diffusion du son sur un syst`eme binaural permet
de conserver une image sonore correctement spatialis´ee. L’immersion perceptive rend la
sc`ene sonore r´ealiste. L’interface est compos´ee d’un ´ecran et d’une souris. Le sujet ´ecoute
autant de fois qu’il le souhaite l’extrait sonore . A l’´ecran figure les trois cat´egories, `a
savoir : Traffic, Parc et Pr´esence humaine. Des icˆones symbolisant les sons sont dispos´es
en bas de l’´ecran.
Protocole Dans un premier temps, le sujet ´ecoute l’ensemble des sons en cliquant sur
son icˆone. L’ordre d’´ecoute n’a aucune importance. D`es lors que le sujet a pris connaissance du corpus, il est invit´e `a regrouper les sons en 4 cat´egories. Ces quatre cat´egories
sont les 3 mentionn´ees plus haut, et une quatri`eme cat´egorie ” Autre”, o`
u le sujet placera
tous les sons qui n’entrent pas, selon lui, dans les trois autres. Il n’y a aucune contrainte
concernant le nombre de repr´esentants `a placer par cat´egorie. Une fois cette organisation
en groupe effectu´ee, le sujet choisi le repr´esentant le plus prototypique de la cat´egorie.
R´
esultats
Lecture de la repr´
esentation arbor´
ee Cette analyse se base sur la repr´esentation
arbor´ee, cf figure 2.2. Nous pouvons noter une dissemblance maximum entre les sons associ´es `a ”Trafic” et les sons associ´es `a ”Parc” et ”Pr´esence humaine”. La dissemblance
entre ces deux derni`eres cat´egories est tout de mˆeme importante. Ce premier r´esultat
confirme notre s´election des sons et la cat´egorisation que nous avons faite `a priori. Pour
s’assurer de la validit´e de la cat´egorisation, il faut v´erifier que les sons n’ont pas ´et´e
r´epartis dans les cat´egories de mani`ere al´eatoire.
Faisons l’hypoth`ese suivante : ”tous les sons ont ´et´e cat´egoris´es al´eatoirement par
l’ensemble des sujets”. Pour v´erifier cette hypoth`ese nous allons proc´eder au ”Test du
χ2 . Ce test permet de comparer la distribution des r´eponses donn´ees par les sujets avec la
distribution th´eorique validant l’hypoth`ese. L’estimation de la valeur de χ2 est compar´ee
`a une valeur seuil qui d´epend `a la fois du nombre de variables ind´ependantes, ici 4 et de
l’erreur admissible permettant de valider ou non l’hypoth`ese. Nous tol´erons une erreur
de 1%. Dans notre cas cette valeur seuil vaut
χ2α (0.01) = 11, 73
2.2 S´
election et description du Mat´
eriau sonore
16
Dissemblance
45
gallerie art
47
spectateurs marathon
48
passage fanfare
34
ambiance marché
35
ambiance marché 2
37
école élémentaire
42
applaudissement foule
38
enfants cour école
39
enfants hall école
40
enfants parc
21
canari
23
fauvette jardins
33
vent arbres
28
battement aile
30
ruisseau
26
joggeur parc
22
chute arbre
25
outil jardinage
29
outil ratissage
24
fontaine
31
main remuant eau
27
joueurs tennis extérieur
1
alarme voiture
13
métro extérieur
2
vélo passage rapide
3
passage bus
15
traffic centre ville
18
traffic proche
19
démarrage voiture
11
sirène police
10
passage pompier
7
klaxons embouteillage
20
passage voiture
17
traffic moto
4
camion benne
12
gare routière
5
camion pompier
14
traffic bus
6
klaxon
9
passage moto
8
klaxon voiture
16
traffic dense
32
passage vélo
Fig. 2.2 – Repr´esentation arbor´ee de la cat´egorisation des sons
1
36
commerce
0.8
41
foule moyenne
0.6
46
grande foule
0.4
44
rire foule
0.2
0
!0.2
43
discution foule
2.2 S´
election et description du Mat´
eriau sonore
17
Selon cette hypoth`ese nous attendons une r´epartition ´equiprobable des sons dans les
cat´egories. Sur un effectif total de 32 sujets, la r´epartition th´eorique est donc de 8 :8 :8 :8.
Connaissant cette esp´erance th´eorique et les donn´ees observ´ees nous calculons le χ2 de
la mani`ere suivante.
χ2 =
k
X
(Oi − Ei )2
i=1
Oi
k : nb de cat´egorie
Oi : donn´ees observ´ees par cat´egorie
Ei : donn´ees attendues par cat´egorie
Si l’estimation du χ2 fournit une valeur sup´erieure `a cette valeur seuil, alors la distribution observ´ee infirme l’hypoth`ese d’une r´epartition al´eatoire des r´eponses.
Tous les sons du panel infirme l’hypoth`ese, except´e le son ”passage de v´elo”. Celui ci
sera donc retirer de la base.
R´
eduction de la base des sons `
a l’issue de la cat´
egorisation Dans la mesure
du possible, nous conservons les sons qui sont le plus proche en terme de dissemblance.
Dans un second temps, nous tacherons de s´electionner des sons diversifi´es en terme de
sources. Enfin, nous ´eliminerons du corpus les sons dont les qualit´es acoustiques sont
diff´erentes du reste du corpus. La qualit´e acoustique, dans notre cas, n’induit pas de
difficult´e d’identification car elle ne varie pas beaucoup.
Parc
canari
fauvette des jardins
battement d’aile
ruisseau
vent dans arbre
outils de jardinage
outils de ratissage
joueurs tennis ext´erieur
fontaine
Traffic
passage de bus
camion benne
camion pompier
klaxon de voiture
passage de moto
gare routi`ere
traffic centre ville
passage de voiture
traffic bus
Pr´
esence Humaine
grande foule
´ecole ´el´ementaire
foule moyenne
applaudissement foule
discussion foule
rire de foule
spectateurs marathon
passage parade
enfants cour ´ecole
Fig. 2.3 – Liste des sons du corpus d´efinitif
Sons prototypiques
Chaque sujet a retenu un son repr´esentatif pour chaque
cat´egorie. Une proportion sup´erieure au hasard a ´elu comme prototypique les sons :
”Passage de pompier” et ”Joggeur dans un parc”, pour les cat´egories ”Trafic” et ”Parc”,
respectivement. Pour la cat´egorie ”Pr´esence humaine” le choix du prototype n’est pas
aussi saillant. 6 sujets ont retenu le son ” rire de foule”, 5 sujets ” ambiance de march´e” et
4 ”grande foule”. Comme il s’agit d’une r´epartition plus ´equilibr´e, nous retiendrons, le son
2.2 S´
election et description du Mat´
eriau sonore
18
”Ambiance de march´e”. Une diff´erence de 1 voie n’est pas significative, et nous estimons
que l’ ambiance de march´e est repr´esentative de la cat´egorie ”Pr´esence Humaine” au
mˆeme titre que le son ”Rire de foule”.
Ces prototypes auront un rˆole particulier pendant l’exp´erience principale. Ils ne seront
pas int´egr´es aux s´equences. Il serviront d’exemples sonores pour illustrer les labels cibles
lors de l’exp´erience pr´eliminaire au test principale. Cette exp´erience d’entraˆınement est
capitale pour la suite. Le tableau indique ´egalement le nombre de sujets ayant d´esign´e
les sons suivants comme ´etant le plus repr´esentatif des cat´egories.
Cat´
egorie
Traffic
Parc
Pr´esence humaine
Prototype
passage de pompier
joggeur dans parc
ambiance de march´e / rire de foule
Nb de sujets
13
15
5/6
Fig. 2.4 – Prototypes retenus par les sujets
2.2.3
D´
efinition et ajustement du niveau sonore
Pour mesurer le niveau en dB SPL de chaque source, nous nous r´ef´erons `a un son
´etalon. Dans un premier temps nous mesurons le niveau d’une sinuso¨ıde `a 1000Hz. A
cette fr´equence, il n’y a pas de correction dˆ
ue `a la courbe de r´eponse du filtre auditif.
Le niveau mesur´e est le niveau absolu. Nous estimons la valeur efficace de ce signal `a
l’aide d’une routine sous MATLAB. Ce couple de valeurs repr´esente l’´etalon. Les valeurs
efficaces de tous les sons du corpus sont estim´ees par cette m´ethode. Par proportionnalit´e,
nous obtenons le niveau en dB SPL de tous les sons compar´e au niveau de l’´etalon.
Ajustement ´
ecologique
Pour contrˆoler le niveau sonore des sources, nous devons effectuer une exp´erience
d’ajustement en sonie. Cette tˆache r´ealis´ee par des sujets permet d’´etablir les niveaux
d’intensit´e des sons de mani`ere stable. Deux ajustements sont possibles. Le premier est
un ajustement isosonique. Tous les sons sont ajust´es au mˆeme niveau de sonie. Cet
ajustement n’est pas ´ecologique. Comme nous voulons cr´eer des s´equences r´ealistes, cet
ajustement ne convient pas. Nous retenons l’ajustement ´ecologique.
Les sources ont, dans leur contexte, un niveau caract´eristique. Nous devrons pour
cela, d´ecrire aux sujets dans quel contexte ils se trouvent. Nous demandons au sujet
d’ajuster le niveau de la source tel qu’il le percevrai en contexte r´eel. Cela correspond
`a l’ajustement ´ecologique. Par exemple, un son de marteau piqueur sera n´ecessairement
plus fort qu’un son de canari. Le niveau sera diff´erent si le sujet se situe a proximit´e ou
non de la source. C’est pour cela que nous indiquons au sujet qu’il est situ´e `a proximit´e
de la source.
2.2 S´
election et description du Mat´
eriau sonore
19
Sujets Les participants `a cette exp´erience sont ag´es de 18 `a 48 ans Il y a 21 Hommes
et 11 femmes.
Stimuli Les sons diffus´es sont ceux de la base des sons retenus dans l’exp´erience de
cat´egorisation. Ces sons ont une dur´ee de 4 secondes. Ils sont ´echantillon´es sur 16 bits.
La fr´equence d’´echantillonnage est de 44100 Hz. Le bruit de fond est un bruit de type
environnement amorphe urbain. Ces propri´et´es spectro-temporelle sont pr´esent´ees en
Annexe A.1. Le niveau de ce bruit de fond est de 72 dB SPL.
Dispositif Les sons sont diffus´es dans un casque. L’interface est compos´ee d’un ´ecran
et d’une souris. Le sujet ´ecoute autant de fois qu’il le souhaite l’extrait sonore couvert
partiellement par le bruit de fond urbain. A l’´ecran figure, une interface d’ajustement,
figure 2.5. L’interface est con¸cue de mani`ere `a ce que le niveau sonore ne sature jamais
le syst`eme de diffusion.
Fig. 2.5 – Interface d’ajustement en Sonie sous PsiExp
Protocole Pour chaque son, le sujet ´ecoute le niveau initial de l’extrait. Il ajuste le
niveau `a sa convenance, ce qui provoque une nouvelle ´ecoute de l’extrait. La consigne
pr´ecise au sujet qu’il doit ajuster le niveau sonore tel qu’il percevrait ´etant situ´e `a une
distance approximative de 2 m`etres de la source. Le sujet `a la possibilit´e de r´e´ecouter
l’extrait sans en modifier le volume. Enfin, lorsque le niveau est ajust´e, il valide et passe
`a l’extrait suivant. L’exp´erience se termine quand tous les extraits ont ´et´e ajust´es.
R´
esultats Les niveaux ajust´es dans l’interface utilisateur PsiExp sont les coefficients
multiplicateur de l’amplitude du signal. Le niveau initial en dB SPL est connu pour
2.3 Mat´
eriel
20
chaque son. Ce niveau initial correspond `a une valeur de 1 dans l’interface. Pour connaˆıtre
la correction en dB SPL `a apporter au niveau initial du son nous calculons le gain de la
mani`ere suivante.
init
NdB
= 20 log(A)
Une valeur de 1 du coefficient ne modifie pas le niveau en dB SPL. Ce coefficient est celui
que propose les sujets dans cette exp´erience d’ajustement en sonie. Ainsi, un coefficient
propos´e `a 1,4, par exemple repr´esentera un gain de 2.95 dB SPL :
NdB = 20 log(1, 4 ∗ A)
NdB = 20 [log(1, 4) + log(A)]
init
NdB = 20 log(1, 4) + NdB
init
NdB = 2, 95 + NdB
Les sujets proposent un niveau ´ecologiquement valide pour chacun des sons en comparaison avec le bruit de fond. Une moyenne arithm´etique est calcul´ee pour chaque
son sur l’ensemble des valeurs fournies par les sujets. La valeur moyenne sera affect´ee
d´efinitivement au son correspondant. Lors de l’exp´erience finale, le niveau sonore de la
source sera celui attribu´ee lors de cette exp´erience. Le tableau en Annexe C d´etaille le
niveau r´eel mesur´e en dB SPL puis le niveau ´ecologique de chaque son.
Observations Tous les sons de la cat´egorie ” Parc” sont en dessous de 70 dB SPL, mis
`a part les deux sons d’oiseaux et le son de la ”main remuant l’eau”. Les sons d’oiseaux
sont ajust´es plus fort, car ils ´emergent de la sc`ene sonore. Les sons que nous retiendrons
auront un niveau ´ecologique proche de 68 dB SPL. En terme d’intensit´e subjective la
cat´egorie ”Parc” sera celle ayant le niveau le plus faible.
Les sons de la cat´egorie ”Trafic” ont tous ´et´e augment´es de 4 `a 5 dB SPL. Nous avons
retenus des sons dont le niveau varie entre 75 dB SPL et 85 dB SPL. Du point de vue
intensit´e subjective, les sons de la cat´egorie ”Trafic” sont, cette fois ci les plus intenses.
Les sons de la cat´egorie ”Pr´esence humaine” sont eux aussi augment´es de 4 `a 5 dB
SPL. Le niveau moyen est compris entre 70 et 80 dB SPL.
Une fois les exp´eriences pr´eliminaires r´ealis´ees nous passons `a la description de
l’exp´erience principale. Nous pr´esenterons, le mat´eriel et les stimuli utilis´es. Nous d´etaillerons
´egalement la proc´edure exp´erimentale.
2.3
Mat´
eriel
Cette section fournit les d´etails techniques du mat´eriel utilis´e pour r´ealiser les
exp´eriences.
2.4 Stimuli
21
Poste de travail Le poste de travail est situ´e dans une cabine insonoris´ee IAC. Le
niveau du bruit de fond est de 63 dB SPL.
Station de travail Les stations de travail sont des Mac G5 biprocesseurs ´equip´es de
cartes audio interne RME hdsp9652.
L’interface utilisateur Les deux logiciels principaux sont Max/Msp et Psiexp. Max/Msp
logiciel de traitement de flux de donn´ees en temps r´eel, nous sert comme interface de
lecture des fichiers sons principalement. le second logiciel, Psiexp, permet de concevoir
les interfaces utilisateurs. Ce logiciel a ´et´e d´evelopp´e par B. Smith `a l’IRCAM.
Syst`
eme de diffusion Les sorties de la carte audio sont connect´ees `a un ampli Lake
d´edi´e pour une diffusion dans un casque Sennheiser HD II.
2.4
Stimuli
Nous d´etaillons dans cette section les stimuli utilis´es dans notre exp´erience.
2.4.1
Sons utilis´
es
Les sons utilis´es sont r´ef´erenc´es dans la section 2.2.1. Le son dure 5 secondes. Lors de
sa diffusion, le son ´emerge progressivement du bruit de fond par une rampe en intensit´e
qui dure 2 secondes. Ensuite, le son est stable pendant 1 seconde, puis d´ecroˆıt selon une
rampe de 2 secondes ´egalement.
2.4.2
Organisation temporelle des s´
equences
Les s´equences ”types” sont compos´ees de 12 sons, figure fig :seq. Trois groupes de 4
sons se succ`edent. Chaque groupe est constitu´e de sons appartenant `a la mˆeme cat´egorie,
cf section 2.2.2. L’ordre des cat´egories est d´etermin´es al´eatoirement par Max/Msp. Cela
repr´esente 6 permutations possibles des cat´egories. L’ordre de diffusion des sons dans un
groupe cat´egoriel est al´eatoire. L’organisation temporelle de la s´equence est sauvegard´ee
dans un fichier texte.
Les s´equences ”tests” sont compos´ees de 9 sons d’une mˆeme cat´egorie, 2.7.
Chaque son dure 4 secondes. Entre chaque son, il y a une pause de 2 secondes. Ces valeurs ont ´et´e ajust´ees pour pr´eserver un rythme de pr´esentation correct. Ces ajustements
nous permettront de tester toute la combinatoire possible des s´equences sans prolonger
d´emesur´ement le temps de l’exp´erience. Le rythme de pr´esentation des sons est r´ealiste.
2.4.3
Mots cibles
Nous proposons aux sujets 4 mots cible. Ces mots sont les noms des cat´egories que
nous avons choisi, `a savoir : Trafic, Parc et Pr´esence humaine. Une quatri`eme cible
est introduite. Nous choisissons le label ”Port”. Il a une fonction distractrice. Le sujet
2.4 Stimuli
22
Niveau Sonore (dB SPL)
Niveau Bruit de fond
Temps
Catégorie
Fig. 2.6 – Structure temporelle d’une s´equence ”type”
Niveau Sonore
CIBLE 1
Temps
Catégorie 1
Fig. 2.7 – Structure temporelle d’une s´equence ”test”
2.5 Proc´
edure
23
devra rester attentif `a la cible sachant qu’il peut, s’il n’y prˆete pas assez d’attention,
r´epondre de mani`ere ´erron´ee. Combin´e aux 6 permutations possibles, cela repr´esente
24 s´equences diff´erentes. Nous introduisons ´egalement des s´equences test. Ces s´equences
sont compos´ees uniquement de sons d’une mˆeme cat´egorie. Pour les trois s´equences test
nous pr´esentons le label de la cat´egorie correspondante et un label autre. Cela repr´esente
donc 6 nouvelles configurations. Cela repr´esente donc un ensemble de 30 s´equences.
2.4.4
Bruit de fond
Le bruit de fond est celui d´ecrit en annexe A. Son niveau sonore est de 72 dB SPL.
Il d´ebute par une rampe progressive en amplitude sur 200 ms. Il dure le temps de la
diffusion des 12 sons. Enfin, il d´ecroˆıt progressivement sur une dur´ee de 2 secondes.
Les rampes en amplitude sont utilis´ees pour ´eviter les clic. La rampe de sortie est plus
longue, car nous percevons plus rapidement une diminution du niveau sonore. Pour que
les rampes d’entr´ee et de sortie est une dur´ee subjective identique nous avons retenu ces
valeurs de mani`ere empirique.
2.5
Proc´
edure
L’exp´erience se d´eroule en deux temps. Tout d’abord, le sujet est invit´e `a manipuler une interface pr´esentant tous les couples [son prototypique - label associ´e]. Cela va
permettre au sujet d’ˆetre plus efficace pendant l’exp´erience principale. Le sujet prend
connaissance de tous les labels auxquels il sera confront´e plus tard. L’interface `a l’´ecran
est compos´e de 4 boutons. En cliquant sur chacun d’eux le son prototypique associ´e est
jou´e. Cette ´etude dure 1 `a 2 minutes.
L’exp´erience en elle mˆeme peut d´ebuter. Le sujet re¸coit au d´ebut de l’exp´erience un
r´esum´e des consignes ´enonc´ees par l’exp´erimentateur. A la suite de cette pr´esentation la
premi`ere s´equence d´ebute. A la fin de celle-ci le label cible est affich´e pendant 1 seconde.
A partir de cet instant, le sujet est invit´e `a r´epondre dans les 3 secondes. Un compteur
affiche le d´ecompte. Ceci est fait pour conditionner le sujet. Le sujet appui sur la barre
espace s’il estime que le label ´evoque correctement la s´equence. Comme sa r´eponse doit
ˆetre la plus rapide possible, le jugement qu’il porte sur la s´equence est bas´e sur ses
souvenirs `a court terme. Si le sujet estime que le label n’´evoque pas correctement la
s´equence il n’appuie pas sur la barre. Son appui est pris en compte et indiqu´e par un
t´emoin qui change de couleur `a l’´ecran. Chaque appui sur la barre est stock´e dans un
fichier de r´esultats. A la fin de cette premi`ere phase, le sujet d´ecide quand d´ebuter la
s´equence suivante.
Ce dernier est invit´e `a faire une pause apr`es les 10 ou 15 premi`eres s´equences.
2.5 Proc´
edure
Fig. 2.8 – Interface Utilisateur pour l’exp´erience de Jugement Global sous Max/MSP
24
2.6 Sujets
2.6
25
Sujets
30 sujets ont particip´e `a l’exp´erience de jugement global. Tous sont normo entendants.
Les sujets sont ˆag´es de 18 `a 47 ans. Le panel est compos´e de 6 femmes et 24 hommes.
2.7
R´
esultats
Nous rapportons dans cette section les r´esultats de l’exp´erience de jugement global.
Nous pr´esentons les r´esultats obtenus lorsque les sujets ont ´et´e confront´es aux s´equences
”test”. Ensuite, nous observons l’´evolution du taux de r´eponse et du temps de r´eponse en
fonction de la position temporelle de la cat´egorie cible. Puis, nous mettons en avant les
diff´erences entre les cat´egories. Enfin, nous pr´esentons l’´evolution du taux et du temps de
r´eponse en fonction de la configuration temporelle des s´equences pour la cat´egorie Trafic.
2.7.1
R´
esultats concernant les s´
equences Test
Nous avons pr´esent´e aux sujets des s´equences compos´ees de 9 sons appartenant `a une
cat´egorie unique. Chacune des 3 s´equences est suivi du label de la cat´egorie et d’un label
diff´erent. Nous les appellerons, respectivement, s´equence ”Test” et s´equence ”Pi`ege”.
Donn´
ees
Fig. 2.9 – Pourcentage de r´eponse en fonction du type de s´equence
2.7 R´
esultats
26
Figure 2.9 93% des sujets ont r´epondu dans le cas de s´equence ”Test”. 18% des sujets
ont r´epondus dans le cas de s´equences ”Pi`ege”.
Temps de r´
eponse moyen Le temps de r´eponse pour la cat´egorie Trafic est de 689
ms. Le temps de r´eponse pour la cat´egorie Parc est de 666 ms. Le temps de r´eponse pour
la cat´egorie Pr´esence humaine est de 885 ms.
2.7.2
Pourcentage de r´
eponse pour chaque cat´
egorie en fonction de la
position temporelle
La question pos´ee est ”Est-ce que le mot ´evoque correctement la s´equence ?”. Pour
chaque cat´egorie nous calculons le nombre de sujets ayant r´epondu oui. L’effectif et le
temps de r´eponse sont calcul´es pour chaque position de la cat´egorie dans la s´equence.
Donn´
ees
Fig. 2.10 – Effectif pour chaque cat´egorie en fonction de la position de la cible
Figure 2.10 22% des sujets ont r´epondu lorsque la cible Trafic est en position initiale.
38% des sujets ont r´epondu lorsque la cible est en position interm´ediaire et 59% des sujets
lorsque la cible est en position finale. Le pourcentage d’effectif cumul´e pour la cat´egorie
Trafic est de 40%.
2.7 R´
esultats
27
40% des sujets ont r´epondu lorsque la cible Parc est en position initiale. 50% sujets
ont r´epondu lorsque la cible est en position interm´ediaire et 67% sujets lorsque la cible
est en position finale. Le pourcentage d’effectif cumul´e pour la cat´egorie Parc est de 52 % .
59% des sujets ont r´epondu lorsque la cible Pr´esence Humaine est en position initiale.
69% des sujets ont r´epondu lorsque la cible est en position interm´ediaire et 81% des sujets
lorsque la cible est en position finale. Le pourcentage d’effectif cumul´e pour la cat´egorie
Pr´esence Humaine est de 70%.
2.7.3
Temps de r´
eponse pour chaque cat´
egorie cible
Les mesures pr´ec´edentes sugg`erent une diff´erence de temps de r´eponse moyen quelque
soit la position de la cat´egorie dans la s´equence.
Donn´
ees
Fig. 2.11 – Temps de r´eponse en fonction de la cat´egorie cible
Figure 2.11 Le temps de r´eponse pour la cat´egorie Trafic est de 1150 ms. Le temps de
r´eponse pour la cat´egorie Parc est de 990 ms. Le temps moyen pour la cat´egorie Pr´esence
humaine est de 930 ms.
2.7 R´
esultats
2.7.4
28
Pourcentage et Temps de r´
eponse pour la cat´
egorie Traffic
Nous ´etudions dans cette section, l’´evolution de l’effectif et du temps de r´eponse pour
la cat´egorie Trafic en fonction de la configuration temporelle des s´equences.
Donn´
ees
Chaque configuration temporelle de la s´equence est repr´esent´ee par une s´erie de
chiffres. La configuration [1 2 3] signifie Trafic/Parc/Pr´esence humaine. Les figures pr´esentent
toutes les configurations ordonn´ee par position de la cat´egorie cible dans la s´equence.
Dans les deux premi`eres configurations, la cible est en position 1, dans les deux suivantes, en position 2, et enfin la cible est en position 3. Ces figures fournissent des
donn´ees compl´ementaires `a celles rapport´ees dans les figures de la section 2.7.2.
Fig. 2.12 – % de l’effectif pour la cat´egorie Trafic en fonction des configurations
Figure 2.12 En position initiale, le score est de 17% pour la configuration [1 2 3], et
de 28% pour la configuration [1 3 2]. Pour la cible en position interm´ediaire, il n’y a pas
de diff´erence. En position finale, le score est de 66% pour la configuration [2 3 1], et de
52% pour la configuration [3 2 1].
Figure 2.13 Pour la cible plac´ee en d´ebut de s´equence, le temps de r´eponse est de 1624
ms pour la configuration [1 2 3] et de 1272 ms pour la configuration [1 3 2]. Pour une cible
en position interm´ediaire, le temps de r´eponse est de 935 ms pour la configuration [2 1
2.7 R´
esultats
29
Fig. 2.13 – Temps de r´eponse pour la cat´egorie Trafic en fonction des configurations
3] et de 996 ms pour la configuration [3 1 2]. Pour la cible en position finale, le temps de
r´eponse est de 1318 ms pour la configuration [2 3 1], et de 764 ms pour la configuration
[3 2 1].
Ces r´esultats ne seront pas analys´es dans le d´etail, car nous ne disposons pas de donn´ees
suffisantes pour conclure. Il apparaˆıt cependant un autre effet de l’organisation temporelle. Les cat´egories situ´ees avant et/ou apr`es la cat´egorie cible influence le jugement des
sujets.
2.7.5
Discussion des r´
esultats
Nous examinons les donn´ees recueillies dans les sections pr´ec´edentes. Nous pr´esentons
les ressemblances et dissemblances qui apparaissent en comparant `a la fois les taux de
r´eponse mais aussi les temps de r´eponse. Les temps de r´eponse observ´es varient entre
700 et 1500 ms.
Temps minimum de d´
ecision
Lorsque les s´equences sont compos´ees de sons appartenant `a la mˆeme cat´egorie 93%
des sujets estiment que le mot ´evoque la s´equence. 19% des sujets estiment que le mot
´evoque la s´equence alors que celui-ci n’est, en principe, pas repr´esentatif de la s´equence
(cf section 2.7.1). Il peut ´egalement s’agir de fausses alarmes.
2.7 R´
esultats
30
Les temps de r´eponse mesur´es pour les s´equences ”Test” sont compris entre 690 et
890 ms selon la cat´egorie. L’int´egralit´e de la s´equence ´evoque le label pr´esent´e `a la fin.
Si l’on admet que le temps de d´etection pour un stimulus visuel est de 120 ms, selon ref
alors le temps de choix + le temps moteur, tel que le d´efinit R.D Lee (cf [Lee86]) est
compris entre 570 et 770 ms.
Evolution du taux de r´
eponse avec la r´
ecence de la cible
Pour chaque cat´egorie, le pourcentage de r´eponse augmente avec la r´ecence de la
cible. Cela est dˆ
u, en premier lieu, au fait que les derniers ´ev´enements entendus sont
favoris´es car r´ecents en m´emoire `a court terme.
En comparant les pourcentages moyens pour chaque cat´egorie, section 2.7.2, nous
observons 30% de r´eponse pour la cat´egorie Trafic contre 70% pour Pr´esence humaine.
Plus de sujets r´epondent lorsque nous demandons si la cible ”Pr´esence humaine” ´evoque
correctement la s´equence. Les sons humains ont un poids plus important dans le jugement que portent les sujets sur la s´equence.
Pour la cat´egorie Trafic, le taux de r´eponse est de 20% pour la position initiale. Les
sujets estiment que le label Trafic n’est pas repr´esentatif de la s´equence. Lorsque la cible
est en position interm´ediaire, le taux de r´eponse reste en faveur du non avec seulement
40 % de oui. Si la cible est en position finale, le label recueille 60% de r´eponse. Ce qui
est peu comparativement aux autres cat´egories. Nous notons une progression de 40% du
taux de r´eponse en fonction de la position, ce qui est important.
Pour la cat´egorie Pr´esence humaine, les r´esultats sont diff´erents. Pour une cible en
position initiale, le score est d´ej`a en faveur du oui avec 60 % de r´eponse. Mˆeme si la
cible est ancienne, plus de la moiti´e des sujets estime le label Pr´esence Humaine est
repr´esentatif de la s´equence. Les sons humains laissent une empreinte plus importante
que les sons de Trafic. En position finale, le taux de r´eponse est de 80%. Compar´e au
60% que recueille le label Trafic pour la mˆeme position, le label Pr´esence humaine est
plus souvent associ´e `a la s´equence quelque soit le contenu de celle-ci. La progression du
taux de r´eponse est de 20%. Une fois encore, les sons humains se r´ev`elent plus influant.
Pour la cat´egorie Parc, nous pouvons noter un r´esultat int´eressant. Lorsque la cible
est en position interm´ediaire, le score est de 50 %. A la lumi`ere de ce que nous avons
dit plus haut, cela s’explique. La cible est n´ecessairement suivi de la cat´egorie Trafic
ou Pr´esence humaine. Nous avons vu que les scores pour ces deux cat´egories sont plus
´elev´es.
Diff´
erences de jugement selon les cat´
egories
Le jugement global port´e sur chaque cat´egorie est diff´erent selon la cible pr´esent´ee.
La figure pr´esent´ee en section 2.7.3 illustre ce point de mani`ere synth´etique. Le temps
moyen pour r´epondre lorsque que la cible est la cat´egorie trafic est de 1150 ms. Lorsqu’il
s’agit de la cat´egorie Parc, le temps est de 990 ms. Enfin, lorsque la cat´egorie est Pr´esence
humaine, le temps est de 930 ms.
2.7 R´
esultats
31
Synth`
ese des r´
esultats
Nous ne pouvons affirmer que les diff´erences observ´ees entre les temps de r´eponse
soient significatives. Nous constatons qu’il existe des diff´erences entre les cat´egories. Expliquer les raisons pour lesquelles il existe ces diff´erences et en connaˆıtre les causes est
une d´emarche encore pr´ematur´ee. Cependant, ces r´esultats exp´erimentaux fournissent
des donn´ees capitales concernant l’´etude de ce type de stimuli. L’´etude du jugement global doit tenir compte de bien plus de param`etres que l’organisation temporelle.
Pour r´esum´e, notons les r´esultats les plus marquants :
1. Le jugement global d’une s´equence porte sur l’ensemble des ´ev´enements per¸cus.
2. La r´ecence de la cible a un effet sur le taux et le temps de r´eponse.
3. Le temps minimum de r´eponse pour juger du lien entre un label et une s´equence
est compris entre 700 et 900 ms dans le cas de s´equences homog`enes, et compris
entre 820 et 1450 ms dans le cas de s´equences h´et´erog`enes.
4. Le taux de r´eponse pour la cat´egorie cible Pr´esence humaine est plus ´elev´e que pour
les cat´egories Parc et Trafic. Le temps de r´eponse est, en revanche, plus court.
5. Les temps de r´eponse sont diff´erents, quelque soit la cat´egorie, entre une cible plac´ee
au d´ebut de la s´equence et une cible plac´ee au milieu ou `a la fin.
2.8 Discussion g´
en´
erale
2.8
32
Discussion g´
en´
erale
Dans cette discussion, nous aborderons le point central de notre ´etude ; l’effet de
l’organisation temporelle sur la perception globale d’une s´equence sonore compos´ee de
sons de l’environnement urbain. Nous discuterons de la pr´esence de l’effet de r´ecence et
de l’absence de l’effet de primaut´e. Puis, nous aborderons la question du jugement global.
Dans un second temps, nous pr´esenterons les raisons probables `a l’origine des diff´erences
observ´ees entre les cat´egories.
2.8.1
Effet de la m´
emoire
Effet de r´
ecence
La r´ecence de la cat´egorie cible influence le temps de r´eponse. Il apparaˆıt donc que le
jugement d’une s´equence de sons de l’environnement soit ´egalement propice `a l’effet de
r´ecence. Notre exp´erience diff`ere de celle men´ee par P.Guelton en 2005, [Gue05]. L’effet
de r´ecence est av´er´e si l’on observe le taux de r´eponse en fonction de la position de la
cible dans la s´equence. Cet effet de r´ecence doit ˆetre ´etudi´e pour chacune des cat´egories
pr´esent´ees dans notre protocole.
Effet de primaut´
e
Nous n’observons pas d’effet de primaut´e. Ni le taux de r´eponse, ni le temps de
r´eponse semblent ˆetre am´elior´es lorsque la cat´egorie cible est en position initiale. L’´etude
rapport´ee ici diff`ere des travaux de P. Guelton. Il n’est pas explicitement demand´e aux
auditeurs de se rappeler de la s´equence. Les processus de boucle phonologique ne sont
probablement pas d´eclench´es. Il serait int´eressant de reproduire l’exp´erience de P. Guelton sans indiquer explicitement aux auditeurs qu’ils doivent se rappeler de la liste. Ce
protocole serait alors similaire au notre dans la tˆache demand´ee aux sujets.
Jugement global de s´
equences de sons
Le jugement global d´epend de l’organisation temporelle des s´equences. Susini et al.,
[SMS02], ont montr´e que le jugement global du niveau sonore d´epend de l’organisation temporelle des s´equences. Les stimuli utilis´es dans leur ´etude sont des sons purs.
Hellbr¨
uck et al., [HKZ+ 01], ont reproduit ces r´esultats pour des s´equences de sons de
l’environnement. Nous poursuivons dans cette voie, et d´emontrons dans notre ´etude que
l’organisation temporelle a ´egalement une influence sur des jugements concernant d’autres
param`etres que des param`etres acoustiques. Les effets de la m´emoire se retrouvent sur
diff´erents plans. Nous avons orient´e les sujets de notre exp´erience vers un jugement du
contenu s´emantique. Le jugement global reste conditionn´e par la consigne que re¸coit
le sujet. Comme le sugg`ere V. Maffiolo, [MCD98], les s´equences ”´ev´enementielles” sont
analys´ees s´emantiquement alors que des s´equences amorphes le sont qualitativement.
2.8 Discussion g´
en´
erale
33
Organisation de la m´
emoire s´
emantique
Plus que la r´ecence, c’est l’organisation de notre m´emoire s´emantique qui est responsable de la variabilit´e du temps de r´eponse en fonction de la cat´egorie cible, et en second de
la position de celle-ci dans la s´equence. La m´emoire s´emantique est organis´ee selon Collins
et al. en un arbre hi´erarchique de concepts. Les concepts partagent des attributs. Cette
organisation ne rend pas comte des effets de typicalit´e. Comme nous le sugg´erons plus
loin, l’effet de typicalit´e du prototype pr´esent´e en pr´e exp´erience `a un effet sur le jugement
s´emantique global. Ceci constitue un argument suppl´ementaire en d´efaveur du mod`ele de
Collins. Le mod`ele par comparaison d’attribut n’est pas plus int´eressant. La comparaison
d’attributs ce fait par paire. Ce mod`ele ne tient pas compte de diff´erences du point de
vue du temps de traitement des sons. Peut ˆetre que la comparaison d’attributs pour des
sons de Pr´esence humaine s’effectue plus rapidement que pour les autres sons. Ceci ne
reste qu’une hypoth`ese. Nous pourrions envisager une exp´erience. En proposant plusieurs
prototypes de sons humains et non humains, nous observerons les temps mis pour dire
si des sons test sont similaires ou diff´erents des prototypes. Aucun des mod`eles que nous
avons mentionn´e plus haut, n’int`egre cette distinction entre les diff´erentes cat´egories de
sons. Le seul qui sugg`ere une distinction, ne propose qu’une s´eparation entre mat´eriel
verbal et non verbal. Il s’agit du mod`ele d’organisation fonctionnelle propos´e par Barlett.
Notre ´etude sugg`ere une autre distinction sur le plan fonctionnel justement. Il ne faut
plus distinguer le mat´eriel verbal du mat´eriel non verbal, mais distinguer tout ce qui
attrait `a l’humain et tout le reste.
2.8.2
Sons de l’environnement
Sons Humains / Sons Non Humains
Les travaux de V. Maffiolo, [Maf99] montrent que les auditeurs d´ecrivent les ambiances sonores urbaines selon trois cat´egories d’´ev´enements. La premi`ere distinction se
situe entre les sons humains et les sons non humains. Puis, parmi les sons non humains,
les sujets distinguent les sons naturels des sons m´ecaniques. Les r´esultats des travaux
pr´esent´es dans ce rapport montrent que le traitement des s´equences sonores en terme de
temps de r´eaction d´epend de la cat´egorie de sons consid´er´ee : sons humains, sons naturels
ou sons manufactur´es. Une explication possible est que les sons humains sont s´epar´es des
sons non humains dans l’organisation des repr´esentations en m´emoire comme le sugg`ere
Bower et Holyoak, [BH73].
Reconnaissance des sons de l’environnement
J.A. Ballas affirme, en 1993, [A.B93], que le temps d’identification est fonction de
trois param`etres qui, dans notre cas, peuvent s’av´erer variable selon la cat´egorie de sons.
La variabilit´e inter sujet observ´ee pour les mesures de temps de r´eponse est probablement
li´ee `a l’un de ces param`etres. Le plus marquant est la typicalit´e. Si parmi les s´equences
pr´esent´ees un exemplaire ou plusieurs ne sont pas pour un sujet donn´e, typique de la
cat´egorie cible, alors le jugement port´e sur la s´equence peut varier d’un sujet `a l’autre.
2.8 Discussion g´
en´
erale
34
Nous avons, cependant men´e une exp´erience de cat´egorisation forc´ee. Seulement cette
exp´erience `a ´et´e r´ealis´ee aupr`es de 30 sujets qui n’ont pas particip´e `a l’exp´erience de
jugement global. Il sera donc int´eressant, d’´evaluer la typicalit´e des sources avant de
poursuivre l’´etude sur le jugement de s´equences. L’incertitude causale est peut ˆetre responsable de cette variabilit´e dans les temps de r´eponse. Elle l’est au moins pour le taux
de r´eponse non nul pour les s´equences ”Pi`ege”. En effet, le son prototypique propos´e
pour la cat´egorie ”Port” comportait un bruit de moteur de fort niveau mˆel´e `a un bruit
d’eau remuant sous l’effet de la propulsion. Ce son prototypique a pu ˆetre associ´e, par
certains sujets, `a la cat´egorie cible Trafic, en raison de ce bruit de moteur. L’incertitude
causale doit ˆetre test´ee pour l’ensemble des sons du corpus. Le troisi`eme param`etre, `a
savoir le contexte, s’est av´er´e pertinent d’un point de vue subjectif. J.A. Ballas sugg`ere
´egalement que l’agr´ement et l’agressivit´e des sons tient un rˆole important dans le processus d’identification, mais surtout dans le temps de rappel. Cet ´el´ement permet de
comprendre pourquoi, lorsque la cat´egorie cible est situ´ee au d´ebut de la s´equence le
temps de r´eponse est variable.
Le dernier point concernant la reconnaissance des sons de l’environnement est l’effet de contexte temporel ou s´emantique ´evoqu´e par K.A. Klein en 2004,[KCS04]. Les
diff´erences de temps de r´eponse pour la cat´egorie Trafic sugg`ere un effet du contexte
s´emantique sur le temps de r´eponse. Il sera int´eressant d’´etudier ce type d’effet pour
´evaluer l’importance du contexte temporel ou s´emantique autour de la cat´egorie cible et
de mesurer son impact sur le jugement global d’une s´equence de sons de l’environnement.
Etiquetage s´
emantique
L’´etiquetage s´emantique des sons prototypiques lors de la pr´e exp´erience s’est av´er´e
n´ecessaire pour am´eliorer les performances des sujets alors qu’ils ne connaissaient pas `a
priori les sons auxquels ils allaient ˆetre confront´e. Cet ´etiquetage linguistique comme le
propose J. Barlett en 1977,[Bar77], conditionne les performances de reconnaissance et
d’identification.
Ambigu¨ıt´
e des cat´
egories Il se peut que les sons de Trafic o`
u de Parc ´evoquent une
pr´esence humaine indirecte. Un son comme un son de klaxon peut ˆetre interpr´et´e comme
´etant une consqu´ence d’une pr´esence humaine. Pour estimer cet effet nous pouvons regarder le pourcentage de sujets ayant r´epondu Oui lorsque la s´equence est uniquement
compos´ee de son de Parc, et que le label Pr´esence humaine a ´et´e pr´esent´e. 20% des sujets
r´epondent dans ces conditions. Ce pourcentage est non n´egligeable. La raison la plus
plausible est l’ambigu¨ıt´e s´emantique entre les d´efinitions des cat´egories et les sons. Pour
r´esoudre ce probl`eme nous referons l’exp´erience avec un apprentissage des sons du corpus. Nous observerons, dans ces conditions si les diff´erences entre les temps de r´eponse
sont conserv´ees.
Distances par rapport aux prototypes Les sujets jugent les s´equences sur la base
des exemples fournis lors de la pr´e exp´erience. Les prototypes retenus ´evoquent un ensemble de sons que les sujets peuvent associer `a l’´etiquette. Le sujet peut associer un
2.8 Discussion g´
en´
erale
35
ensemble plus ou moins large de sons selon le prototype et sa typicalit´e. Si le son est
un son de bruit d’eau, le sujet pourra associer `a Parc des sons naturels tr`es vari´es. Si le
prototype est un bruit de tourniquet, par exemple, le sujet associera que des sons qu’il est
susceptible d’entendre dans un parc de ville. Le prototype doit ˆetre choisi pr´ecis´ement.
Nous pouvons `a la suite d’une exp´erience de cat´egorisation comme nous l’avons fait,
´evaluer la typicalit´e des prototypes.
Chapitre 3
Conclusion
Nous avons ´etudi´e l’influence de l’organisation temporelle de s´equences de sons de
l’environnement sur le jugement global. Nous souhaitions mettre en ´evidence les effets
li´es `a la m´emoire auditive `a court terme et `a l’organisation des s´equences en cat´egories.
En conduisant une exp´erience de jugement global de s´equences de sons de l’environnement organis´ees en cat´egories de sons, nous observons les r´esultats suivants.
Le jugement global d´epend de la position de la cat´egorie cible. Plus la cat´egorie cible
est r´ecente plus elle influence le jugement global. Ce r´esultat est observ´e, quelque soit la
cat´egorie, sur le taux de r´eponse. Cependant, nous constatons que quelque soit la position
de la cat´egorie cible, le temps de r´eponse varie selon la cat´egorie consid´er´ee. Il apparaˆıt
une nette am´elioration du temps de r´eponse pour les sons de pr´esence humaine sur les
autres sons. De plus, nous observons des diff´erences de temps de r´eponse entre chaque
cat´egorie. Nous n’observons pas d’effet de primaut´e. La consigne donn´ee aux sujets en
est probablement la cause. Il n’est pas demander aux sujets de se rappeler de tous les
sons de la s´equence. Par cons´equent, ils ne d´eclenchent pas de processus de boucle phonologique. Aucun des mod`eles de m´emoire s´emantique n’a ´et´e retenu pour expliquer les
ph´enom`enes que nous observons dans notre exp´erience.
Il apparaˆıt judicieux de distinguer diff´erentes cat´egories de sons de l’environnement.
Parmi les cat´egories de sons que nous proposons, certaines sont plus sensibles au positionnement dans la s´equence que les autres. Les sons de Trafic sont ceux pour lesquels le
jugement global est le plus sensible `a la position de la cat´egorie cible dans la s´equence.
Au contraire, le jugement global pour les sons de pr´esence humaine est le moins influenc´e
par la position de la cat´egorie.
La m´ethode, propos´ee dans notre ´etude permettant de rendre compte de l’impression
globale d’une s´equence, nous a permis de mettre en ´evidence les diff´erences de jugement
en fonction de la cat´egorie de sons. La m´ethode en elle-mˆeme peut ˆetre appliqu´ee pour
´etudier des s´equences compos´ees de diff´erentes cat´egories, sous r´eserve de faire apprendre
le corpus des sons avant de mener l’exp´erience.
Chapitre 4
Perspectives
Les perspectives que nous envisageons ici, sont en premier lieu des perspectives `a court
terme qui nous permettrons de confirmer les hypoth`eses que nous avons ´emises dans la
discussion g´en´erale, section 2.8. Ensuite, nous proposons de poursuivre les exp´eriences
de P.Guelton. Enfin, nous proposons d’´etudier d’autres param`etres susceptibles de varier
dans une s´equence de sons comme le niveau sonore.
4.1
Exp´
erience de jugement global de s´
equences
Nous ´etudierons l’effet de l’apprentissage du corpus sur l’association du label `a la
s´equence. Nous pourrons pr´esenter l’ensemble des sons du corpus lors d’une exp´erience
pr´eliminaire afin de contrˆoler les param`etres tel que l’incertitude causale, la typicalit´e
ou encore l’´etiquetage s´emantique. Cet apprentissage pr´eliminaire permettra de lever
l’ambigu¨ıt´e des ´etiquettes et des sons pr´esent´es.
Il sera int´eressant de demander aux sujets d’´evaluer les s´equences de sons du point
de vue de l’agr´ement ou du d´esagr´ement suscit´e. Comme le contenu s´emantique sera
contrˆol´e, nous pourrons construire un nouveau corpus pour chaque cat´egorie en distinguant parmi elles des sous-cat´egories. Cette piste reste ouverte.
4.2
Exp´
eriences de rappel de listes de sons environnementaux
L’´etude que nous avons men´ee ici d´emontre qu’il est important de s´eparer chaque
cat´egorie pour ´etudier les ph´enom`enes de r´ecence et de primaut´e pour les sons environnementaux. L’´etude conduite par P.Guelton portait sur des listes h´et´erog`enes de sons de
l’environnement. Nous pourrons ´etendre l’´etude des ph´enom`enes de r´ecence et primaut´e
`a des listes de sons respectant la s´eparation propos´ee, `a savoir, sons humains, sons non
humains. Nous pourrons ´evaluer le taux de rappel pour chaque cat´egorie d’une cible en
fonction de la position dans la liste.
Dans un second temps, nous pourrons ´evaluer le jugement de r´ecence d’un ´el´ement
d’une liste homog`ene et mesurer le temps de r´eponse. Ceci en reprenant le paradigme
4.3 Exp´
erience de jugement pour chaque cat´
egorie
38
de Sternberg. Au lieu de pr´esent´e un label, nous pr´esenterons un des sons appartenant `a
la s´equence. Nous demanderons si ce son appartient ou non `a la s´equence. Cette mesure
sera davantage contrˆol´ee par rapport au protocole que nous avons propos´e, et permettra d’observer d’´eventuelles diff´erences dans le traitement des stimuli humains et non
humains. En ´etudiant des listes de sons pr´esent´ees comme dans l’´etude de P.Guelton
nous pourrons mesurer l’effet d’un apprentissage des sons du corpus sur le jugement de
r´ecence, ou bien estimer l’effet de l’amor¸cage s´emantique sur le taux de rappel.
Toujours en reprenant les stimuli utilis´es par P. Guelton, nous pourrons compar´e les
r´esultats de son ´etude avec les r´esultats que nous obtiendrons si nous ne demandons pas
explicitement aux sujets de se rappeler de la liste des sons. Nous pourrons comparer les
r´esultats dans ces conditions avec les r´esultats que nous obtenons dans notre ´etude.
4.3
Exp´
erience de jugement pour chaque cat´
egorie
Enfin, comme le contenu des s´equences sera regroup´e par cat´egorie, nous pourrons
´evaluer d’autres param`etres. Les effets ne seront pas corr´el´es avec une variabilit´e du
contenu des s´equences. Nous pourrons, par exemple, ´evaluer l’impact de la dur´ee des
´ev´enements ou encore de la dur´ee des s´equences. Nous pourrons ainsi, selon la dur´ee des
s´equences provoquer des processus `a court terme ou bien `a long terme. Nous pourrons
´etudier les effets de r´ecence relative ´evoqu´es par B. McElree, [Elr06], et P.Guelton,[Gue05].
Il sera ´egalement possible de mesurer l’effet du niveau sonore sur le jugement global
des s´equences. Dans notre exp´erience, nous avons propos´e un ajustement ´ecologique pour
ne pas que l’attention des sujets soit focalis´ee sur un ´ev´enement en particulier. Si l’un des
sons de la s´equence avait eu un niveau non ´ecologique, le son aurait influenc´e le jugement
global de la s´equence. Nous pourrons donc ´evaluer l’influence du niveau sonore sur le
jugement global de s´equences.
4.4
Exp´
erience de jugement d’agr´
ement
La notion d’agr´ement est `a consid´er´ee pour ´etudier le jugement global de s´equences
h´et´erog`enes comprenant des sons agr´eables comme des sons de Parc ou de nature et des
sons d´esagr´eables comme des sons de voitures ou de Trafic. Les jugements d’agr´ement
semblent influencer les processus de m´emorisation. Il sera int´eressant d’approfondir la
question.
Annexe A
Description du bruit de fond
A.1
A.1.1
Description du bruit de fond
Int´
erˆ
et
Nous diffusons les ´ev`enements sonores urbains dans un bruit de fond caract´eristique
d’un environnement urbain. En l’absence de bruit de fond, le s´equen¸cage des ´ev`enements
rend la sc`ene peu coh´erente . La pr´esence d’un bruit de fond de type urbain induit, chez
le sujet, un effet de contexte. D’autre part, nous souhaitons maˆıtriser l’organisation temporelle de la s´equence. Il ´etait alors difficilement envisageable d’enregistrer des s´equences
in situ et d’en contrˆoler l’organisation temporelle. Ainsi, l’alternative que nous proposons
ici est satisfaisante d’un point de vue subjectif.
Pour r´esumer, l’int´erˆet du bruit de fond est double. Il rend la s´equence coh´erente
temporellement et induit un effet de contexte qui facilite l’identification des sources par
le sujet.
A.1.2
Analyse Spectrale
Les travaux de C. Guastavino [Gua03] concerne la caract´erisation acoustique des
bruit de fonds urbains. Ces travaux nous permettent de connaˆıtre les caract´eristiques
fr´equentielles de ces bruits de fond.
A partir de bruits de fond r´epertori´es comme prototypique par un panel de sujets, C.
Guastavino ´etablit le contenu spectral de bruit de fond urbain de type circulation.
Le niveau sonore moyen est de 80 dB SPL. En dessous de 200 Hz, le niveau atteint
90 dB SPL pour son maximum. Le spectre d´ecroˆıt exponentiellement de 100 `a 10000 Hz
entre 80 et 20 dB SPL. Le bruit de fond urbain est caract´eris´e par un spectre dense en
basses fr´equences. La densit´e du spectre explique, du point de vue perceptif, la rugosit´e
per¸cue, cf. section A.1.3.
D’autre part, V. Maffiolo [Maf99] m`ene une exp´erience aupr`es de citadins. Cette ´etude
a permis de classifier subjectivement diff´erentes ambiances urbaines. Parmis celles-ci,
A.1 Description du bruit de fond
40
nous retrouvons des ambiances ”amorphes” o`
u peu de sources ´emergent du bruit de fond
ambiant.
Nous avons isol´e du panel utilis´e dans son ´etude, un court extrait d’une ambiance
amorphe. L’extrait dure 1 seconde est ´echantillonn´e `a 22100 Hz. Dans cette ambiance
pr´edomine le son basse fr´equence caract´eristique du bruit de circulation des automobiles
et poids lourds. Pour analyser ce bruit nous appliquons la m´ethode LPC. Cette m´ethode
nous permet, `a partir d’un extrait enregistr´e in situ, de synth´etiser un bruit de fond qui
sera tr`es proche spectralement du bruit analys´e.
A.1.3
Synth`
ese par M´
ethode LPC
Cette m´ethode, illustr´ee en figure A.1, utilise une mod´elisation de signal par pr´ediction
lin´eaire. L’extrait a analyser est compos´e d’un bruit de fond stationnaire, dont les
r´esonances fr´equentielles sont pr´edictibles, et d’´ev´enements singuliers non pr´edictibles,
figure A.2 et A.3. La partie stationnaire du signal, i.e : le bruit de fond, est la partie qui
nous int´eresse. L’analyse LPC appliqu´ee `a cet extrait fournit une estimation du signal
stationnaire. On calcule ensuite la transform´ee de Fourier de ce signal. Connaissant le
spectre et l’enveloppe spectrale du bruit de fond analys´e, nous pouvons reconstruire un
bruit de fond synth´etique. L’enveloppe spectrale est appliqu´ee comme filtre d’un bruit
blanc. Le signal obtenu poss`ede la mˆeme enveloppe spectrale que le bruit de fond initial,
figure A.4.
Spectre Bruit Blanc
Enveloppe Spectrale
fréquence
Spectre Signal Synthétisé
fréquence
Fig. A.1 – M´ethode LPC
fréquence
A.1 Description du bruit de fond
41
input
0.25
0.2
0.15
0.1
0.05
0
−0.05
−0.1
−0.15
−0.2
−0.25
0
1
2
3
4
5
6
7
8
9
4
x 10
Fig. A.2 – Bruit de fond ´etudi´e par V. Maffiolo
input spectrum + spectrum envlp
20
0
−20
−40
−60
−80
−100
−120
−140
−160
0
0.5
1
1.5
2
2.5
4
x 10
Fig. A.3 – Spectre et enveloppe spectrale du bruit de fond analys´e
A.1 Description du bruit de fond
42
LPC−filtered noise spectrum + spec envlp
20
0
−20
−40
−60
−80
−100
−120
−140
0
0.5
1
1.5
2
2.5
4
x 10
Fig. A.4 – Spectre et Enveloppe spectrale du bruit de fond synth´etis´e
Annexe B
Mat´
eriau sonore
B.1
Liste compl`
ete des sons extraits de la base de sons
Sources isol´
ees
alarme voiture
v´elo passage rapide
passage d’un bus
camion benne
camion pompier
canari
chute d’arbre
fauvette des jardins
fontaine
outil de jardinage
joueurs de tennis en ext´erieur
klaxon
klaxon voiture
passage de moto
battement d’ailes
outil de ratissage
ruisseau
sir`ene de police
main remuant l’eau
m´etro en ext´erieur
passage de v´elo
d´emarrage de voiture
passage de voiture
Sources multiples
enfants cours d’´ecole
enfants hall d’´ecole
enfants parc
foule moyen
applaudissement de foule
discussion foule
rire de foule
grande foule
klaxon dans embouteillage
passage de camion pompier
Ambiences
march´e
march´e 2
commerce
´ecole ´el´ementaire
gallerie d’art
joggeur dans parc
spectateur de marathon
passage de fanfare
gare routi`ere
traffic avec bus
traffic en centre ville
traffic dense
traffic avec moto
traffic proche
vent dans les arbres
Tab. B.1 – Liste des sources extraites de SoundIdeas
Annexe C
Ajustement ´
ecologique en sonie
Son
Pr´
esence Humaine
ambiance de march´e
´ecole ´el´ementaire
foule moyenne
applaudissement foule
discussion foule
rire de foule
spectateur marathon
passage parade
enfants cour d’´ecole
enfants hall d’´ecole
Niveau initial
Niveau ´
ecologique
66.2
77,4
62,5
68,3
69,4
71,6
70,1
72,5
67,8
65,6
71,2
82
68,9
73,7
74,9
73,7
76
80,4
73,8
71,7
Fig. C.1 – Niveaux ´ecologique en dB SPL des sons de Pr´esence Humaine
45
Son
Parc
joggeur dans parc
canari
fauvette des jardins
battement d’aile
ruisseau
vent dans arbres
outils de jardinage
outils de ratissage
joueur de tennis ext´erieur
fontaine
Niveau initial
Niveau ´
ecologique
61
69,7
75,1
64,9
66,8
62,8
60,7
67,6
62,2
64,9
65,8
72,2
79,7
65,5
66,3
66,1
60,9
66,5
67,7
62,6
Fig. C.2 – Niveaux ´ecologique en dB SPL des sons de Parc
Son
Trafic
passage de pompier
passage de bus
camion benne
camion pompier
klaxon voiture
passage de moto
gare routi`ere
traffic centre ville
passage de voiture
traffic proche
Niveau initial
Niveau ´
ecologique
72,6
75,8
66,8
69,2
66,8
71,4
72,5
68,8
69,7
76,1
79,7
81,6
73,4
74
73,5
76,1
77,6
74,6
73,5
80,6
Fig. C.3 – Niveaux ´ecologique en dB SPL des sons de Trafic
Bibliographie
[A.B93]
James A.Ballas. Common factors in the identification of an assortment of
brief everyday sound, volume 19. Journal of experimental Psychology : Human perception and performance, 1993.
[AH87]
James A.Ballas and James H.Howard. Interpreting the language of environmental sounds, volume 19. Environment and behavior, Department of
Psychology, Washington DC, 1987.
[Bad00]
Alan Baddeley. The episodic buffer : a new component of working memory ?
In Trends in Cognitive Siences, volume 4. Elsevier Science Ltd, 2000.
[Bad02]
Alan D. Baddeley. Theoretical Background, chapter The Psychology of Memory, pages 1–15. Department of Experimental Psychology, University of
Bristol, UK, john wiley and sons, ltd edition, June 2002.
[Bar77]
J.C. Barlett. Remembering environmental sounds : The role of verbalisation
at input. Memory and Cognition, 5 :404–414, 1977.
[BH73]
G.H. Bower and K. Holyoak. Encoding and recognition memory for naturalistic sounds. Journal of Environmental Psychology, 101(2) :360–366, 1973.
[BM91]
J.A Ballas and T. Mullin. Effects of context on the identification of everyday
sounds. Human Performance, 4(3) :199–219, 1991.
[Chi00]
C.Y. Chiu. Specificity of auditory implicit and explicit memory : is perceptual
priming for environmental sound exemplar specific ? Memory and Cognition,
28(7) :1126–1139, 2000.
[CQ69]
A.M. Collins and M.R. Quillian. Retrieval time from semantic memory. Journal of verbal learning and verbal behaviour, (8) :240–247, 1969.
[CS95]
C.Y. Chiu and D.L. Schacter. Auditory priming for nonverbal information :
Implicit and explicit memory for environmental sounds. Consciousness and
Cognition, 4 :440–458, 1995.
[Eic85]
J.E. Eich. Context, memory, and integrated item/context imagery. Journal of
Experimental Psychology : Learning, Memory and Cognition, 11(4) :764–770,
1985.
[Elr06]
Brian Mc Elree. Accessing Recent Events, volume 46. Elsevier Inc, 2006.
[Gal05]
Galotti. Cognition : Semantic Memory, chapter Memory for General Knowledge. Number Psyc 3705. November 2005.
BIBLIOGRAPHIE
47
[GB80]
R.E. Geiselman and R.A. Bjork. Primary versus secondary rehearsal in imagined voices : differential effects on recognition. Cognitive Psychology, 12 :188–
205, 1980.
[GC01]
L. Gros and N. Chateau. Instantaneous and overall judgements for timevarying speech quality : Assessments and relationships. In ACUSTICA, volume 87, pages 367– 377. France telecom R et D, Technopole Anticipa, France,
2001.
[G´er04]
Yannick G´erard. M´emoire s´emantique et sons de l’environnement. PhD
thesis, Universit´e de Bourgogne, France, d´ecembre 2004.
[Gua03]
C. Guastavino. Etude s´emantique et acoustique de la perception des basses
fr´equences dans l’environnement sonore urbain. PhD thesis, Universit´e Paris
IV, Paris, 2003.
[Gue05]
Pierre Guelton. Effets de m´emoire auditive li´es `a la perception d’une s´equence
de sons environnementaux. Institut de Recherche et de Coordination Acoustique/Musique (IRCAM) , Paris, FRANCE, 2005.
[HB80]
J.H. Howard and J.A. Ballas. Syntactic and semantic factors in the classification of nonspeech transient patterns. Perception et Psychophysics, 28 :431–
439, 1980.
[Hin03]
Douglas L. Hintzman. Judgments of recency and their relation to recognition
memory, volume 31, pages 26–34. Sychonomic Society, Inc, University of
Oregon, Eugene, Oregon, 2003.
[HKZ+ 01] J. Hellbr¨
uck, T. Kato, A. Zeitler, S. Kuwano A. Schick, and S. Namba. Loudness scaling of traffic noise : Perceptual and cognitive factors. Recent trends
in basic psychophysics and their applications to acoustics, 2001.
[KCS04]
Krystal A. Klein, Amy Criss, and Richard Shiffrin. Recency judgments and
list context. Department of Psychology, Indiana University, USA, 2004.
[KP85]
C. Krafka and S. Penrod. Reinstatement of context in a field experiment
on eyewitness identification. Journal of personality and Social Psychology,
49 :58–69, 1985.
[LC78]
D.M. Lawrence and N.J. Cobb. Cross-modal utilization of information : Recognition memory for environnemental stimuli. Perceptual and Motor skills,
47 :1203–1206, 78.
[Lee86]
R. Duncan Lee. Response Times - Their role in inferring elementary mental
organization, chapter 2. Simple Reaction Time Basic Data. Oxford Science
Publications, 1986.
[Maf99]
Val´erie Maffiolo. De la caract´erisation s´emantique et acoustique de la qualit´e
sonore de l’environnement urbain. PhD thesis, Universit´e Paris VI, 1999.
[MCD98]
Val´erie Maffiolo, Mich`ele Castellengo, and Dani`ele Dubois. Qualit´e sonore de
l’environnement urbain : s´emantique et intensit´e, 98.
[MD81]
R.S. Malpass and P.G. Devine. Guided memory in eyewitness identification.
Journal of applied Psychology, 66 :343–350, 1981.
BIBLIOGRAPHIE
[ML01]
48
Jeff O. Miller and Kathy Low. Motor processes in simple, go/nogo and
choice reaction time tasks : A psychophysiological analysis. In Journal of
Experimental Psychology : Human Perception and Performance, volume 27,
pages 266–289. 2001.
[MVP+ 97] V. Maffiolo, C. Vogel, J-D. Polack, M. Castellengo, D. Dubois, and S. David.
Ambiances sonores repr´esentatives d’une ville : le cas de paris. In teknea,
editor, Actes du 4i`eme congr`es fran¸cais d’acoustique, volume 1, pages 303–
306, Marseille, France, avril 1997. Soci´et´e fran¸caise d’acoustique.
[NK81]
S. Nixon and N.J. Kanak. The interactive-effects of instructional set and
environmental context changes on the serial position effect. Bulletin of the
psychonomic Society, 18 :237–240, 1981.
[PBG+ 00] Maura Pilotti, Erik T. Bergman, David A. Gallo, Mitchell Sommers, and
Henry L. Roediger III. Direct comparison of auditory implicit memory tests.
In Psychonomic Bulletin and Review, volume 7, pages 347–353. Psychonomic
Society, Inc, Washington University, Saint Louis, Missouri, 2000.
[PPR75]
A. Paivio, R. Philipchalk, and E.J. Rowe. Free and serial recall of pictures,
sounds and words. Memory and Cognition, 3 :586–590, 1975.
[SG04]
Valeriy Shafiro and Brian Gygi. How to select stimuli for environnemental sound research and where to find them ? Behavior Research Methods,
Instruments and Computers, 36(4) :590–598, 2004.
[SJ95]
G.P. Stuart and D.M. Jones. Priming the identification of environnemental
sounds. Quarerly Journal of Experimental Psychology, 38a :741–761, 1995.
[Smi88]
Steven M. Smith. Environmental Context-Dependent Memory, chapter 2,
pages 13–33. John Wiley & Sons Ltd, 1988.
[SMS02]
Patrick Susini, Stephen McAdams, and Bennet K. Smith. Global and contineous loudness estimation of time-varying levels. In ACUSTICA, volume 88,
pages 536 – 548. Institut de Recherche et Coordination Acoustique/Musique,
Paris, France, 2002.
[Sur01]
Aim´ee M. Surprenant. Distinctiveness and serial position effects in tonal
sequences, volume 63. Purdue University, Indiana, 2001.
[SWH05]
Daniela B. Sellner, Michael R. Waldmann, and Keith J. Holyoak. Accessing
causal relations in semantic memory. Department of Psychology, University
of G¨ottingen, Germany, 2005.
[TS90]
E. Tulving and D.L. Schacter. Priming and human memory systems. Science,
247(4940) :301–306, 1990.
[Web91]
Reinhard Weber. The continuous loudness judgement of temporally variable
sounds with an analog procedure. In Contributions to Psychological Acoustics,
pages 267–293. University of Oldenburg, Departement of Physics, Acoustic
Section, 1991.
Download PDF