TECHNIQUES D'ENQUETE Canada

TECHNIQUES D'ENQUETE Canada
TECHNIQUES
D'ENQUETE
Canada
16ZISZ010V
AilViianvavNVDSDiisiiViS
A!IV!l9llVaVNVDSDIiSliViS
•l^'O
•^J
TECHNIQUES
D'ENQUETE
UnE REVUE
EDITEE
PAR STATISTIQUE CANADA
DECEMBRE 1997
•
VOLUME 2 3
•
NUNERO 2
Publication autorisee par le ministre
responsable de Statistique Canada
® Ministre de l'lndustrie,1998
Tous droits reserves. II est interdit de reproduire ou de transrriettre
le contenu de la presente publication, sous quelque forme ou
par quelque moyen que ce soil, enregistrement sur support
magnetique, reproduction electronique.mecanique, photographique,
ou autre, ou de remmagasiner dans un systeme de recouvrement,
sans I'autorisation ecrite prealable des Services de concession
des droits de licence. Division du marketing,
Statistique Canada, Ottawa, Ontario, Canada K1A 0T6.
F6vrier 1998
N° 12-001-XPB au catalogue
Periodicite: semestrielle
ISSN 0714-0045
Ottawa
• <*>•
• ~ 1
Statistique
Canada
Statistics
Canada
f
QTiri/HQ
V y C U . lCLVi.Cl
TECHNIQUES D'ENQUETE
Une revue editee par Statistique Canada
Techniques d'enquete est repertoriee dans The Survey Statistician, Statistical Theory and Methods Abstiacts et SRM
Database of Social Research Methodology, Erasmus University. On pent en tiouver les references dans Current Index to
Statistics, et Journal Contents in Qualitative Methods.
COMITE DE DIRECTION
President
G.J. Brackstone
Membres
D. Binder
G.J.C. Hole
F. Mayda (Directeur de la Production)
C. Patiick
R. Platek (Ancien president)
D.Roy
M.P. Singh
COMITE DE REDACTION
Redacteur en chef
M.P. Singh, Statistique Canada
Redacteurs associes
D.R. Bellhouse, University of Western Ontario
D. Binder, Statistique Canada
J.-C. DeviUe, INSEE
J.D. Drew, Statistique Canada
W.A. Fuller, Iowa State University
R.M. Groves, University of Maryland
M.A. Hidiroglou, Statistique Canada
D. Holt, Central Statistical Office, U.K.
G. Kalton, Westat, Inc.
R. Lachapelle, Statistique Canada
S. Linacre, Australian Bureau of Statistics
G. Nathan, Central Bureau of Statistics, Israel
D. Pfeffermann, Hebrew University
Redacteurs adjoints
J.N.K. Rao, Carleton University
L.-P. Rivest, Universite Laval
I. Sande, Bell Communications Research, U.S.A.
F.J. Scheuren, George Washington University
J. Sedransk, Case Western Reserve University
R. Sitter, Simon Eraser University
C.J. Skinner, University of Southampton
R. Valliant, US. Bureau of Labor Statistics
V.K. Verma, University of Essex
P.J. Waite, U.S. Bureau of the Census
J. Waksberg, Westat, Inc.
K.M. Wolter, National Opinion Research Center
A. Zaslavsky, Harvard University
J. Denis, P. Dick, H. Mantel et D. Stukel, Statistique Canada
POLITIQUE DE REDACTION
Techniques d'enquete public des articles sur les divers aspects des methodes statistiques qui interessent un organisme
statistique comme, par exemple, les problemes de conception decoulant de contraintes d'ordre pratique, I'utilisation de
differentes sources de donnees et de methodes de coUecte, les erreurs dans les enquetes, revaluation des enquetes, la
recherche sur les methodes d'enquete, I'analyse des series chronologiques, la desaisonnaUsation, les etudes demographiques,
I'integration de donnees statistiques, les methodes d'estimation et d'analyse de donnees et le developpement de systemes
generalises. Une importance particuUere est accordee a I'elaboration et a revaluation de methodes qui ont ete utilis6es pour
la coUecte de donnees ou appliquees a des donnees reelles. Tous les articles seront soumis h une critique, mais les auteurs
demeurent responsables du contenu de leur texte et les opinions emises dans la revue ne sont pas necessairement celles du
comite de redaction ni de Statistique Canada.
Presentation de textes pour la revue
Techniques d'enquete est pubUee deux fois I'an. Les auteurs desirant faire paraUre un article sont invites a faire parvenir le
texte redige en anglais ou en fran9ais au redacteur en chef, M. M.P. Singh, Division des methodes d'enquetes des m6nages,
Statistique Canada, Tunney's Pasture, Ottawa (Ontario), Canada KIA 0T6. Priere d'envoyer quatte exemplaires dactylographies selon les directives presentees dans la revue. Ces exemplaires ne seront pas retournes a I'auteur.
Abonnement
Le prix de Techniques d'enquete (n° 12-001-XPB au catalogue) est de 47 $ par annee au Canada et de 47 $ US par annee
a I'exterieur du Canada. Priere de faire parvenir votie demande d'abonnement a Statistique Canada, Division des operations
et de I'integration, Gestion de la circulation, 120, avenue Parkdale, Ottawa (Ontario), Canada KIA 0T6 ou commandez par
telephone au (613) 951-7277 ouau 1 800 700-1033, par telecopieurau (613) 951-1584 ou au 1 800 889-9734 ou par Internet:
[email protected] Un prix reduit est offert aux membres de I'American Statistical Association, I'Association Internationale
de Statisticiens d'Enquete, I'American Association for Public Opinion Research et la Societe Statistique du Canada.
TECHNIQUES D'ENQUETE
Une revue editee par Statistique Canada
Volume 23, numero 2, decembre 1997
TABLE DES MATIERES
Dans ce numero
87
P.S. KOTI et D.M. STUKEL
La methode du jackknife convient-elle a un echantiUon a deux degres?
89
G. DECAUDIN et J.-C. LABAT
Une methode synthetique, robuste et efficace, pour realiser des estimations locales de population en France
99
P. RAVALET
Une procedure adaptative d'estimation robuste du taux d'evolution de I'investissement
107
F. COTPON et C. HESSE
Tirage et maintenance d'un panel stiatifie de taille fixe
117
P.J. FARRELL
Estimation de proportions pour petites regions par des methodes empiriques de Bayes, k partir de
variables ordinales
127
A. GELMAN et T.C. LITTLE
Stiatification a posteriori en un grand nombre de categories par regression logistique hierarchique
135
K.K. SINGH, A.O. TSUI, C M . SUCHINDRAN et G. NARAYANA
Estimation de la population et des caracteristiques des etablissements de sante et des populations de clients
au moyen d'un plan d'echantiUonnage a plusieurs degres avec enchainement
147
J. DUFOUR, R. KAUSHAL et S. MICHAUD
Les interviews assistees par ordinateur dans un environnement decentialis6: Le cas des enquetes-m^nages k
Statistique Canada
159
F. SCHEUREN et W.E. WINKLER
Analyse de regression des fichiers de donnees apparies par ordinateur - Partie n
171
Remerciements
181
Techniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 87-88
Statistique Canada
87
Dans ce numero
Le numero de Techniques d'enquete que voici renferme des articles sur des sujets varies. Kott
et Stukel etudient I'estimation de la variance jackknife pour un plan d'echantiUonnage k deux degres
particuUer, mais d'un vaste usage. En un premier temps, on selectionne des grappes dans les strates
par echantiUonnage aleatoire simple avec remise et on retient tous les sujets des grappes
selectionnees. A la deuxi^me etape, les sujets echantillonnes font I'objet d'une nouvelle
stratification et un echantiUonnage al6atoire simple permet d'obtenir les unites du deuxieme degr6.
Les auteurs examinent deux estimateurs ponctuels: «l'estimateur d'expansion repond6r6» et
"I'estimateur d'expansion double», plus courant. Avec un tel plan d'echantiUonnage, on constate
que I'estimateur de la variance jackknife se comporte 6tonnamment mieux avec le premier
estimateur ponctuel qu'avec le second. Une 6tude de Monte Carlo confirme cette constatation.
Decaudin et Labat presentent un systeme d'estimation de population «multi-sources» visant k
produire des estimations locales de population durant les periodes intercensitaires en France. Le
systeme present^ est robuste et souple en ce qu'il fonctionne avec un nombre variable de sources.
II repose sur une syntiiese robuste d'estimations provenant de differentes sources, en combinant un
raisonnement d^mographique et des techniques statistiques.
Ravalet applique les GM-estimateurs avec une procedure adaptative k I'enquSte sur I'investissement industiiel de I'lNSEE, afin de produire un estimateur robuste. Les fonctions examinees sont
la fonction bicartee de Tukey et la fonction de Cauchy. Chacune de ces deux fonctions depend
d'une constante de reglage qui est choisie en fonction de I'epaisseur de queue de la distribution des
observations et de la concentration des residus. Les constantes de reglage qui minimisent la variance
de I'estimateur sont trouvees pour huit distibutions particulieres presentant diverses situations quant
k I'epaisseur de queue et la concentration des residus supposes symetriques.
Cotton et Hesse examinent les caracteristiques de plusieurs methodes de selection d'un panel
stratifie de taille fixe, et leur impact sur la selection intitiale, la rotation, le retirage ainsi que le
recouvrement de I'echantillon. Les auteurs proposent un type d'algorithme bas6 sur des
transformations des numeros aleatoires permanents servant aux tirages qui prolonge apres retirage
la rotation avant retirage. Ces transformations peuvent etre effectuees sur les numeros al6atoires
rendus equidistants, ainsi que sur les numeros al6atoires provenant d'une loi uniforme.
Dans son article, Fartell etudie I'estimation empirique de Bayes pour des proportions de petites
r6gions. Les donnees du recensement am6ricain lui permettent de comparer les estimations
bay6siennes de petites regions de la proportion de personnes se retrouvant dans teUe ou telle tianche
de revenu obtenues de fagon empirique au moyen de modeles logistiques multinomiaux et ordinaux
avec effets aleatoires. Les inferences issues du modele ordinal sont legerement preferables a celles
du modele multinomial. L'auteur compare aussi les estimations rajustees de la variance venant des
modeles naif et «bootstrap», de meme que la probabilite de couverture des intervalles de confiance
qui s'y associent. La cortection obtenue par la methode «bootstrap» ameliore sensiblement la
couverture.
Gelman et Littie decrivent un nouveau prolongement de I'analyse des donnees d'enquete
stratifiees a posteriori faisant appel a une modeUsation bayesienne par regression logistique
hierarchique. Cette technique engendre beaucoup plus de categories de stratification qu'on en
obtient typiquement avec les methodes habituelles de stratification a posteriori et de ponderation,
si bien que le modele peut englober une somme beaucoup plus grande d'informations au niveau de
la population. Les auteurs appliquent la methode qu'ils proposent et d'autres methodes plus
classiques aux donnees des sondages d'opinion precedant les elections aux Etats-Unis avant de
proceder a une Evaluation graphique des divers modeles en comparant leurs r6sultats k Tissue
veritable des Elections.
88
Dans ce numero
Singh, Tsui, Suchindran et Narayana expliquent le plan d'enquete et les techniques d'estimation
auxquels on a recoura dans le cadre de PERFORM (examen de revaluation des projets en vue de
la gestion des ressources organisationnelles), enquete de grande envergure qui s'est deroulee dans
I'Etat d'Uttar Pradesh, en Inde, qui devait servir a estimer les caracteristiques des installations de
sante et de la population desservie, de maniere a etablir les valeurs reperes essentielles a un
important projet de planification familiale. PERFORM fait appel a un plan d'echantiUonnage
stratifie k degres multiples avec pour unites d'echantiUonnage les menages et les femmes
admissibles qui en sont membres. On estime toutefois aussi les services de sante qui ne se reti-ouvent
pas explicitement dans le plan d'echantiUonnage en procedant a une cortection qui tient compte de
la multiplicite des unites d'echantiUonnage secondaires selectionnees, auxquelles les instaUations
de sante procurent leurs services.
Dufour, Kaushal et Michaud passent en revue les tests et les etudes qui ont precede I'application
de I'interview assistee par ordinateur a la plupart des enquetes-menages, a Statistique Canada.
L'interview se donne en personne, au domicile du repondant, ou au telephone, du domicile de
I'intervieweur, grace a un ordinateur portatif. Les auteurs parlent des difficultes qu'a soulevees
r implantation de cette nouvelle technologie au niveau des enquetes permanentes et des nouvelles
possibilites qu'elle laisse entrevoir quant au controle de la collecte des donnees.
Scheuren et Winkler proposent une methode autorisant I'emploi de variables quantitatives peu
courantes mais cortelees en vue d'ameliorer le couplage des enregistrements. L'idee fondamentale
consiste a recourir aux couplages dont 1'exactitude est presque assuree pour estimer le lien entre les
variables peu courantes par regression et utiliser les valeurs prevues des memes variables lors d'un
second couplage des enregistrements. On peut reprendre cette methode par iteration jusqu'a ce qu'il
y ait convergence. La regression fait appel a une technique ou les valeurs de regression sont
corrigees des erteurs que pourtait presenter le couplage, ainsi qu'on a deja pu le lire dans un article
des memes auteurs, pubUe dans le numero de juin 1993 de Techniques d'enquete. Apres illusti-ation
empirique, on montre que cette methode peut deboucher sur de bons resultats dans des situations qui
paraissaient jusqu'alors sans issue.
Le redacteur en chef
Cher(ere) lecteur(trice) de Techniques d'enquete,
J'aimerais profiter de cette occasion pour vous remercier de I'interet et de I'appui manifeste a la
publication Techniques d'enquete. Depuis sa creation, cette revue pubUe des articles qui interessent
les organismes statistiques et les checheurs(euses) en accordant une attention particuUere k
I'elaboration et a revaluation de techniques precises appliquees a la collecte des donnees ou aux
donnees elles-memes.
La revue Techniques d'enquete celebrera bientot son 25''"^ anniversaire. Depuis son debut en tant
que revue interne des developpements de methodologie d'enquete a Statistique Canada, elle a evolue
en une revue statistique largement consultee avec un comite de redaction de statisticiens reconnus
a travers le monde. Bien que de nombreuses modifications y aient ete apportees en vue d'en
ameUorer le contenu et la presentation, il y a toujours matiere a amelioration. Ainsi, je vous invite
a nous faire part de tous commentaires, suggestions ou recommandations susceptibles de nous aider
a continuer de faire de Techniques d'enquete une plate-forme fiable du developpement des
statistiques du prochain millenaire.
Si vous desirez qu'un exemplaire de Techniques d'enquete soit envoye a titre gracieux a un
collogue, n'hesitez pas a communiquer avec nous.
En terminant, j'aimerais k nouveau vous remercier de votre interet et appui a notre revue
Techniques d'enquete.
Je vous prie d'agreer, Monsieur, Madame, 1'expression de mes sentiments les meilleurs.
M.P. Singh
singhmp @ statcan.ca
Techniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 89-98
Statistique Canada
89
La methode du jackknife convient-elle a un echantiUon
a deux phases?
PHILLIP S. KOTT et DIANA M. STUKEL'
RESUME
L'estimateur de variance jackknife presente des proprietes interessantes quand on s'en sert avec les estimateurs lisses tir^s
d'^chantillons stratifies h plusieurs degr6s. L'article que voici porte sur I'application de cet estimateur a un plan particulier
d'echantiUonnage k deux phases: on commence par constituer un echantiUon aleatoire stratifie en grappes par tirage non
exhaustif, puis on restratifie les 61ements des grappes echantillonnees et on pr616ve des sous-echantillons aleatoires simples
de chaque strate de la deuxifeme phase. Apparemment, I'estimateur jackknife donne des r6suitats raisonnables pour ce qui
est d'estimer la variance d'un estimateur de «developpement» common, mais pas celle d'un autre. Les auteurs parlent de
I'application de leurs resultats h des strategies d'estimation plus complexes. Une 6tude de Monte Carlo 6taye leurs
principales constatations.
MOTS CLES: Stratifie; estimateur de developpement repondere; estimateur de developpement double; asymptotique.
1. INTRODUCTION
phase d'echantiUonnage, on additionne les facteurs de
ponderation de la premiere phase pour tous les 616ments de
Krewski et Rao (1981) et, apres eux, Rao et Wu (1985)
la strate avant le sous-echantillonnage. Ensuite, on multiplie
se sont penches sur les proprietes de plan de sondage de
le resultat par la moyenne estimee de la strate de la
I'estimateur de variance jackknife dans le cas d'une
deuxieme phase a partir du sous-echantiUon, ce qui donne
stratification a plusieurs degres integrant un echantille total estime de la strate. Enfin, on fait la somme des
totaux estimes pour les strates de la deuxieme phase de
lonnage non exhaustif au premier degre. Bien qu'assez
rechantiUonnage, ce qui produit I'estimateur de developpegeneraux en soi, les resultats obtenus par ces chercheurs ne
ment repondere de la population totale.
peuvent directement etre appliques a bon nombre de plans
d'echantiUonnage a plusieurs phases. On Ura a ce sujet
Dans le cas present, nous nous interesserons plus k un
Wolter (1985; chapitre 4.5).
veritable echantiUonnage a deux phases qu'^ I'usage de la
Nous examinerons ici un simple exemple d'echantiUonnon-reponse comme phase d'echantiUonnage artificielle
nage k deux phases. Dans un premier temps, on preleve un
supplementaire. Le National Agricultural Statistics Service
echantiUon aleatoire stratifie en grappes, par tirage non
(NASS) recourt actuellement a I'estimateur de developpeexhaustif. Les elements des grappes echantillonnees
ment double dans ses enquetes trimestrielles sur I'agricultiire (ETA). On obtient un echantiUon sti-atifie, ariolaire
subissent ensuite une nouvelle stratification, peut-etre au
en grappe est de nombre en juin. Les exploitations agricoles
moyen de renseignements recueillis a la premiere phase, et
identifiees en juin sont restratifiees d'apres les rEponses
on constmit de fa^on aleatoire un nouveau sous-echantiUon
donnees le meme mois, puis reechantiUonnees en vue d'un
simple stratifiE, par tirage exhaustif.
H est possible d'estimer un total sans information auxi- nouveau denombrement en septembre, en decembre et en
mars.
liaire de deux fa9ons. La premiere consiste a multiplier la
valeur de chaque element sous-echantillonne par le produit
Le NASS se sert d'un plan d'echantiUonnage k deux
de ses facteurs de ponderation a chaque phase (a savoir,
phases et de I'estimateur de developpement repondere dans
r inverse de la probabilite de selection a la premiere et a la
le cadre de son enquete sur I'usage des produits agrodeuxieme phase), puis d'en faire la somme. C'est I'estichimiques a la ferme. On commence par identifier les
mateur de developpement double que Samdal, Swensson et exploitations qui produisent certaines cultures, puis on
Wretman (1992, p. 347) appellent «estimateur 7t*».
quantifie I'emploi de pesticides avec ces cultures.
Si on parle beaucoup de I'estimateur de developpement
Le present article montre que si on peut utiliser
double dans lesti-aitesde statistique, dans la pratique, il est
I'estimateur jackknife pour estimer la variance de I'estimaplus courant de recourir a I'estimateur de developpement teur de developpement repondere dans certaines conditions,
repondere, surtout si on traite la non-reponse des comme
cette methode ne s'avere pas tres efficace, en general, pour
une deuxieme phase de T echantiUonnage, comme Oh et
estimer la variance de I'estimateur de developpement
Scheuren (1983, p. 150) le font avec I'estimateur de la
double. A la partie 2, il est question de I'estimateur de
classe de ponderation. Pour obtenir un estimateur de la
developpernent repondere et son erteur quadratique
taiUe de la population appUcable aux stiates de la deuxieme
moyenne. A la partie 3, on verta que I'estimateur de
PhilHp S. Kott, National Agricultural Statistics Service, 3251 Old Lee Highway, Room 305, Fairfax, VA 22030; Diana M. Stukel, Division des m6thodes
d enquete des mdnages, Statistique Canada, Ottawa, (Ontario), Canada, KIA 0T6.
Kott et Stukel: La methode du jackknife convient-elle a un echantiUon a deux phases?
90
variance jackknife ne presente presque aucun biais a I'egard
de I'estimateur de variance repondere, tandis que la partie 4
expose les lacunes de I'estimateur jackknife en tant
qu'estimateur de la variance de I'estimateur de developpement double. A la partie 5, on trouvera une etude de
simulation qui semble confirmer les grandes hypotheses des
parties anterieures. La partie 6 aborde les appUcations de
I'estimateur de developpement repondere et la partie 7 sert
de conclusion. L'annexe resume le cadre asymptotique
hypothetique utilise comme point de depart et foumit des
elements de preuve.
(3)
g=l ies^
ies
ou
E VE
keS,
W.
w. pour /• e Sg
kes.
cortespond aupoidspondere de I'eiement /. L'equation (3)
explique le nom donne a I'estimateur (estimateur de
developpement repondere).
2. L'ESTIMATEUR DE DEVELOPPEMENT
REPONDERE
2.1
Une autre fa9on d'ecrire /j est
L'estimateur
Soit h{=l,..., H), les sti-ates de la premiere phase d'un
echantiUon aleatoire en grappes stratifie, obtenu par tirage
non exhaustif; «^ le nombre de grappes de la strate h
echantiUonnees et F^ I'ensemble des grappes. Soit
g{= l,...,G), la strate de la deuxieme phase d'oti on
preieve par tirage exhaustif un sous-echantiUon aleatoire
simple sti-atifie. Un element de la grappe preieve/? fois lors
de la premiere phase donne p elements distincts pour le
sous-echantillon. Soit Mg le nombre d'elements dans g
avant le sous-echantillonnage et m^ le nombre d'elements
sous-echantiUonnes dans g. Dans la pratique, les strates de
la deuxieme phase G sont rarement definies avant
preievement de I'echantillon de la premiere phase.
Soit S I'ensemble des elements dans g avant le sousechantiUonnage; Sg le jeu d'elements sous-echantiUonnes
dans g; s, I'ensemble complet d'eiements sous-echantillonnes etOT= Yg^g ^^ '^^il^^ ^'^ sous-echantiUon. Enfin,
soit y. la valeur a laqueUe on s'interesse pour 1'element / et w.
le facteur de developpement a la premiere phase de / (c'estk-dire, la valeur inverse de la probabilite de selection de la
grappe renfermant /)•
En supposant le denombrement de tous les elements de
I'echantillon de la premiere phase, pour estimer la population totale T, on recourtait a I'estimateur
2.2 Erreur quadratique moyenne de I'estimateur
(un peu de theorie)
En general, ^2 donne une estimation biaisee de T.
Toutefois, sous de legeres conditions, precisees en annexe,
I'estimateur de T est coherent avec le plan d'echantillonnage. En d'auti-es termes, pUm^_„(/2 - T)/T = 0 (Isaki
et Fuller 1982). Dans notre article, on supposera simplement que m est eieve.
Notons que
E[{t2-T)^]=E[{{t,-T}
+ {t2-t,})^]
-Vat,{t^)+E^{E2[{t2-tf]},
ou les indices de Var et de E indiquent la phase de 1'echantiUonnage. Etant donne la valeur elevee de mg,
E2[ti{t2 - ^)] = tiE2(t2 - ^) " 0. En outre, £(^2 - 7) =
E^[E2{t2 -T)]~0, et rerteur quadratique moyenne de ^2
cortespond en realite a sa variance (asymptotique).
Puisqu'on a precede a un echantiUonnage non exhaustif
a la premiere phase, Varj (t^) peut en principe 6tre estime
au moyen de I'estimateur suivant:
G
= EE^iYr
g=l
(1)
ies.
v.,=E(VK-i])
Soit I'estimateur de developpement repondere de T,
G
g=i
E ^iYi
G
El E>^/- E>^,
g=i
E
Y; {M /m)w.y.
V .if
ieS^ ' E (K/'"Jw,
ieS„
(2)
E
ieU,,
^iYi
E E ^iYi
•/n,
(4)
JeF^ ieU,j
oil Uf^. cortespond a I'ensemble des elements de la grappe
j tiree de la strate ha la premiere phase. L'indice L est
utiUse pour des raisons historiques, pour indiquer qu'il y a
"linearisation)*, meme s'il n'y a rien a Uneariser dans le cas
actuel. Notons que quand on effectue un deuxieme echantiUonnage, il s' avere generalement impossible de calculer v^ ^,
dans la pratique.
Techniques d'enquete, decembre 1997
91
Par consequent.
OU
^2-'i = EEv*'/
g.l
E ^lyi
E ^iYi
ies„
ieS,
E >*'/
ies.
G
^ / " A / ( " / , " ! ) q"^"d /6f/^^., et
0 quand /ef/..
>^/,;/=-i
E ^i
w. quand ieUf^.j, et h'* h.
ieS,
E ^in
De meme, on peut dire que
^EE-,.^^.
g=l ieS^
2^
j'*j
G
W.
(hpl
E
E
g=l
ies,
>VA;/:>'/-
Selon Rust (1985), V estimateur de variance jackknife
VjAf= 1 or 2), se definit simplement par
ou
'•z =>',- E >^A>'t/E ^k pour 'e-^gieS.
teS„
Dans 1'argumentation subsequente, il est capital de se
rappeler que r. a ete defini afin que Yies ^i^i ~ ^ P^^''
toutes les valeurs de g.
'
Si on poursuit,
'2 - ^1 = E E
g=I
{M/mJw.r.,
(5)
ies.
puisque Yies.^i ~ Zfe/^g/'"g)^, (voirl'equation (Al) de
I'annexe). II s'ensuit q*ue
E2[{t2 - '1)'] - Var2 E E
g=l
{M/m)wA
ies.
G
r
= E (Mg'/[{M^- 1}m^]){l -m^/M^)
g=i
E (H', '•/)'-[
Ew/'-/]' •/M,
= E ([^g/'^g] - 1 ) | E (>^,'-,)'[
(6)
Precisons que I'equation (6) tient compte des cortections
pour la population finie qui resultent de 1'echantiUonnage
de la deuxieme phase.
3. L'ESTIMATEUR DE VARIANCE JACKKNIFE
vy/=EK-iv«/,E('(w-V)'/i=l
(8)
jeF^
Krewski et Rao (1981, equation (2.4)) denotent cette forme
vj^\ On peut demontrer aisement que v^j = v^,.
3.2 Pourquoi Pestimateur fonctionne
(un peu plus de theorie)
Nous vertons bientot que Vj2 estime presque sans biais
la variance de I'estimateur de developpement repondere de
requation (2). Rao et Shao (1992) parviennent indirectement a la meme conclusion (notre equation (2) cortespond
a I'esperance de I'estimateur qu'ils presentent k la
partie 3.3, pp. 818-819). Dans leurstiavauxcependant, ces
auteurs considerent la non-reponse comme une phase
d'echantiUonnage supplementaire ou on recourt k I'echantillonnage de Poisson (Samdal et coU. 1992, p. 85) plutSt
qu'a un echantiUonnage aleatoire simple stratifie. Dans la
demonstration de Rao et Shao, chaque element preieve k la
premiere phase constitue en realite une strate de deuxieme
phase. La quasi-absence de biais pour Vj2 se resume done
au cas particulier d'un resultat signaie par Krewski et Rao
(1981), (Rao et Shao (1992), p. 821).
Par "Strate de deuxieme phase», nous entendons les
classes de reponderation de Rao et Shao (1992). On
presume que les elements d'une classe donnee presentent la
meme probabilite inconnue de reponse ou de selection.
L'echantiUonnage de Poisson equivaut a un echantiUonnage
aleatoire simple stratifie, conditionnellement a la taille du
sous-echantiUon obtenu a I'interieur de la classe de
reponderation. Dans leurs travaux, Rao et Shao (1992)
utilisent une approche inconditionnelle.
Revenant au probleme qui nous interesse, on remarque que
3.1 L'estimateur de variance
Le moment est venu de parler de I'estimateur jackknife.
PouryeF^, soit la repetition t...^2 de I'estimateur jackknife
ieS,g
w
'' i^
E vv.
-hji
ies.
(7)
'(/!/)2 ~ \hj)l ~ 2^ 2^ ^hji
g=l ies.
E W''hji"-
E
^'"hji
•••
^
ies,
ieS,
""hji^hii
G
E
g=i
E ^hjiYi
ieS,
E ^hjiYi
G
g=i
E ^hjiYi
G
E
ieS,
^hji^hji
1.
92
Kott et Stukel: La methode du jackknife convient-elle a un echantiUon a deux phases?
ou
Pareillement, en appelant F^* I'ensemble des elements
venant des grappes tirees de la strate h du premier degre
avant le sous-echantillonnage, on obtient
'hji
J'i
A^
"hjk-Tk/
L^
^hji^Yi'Y.'^hjkyklY.'^hjk
keS^
"hjk
keS,
pour
'^V
Sous reserve de legeres conditions (voir les equations
(A2) et (A3) de I'annexe), on obtient I'equation que voici,
analogue a I'equation (5):
fEE-,^,V
( E w/>'/)' + E (^/-DK'-,)'
ieF,
G
hm = W i ^ E (^g/'«g)E ^hji'-hii
g=l
E
ies^
= EE%(y,-[^g/'«g]^,V'
(9)
ies,
oil c. est une variable indicatrice egale a 1 quand / fait
partie du sous-echantiUon et a la valeur nuUe dans les auti-es
cas.
Poursuivons,
ieFu
E
«-•
g=l
' E ^i^i
\ '£/="*
\.{^-mJMymlw.r.w,r,.
(13)
i,keS,nF^
Dans I'annexe, on suppose que le dernier terme des
equations (12) et (13) est negligeable, sous reserve de
legeres conditions. Par consequent,
^2(v^) = v „ + E E ( ^ , - l ) K r , ) 2
h = l ieF,
G
W == E E ^hji(Yi ^ mgf'Tigic^ -1}/-,.,)
g=l
= vy,+ EE(W'«J-i)K'-,)'
ieS,
g=l
(10)
^ E E ^hn^hii'
'hji'-hji'
g=l
ies.
ies.
^Ll^E2[{t2-t,)%
(14)
qui, a son tour, implique que Vj2 donne une estimation
presque non biaisee de £[(^2 ~ ^)^]-
ou z... = y, + {[M //w ] c. - 1} r, .|.. Une fois encore, puisque
la valeur de m est toujours eievee, on peut raisonnablement supposer que r, .^ =: r. (voir I'equation (A4) de
I'annexe). Par consequent,
^hji^i'
g=l
L'ESTIMATEUR DE DEVELOPPEMENT
DOUBLE
L 'estimateur de developpement double est une solution
de rechange a ^2. et se presente comme suit:
G
W ''^Yl
4.
ies,
G
oil Zj = y, + {[Mg/mg]c.- 1}r.. Pour les memes raisons,
h ~ Xg=i Yies ^i^r Puisque /2 est Uneaire dans z..
H
^ 3 = E E ^MJm^w.y,
g=l
(15)
ies.
La repetition jackknife de ^3 ne se definit pas clairement.
Une simple possibilite serait
G
v.2==v„(EEvv,^,) =EE ( V K - i ] )
W = EE>^/,;,(^g/'"g);',-
(16)
g=l ies,
E ieU„
E >^,^,?-fE
E >*',z,•/«J.
jeF, ieu,
(11)
!•)
Soit e. = MJm , le facteur de ponderation k la deuxieme
phase pour / e Sg. On constate que c. est une variable
aleatoire, E{c) = ntg/Mg et que E{c.Ci) = {m /M)
{mg - 1)/{M - 1) pour /, k e S , i # k.
II s'ensuit que
E ^i^i
ieUu,
( \^
\2 \^ ( _ -wr \2
4f ^'^' * , ' •"•^/V
V i^^hi
\
"J
E
g=l
E
i,keS,nU^j
I
f
i^Uhi
"J
[{I-m^/M^)/m^^w.r.w,r^. {12)
Une autre, qui se rapproche peut-etre davantage d'une
veritable "repetition*, est
^(hpz =1111 ^hji^^ghjI'^ghPyr
g=l
(17)
ies.
oil A/ , represente le nombre d'eiements de I'echantillon
de la premiere phase (plus exactement d'une grappe de
I'echantillon de la premiere phase) qu'on trouve dans S
™^^^ P'^^ dans C/^.. Parallelement, /w ,. cortespond au
nombre d'eiements de I'echantillon de m deuxieme phase
,
,
• pas dans
,
rr
1 partir
. de
.
qu'on
trouve dans
s mais
f/...
A
nil r»n trniivf* n^nc c
TYIQIC r^/^Q n^nc / /
A nnrtir nf^
contre-exemples, nous vertons I'annexe, qu aucune variante
de la repetition ne donne d'estimateur de variance jackknife
(Vj3 de I'equation (8)) non biaise de fagon asymptotique, en
general.
Techniques d'enquete, decembre 1997
5. ETUDE DE SIMULATION DE
MONTE CARLO
5.1 Conception de I'etude
93
taiUe m = 25, 50, 100 et 250. Quand le nombre de sujets
echantillonnes a la premiere phase faisant partie d'une
strate a la deuxieme phase etait inferieur k la valeur m
desiree, notre intention etait d'etablir m =M, mais le cas
,
Les resultats qu'on a pu examiner jusqu'ici sont
asymptotiques. Nous avons effectue une etude de
simulation de Monte Carlo afin d'evaluer la precision de
I'estimateur jackknife en tant qu'estimateur de la variance
de I'estimateur de developpement repondere dans un
univers fini. Parallelement, nous avons evalue la precision
des deux estimateurs jackknife proposes pour I'estimateur
de developpement double a la partie 4.
Nous nous sommes servis des donnees de I'Enquete sur
la population active (EPA) canadienne de decembre 1990
pour la province de Terte-Neuve. De cette population finie,
nous avons tire des echantillons repetitifs. L'EPA est la
plus vaste enquete-menage par sondage poursuivie en
permanence par Statistique Canada. Les donnees sur le
marche du travail sont recueillies mensueUement grace a un
plan d'echantiUonnage complexe a degres multiples,
comportant plusieurs niveaux de stratification. On trouvera
plus de precisions sur ce plan d'echantiUonnage avant la
modification qu'il a subie en 1991 dans Singh, Drew,
Gambino et Mayda (1990), ainsi que dans Stukel et Boyer
(1992). En href, les provinces sont stratifiees en "regions
economiques», vastes regions a structure economique
analogue; Terte-Neuve en compte quatre. Les regions
economiques sont subdivisees en strates de niveau inferieur.
A Terte-Neuve, le niveau de stratification le plus bas
donnait 45 strates comprenant chacune moins de six
grappes ou unites primaires d'echantiUonnage (UPE), ce
qui etait insuffisant pour I'echantiUonnage dans le cadre de
la simulation. On a done regroupe les 45 strates en 18,
comprenant chacune 6 a 18 UPE. Les regions economiques
ont ete preservees lors du regroupement des strates, tout
comme on a maintenu les regions metropolitaines de
recensement de St. John's et de Comerbrook.
Dans le cadre de I'etude de Monte Carlo, on a preieve
R = 4 000 echantillons de la "population* de Terte-Neuve
(composee de 9 152 individus), selon le plan d'echantillonnage a deux phases que voici: on a d'abord tire deux
UPE de chaque strate de la premiere phase par echantillonnage aleatoire simple (EAS) non exhaustif (NE). On a
ainsi obtenu au total 36 UPE. Tous les menages des UPE
selectionnees a la premiere phase (et les personnes
composant ces menages) ont ete retenus, ce qui a donne un
echantiUon en grappes exhaustif a la premiere phase. A la
deuxieme phase, tous les elements precedemment
selectionnes (les sujets, en comptant chaque personne
choisie deux fois dans une UPE comme deux sujets
distincts) ont ete restratifies en cinq groupes d'age (< = 14,
15-24,25-44,45-64, > = 65) et les elements de I'echantillon
de la deuxieme phase (lire les sujets) ont ete preievees par
EAS exhaustifddsis chacune des cinq strates de la deuxieme
phase.
Nous avons varie la taille de I'echantillon des strates k la
deuxieme phase en prenant m = 5, 10, 20, et 50, de
maniere a obtenir des echantillons au deuxieme degre de
.
.
.
.
g'
g
ne s est jamais presente.
Une populaire regie heuristique applicable k "I'estimateur par le quotient distinct* comme I'estimateur de developpement repondere de I'equation (2) est que chaque strate
de la deuxieme phase comporte au moins 20 elements (lire,
a ce sujet, Samdal, Swensson et Wretman 1992, p. 270).
Notre but, en attribuant les valeurs 5 et 10 a m , etait de
verifier Tutilite d'une telle regie.
Nous avons envisage deux parametres interessants: T,
soit le nombre total de personnes occupees, et T /T^ le taux
d'emploi. Dans le cas present, T = YieuYi' ^uy, = 1 quand
le sujet / a un emploi et a la valeur nuUe dans les autres cas.
De meme.r, = Yieu^i> ou z. = 1 quand le sujet / fait partie
de la population active (c.-a-d. travaille ou chome) et a la
valeur nuUe dans les autres cas. Pour chacun des
R = 4 000 echantillons, nous avons calcuie I'estimateur de
developpement repondere (EER) /2 de I'equation (2),
I'estimateur de developpement double (EED) t.^ de
I'equation (15) et I'estimateur de developpement integral de
la premiere phase (EEIPD) t^ de I'equation (1). Quoiqueces
estimateurs soient definis en fonction d'un total (nombre de
personnes occupees), il est facile d'en etendre I'application
a un rapport de totaux (au taux d'emploi, par exemple).
Pour chacun des R = 4 000 echantillons de la deuxieme
phase, nous avons calcuie la variance jackknife qui
cortespondait k I'estimateur de developpement repondere
et a I'estimateur de developpement double de I'equation (8),
pour / = 2 et / = 3 respectivement. En ce qui conceme
I'estimateur de developpement double, nous avons teste les
repetitions decrites aux equations (16) et (17), que nous
appellerons respectivement variantes 1 et 2.
Nous avons aussi etabli I'estimateur de variance
jackknife qui cortespondait a I'estimateur integral de la
premiere phase pour chacun des R = 4 000 echantillons de
la premiere phase, aux fins de comparaison. On obtient cet
estimateur avec I'equation (8), quand / = 1.
Nous avons etudie diverses proprietes de frequence des
estimateurs precites et de I'estimateur de variance jackknife
qui y cortespond. Ces proprietes apparaissent ci-dessous.
Pour plus de simpUcite, elles ne sont exprimees qu'en
fonction du nombre total estimatif de personnes occupees.
Le biais relatif en pour cent du nombre estime de
personnes occupees par rapport k la population globale est
estime par
BR?{t') = {[E^{tyT^] IjxlOO,
(18)
ou
4 000
£ ^ ( r ) = (1/4 000) E
'/
represente I'esperance de Monte Carlo de I'estimateur
ponctuel t' applicable aux 4 000 echantillons. La valeur
t* peut cortespondre a /j./j. ou t^ alors que t* est la
valeur t * de I'echantillon r.
Kott et Stukel: La methode du jackknife convient-elle a un echantiUon a deux phases?
94
Le biais relatif en pour cent de I'estimateur de variance
jackknife par rapport a I'erteur quadratique moyenne reelle
est estime par
BRP[v^/r)] =
({^A/Mr')] - EQM„^,}/EQM„^,)x 100,
d^)
ou
4 000
EJyM')]
= (1/4 000) 5 ]
VjAt'),
r=l
4 000
EQM„^e = (1/4 0 0 0 ) 1 :
(C-r/,
r=l
et VjAt *) est la valeur de vM *) de I'echantillon r.
lie coefficient de variation (en pour cent) de I'estimateur
de variance jackknife par rapport a I'EQM/reelle est estime
par:
Ni I'estimation de Monte Carlo de 1'erreur quadratique
moyenne (c.-a-d. la valeur EQM^j.^^ ni les coefficients de
variation cortespondants, obtenus grace a I'estimateur de
developpement double ou a sa version reponderee, n'apparaissent dans les tableaux car Particle porte principalement
sur I'estimation de I'erteur quadratique moyenne. L'erteur
quadratique moyenne (et les coefficients de variation) qui
derive de I'appUcation des deux estimateurs est comparable,
peu importe la taille de I'echantiUon (I'ecart relatif entre les
coefficients de variation cortespond a peu pres a la moitie
de recart relatif entre les erteurs quadratiques moyennes).
L'estimateur de developpement repondere s'avfere legerement plus efficace lorsqu'il s'agit d'estimer le nombre total
de personnes occupees (a savoir, quand mg = 5, I'erteur
quadratique moyenne de I'estimateur de developpement
double augmente de 17 %). Quand on estime le taux
d'emploi, I'ecart entre I'erteur quadratique moyenne des
deux methodes est inferieur kl%. On ne sera guere surpris
d'apprendre que I'erteur quadratique moyenne des estimateurs augmente k mesure que la taille de I'echantillon de
la deuxieme phase diminue.
CV[v,/r)] =
({(1/4 000)E [v^^//')-EQM,,j2j!^/EQM„^,)xl00;(20)
bref, la racine de I'erteur quadratique moyenne estimee de
I'estimateur de variance, divisee par I'EQM reelle estimee
et exprimee en pourcentage.
5.2 Resultats de I'etude
Le tableau 1A indique le biais relatif estime en pour cent
des trois estimations ponctuelles du nombre total de
personnes occupees selon I'equation (18). Le tableau IB en
fait autant mais pour le taux d'emploi. Tous les biais ont
une valeur absolue inferieure a 1 %.
Tableau l A
Biais relatif en pour cent des estimations ponctuelles
du nombre total de personnes occupies
Estimateur
""« ~ '^
""«"^ ^
Estimateur
86,22
EED
(Variante 2)
101,59
278,44
654,99
1997,51
EIPD
0,03
0,115
m =10
S
m =5
a
EER
-0,09
-0,31
-0,19
-0,26
EED
-0,08
-0,27
-0,12
-0,13
EIPD
-0,09
EER - Estimation de developpement repond^ri (/j)
EED - Estimateur de developpement double (/j)
EIPD - Estimateur integral du premier degr6 (<,)
0,94
Tableau 2B
Biais relatif en pour cent de I'estimateur de variance jackknife
du taux d'emploi
-0,01
o
o
78,18
0,16
m =20
m =5
68,24
EED
o
a
46,35
Estimateur
m =50
»i. = 10
EED
(Variante 1)
-0,56
o
o
-5,13
-0,29
a
m =20
-5,81
-0,3
m =M
4
-2,51
0,14
Estimateur
m =50
-0,99
EER
Tableau IB
Biais relatif en pour cent des estimations ponctuelles
du taux d'emploi
A
EER
""« ~ ^^
0,04
m =M„
$
""« " ^'^
EIPD
">. = ^g
Tableau 2A
Biais relatif en pour cent de I'estimateur de variance jackknife
du nombre total de personnes occupees
"'g'^^
"'g'^^
'"g'^^
"'g~^
EER
-3,53
-3,45
-7,09
-6,55
EED
(Variante 1)
-2,46
-1,53
-5,21
-7,41
EED
(Variante 2)
-0,36
4,91
9,09
30,46
EIPD
""."^i;
2,08
EER - Estimateur de developpement repondere (/j)
EED - Estimateur de developpement double (/j)
EIPD - Estimateur integral du premier degr6 (/,)
La variante 1 utilise la repetition de I'estimateur jackknife de I'equation (16).
La variante 2 utilise la repetition de I'estimateur jackknife de I'equation (17).
Le tableau 2A presente le biais relatif estime en pour
cent de I'estimateur de variance jackknife pour le nombre
Techniques d'enquete, decembre 1997
total de personnes occupees selon I'equation (19), tandis
que le tableau 2B en fait autant pour le taux d'emploi.
Commen9ons par examiner le premier. On se rend compte
que la variance de I'estimateur integral de la premiere phase
est presque totalement depourvue de biais (0,94 %).
L'estimateur jackknife donne de bons resultats avec I'estimateur de developpement repondere alors que la variance
ne presente qu'un leger biais negatif, toujours inferieur a
-6 %. Ce biais a tendance a devenir plus negatif (meme si
ce n'est pas de fagon uniforme) a mesure que la taille de
I'echantillon de la deuxieme phase diminue.
Les deux variantes de I'estimateur jackknife de l'estimateur de developpement double, en revanche, donnent de
pietres resultats, avec un fort biais positif pour la variance,
aUant de 46,35 % k 1997,51 %! La deuxieme variante est
pire que la premiere, mais les deux, se comportent d'une
maniere absolument inacceptable.
Le tableau 2B reprend I'analyse pour I'estimation par
quotient du taux d'emploi. Les resultats ont de quoi
surprendre. En effet, tous les estimateurs de variance se
comportent raisonnablement bien, sauf la variante 2 de
I'estimateur de developpement double quand m =5.
Outre ce cas, oil il atteint 30,46 %, le biais est infeneur k
10 % en valeur absolue.
Dans I'ensemble, les tableaux 2A et 2B appuient
fortement I'usage de l'estimateur de variance jackknife avec
l'estimateur de developpement repondere, meme avec un
tres petit echantiUon de la deuxieme phase. Par centre, cet
estimateur echoue lamentablement avec l'estimateur de
developpement double quand on estime les totaux. II arrive
cependant que la variante 1 donne des resultats acceptables,
selon I'estimateur et les donnees.
Bien que la majorite des etudes insistent sur le biais des
estimateurs de variance, il vaut la peine d'examiner le
coefficient de variation des estimateurs de variance pour
etablir la stabilite des estimations de la variance. Le
coefficient de variation estime (en pour cent) se rapportant
au nombre total de personnes occupees et au taux d'emploi
apparait respectivement aux tableaux 3A et 3B. L'expression sous la racine cartee du numerateur a I'equation (20)
donne I'EQM de la variance, composee de la valeur
quadratique du biais de la variance et de la variance de la
variance. Les tableaux 3A et 3B ne presentent pas les
valeurs cortespondantes des entrees des tableaux 2A et 2B
(signaiees par un *) pour lesquelles le biais de la variance
est trop eieve (superieur a 20 %, par exemple), car il est
clair que ces valeurs seront elles aussi trop elevees. Au
tableau 3A, les coefficients de variation estimes associes a
I'estimateur de developpement repondere fiuctuent entre
46,86 % et 53,42 %, ce qui est caracteristique aux estimateurs de la variance. Des coefficients de variation aussi
importants ont ete releves dans d'autres etudes de simulation sur la variance, notamment celle de Kovacevic et Yung
(1997). En I'occurtence, on remarquera que les coefficients
de variation estimes des estimateurs integraux de la
premiere phase se situent dans la meme fourchette de
valeurs. En realite, ils depassent legerement ceux des
estimateurs de la deuxieme phase.
95
Tableau 3A
Coefficient de variation de la variance jackknife du nombre total
de personnes occupies
Estimateur
'"„=M,
e
g
%=50
-.=20
m, = lO
m^ = 5
EER
-
51,33
49,3
46,86
53,42
EED
(Variante 1)
-
*
*
*
*
EED
(Variante 2)
-
*
*
*
»
EIPD
56,71
-
-
-
-
Tableau 3B
Coefficient de variation de la variance jackknife
du taux d'emploi
Estimateur
g
g
' " . = 50
m^ = 20
m^ = lO
m^ = 5
EER
-
59,28
65,66
74,26
103,06
EED
(Variant 1)
-
59,24
66,16
72,89
99,1
EED
(Variant 2)
-
60,94
73,2
92,71
*
EIPD
78,42
-
-
-
-
EER - Estimateur de developpement repondere (t^)
EED - Estimateur de developpement double (/j)
EIPD - Estimateur integral du premier degre (/,)
La variante 1 utilise la repetition de l'estimateur jackknife de I'equation (16).
La variante 2 utilise la repetition de l'estimateur jackknife de I'equation (17).
Si on les examine un a un, on se rend compte que les
coefficients de variation de la variance du taux d'emploi
estime qui apparaissent au tableau 3B sont plus eieves que
les coefficients cortespondants du tableau 3A. D'autre part,
tous les estimateurs se remarquent par une hausse appreciable du coefficient de variation cortespondant quand la
taille de I'echantillon de la deuxieme phase diminue.
L'effet est plus prononce pour les estimateurs par quotient
que pour les estimateurs du total. Les coefficients de
variation tres importants de la colonne m = 5 aux deux
tableaux ne surprendra personne puisque la taille globale de
rechantiUon de la deuxieme phase (25) est en fait inferieure
au nombre d'UPE preievees k la premiere phase de
I'echantiUonnage (36). Le nombre de membres de la
population active echantillonnes (c.-^-d. au denominateur)
constitue d'ailleurs un meilleur denombrement de
I'echantillon pour l'estimateur par quotient. Cette valeur
varie d'un echantiUon k I'autre et est souvent considerablement inferieure a 25.
6. EXTENSION DE L'ESTIMATEUR DE
DEVELOPPEMENT REPONDERE
6.1 L'estimateur de developpement repondere
Elaborer un estimateur de variance linearise pour
l'estimateur de developpement repondere de I'equation (2)
Kott et Stukel: La methode du jackknife convient-elle a un echantiUon a deux phases?
96
ne s'avere pas tres difficile. Supposons cependant que le
plan d'echantiUonnage compte plus de deux phases ou
qu'on desire estimer le quotient de deux totaux. Quoi
qu'elle demeure realisable en pareil cas, la linearisation
gagne de plus en plus en difficulte. II n'en va pas autant
avec l'estimateur jackknife.
On peut aisement generaliser les resultats de la partie 3
pour un echantiUonnage ap-phases par induction. La lettre
h designe toujours les strates de la premiere phase, mais la
lettre g cortespond desormais a celles de la phase p-ihme
represente le jeu d'eiements de I'echantillon de la S phase
de la strate g, alors que s est le sous-echantiUon de la
p-ieme phase de g. On remplace la valeur w. de I'equation
(2) par a. de (3), pour I'estimateur de la (p-l)-ieme phase.
De meme, on calcuie la valeur /,. ^2 de l'estimateur
jackknife avec a... de la (p-l)-ieme phase, au lieu de w....
Remplacer rechantiUon en grappes stratifie preieve a la
premiere phase par un echantiUon stratifie a plusieurs
phases s'avere aussi assez simple (nous laissons au lecteur
le soin de le faire). On obtient encore les resultats de la
partie 3 pourvu que I'echantillon a plusieurs phases soit
toujours preieve par tirage non exhaustif a la premiere
phase.
Enfin, il n'est pas difficile d'etendre les resultats de la
partie 3 a des estimateurs plus complexes. Soit U2, un
vecteur des estimateurs de I'equation (2) adoptant la
forme /2- L'erteur quadratique moyenne d'un estimateur
quelconque 0 =g{U2), otig est une fonction continue, peut
etre estimee presque sans biais grace a l'estimateur
jackknife, chaque fois qu'on peut en faire autant pour les
elements de f/j- Cette remarque respecte les preuves
donnees dans les ouvrages. Ainsi, Rao et Wu (1985)
examinent le plan asymptotique ou toutes les valeurs «^
sont bomees, tandis que Wolter (1985; chapitre 4.5) analyse
le cas oil «^ augmente considerablement de fagon arbitraire.
6.2 Regression a la deuxieme phase
On peut generaliser l'estimateur /j par l'estimateur de
regression:
^2reg=E ^i4E
ieS
^i^idiX'ix\ "Y J ] ^,e.d.x[y'\ , (21)
\ ies
)
\ ies
)
oil iS represente rechantiUon original; x^ un vecteur hgne; d.,
une grandeur scalaire et ou il existe un vecteur ligne 7 tel
que d^yx.' - I pour toutes les valeurs de /. Dans la
pratique, d. est habituellement egal a 1 pour toutes les
valeurs de /. Une exception survient frequemment quand
x^ = X. et d. = l/x.. Dans I'equation (2), d^ = 1 pour toutes
les valeurs de /, et x. cortespond a un vecteur G de valeur 1
k la g-ieme position mais de valeur nuUe ailleurs, pour
ieS^.
Soit
f^^Yi-XilT^idiXlx.
'il2w^d.x;y.
ieS
La repetition '2reK(/iA auneformeidentiquea t2 , mais w,..
est remplace par w.. De meme, r,.. a la meme forme que
/•., si ce n'est que w... se substitue a w.. Remarquons que e.
ne change pas dans /2„g et /2reg(MPuisqu'il n'y a pas eu modification du plan d'echantiUonnage, requation (6) ne change pas, si ce n'est que
desormais (Yies w,'',)^ est non negatif au lieu d'etre
strictement egal a*zero. L'interesse pourta s'assurer que les
equations (10) a (13) gardent leur forme actuelle. Dans
requation (14), on note que, si biais de l'estimateur
jackknife il y a, celui-ci tend (approximativement) a la
hausse. Bref, il s'agit d'un estimateur conservateur de la
variance. Encore une fois, le lecteur est prie de se reporter
a I'annexe (equations (A6) a (A9)) pour se faire une
meilleure idee des hypotheses asymptotiques.
Le biais de I'estimateur jackknife disparait quand
Yj^s "^i^i = ^ P'^ur toutes les valeurs de g. Pareille situation
survfent lorsqu'il existe G vecteurs de rangee y,,..., y^ de
sorteque d.y x.' = 1 quand ieS et 0 prend la valeur nuUe
dans
les
autres
cas
(puisque
Yies'^i^i =
Yiesd^JgX/w.r. = YgZ,e,w.c?.A:.V. = y^ {L,,,H',.rf,.JC,'(y, XilYies^i^iX/x,]'' Yies'^idiX/y^)] =0). L'existence de 7^
quand d. = I, signifie qu'un membre de x. est une variable
indicatrice egale a 1 lorsque ieS et a la valeur nuUe dans
les autres cas, ou qu'un memore de la transformation
Uneaire de x. est cette variable indicatrice.
7.
CONCLUSION
Notre article avait principalement pour but de montrer
qu'un simple estimateur de variance jackknife peut Stre
presque depourvu de biais lorsque la methode d'estimation
s'articule sur un echantiUonnage a deux phases, pourvu
qu'on recoure a un estimateur de developpement repondere
plutot qu'a un estimateur de developpement double.
L'application pratique des resultats theoriques de l'estimateur de developpement repondere dependra du contexte
puisque ces resultats reposent sur une argumentation
asymptotique. L'etude de simulation de Monte Carlo que
nous avons effectuee donne neanmoins k penser que
l'estimateur jackknife a son utilite pour estimer la variance
de l'estimateur de developpement repondere, mSme en
presence de strates etonnamment peu importantes a
I'echantiUonnage de la deuxieme phase, c'est-a-dire de
strates qui ne comptent que 5 ou 10 elements.
ANNEXE
Coherence de I'estimateur de developpement repondere
au niveau du plan d'echantiUonnage
Pour verifier la coherence theorique de ?2 dans
I'equation (2), on suppose simplement que le plan
d'echantiUonnage et la population de y. sont tels que
E (Kf^g)12 ^iYim l=0^{l/Vm),
Techniques d'enquete, decembre 1997
et que, pour tout echantiUon de premiere phase,
97
0(1) elements dans les deux cas, bref que chaque grappe est
bomee.
Puisque m est du meme ordre asymptotique que m, il
H^k/H
^^ i^JK) - 1 = 0(l/^/m)
(Al)
\keS,
kes^ j
« g
est raisonnable de penser que dans I'un ou I'autre cas, pour
un echantiUon donne de la premiere phase,
pour toutes les valeurs de g. Ces hypotheses justifient
(A2)
I'equation (5) dans le corps du texte.
OJ,l/m),
H^hji/H^i-'^
L'analyse presume que G est home et que chaque valeur
de m^ presente le meme degre asymptotique que m. La
chose n'est reaUsable que lorsqu'on definit S apres
E VE^,-l=0^(l//«),
preievement de I'echantillon de la premiere phase. Sans
(A3)
cela, Mg equivaudrait k une variable aleatoire, si bien qu'on
ne pourtait garantir une valeur minimale pour m , pour tous
ce dont on peut se servir pour deriver I'equation (9). De
les echantillons envisageables de la premiere phase. En
meme, on presume que pour tout echantiUon de la premiere
principe, on suppose qu'un mecanisme permet de
phase
determiner S et les fractions de I'echantiUonnage de la
deuxieme phase, compte tenu d'un echantiUon quelconque
I = 0^{l/m),
(A4)
E "^hjiY,i/H^iYiieS,
ieS,
de la premiere phase. Les valeurs exactes de G et de w , en
revanche, peuvent etre artetees avant le preievement de
ce qui donne r^^.. - r. = O (l/m).
rechantiUon de la premiere phase, sans que cela soit
Equations (12), (13) et (14)
toutefois une obligation.
Le nombre d'eiements dans chaque grappe etant limite,
Remarque au sujet du cadre asymptotique
par B par exemple, le troisieme terme de I'equation (12)
Nous avons montre que I'estimateur jackknife integre
compte au plus GB ^ termes, un nombre fini.
une composante permettant d'estimer la variance a la
Chaque terme est d'ordre l/m (plus exactement, la
deuxieme phase E2W2- t^^]) sans introduire de biais
probabilite qu'un terme soit asymptotiquement d'ordre
asymptotique, quel que soit I'echantillon de la premiere
superieur a l/m^ est egale k zero). Par consequent, on peut
phase (voir I'equation (14)). Par voie de consequence, cette
negUger la deuxieme ligne de I'equation (12), sur le plan
composante permet d'estimer la variance moyenne a la
asymptotique.
deuxieme phase (done non conditionnelle) de tous les
L'equation (14) se verifie chaque fois que l/«^ = 0(1),
echantillons possibles de la premiere phase
car si «^ est inferieur a C (par exemple), le troisieme terme
E^{E2[{t2 - t^f]}, sans introduire de biais asymptotique. de droite de I'equation (13) cortespond k la somme d'un
Nous nous sommes eioignes du cadre decrit ci-dessus
maximum de G{BQ^ termes, un nombre fini. Cette fois
dans le travail empirique afin que les resultats soient plus
encore, chaque terme est d'ordre l/m . On peut done
faciles k resumer. Plus precisement, nous avons defini S
ignorer la deuxieme ligne de I'equation (13) sur un plan
au prealable et laisse M varier. Advenant le cas ou
asymptotique.
I'echantillon de la premiere phase donnerait une valeur M
Supposons d'autre part, que chaque rapport l/«^ soit
inferieure a la valeur Wg desiree (50, par exemple) a la
egal a 0{l/m). On presumera que le plan d'echanstrate de la deuxieme phase, nous avions I'intention de
tiUonnage et la population sont tels que, pour un echantiUon
retenir tous les sujets de S pour constituer I'echantillon de
quelconque a la premiere phase,
la deuxieme phase. La presence de cette strate g de la
^A = E Wii^i'^i - I)'-,/ E ^iYi = Op{l/Vm) (A5)
deuxieme phase n'augmenterait done pas I'erteur quadraieF,
ieF,
tique moyenne (ou biais) de /j et les hypotheses asymptotiques sur m s'avereraient superflues. Ainsi qu'on a pu
pour toutes les valeurs de h. D s'agit d'une hypothese
le voir, M na jamais obtenu une valeur inferieure a 50
raisonnable puisque, conditionnellement k I'echantillon de
dans la simulation. Quoi qu'il en soit, on disposait d'une
la premiere phase, le denominateur de A^ represente le total
regie applicable aux fractions de I'echantiUonnage de la
d'un domaine —soit la somme de vv^.y. pour les elements
deuxieme phase, pour tous les echantiUons de la premiere
de F/;. Par consequent, il cortespond a 6(771) (sans perte de
phase.
generalite, on peut supposer que chaque w. est egal k
0(1)). Le numerateur de ^^ indique I'ecart entre l'estiRepetitions de I'estimateur jackknife
mateur de developpement (somme des elementsW-CCT-.
dans F^*) d'un echantiUon aleatoire simple stratifie et sa
Deux cadres asymptotiques distincts (au moins)
cible (la somme des elements w.r. dans F;,'). L'equation
s'appliquent a I'echantillon de la premiere phase. Le
(A.5) repose sur la modeste hypothese que le plan d'echanpremier comprend un nombre arbitrairement eieve de
tiUonnage et la population donnent une difference de
strates k la premiere phase, la taille de chacune etant
Op{\/m) pour tous les echantiUons envisageables de la
limitee; bref, pour chacune d'elles, l/n^ =0(1) tandis que
l/H = 0{l/m). Dans le deuxieme cas, toutes les strates de premiere phase.
la premiere phase sont arbitrairement importantes, soit
En vertu de I'hypothese (A5), YieF'w.z. =
l//j^ = 0(l/w). On suppose que chaque grappe renferme
Yf-'^iYiO -^Af) equivaut a peu pres ^ X/eF;W/.y,. si bien
Kott et Stukel: La methode du jackknife convient-elle a un echantiUon a deux phases?
98
queE^KYieF-w, z.fVn^ - (E/6F; >^,7,)'/«A- L'equation (14)
provient de cette quasi-egalite et sur les equations (11) et
(12) 72^ etant eieve, 7j^/(7J^ - 1) = 1).
et
E ^hji^idi^ilH ^i'id.^i - 1 = Op(l/'«)
(A8)
Contre-exemples de I'estimateur jackknife de I'estimapour toutes les valeurs de q., oii ^. est un element de la
teur de developpement double
matrice x.'jc.. Enfin, l'equation (A4) se generaUse pour
Comme contre-exemple de la forme repetee de
devenir
requation (16), prenons le cas oii chaque grappe ne
renferme qu'un element, /f = G = 1, et oil y^ est toujours
egal a 1. Dans ce cas, /j = T, et t.^ n'a pas de variance.
E y^hj.diPi/11 ^idiPi - 1 = 0,(1/777)
(A9)
Malheureusement, t(ij)-i = T[nf{n^ - l)](77i - l)/777 quand
'SS,
ieS„
jes et r7j,/(7j,-l) dans les autres cas. Done,
pour toutes les valeurs de p., oii p. represente un element
(^(i7)3 " ^V^ = Op (1/772). Le rapport v^j/f^ qui derive de de la matrice x.'y..
r,,..3 serait lui aussi egal a 0(l/77j), puisqu'U s'agit de la
somme des termes TJI d'ordre 0(l/773^).
Bien que Vj^/T'^ cortesponde a 0(l/7w), v^j ne se
BIBLIOGRAPHIE
rapproche pas assez de zero pour nous etre utile. En effet,
si y. etait toujours egal a A^(l,l), la variance relative de t.^ ISAKI, C.T., et FULLER, W.A. (1982). Survey design under the
serait l/m, qui cortespond aussi a 0(l/77i). Pour que Vj^
regression superpopulation model. Journal of the American
soit presque egal a zero, Vj^/T^ devrait done etre inferieur
Statistical Association, 11, 89-96.
k 0(1/777). Cela n'etant pas le cas, I'estimateur de variance
KOVACEVIC:, M.S., et YUNG, W. (1997). Estimation de la variance
jackknife est loin de ne pas etre biaise.
des mesures de I'inegalitd et de la polarisation du revenu - 6tude
Comme contre-exemple de la forme repetee de
empirique. Techniques d'enquete, 23, 47-59.
l'equation (17), examinons le cas ou chaque grappe
KREWSKI,
D., et RAO, J.N.K. (1981), Inferences from stratified
renferme de nouveau un seul element et ou y. est egal a un,
samples:
properties of linearization, jackknife, and balanced
mais oil /f = 777, G = 1, la population de h est toujours egale
repeated replication methods. Annals of Statistics, 9, 1010-1019.
a NQ, TJy, = 2 pour toutes les valeurs de h, et M^ = 2m. II
s'ensuit que T = t^= mN^, si bien que tj ne presente pas de OH, H.L., et SCHEUREN, F.J. (1983). Weighting adjustment for unit
variance. La repetition %)3 peut done prendre quatre
nonresponse. Incomplete Data and Sample Surveys, Volume 2:
Theory and Bibliographies, (fids. W.G. Madow, I. Olkin, et
valeurs. Si hjes et hj'es{j*j'),
alors, ^(iJy)3 =
D.B. Rubin). New York: Academic Press, 143-184.
[(77i/2)(27?j-l)/(777-IJJA/Q. Si hjes et hj'€s, alors,
%)3 = [{{m - I }/2){2m - l)/{m - l)]N^. Si hj^s et hfes, RAO, J.N.K., et SHAO, J. (1992). Jackknife variance estimation with
alors, t(l,j)3 = [{m/2){2m - l)/m]NQ. Si hj^s et hj' $s, alors, survey data under hot deck imputation. Biometrika, 79, 4, 811'(^7)3 = [{[m - I }/2){2m - l)/m]NQ. Dans aucun de ces cas,
822.
{t(hj)3 - T)/T = O (l/m), de sorte que l'estimateur de
RAO, J.N.K., et WU, C.F.J. (1985). Inferences from stratified
variance jackknife ne peut etre presque depourvu de biais.
Estimateur de regression de la deuxieme phase
Pour etayer I'argumentation sur I'estimateur de regression de requation (21), supposons que le plan d'echantiUonnage et la population soient tels qu'on obtient
confirmation des relations asymptotiques que voici. En
premier lieu,
E ^iXiii: w.e,d.x;x,)-'d.x;
ieS
- 1 = O/I/N/777), ( A 6 )
ies
qui est une generalisation de l'equation (Al). De meme, les
equations (A2) et (A3) peuvent Stre generalisees pour
donner
E ^hjidiqi/H M^i - 1 = O/l/m),
ieS,
ieS,
samples: Second-order analysis of three methods for nonlinear
statistics. Journal of the American Statistical Association, 80,
620-630.
RUST, K. (1985). Variance estimation for complex estimators in
sample surveys. Journal of Official Statistics, 1, 381-397.
S A R N D A L , C.-E., SWENSSON, B., et WRETMAN, J.H. (1992).
Model Assisted Survey Sampling. New York: Springer-Veriag.
SINGH, M.P., DREW, J.D., GAMBINO, J.G., et MAYDA, F.
(1990). Methodologie de Tenquete sur la population active du
Canada: 1984-1990. N° 71-526 au catalogue, Statistique Canada.
STUKEL, D.M., et BOYER, R. (1992). Calibration Estimation: An
Application to the Canadian Labour Force Survey. Direction de la
m6tfiodologie, document de travail, SSMD, 92-009E, Statistique
Canada.
(A7) WOLTER, K. M. (1985). Introduction to Variance Estimation. New
York: Springer-Verlag.
Tectiniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 99-106
Statistique Canada
99
Une methode synthetique, robuste et efficace, pour realiser
des estimations locales de population en France
GEORGES DECAUDIN et JEAN-CLAUDE LABAT'
RESUME
La France ne disposant pas de registres de population, les recensements de la population y constituent la base du systeme
d'informations socio-d6mographiques. Cependant, entre deux recensements, I'actualisation de certaines donn6es est
n6cessaire, notamment h un niveau gfegraphique fin, d'autant plus que les recensements ont, pour diverses raisons, tendance
h s'espacer. Une mission, dont I'objectif etait de proposer un systfeme amdliorant substantiellement le dispositif
d'estimations locales de population en vigueur, a 6te creee en 1993 au sein de I'lnstitut National de la Statistique et des
Etudes Economiques. Elle s'est consacree ^ une double tache: realiser une synthase efficace et robuste des informations
apport6es par differentes sources administratives et mobiliser un nombre suffisant de «bonnes» sources. Le systeme «multisources" qu'elle a confu et qui est pr6sent6 ici est souple et fiable, sans etre trop complexe.
MOTS CLfiS: Estimations de population; fichiers administratifs; estimation robuste.
1. INTRODUCTION
En France, comme dans tous les pays ne disposant pas de
registres de population, les recensements de la population
sont la base du systeme d'informations socio-demographiques. Cependant, ce sont des operations tres lourdes qui, a
I'heure actuelle, ne peuvent etre reaUsees plus frequemment
que tous les sept ou huit ans. Dans I'intervalle, I'actualisation de certaines donnees est done necessaire, notamment
a un niveau geographique fin, d'autant plus que les
recensements ont, pour diverses raisons, tendance a
s'espacer. Ainsi les estimations locales de population
constituent un enjeu important pour I'lnstitut National de la
Statistique et des Etudes Economiques (INSEE).
Malgre les progres accomphs dans ce domaine, la situation, en 1993, pouvait paraitre encore assez peu satisfaisante. Par rapport au recensement de la population de 1990,
les estimations de population realisees, sur la base du
recensement precedent (1982), pour les departements metropolitains avaient presente des ecarts parfois importants.
L'INSEE a done cree une mission a caractere methodologique, chargee de proposer un systeme ameiiorant
substantiellement le dispositif en vigueur. Initialement, le
prochain recensement devait avoir Ueu en 1997. D semblait
done raisonnable de faire fonctionner le nouveau systeme
de fagon experimentale jusqu'au recensement, afin de
verifier ses performances, avant de 1'utiliser en production.
Le report du recensement a 1999 a renforce la necessite
d'aboutir vite, afin de pouvoir utiliser le nouveau systeme
des1996.
Pour atteindre son objectif, la mission s'est consacree,
avec le maximum de pragmatisme, a une double tache:
realiser une synthese efficace et robuste des informations
apportees par differentes sources administratives et
mobiliser un nombre suffisant de «bonnes» sources. Le
systeme «multi-sources» qu'eUe a con9u, et qui est presente
ici, n'est pas trop complexe et semble efficace. On en
trouvera une presentation plus detailiee dans Decaudin et
Labat (1996).
2. PREVCIPALES CONCLUSIONS
Les principales conclusions de la mission sont les
suivantes:
(1) II est impossible d'ameliorer les estimations de
population totale au moyen d'enquetes par sondage, k
moins d'imaginer une enquete d'une taille telle qu'elle
s'apparenterait a un recensement.
(2) Aucune source de donnees administratives ne reflete
suffisamment bien les evolutions de population. Toutes
les sources peuvent presenter localement des derives,
des ruptures, des a-coups..., qui ne sont pas toujours
faciles a deceler. En outre, il est souvent tres difficile,
voUe impossible, d'obtenir de I'organisme responsable,
meme a I'echelon local, des elements d'explication et
surtout, lorsqu'il s'agit d'une erteur, les elements de
cortection. De toute fa9on, il est imprudent de se
fonder sur une seule source administi-ative, aussi bonne
soit-eUe, car sa perennite n'est jamais assuree.
(3) En revanche, il est possible d'ameliorer substantiellement les estimations de population totale en
utiUsant simultanement plusieurs sources. Un systeme
«multi-sources», analogue a celui presente ici mais plus
mdimentaire, a ete teste retrospectivement, sur la
periode intercensitaire 1982-1990, pour les 96 departements metropolitains. L'erteur moyenne (moyenne des
ecarts relatifs en valeur absolue avec les resultats du
recensement de mars 1990) est descendue au-dessous
de 0,9 %, alors que I'erteur moyenne commise k
repoque, avec le systeme d'estimation en vigueur, etait
del,4%.
Georges Decaudin et Jean-Claude Labat, Institut National de la Statistiqueet des Etudes feonomiques, 18, Boulevard Adolphe-Pinard, 75675 Paris, CEDEX 14.
Decaudin et Labat: Estimations locales de population en France
100
3. UTILISATION SIMULTANEE DE
PLUSIEURS SOURCES
Pour utiUser conjointement plusieurs sources, differentes
methodes sont envisageables.
Une methode universeUe - et simple a mettre en oeuvre est la regression multiple. Sous forme simplifiee, cela
revient a utiliser, pour toute zone z, la relation suivante:
P{n + l,z)/P{n,z) = c + 12 {ICsNs{n + l,z)/Ns{n,z)),
s
oii P{n,z) est la population de la zone z au 1" Janvier de
Pan n, les N^{n,z) sont les effectifs provenant de chaque
source S a la meme date et les k^ des coefficients, qu'on
estime par regression multiple sur une periode passee. c est
ici un terme constant qui ne sert qu'a la regression, le
calage sur la population nationale permettant de corriger la
derive eventuelle.
Cette methode est utilisee dans certains pays, le Canada
et les Etats-Unis notamment (voir par exemple Statistique
Canada 1987 et Long 1993). Neanmoins, elle n'a pas ete
retenue car elle presente de nombreux inconvenients:
-
il faut pouvoir estimer les coefficients; c'est-a-dire
disposer des donnees de chaque source sur une periode
passee assez longue;
les coefficients peuvent evoluer avec le temps, sans
qu'on puisse maitriser cette evolution;
comme on I'a deja dit, les sources administi^atives sont,
pour des raisons diverses (changements de reglementation, a-coups de gestion, erteurs...), sujettes a ce
qu'on peut appeler des «anomalies». Pour chaque
source S, 1'importance de ces «anomalies» se reflete en
partie dans le coefficient k^, plus ou moins selon que
leur effet a moyen terme a ete plus ou moins grand sur
la periode d'etalonnage; mais les anomaUes interviennent neanmoins dans les estimations avec le meme
poids que les «bonnes» donnees de la meme source. Les
estimations sont alors fortement perturbees.
Une autre methode est celle dite «composite». Chaque
source sert a estimer la population d'une ou plusieurs
classes d'age: la classe d'age.A'bien couverte par la source,
mais aussi parfois une autre classe presentant a coup sur
une evolution tres voisine de celle de la classe X (par
exemple les «30-45 ans», si X represente les «moins de
18 ans»). H faut alors disposer d'indicateurs appropries pour
les autres composantes de la population et gerer cortectement la consolidation de ces estimations «par parties*.
Ce genre de methode, utiUse aux Etats-Unis (Long
1993), nous a para probiematique, notamment a cause de la
difficulte k trailer convenablement les «anomaUes».
Le systeme «multi-sources» propose repose sur une
synthese robuste d'estimations provenant des differentes
sources. II combine un raisonnement demographique et des
techniques purement statistiques. II s'inspire des experiences menees a la Direction regionale de Bretagne de
riNSEE, au debut des annees 1970 (Laurent et Gueguen
1971, Gueguen 1972). La defaiUance de I'une des sources
n'empeche pas un tel systeme de fonctionner, meme si ses
performances sont un peu degradees.
4. UNE BASE DEMOGRAPHIQUE
Le raisonnement demographique qui est k la base du
systeme est eiementaire: en supposant connue la population
totale P{n) d'une zone au 1" Janvier de I'an n, la population
P{n + I) de la zone au P'Janvier de Pan n + I s'en deduit
par ajout des deux composantes de la variation au cours de
1'annee n: I'excedent naturel (naissances moins deces)
d'une part, et le solde migratoire (immigrants moins
emigrants) d'autre part.
P{n + l)= P{n) + N{n) - D{n) + I{n) - E{n).
En France, I'excedent naturel est foumi annuellement au
niveau communal par les statistiques de I'etat civil. Si ces
demieres ne sont pas encore disponibles sous forme
definitive, ce qui est souvent le cas au troisiemetiimesti-ede
r annee 73 + 1, il est facile de les estimer avec une faible
marge d'incertitude.
La seule inconnue est done le solde migratoire sur
1'annee n: SM{n) = I{n) - E{n) ou, ce qui est equivalent, le
taux de solde migratoire r(7j) =SM{n)/P{n). En d'autres
termes, estimer la population revient a estimer le solde
migratoire depuis la demiere date oii cette population est
connue (ou supposee telle), et reciproquement.
En France, les soldes migratoires ont une importance non
negUgeable mais neanmoins modeste par rapport a d'autres
pays, comme le Canada ou les Etats-Unis par exemple. En
outre, ils presentent en general une certaine inertie, du
moins a des niveaux geographiques relativement agreges.
Une fagon d'apprecier I'influence de leurs variations, d'une
periode intercensitaire a la suivante, consiste a mesurer les
erteurs qu'on aurait commises sur chaque periode, si on
avait estime les populations en reconduisant les taux de
solde migratoire annuels moyens de la periode precedente.
Sur la periode 1982-1990, pour les departements (sans la
Corse), I'erteur moyenne en fin de periode (en 1990, au
bout de huit ans) n'aurait ete que de 1,3 %. II n'etait pas stir,
au demartage de la mission, qu'on puisse atteindre une
precision nettement meilleure. Toutefois, en 1975 comme
en 1982, I'erteur moyenne qu'on aurait commise, avec la
metiiode tendancielle, aurait ete beaucoup plus forte: 2,8 %
et 2,7 % respectivement (sur sept ans). On peut done penser
que la periode 1982-1990 a ete exceptionnelle et qu'^
I'avenir les inflexions redeviendront plus marquees.
5. DES ESTIMATIONS ISSUES DES
DIFFERENTES SOURCES
On tire de chaque source, par une methode appropriee,
une estimation du taux de solde migratoire annuel de
I'ensemble de la population. Les methodes qui peuvent etre
utilisees dependent des donnees disponibles.
Techniques d'enquete, decembre 1997
Pour chacune des sources experimentees et jugees
«bonnes», au moins au niveau departemental, une methode
est proposee. Les cinq sources retenues sont les suivantes:
taxe d'habitation; abonnes eiectriques; enfants beneficiaires
d'allocations famiUales; statistiques scolaires; fichier
electoral.
Les donnees relatives k la composition des foyers
fiscaux,figurantdans les fichiers de I'impot sur le revenu,
constituent une sixieme source qui devrait foumir de tres
bons resultats. Cependant, jusqu'a present, ces donnees
n'ont ete analysees que pour quelques departements et la
methode d'utiUsation n'est pas encore compietement definie.
II est propose en outre d'integrer au systeme une
estimation tendancielle du taux de solde migratoire.
Deux categories de methodes sont utilisees. La premiere
conceme les sources relatives aux menages; la deuxieme
celles portant sur des individus.
5.1 Sources relatives aux menages
Certaines sources foumissent une information sur revolution du nombre de menages. C'est le cas des sources «taxe
d'habitatiom (TH) et «abonnes electriques». La taxe
d'habitation est un des quatre principaux impots directs
locaux. Comme son nom I'indique, elle s'applique aux
logements occupes, selon des modalites differentes pour les
residences principales et les residences secondaires. C'est
la situation au 1" Janvier de I'annee d'imposition qui est
prise en compte. Depuis les annees 1980, la source TH est
k la base des estimations departementales de population
realisees par I'DSfSEE (Descours 1992); la source «abonnes
eiectriques» lui a ete substituee au debut des annees 1990,
en raison des perturbations provoquees par une modification du systeme de gestion qui s'est generalisee progressivement a tous les departements.
La methode retenue pour utiliser ces sources est
classique dans son principe. Elle conduit directement k une
estimation de la population totale et comporte trois etapes
principales:
(1) estimation du nombre de menages;
(2) estimation de la taiUe moyenne des menages et passage
k I'estimation de la population des menages;
(3) ajout de la population «hors menages».
Dans la premiere etape, on suppose que le nombre de
menages evolue comme les donnees foumies par la source
(nombre de residences principales TH ou nombre d'abonnes eiectriques). La seconde etape est la plus delicate. Elle
repose k la fois sur I'utiUsation des statistiques de personnes
k charge contenues dans les fichiers TH et sur une estimation, de nature tendancielle, de la taille moyenne des menages.
Dans le systeme «multi-sources» propose, on passe au
taux de solde migratoire, pour confrontation avec les autres
sources, a I'aide des statistiques de I'etat civil {cf.
section 4).
5.2 Sources relatives a des individus
Les autres sources utilisees portent sur des individus.
Seule une certaine tranche d'ageXde la population est en
101
general couverte convenablement. La methode comporte
alors deux etapes principales:
(1) estimation, k partir de la source, du taux de solde
migratoire de la population d'Sge Jf;
(2) passage au taux de solde migratoire de I'ensemble de
la population.
La deuxieme etape repose sur la relation statistique
suivante, observee dans le passe, entre la variation, d'une
periode a I'auti-e, du taux de solde migratoire global (T) et
celle du taux de solde migratoire pour la population d'age
X{TX):
T2-T^=5^{TX2-TX,),
oii 5^ est un coefficient voisin de 1, dependant de la tranche
d'age X. Cette relation est voisine de celle utilisee par
de Guibert-Lantoine (1987) pour estimer la population k
partir des statistiques scolaires.
Pour les tranches d'Sge cortespondant aux differentes
sources utilisees, les valeurs, estimees par regression
lineaire, du coefficient 5^(+/-2 ecarts-types) sont
presentees dans les tableaux 1 et 2.
Tableau 1
Estimation de 5^ sur les departements, hors Corse,
soldes internes
Age en fin de periode
Periode 1
Piriode 2
0-19 ans
10-14 ans
35 ans ou plus
1962-1968 1968-1975 0,76 (+/- 0,04) 0,69 (+/-0,06) l,24(+/-0,09)
1968-1975 1975-1982 0,77 (+/-0,03) 0,88 (+/-0,06) l,56(+/-0,08)
1975-1982 1982-1990 0,70(+/-0,ll)
0,49(+/-0,10) 1,26(+/-0,17)
Tableau 2
Estimations de by sur le couple de periodes 1975-1982 et
1982-1990, hors Corse, soldes totaux
Age enfinde periode
0-18 ans
9-15 ans
35 ans ou plus
Departements
0,65 (+/-0,11)
0,57 (+/-0,10)
1,22 (+/-0,16)
D^partement zone d'emploi
0,65 (+/-0,04)
0,59 (+/-0,04)
1,17 (+/-0,06)
Quant a la premiere etape, elle depend de la source:
Fichier electoral
Les migrations eiectorales annuelles pour la tranche
d'age retenue (les «30 ans ou plus») sont foumies directement par lefichierelectoral gere par 1'INSEE. On passe du
taux de solde migratoire electoral au taux de solde
migratoire residentiel en divisant le premier par un
coefficient refletant I'ampleur de la revision eiectorale.
Statistiques scolaires
Le solde migratoire des «5-9 ans» est obtenu en
soustrayant leur effectif I'annee n de celui des memes
Decaudin et Labat: Estimations locales de population en France
102
generations I'annee d'apres (c'est-a-dire de I'effectif des
«6-10 ans» I'annee 77 + 1) et en defalquant les deces.
Enfants beneficiaires d'allocations familiales
L'effectif des «0-17 ans» est estime en supposant qu'il
evolue comme le nombre d'enfants beneficiaires
d'allocations familiales. On en deduit un solde migratoire
de «jeunes» en comparant cette estimation a l'effectif
resultant d'une evolution sans migrations, c'est-a-dire sous
le seul effet du mouvement naturel.
6. SYNTHESE
6.1 Principes
Les differentes estimations eiementaires du taux de solde
migratoire annuel font I'objet d'un traitement statistique,
afin d'en tirer un «taux synthetique*, retenu comme
estimation finale. Le traitement permet d'eUminer les
valeurs abertantes, de sous-ponderer les valeurs suspectes
et, plus generalement, d'attribuer a chaque source un poids
adapte a ses performances.
Plus precisement, chaque source pouvant «deriver», les
differentes estimations eiementaires sont en general
biaisees; on les cortige d'abord du biais national de la
source cortespondante pour I'annee consideree, biais qu'on
estime au prealable. En procedant ainsi, on suppose
implicitement que I'ecart entre le biais local et le biais
national est de faible importance par rapport au flou
irteductible. Lorsqu'on disposera d'estimations pour
plusieurs annees, on devrait pouvoir tester cette hypothese,
et, le cas echeant, la remplacer par une hypothese mieux
adaptee a la realite, afin d'ameliorer la cortection des biais
au niveau local.
Notons qu'une operation en apparence aussi simple que
la cortection du biais national necessite neanmoins
quelques precautions. La solution consistant a operer un
calage bratal sur le taux de solde migratoire national,
considere par definition comme la bonne reference, est peu
satisfaisante, en raison des anomalies qui peuvent venir
perturber le calage. II est done preferable d'estimer les biais
au cours d'un processus ou I'on eiimine aussi les anomalies.
Le processus est analogue a celui qui est utiUse pour la
synthese et qui est decrit ci-apres. Cependant, la
determination des biais, supposes nationaux et done
calcuies sur 96 departements, est moins sensible aux
anomalies que celle des taux synthetiques, calcuies sur un
petit nombre de sources. Seules les anomalies importantes
sont susceptibles de fausser sensiblement le calage des taux
et doivent done etre corrigees.
Le taux de solde migratoire «synthetique» est une
moyenne ponderee des estimations eiementaires ainsi
«caiees». On attiibue a chaque source S un poids «a priori* W^
cense refleter sa precision a moyen terme. Mais de plus,
pour une annee et une zone donnees, ce poids est module
pour prendre en compte le caractere plus ou moins
vraisemblable du taux cortespondant. Ainsi, un taux
«anormalement eioigne» des taux issus des autres sources
— en pratique d'une valeur centrale de I'ensemble des taux
de la zone - volt son poids annule ou reduit. Pour cela, on
examine I'ecart entre le taux provenant de chaque source et
la valeur centrale retenue et on le compare k une «norme»
d'ecart NO^ propre a la source, determinee empiriquement
a partir des donnees disponibles: si I'ecart est inferieur k
«a fois» la norme, on ne modifie pas le poids a priori; s'il est
superieur a «b fois» la norme, on met le poids k 0; entre les
deux, on multiplie le poids par un coefficient, compris entre
0 et 1, calcuie par interpolation.
Notons que I'estimation tendancielle est formeUement
traitee comme celles provenant des sources exogenes; son
poids est annuie lorsqu'elle est consideree comme non
vraisemblable, parce que trop eioignee des autres
estimations.
La synthese est realisee de maniere automatique, ce qui
assure une homogeneite et une logique explicite aux
traitements mis en ceuvre. Cela ne supprime pas, pour
autant, la necessite de controler les resultats obtenus.
6.2 Presentation theorique
Sur le plan theorique, on a cherche a utiliser les
raisonnements et les techniques de I'estimation robuste,
exposees par exemple dans Hoaglin, Mosteller et Tukey
(1983). La methode retenue s'inscrit dans le cadre des
M-estimateurs de tendance centrale et plus precisement
dans la categoric des PT-estimateurs, qui mettent en ceuvre
I'algorithme des moindres cartes reponderes.
Les taux de solde migratoire pour I'annee n et la zone z
issus des differentes sources S (et cortiges de leurs biais
nationaux) etant notes TCg{n,z), le taux synthetique
T{n, z) est solution de l'equation implicite:
,^
TC(n,z)-T{n,z)
T W, . NO, . "¥{ '
- ^ ) = 0,
s ^
'
NOs
ou la fonction ^ est de type redescendant a point de rejet
fini:
*P(r) =r
pour |7-|^ a,
b-\r\
^(r) = rb-a
pour a< \r\<. b.
m{r) = 0
sinon.
Un processus iteratif permet d'affiner progressivement
le traitement automatique des donnees suspectes.
6.3 Premiere analyse des distances de chaque taux
a la valeur centrale des taux
(1) Pour chaque zone z, on calcuie une premiere valeur
centrale des taux «caies» TCg{n, z). La valeur centrale
retenue doit etre peu sensible a I'existence eventuelle
de valeurs tres eioignees pour certaines sources, mais
aussi etre d'autant plus influencee par une source que
cette source est en moyenne plus precise. Dans ces
conditions, plutot que de choisir la mediane - qui
repondrait a la premiere condition - on retient une
Techniques d'enquete, decembre 1997
103
statistique de rang un peu plus eiaboree, mais
neanmoins simple, compte tenu du petit nombre de
valeurs; cette statistique est la moyenne, ponderee
respectivement par 1/2, 1/4, 1/4, des trois quartiles:
- la mediane des taux TCg{n, z) ponderes par les poids
a priori Wg,
- le quartile inferieur (Ql) des taux ponderes,
- le quartile superieur (Q3) des taux ponderes.
(2) Les taux Tl{n, z) ainsi obtenus sont caies sur le taux de
solde migratoire du niveau superieur, par simple
translation:
rci(7j,z) = n(7j,z) +
TREF{n) - Yl {Tl{n,z)P{n,z))/Y.
z
P{n,z)
z
oii P(7J, z) est la population de la zone z au 1''Janvier
de Pan TJ et TREF{n) le taux de solde migratoire du
niveau superieur (le taux national pour la synthese
departementale).
(3) On calcuie, dans chaque zone, les ecarts de chaque
taux a cette valeur centrale caiee:
ECls{n,z) = I TCs{n,z) - TCl{n,z) \.
(4) Pour chaque source et chaque zone, I'ampleur de cet
ecart est appreciee par rapport k la «norme»
d'eioignement NO^ propre a la source. Cette «norme»
est determinee empiriquement a partir des donnees
disponibles: c'est en principe la moyenne des ecarts
constates dans le passe, anomalies exclues. D en resulte
une premiere modulation du poids affecte a priori a
cette source:
- si EClg{n,z) <. alNOg, oti al est un parametre k
choisir (voisin de 2), on ne modifie pas W^, poids
a priori de S. Autrement dit, si WMl^{n, z) est le
coefficient de modulation de W^ (coefficient
compris entre 0 et 1), on prend WMl^in, z) = 1;
- s i EClg{n,z)>blNOg,
ou bl est un autre
parametre (voisin de 3), on met W^ a 0, c'est-a-dire
qu'on eiimine la source S: WMls{n, z) = 0;
- s i alNOg<ECl^{n,z)<.blNO^,
on interpole
WMlg{n, z) en fonction de la valeur de EClg{n, z):
WMls{n,z) = {blNOs-ECls{n,z))/{{bl
- al)NOs).
(5) A Tissue de cette premiere phase, on dispose done de
nouveaux poids propres k chaque source et k chaque
zone, qui permettent d'eiiminer ou de sous-ponderer
localement les taux suspects:
^1^(77, z) =
WsWMls{n,z).
6.4
Iterations
(1) A1'aide des poids ainsi modifies Wlg{n,z), on estime
pour chaque zone une nouvelle valeur centrale, en
prenant cette fois la moyenne ponderee des taux:
72(77, z) = "£ {TCs{n, z)Wls{n, z))/Y.
s
s
Wl,{n, z).
(2) On cale chaque taux T2{n,z) sur le taux de solde
migratoire du niveau superieur, par translation. On
obtient rC2(7j, z).
(3) On calcuie, dans chaque zone, les ecarts de chaque
taux au taux nioyen caie: EC2^{n, z) = | TCg{n, z) TC2{n, z) I. A partir de ces ecarts, on calcuie de
nouveaux coefficients de modulation des poids a priori,
en UtiUsant des parametres a2 et b2, pouvant etre
differents de al et bl (inferieurs en principe). On
obtient ainsi de nouveaux poids W2g{n, z) prenant
mieux en compte les anomalies, car celles-ci ont ete
appreciees par rapport k une meilleure tendance
centrale. Avec ces poids, on estime un nouveau taux
synthetique r3(7j,z), que I'on cale sur le niveau
superieur pour obtenir TC3{n,z).
(4) On repete les operations du point 3) avec les mSmes
parametres a2 et b2. Les tests menes au niveau
departemental sur 1982-1990 montrent que la convergence est en general rapide; les taux sont tres souvent
stabilises k partir de la quatrieme iteration.
7.
MISE EN GEUVRE AU NIVEAU
DEPARTEMENTAL
Le systeme d'estimation qui vient d'etre presente dans
ses grandes Ugnes - et qui est destine a etre utilise de fa9on
operationneUe pour les annees 1990 et suivantes - a ete mis
en oeuvre par la mission pour I'annee 1990 au niveau
departemental, avec les cinq sources suivantes: taxe d'habitation (TH), abonnes eiectriques (EDF), allocations
famiUales (AF), statistiques scolaires (EN),fichierelectoral
(FE), plus I'estimation tendancielle (TEND).
La figure 1 illustre les resultats obtenus pour quelques
departements. Le tableau 3 presente les valeurs des poids et
des normes retenues pour faire fonctionner le systeme. Ce
tableau presente egalement certaines statistiques provenant
de la synthese des taux de solde migratoire et portant
notamment sur les ecarts entre les taux issus de chaque
source et les taux synthetiques.
Tableau 3 .
Mise en ceuvre pour I'annee 1990 au niveau departemental
Paramfetres et statistiques
TH EDF AF
EN
FI
TEND
Poids
115 100
80
70
80
100
Norme
0,15 0,17 0,19 0,20 0,19
0,12
Nombre de taux
96
96
89
96
94
96
Moyenne des hearts
0,55 0,14 0,30 0,19 0,14
0,13
Nombre de taux «aberrants»
37
2
17
3
1
6
Moyenne des £carts sans les
taux «aberrants>>
0,15 0,13 0,16 0,16 0,13
0,11
Nota: - Coefficients (a; b) appliques aux normes: (2,5; 3,5) h la premi&re
iteration, puis (2; 3).
- Les valeurs des hearts et des normes correspondent it des taux
exprim£s en %.
- Les 6carts sont calculus par rapport aux taux synthetiques apr^s trois
iterations.
- l.es taux «aberrants» sont ceux dont le poids est annuls apr^s trois
iterations.
Decaudin et Labat: Estimations locales de population en France
104
-1-0
Taxe d'habitation
-1-0
X
EDF
0.6-
g_ 0.4 H
Allocations familiales
u
2 0.2(53
Statistiques scolaires
S
u
0.
•^e
W
-a
X
X
•a
X
3
rt .0.4
H
A
6
X
M
9
A
A
D
a
Fichier electoral
X
X
•
X
X
Tendanciel
-(-0.9
-1-08
-0.8 -
n
•^O''
-1.249
Taux synthetique (TC4)
1^
62
-=K
T
71
53
72
-r-
1^
61
-|
12
51
1
76
r
25
Departement
Figure 1. Synthase des taux de solde migratoire de I'annee 1990 pour douze departements, reperes par leur numero (49, 62...).
N.B.: TC4 est le taux synthetique obtenu aprfes trois iterations. Lorsque le poids d'une source est annuie ou reduit,
la valeur du coefficient de modulation (WM3) est indiquee.
Les resultats conduisent a penser que le systeme est
encore plus efficace que ce qu'a indique le test retrospectif
sommaire realise sur la periode intercensitaire 1982-1990
avec les memes sources. En effet, en dehors de la source
TH, encore perturbee, les estimations provenant des
differentes sources sont plus convergentes qu'elles ne
I'etaient en moyenne dans le test retrospectif (cf. tableau 4).
Cela n'a d'ailleurs rien d'etonnant, compte tenu du
caractere rudimentaire du systeme teste sur la periode
intercensitaire 1982-1990. En effet les donnees utilisees
etaient sommaires, voire fragmentaires, en raison de la
difficulte a mobiliser en 1993 des donnees de gestion pour
des annees anciennes (1982, ...); en outre, les relations
utilisees pourtirerde chaque source une estimation du taux
de solde migratoire etaient simplistes; enfin, la methode de
synthese etait moins eiaboree.
Notons que I'integration d'autres sources, des donnees
de I'impot sur le revenu notamment, ne peut que renforcer
encore I'efficacite du systeme.
Tableau 4
Moyerme des ecarts dans le test retrospectif
1982
1983
1984
1985
1986
1987
1988
1989
TH
0,26
0,28
0,23
0,24
0,23
0,40
0,84
0,97
EDF
0,34
0,33
0,28
0,31
0,33
0,28
0,29
0,21
AF
0,50
0,48
0,40
0,48
0,40
0,41
0,30
0,30
EN
0,47
0,47
0,45
0,44
0,33
0,27
0,37
0,33
FE
0,34
0,32
0,34
0,32
Moyenne generale
0,43
0,30
0,41
0,39
0,32
0,24
0,35
Nota: - Lenombredetauxparaimeeestgeneralementde96, sauf pour AF
(89) et FE (94).
- La source «fichier electoral" n'a pas foumi de taux pour 1986 ni
1987.
- La source «Taxe d'habitation* a commence it etre perturbee en 1987.
- Les valeurs des ecarts correspondent h des taux exprimes en %.
Techniques d'enquete, decembre 1997
8. COMPLEMENTS
8.1 Niveaux infradepartementaux
L'utilisation de certaines sources peut devenir hasardeuse a un niveau geographique plus fin que le departement, et cela pour differentes raisons: parce que les
hypotheses sur lesquelles repose la methode deviennent
fragiles, parce que les effectifs sont faibles... Les
statistiques scolaires sont notamment dans ce cas.
Cependant, on ne devrait pas courir trop de risques en
faisant fonctionner le systeme pour les zones d'emploi; plus
precisement pour les croisements «departement * zone
d'emploi" (environ 420 zones) permettant d'assurer la
coherence avec le niveau departemental.
En effet:
- on peut accepter une certaine degradation des performances par rapport aux estimations departementales,
d'autant que ces demieres devraient etre de bonne
qualite;
- les donnees tirees des fichiers de I'impSt sur le revenu
devraient etre d'un apport precieux;
- I'estimation tendancielle et le calage sur les estimations
de niveau geographique superieur (departementales en
I'occurtence) jouent, I'une et I'autre, un role de gardefou.
Notons que rien n'interdit, bien entendu, d'utiliser le
systeme pour produire des estimations dans d'autres
zonages infradepartementaux.
Au niveau departemental, il ne semble pas utile
d'adapter les parametres (poids «a priori* et normes) a la
taille de la population; en revanche, pour les niveaux
infradepartementaux, cette adaptation semble indispensable. Sinon onrisqued'etie beaucoup trop rigoureux pour
les petites zones. II semble qu'une fonction de norme du
type suivant puisse convenir:
NOs = aP^,
oii NOg est la norme de la source S, P la population de la
zone et a et p deux parametres dependant a priori de la
source S. Le parametre p est evidemment negatif. Si P vaut
-0,25, la norme double lorsque la population est divisee par
16. n semble aussi que le type de zone intervienne: ainsi le
flou serait en moyenne plus important pour une commune
de 50,000 habitants que pour une zone d'emploi de meme
taille. Les parametres a et p sont a definir pour chaque
source infradepartementale et, le cas echeant, pour chaque
type de zone.
8.2 Calendrier
Le systeme fonctionne d'autant mieux que le nombre de
sources est plus important. Toutefois, les sources relatives
k une meme annee sont disponibles de fagon echelonnee
dans le temps. Le systeme etant capable de fonctionner avec
un nombre variable de sources, on peut eiaborer, au moins
105
au niveau departemental, plusieurs ensembles d'estimations
au l" Janvier de Pan 77: par exemple, des estimations
provisoires au troisieme trimestre de I'annee 7J, k partir des
premieres sources disponibles, puis des estimations semidefinitives au troisieme trimestre de I'annee TJ + 1, assises
sur davantage de sources et enfin des estimations definitives
au troisieme trimestre de I'annee 77 + 2. Differents elements
sont a prendre en compte: la lourdeur d'une campagne,
I'ampleur des modifications dues a I'ajout d'une source,
ampleur qui pourta etre appreciee par des simulations sur
les premieres annees de mise en oeuvre du systeme.
8.3 Integration d'une source supplementaire
Le systeme est souple et modulaire. L'integration d'une
nouvelle source ne pose done pas de probleme particulier.
II suffit de definir la methode permettant d'en tirer une
bonne estimation du taux de solde migratoire de chaque
zone. La panoplie des methodes envisagees par la mission
est assez foumie pour que, dans la plupart des cas, on
puisse y trouver un type de methode adapte k la source.
Pour determiner les parameti-es (poids «a priori» et
norme) a lui attribuer dans la synthese, on suggere de faire
fonctionner le systeme «a blanc» avec des parametres fixes
arbitrairement, mais de fafon raisonnable; il est evidemment pmdent de demarter avec une norme plutot forte et un
poids plutSt faible. L'analyse des ecarts obtenus entre les
taux de solde migratoire issus de cette source et les taux
synthetiques permet de determiner une meilleure norme. On
peut alors adapter le poids en consequence, en se servant,
faute de mieux, d'une relation supposee de quasiproportionnalite entre le poids et 1'inverse du carte de la
norme. On peut evidemment iterer ce processus, en
modifiant egalement, le cas echeant, les parametres des
autres sources. Toutefois, les tests realises au niveau
departemental sur la periode 1982-1990 semblent montrer
que les performances globales du systeme sont assez peu
sensibles a des variations, meme assez importantes, des
poids «a priori"; il n'est done pas necessaire de determiner
ces poids avec une grande precision, ce qu'on ne pourta pas
faire, de toute fafon, avant le prochain recensement.
9. CONCLUSION
Le systeme d'estimation de population «multi-sources»
presente ici est robuste et souple, sans etre trop complexe.
D fonctionne avec un nombre variable de sources. On peut
y integrer une nouvelle source sans qu'il soit necessaire de
disposer d'une longue periode d'observation retrospective.
Les donnees abertantes sont deceiees automatiquement et
cortigees, de fa9on a ne pas perturber les estimations. Les
experimentations, encore peu nombreuses, qui ont ete
realisees conduisent a penser que ce systeme est efficace.
Apres une phase de mise au point et de rodage, il devrait
pouvoir etre utilise en production sans trop de risques, en
attendant les resultats du prochain recensement de la
population, prevu pour 1999.
Decaudin et Labat: Estimations locales de population en France
106
REMERCIEMENTS
Cet article est le fmit des reflexions et des travaux d'une
mission, animee par les auteurs, a laqueUe ont coUabore:
Xavier Berne, Michel David, Michel De Bie, Sophie
Destandau, Jacques Leclercq, Franfoise Lemoine,
Catherine Marquis, Marc Simon. La mission a beneficie de
I'aide de differents services de I'lNSEE. L'Unite
«Methodes statistiques* et notamment son chef, JeanClaude DeviUe, meritent tout specialement d'etre cites. Les
auteurs remercient egalement Philippe Ravalet pour son
apport theorique, ainsi que la Redaction de Techniques
d'enquete et les deux arbitres pour leurs commentaires
constructifs.
BIBLIOGRAPHIE
DECAUDIN, G., et LABAT, J.-C. (1996). Une methode synthetique,
robuste et efficace, pour realiser des estimations locales de
population. Document de travail de methodologie statistique,
n°9601, INSEE. Paris.
DESCOURS, L. (1992). Estimation de populations locales par la
methode de la taxe d'habitation. Actes des Journees de
methodologie statistique, 13 et 14 mars 1991, INSEE. Paris.
GUEGUEN, Y. (1972). Estimation de la population des villes
bretonnes au 1.1.1971. Sextant, n° 4. INSEE. Rennes.
de GUIBERT-LANTOINE, C. (1987). Estimations de population par
departement en France entre deux recensements. Population, 6,
881-910.
HOAGLIN, D.C., MOSTELLER, F., et TUKEY, J.W. (1983/
Understanding Robust and Exploratory Data Analysis. New
York: John Wiley.
LAURENT, L , et GUEGUEN, Y. (1971). Essai d'estimation de la
population des villes bretonnes. Sextant, n° 1. INSEE. Rennes.
LONG, J.F. (1993). Postcensal Population Estimates: States,
Counties and Places. Population Division. Technical Paper No 3.
U.S. Bureau of the Census. Washington DC.
STATISTIQUE CANADA (1987). Methodes d'estimation de la
population, Canada. N° 91-528F au catalogue. Ottawa.
107
Techniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 107-115
Statistique Canada
Une procedure adaptative d'estimation robuste du taux
d'evolution de I'investissement
PHILIPPE RAVALET*
RfiSUME
La presence d'observations extremes dans les donnees d'enquete est un probleme recurrent de la statistique appliquee
auquel I'enquete de I'lNSEE sur I'investissement industriel est aussi confrontee. La prevision du taux de croissance des
depenses d'equipement dans I'industrie se ramfene, de ce fait, h I'estimation robuste d'un total dans une population finie.
Dans une premiere partie, cet article analyse l'estimateur actuellement utilise dans I'enquete Investissement. Nous montrons
qu'il suit une strategic de reponderation de l'estimateur lineaire. Mais la dichotomic stricte imposee entre Ies points
extremes, tous supposes non representatifs, et les autres points n'est pas entierement satisfaisante d'un point de vue ^ la fois
theorique et pratique. L'adoption d'une approche modeiisec et I'estimation par les GM-estimateurs, appliques au cas d'une
population finie, permet de pallier ces defauts. Nous construisons ensuite une procedure adaptative robuste qui determine
l'estimateur approprie en fonction des residus observes sur I'echantillon lorsque ceux-ci peuvent etre supposes symetriques.
Enfin, cette methode est appliquee aux donnees de I'enquete Investissement sur la periode 1990-1995.
MOTS CLfiS: Enquetes de conjoncture; valeurs extremes; estimation robuste; GM-estimateur; procedure adaptative.
1. INTRODUCTION
Depuis 1952, I'lnstitut National de la Statistique et des
Etudes Economiques (INSEE) realise une enquete sur
I'investissement qui foumit des estimations previsionnelles
de revolution des depenses d'equipement dans I'industrie,
bien avant la publication des Comptes Nationaux et des
resultats d'enquetes exhaustives. L'estimation du taux de
croissance de I'investissement s'appuie sur les declarations
d'environ 2 500 chefs d'entreprise concemant leurs
depenses et intentions de commando en biens d'equipement.
La presence quasi systematique de valeurs extremes dans
ces donnees constitue une difficulte majeure. Celles-ci
peuvent en effet perturber gravement I'estimation du taux
de croissance moyen et conduire k des resultats inacceptables. Selon Chambers (1986), on peut distinguer deux
types de points exti-emes. Les points non representatifs
cortespondent soit k des erteurs de mesure, que I'on
s'efforce de corriger lors de la collecte des donnees, soit a
des individus uniques dans la population. A contrario, les
points extremes representatifs designent des individus
curieux mais qui ne peuvent etre consideres comme
exceptionnels. II en existe certainement de semblables dans
la population non intertogee et I'information qu'ils
contiennent doit etre integree dans I'estimation.
Le probleme pose ici s'identifie a celui de I'estimation
robuste d'un total dans une population finie avec information auxiUaire, probleme auquel la theorie n'apporte pas
de reponse definitive. Neanmoins diverses techniques,
revues dans Lee (1995), peuvent etre appliquees. La
methode d'estimation actuellement utilisee dans I'enquete
Investissement suit la logique de reponderation de
l'estimateur lineaire selon Hidiroglou et Srinath (1981).
Toutefois, r identification et le traitement des points
extremes ne sont pas entierement satisfaisants. En
particulier, tous les points exttemes sont supposes non
representatifs et la dichotomic entre points «normaux» et
points exttemes rend I'estimation tres sensible au choix de
ces demiers.
L'inttoduction d'un modeie Uneaire de superpopulation,
qui decrit revolution individuelle de I'investissement,
permet de mieux apprecier le caractere singulier d'une
observation et de definir son niveau de representativite.
Son estimation par les GM-estimateurs constitue alors une
alternative seduisante a la methode des moindres cartes
dont la propriete d'absence de biais est tres coflteuse en
termes de variance. Le reglage de la fonction de poids
depend a priori des caracteristiques de la population selon
des criteres maintenant bien decrits dans la litterature. Ces
caracteristiques pouvant changer d'une sttate k I'autte, mais
aussi au cours du temps, I'interet d'une procedure adaptative est evident. A partir d'une premiere estimation
robuste, on determine 1'allure de la distribution des residus,
puis on choisit I'estimateur a utiliser selon une regie
predefinie. Suivant Hogg, Bril, Han et Yul (1988), on
constmit une procedure adaptative s'appuyant sur des
indicateurs d'epaisseur de queue et de concentration
estimes sur I'echantiUon, I'asymetiie des residus n'etant pas
envisagee. Cette procedure est appUquee sur les donnees de
I'enquete Investissement pour la periode 1990-1995.
L'ESTIMATEUR DE L'ENQUETE
EWESTISSEMENT
2.1 Principe de Pestimation
Dans une population finie U {1, ...,A'^}, cortespondant
tci a une strate de I'enquete, on tire un echantiUon
Philippe Ravalet, Division des enquetes de conjoncture, INSEE, 15 Bd G. Peri, BP 100, 92244 MALAKOFF CEDEX.
Ravalet: Une procedure pour I'estimation du taux d'evolution de I'investissement
108
5 = {1,..., 77} de taille 77, et i" = {77 + 1, ...,N} designe la
population non intertogee. Chaque entteprise est intertogee
sur ses depenses d'investissement pour deux annees consecutives t- I et/,noteesrespectivementxety.
Connaissant le montant total X des investissements de
I'annee / - 1^ dans la population, on peut deduire de
I'estimation Y du total des investissements pour I'annee /,
le taux d'evolution moyen des depenses d'equipement entte
t- I ett:
Y-X
X
Pour simplifier les notations, on definit le parametre
0 = 1 + e = y/X, estime par 0 = Y/X.
L'estimateur actuellement utilise dans I'enquete de
I'lNSEE s'inspire de la methode du ratio, avec pour
information auxiliaire I'investissement realise en / - 1:
e
X
llYr
Cet estimateur peut s'ecrire comme un estimateur
lineaire pondere:
-H w,z,
(1)
Dans cette expression, w. =Xx./YsXj est le poids de
I'individu /et z. =y,/x. I'evolution annuelle de son investissement. Un tel estimateur sera sensible k la presence de
points extremes k la fois sur z et w. Un point atypique
presentera une evolution ztiesdifferente de celle des auttes,
tandis qu'un point influent aura un poids w suffisamment
important pour attirer, par effet levier, le taux d'evolution
moyen de la strate vers son propre taux d'evolution. Le
critere decisif pour qualifier une observation de point
extreme etant que le produit wz soit assez grand pour
perturber I'estimation 7.^^;^, la distinction entte points
atypiques et points influents est bien entendu arbittaire. Le
terme generique grands investisseurs (ou GI en abrege)
designera I'ensemble de ces points exttemes tandis que le
terme extrapolables fera reference aux auttes individus de
I'echantiUon.
Ayant realise une partition a posteriori de I'echantiUon
5 = {GI} u {extrapolables], on estime le total des investissements du reste de la population s" k partir du comportement des seuls individus exttapolables selon la methode du
ratio:
I'o,-
Selection des Grands Investisseurs
Les grands investisseurs sont choisis, au niveau de
chaque strate, en fonction de leur influence sur I'estimation
de 0 selon une procedure iterative. Pour commencer, les
individus sont tous supposes exttapolables et on calcuie
pour chacun d'eux un indice de non prise en compte,
mesurant I'irnpact sur 0 de son exclusion de I'echantillon,
NPEC = (7g, - Y^i)/X oO 7Q, est le total estime sans
I'individu i.
L'entreprise ayant le plus grand indice NPEC en valeur
absolue est declaree grand investisseur. On reestime alors TQ,
avec cette nouveUe partition de U, puis on identifie le grand
investisseur suivant. La selection s'intertompt des que tous
les individus extrapolables ont une influence sur I'estimation inferieure a un seuil donne. Cette condition est d'autant
plus facilement verifiee que le nombre et la masse des
observations sont importants. Inversement, elle se reveiera
impossible a realiser si le nombre d'individus est trop
faible; dans ce cas, le gestionnaire d'enquSte veille simplement a ce qu'aucun individu n'ait une influence beaucoup
plus grande que les autres, introduisant ainsi une dose de
subjectivite dans la procedure.
Par ce mecanisme iteratif, les phases habituelles de
detection et dettaitementdes points exttemes sont reaUsees
de fagon simultanee. La principale difficulte tient dans le
fait que le statut d'un individu n'est pas une qualite
intrinseque, mais depend de la composition de I'echantiUon.
Celui-ci peut changer d'une enquete k I'autre. En outre,
cette procedure peut conduire dans certains cas de figure
(Ravalet 1996) a exclure inutilement certains individus car,
a aucun moment, le statut de grand investisseur n'est remis
en question.
2.3 La strategic de reponderation de Pestimateur
lineaire
L'estimateur GI suit en fait de la strategic de reponderation de I'estimateur lineaire (1) presentee par
Hidiroglou et Srinath (1981) sur I'exemple de I'estimation
d'un total sans information auxiUaire. Ayant realise a priori
une partition s = 5, u Sj de I'echantiUon distinguant les
points extremes 5j (en nombre TI,) des auti:es observations jj,
les auteurs proposent de reduire, dans Y = (N/n) YsYi' ^^
poids M77 des points exttemes a une valeur plus faible X en
posant
y.^^HYi-
-llYi
n- n
soit
Yi
E.,^(E.)
2.2
(2)
{extra)
Dans (2), le poids des extrapolables 1 + EF-'^/^Eiextra)-*;
est bien strictement plus grand que celui des grands
investisseurs qui vaut 1.
Yx =
llyi*—-HYI
n- n I
•'2
n,{\-l)
—HYI'1
•'i
HYI
n- n 1
•'2
Techniques d'enquete, decembre 1997
109
La valeur optimale de X qui minimise I'ecart quadratique
moyen de cet estimateur, conditionnellement ou non au
nombre de valeurs exttemes dans I'echantiUon, est fonction
de plusieurs paramettes de la population. Sans information
a priori, le choix de X est deUcat.
Applique au cas de l'estimateur du ratio avec variable
auxiliaire x, cela s'ecrit:
ratio).
Z-^ •'i
s
3.1 Le modele lineaire et les GM-estimateurs
On suppose I'existence d'un modele lineaire ^ reliant
pour I'ensemble de la population U les investissements x et
y aux dates / - 1 et ^
avec
JLJ •*; y ^
^
3. ESTIMATION ROBUSTE PAR LES
GM-ESTIMATEURS
l^X.
E{e.) = 0
E{e.ej)=0
[HYI
lly\
(X-l)
H Xi E ^/
V{e.) = o\{x.)
E-,(^'
Les deux premiers termes du second membre de (3)
forment une estimation du total Y, sous I'hypothese
implicite que tous les points extremes sont dans rechantiUon, et le troisieme est une cortection tenant compte de la
presence eventuelle de tels points dans la population non
intertogee. Cette cortection est fonction du X retenu et de la
difference des comportements moyens entre les deux types
d'individus estimes sur I'echantiUon.
En rapprochant (2) et (3), on s'aper9oit que l'estimateur
GI est formeUement equivalent au cas X = I. L'utilisation
de fgj suppose done implicitement que les points exttemes
ont ete cortectement identifies et sont tous non representatifs. Dans Ravalet (1996), on a montre que ces deux
hypotheses etaient malheureusement rarement verifiees
dans le contexte de I'enquete Investissement.
La procedure d'identification etant manuelle et le critere
retenu relativement ad hoc en 1'absence de toute hypothese
sur la population, il n'est pas exclu que certains points
exttemes echappent a la selection. L'utilisation du ratio sur
les exttapolables pose alors le probleme de la robustesse de
I'estimation vis a vis du choix des grands investisseurs. En
outre, tous ces points ne sont vraisemblablement pas
uniques. Les points atypiques, particuUerement nombreux
chez les petites et moyennes entreprises, devraient plutSt
etre consideres comme representatifs. Toutefois, choisir
X > I introduirait immanquablement la question de la
robustesse du troisieme terme de (3).
Des modifications de I'estimateur JPQ, sont envisageables pour tenter de pallier ces defauts. La moyenne sur
les extrapolables peut ette par exemple remplacee par un
estimateur plus robuste et seuls les points non representatifs
sont declares grands investisseurs. Cette technique s'inscrit
dans le cadre plus general des M-estimateurs oil la donnee
d'un modeie faciUte k la fois le reperage et lettaitementdes
points extremes (Lee 1995). II ne s'agit plus alors de
proceder a une dichotomie stricte entre points extremes et
autres points mais de definir des zones de plus ou moins
grande representativite.
\/i*j,
La pente (3 de la droite de regression passant par I'origine
dans le modeie de superpopulation s'interprete comme le
taux d'evolution 0 dans la population. La variance dey est
supposee fonction croissante de x et T] est en general une
fonction puissance:r|(X;) =xj.
Sous le modele, le meilleur estimateur Uneaire sans biais
(Brewer 1963 et Royall 1970) du total est Y^^ = Z y, +
kXrXi^ou
P„, = (Lx,y,/ii(A:,))/(E,^,'/Ti(x,))-' est
I'estimateur des moindres cartes.
Dans le cas particulier r|(jc) =x, cette expression se
reduit a P^^ = E^y/Ej^/- estimateur du ratio. Cet estimateur sans biais n'est efficace que sous I'hypothese de
normalite des residus et se montre peu robuste.
Les M-estimateurs (Huber 1981) permettent de definir
une version robuste des moindres cartes en substituant k la
fonction carte, dans le programme de minimisation, une
fonction p croissant moins rapidement:
(yi- ^RXi]
MinE P
, ^\/n(^,
Le M-estimateur p^ est la solution de l'equation implicite:
Yi - Pfi^/
'I
H^ a^l^^
fO^
ou
V(0
dp{t)
dt
La fonction \)i, comme la fonction de Huber \|7(/) =
Max(- c, M.in{t, c)), depend d'une (ou plusieurs) constante
de reglage c conttolant la part des observations qui doivent
etre considerees comme points extremes. Cet estimateur
sera encore sensible k la presence de valeurs extremes sur
la variable explicative x. On definit alors une classe plus
generale d'estimateurs appeies GM-estimateurs (Hampel,
Ronchetti, Rousseeuw et Stahel 1986) par l'equation
impUcite:
Ravalet: Une procedure pour I'estimation du taux d'evolution de I'investissement
110
I
w
\\
Xi
1
[[ oV^(^,)J
'' ] V I,:oi v [^Hx^))) ^I^W)
avec
T". =
Yi - hXi
\/n(^
Un choix habituellement retenu est la forme de Mallows:
v(0 = 1 et w{t) = l/t. Un estimateur robuste P^ verifiera
done requation implicite
(
H^
-
\
yi-'^RXi
(4)
= 0.
, o/n(^^
En general, le parametre o est inconnu et doit etre
remplace dans cette expression par une estimation robuste d
de la dispersion des residus
i
Ev
i
ft
)
Yi - P«^/
i O^TlU,)J
= Ev
/
0.
I a
'estimateur du total sera finalement:
^p. = E Yi -P«E^h-
(5)
Cet estimateur est etudie par Gwet et Rivest (1992). En
general, il n'est pas sans biais par rapport au plan de
sondage. Chambers (1986) propose de cortiger ce biais en
introduisant dans (5) un troisieme terme qui I'estime de
fafon robuste:
Chambers
bomees, continues, equivalentes k I'identite au voisinage de
zero. On distingue habituellement les fonctions strictement
monotones (Huber) des fonctions redescendantes comme la
fonction bicartee de Tukey, le sinus d'Andrew et la
fonction de Hampel ou de Cauchy. Parce que leur fonction
d'influence tend vers zero, ces estimateurs seront moins
sensibles a la presence de points extremes que la fonction
de Huber. La vitesse de convergence vers zero est une
caracteristique essentielle des fonctions redescendantes.
Celles, nuUes k distance finie (Hampel, Tukey ou Andrew)
excluent les points extremes de I'estimation de P alors que
les auttes leur accordent une faible representativite.
Le choix et le reglage de la fonction \|/ sont deiicats. lis
dependent beaucoup de la nature des donnees et plus
precisement de la distribution des residus (Hoaglin,
Mosteller et Tukey 1983, chap. 11). Une idee, ne serait-ce
qu'approximative, de I'aUure de la disttibution des residus
devrait permettte de mieux cibler le choix et le reglage de
l'estimateur, done de rendre I'estimation plus efficace.
Cette remarque intuitive est a I'origine des procedures
adaptatives, presentees notamment par Hogg (1974) et
(1982). L'idee est d'apprecier la nature de la distribution
des residus, calcuies k partir d'une premiere estimation
robuste (du type norme Z,, par exemple), k I'aide
d'indicateurs robustes bien choisis (epaisseur de queue,
asymetrie, concenttation e/c). La donnee de ces indicateurs
permet alors de choisir, selon une regie de decision
predefinie, l'estimateur adapte k cette situation et on resout
l'equation imphcite (4) en prenant comme valeur initiale la
premiere estimation robuste de p.
Le principe d'une procedure adaptative apparait d'autant
plus seduisant qu'il systematise I'etude prealable necessaire
au choix et au reglage d'un estimateur. Celle-ci peut en
effet s'averer exttemement couteuse si elle doit ette realisee
manuellement pour chaque strate de I'echantiUon et
renouveiee k chaque enquete.
4.
E^'.-P^E-.x,/d^il(x.)
V£
Yi - hxi
, ^foo,
TXi
Choisir une fonction \\i^ bomee semble un bon
compromis entre biais et variance de l'estimateur. Par
exemple, Welsh et Ronchetti (1994) optent pour une
fonction de Huber avec une constante de reglage grande
c = 15. Mais le reglage de \|/g, sans information prealable
sur la densite des points extremes, est toujours deiicat.
3.2 Choix de I'estimateur
Les proprietes souhaitables des fonctions v|/ sont
desormais bien connues par reference au probleme de
I'estimation d'une tendance centtale. Celles-ci doivent etre
CONSTRUCTION D'UNE PROCEDURE
ADAPTATIVE
On decrit ici la constmction d'une procedure adaptative
pour le calcul du taux d'evolution moyen de I'investissement k partir des donnees de I'enquete de conjoncture.
Aussi certains choix ont-ils ete effectues sachant la nature
et les caracteristiques propres de ces donnees et ne sont pas
necessairement transposables k d'auttes modeles de
regression. En particulier, on a retenu, apres verification sur
les donnees, I'hypothese de symetrie de la distribution des
residus et exclu le cas de distributions a queue fine.
La constiiiction d'une procedure adaptative, qui s'inspire
des travaux de Moberg, Ramberg et Randies (1980),
s'effectue en plusieurs etapes. On choisit la fonction (ou
famille de fonctions) \\i a utiUser, puis on selectionne
I'ensemble des criteres servant a qualifier la distribution des
residus. La donnee de ces criteres permet la construction
d'une regie de classification. Enfin, a chaque classe est
associe le reglage de I'estimateur a utiliser.
Techniques d'enquete, decembre 1997
111
4.1 Choix de la fonction \|/
Les fonctions monotones du type Huber n'assurant pas
une protection suffisante centre les points extremes, seules
les fonctions redescendantes ont ete prises en consideration.
Parmi ceUes-ci, on a retenu les fonctions de Cauchy generalisee (utihsees notamment par Moberg et coll. 1980 pour
approximer les fonctions lambda generalisees) et bicartee
de Tukey:
"Voir)
cr
VT-
{b + r)'^ + c
et
c
Ces deux estimateurs se differentient nettement dans le
traitement des points exttemes (voir figure 1). La fonction
bicartee suit I'identite plus longtemps que la fonction de
Cauchy mais presente en revanche un point de rejet fini: les
residus au-del^ de c ' o n'interviennent pas dans
I'estimation alors que la fonction de Cauchy leur accorde
une certaine representativite. Le parametre b permet, en
principe, de conttoler P asymetrie de v|/ en fonction de celle
des residus.
Rivest (1989) montre sur quelques exemples que la
resolution du systeme (6) peut poser des difficultes en
raison d'une eventuelle multiplicite des solutions, meme
dans le cas d'une fonction \\t monotone. Suivant ses
recommandations, nous procedons en deux etapes. Dans un
premier temps, le paramette de dispersion o est estime k
i'aide de la mediane des valeurs absolues (MAD) des
residus definis k partir de la mediane des taux d'evolution
individuels. Ensuite p est calcuie par (4) en utiUsant la
valeur de a trouvee precedemment.
Pour la resolution de (4), nous avons prefere I'algoritiime
de reponderation a I'algorithme de Newton-Raphson, car il
semble converger plus facilement, notamment lorsque la
constante de reglage est petite.
L'efficacite d'une procedure adaptative reposant sur
celle du processus decisionnel, la plus grande attention doit
etre portee sur la nature, la qualite et la robustesse des
informations commandant le choix de I'estimateur.
L'epaisseur de queue est un indicateur indispensable car
elle renseigne sur I'importance relative des points extremes
dans I'echantiUon, done dans la population (voir Hoaglin
et coU. 1983, chap. 10). On a retenu comme indicateur
d'epaisseur de queue la proposition de Hogg (1974):
^{p)
_
_U{p)-L{p)
U{0,5) - L{0,5)
^ ^
U{p) (resp. L{p)) est la moyenne des np plus grandes
(resp plus petites) statistiques d'ordre, en utiUsant une
interpolation lineaire lorsque np n'est pas entier. On a
choisi p = 0,05; pour la loi normale T(,05) vaut 2,59.
De plus, il nous a sembie important, comme Hogg et coll.
(1988), de tester la presence eventuelle d'une distribution
du type double exponentielle, en mesurant la concentration
des residus par I'indicateur pk suivant:
1ukey(c-8j
/
CBUcby(c-6.tmO)
^
/
\
^ \
p,l-a)-X(a,p)
;r(0,5, l - p ) - X ( p , 0 , 5 )
pk-m
Figure 1. Fonction de Cauchy et de Tukey
4.2 Parametre d'echelle, algorithme de calcul et
criteres de selection
De fa9on generale un estimateur d de dispersion est
defini par une equation implicite XxC'',/^) = 0, oii % est une
fonction paire. H s'agit done de resoudre le systeme
d'equations non lineaires en (P, d) suivant:
(6)
,^\/n^),
oil X{a, b) est la moyenne des statistiques d'ordre entre la
77a-ieme et la 77A-ieme, avec des grandeurs interpoiees si 77a
ou nb ne sont pas entiers. On a retenu a = 0,05 et p = 0,15,
soit/7^ = 2,7 pour une distribution normale.
Enfin, des etudes (Moberg et coll. 1980, Hogg et coll.
1988) ont souligne I'importance de la dissymetrie des
distiibutions. En effet, en presence de residus asymetriques,
le biais des estimateurs robustes peut ette important,
rendant ainsi leur utilisation delicate (Chambers et Kokic
1993). Dans I'enquete Investissement de I'lNSEE, les
residus sont theoriquement asymetriques puisque minores
(7-=y-Px ^ - Px). Toutefois, nous avons constate
empiriquement que cette asymetrie etait tres legere et
qu'eUe pouvait ette negligee sans dommages. L'echec de la
correction d'un eventuel biais par la fonction \|/g dans
Ravalet: Une procedure pour I'estimation du taux d'evolution de I'investissement
112
l'estimateur de Chambers, de plus, confirme cette observation. Seul le cas symetrique est considere ici; le biais des
estimateurs definis par (5) est nul par consequent.
X
Cauchy
J
4.3 Classification des distributions et reglage de
Pestimateur
La definition de la regie de decision s'est appuyee sur
I'etude de huit distributions symetriques particulieres
illusttant diverses situations d'epaisseur de queue et de
concenttation (voir tableau 1). La famille des distributions
contaminees CN{a,K), de fonction de repartition
F{x) = {l- a)0{x) + aO{x/K) ou O est la fonction cumulative de la loi A^(0,1), nous a para interessante car ces lois
donnent une bonne representation de donnees reelles
(Hoaglin et coll. 1983 chap. 10) et notamment celles de
I'enquete investissement (Ravalet 1996). Gaussienne en
leur milieu, elles contiennent neanmoins plus d'observations extremes que la loi normale A^(0,1).
Tableau 1
Huit distributions particulieres
pk
T(.05)
1
loi normale
2,59
2,76
2
loi contaminee CA'^(.05,3)
2,94
2,83
3
loi double exponentielle
3,28
3,41
4
loi contaminee CN{.05,10)
4,47
2,85
5
loi contaminee CM. 10,10)
5,42
3,05
6
loi contaminee CN(.10,10)
5,64
4,44
7
loi Slash
7,65
4,19
8
loi de Cauchy
7,82
4,78
Les deux indicateurs T(0,5) etpk, ont ete simuies sur ces
huit lois, et ce, pour plusieurs failles d'echantiUon. Le
graphe de {x{0,5),pk) permet de distinguer quatre groupes
de distiibutions: les distiibutions a queue peu epaisse et peu
concentree du type loi normale ou CN{,05, 3), les distributions k queue epaisse du type CA^(,05,10), CA^(,10,10),
et CA^(,20,10), puis les distiibutions a queue tres epaisse du
type Slash et Cauchy, et enfin les distributions concenttees
comme la loi double exponentielle. Ces quatre classes sont
definies (voir figure 2) par les frontieres d'equation:
Classe I:
T(0,5)^3,6-—
•
Classe rV
CN(.20.IO)
X
Slash
Classe 11
Classe III
3.5 •
Doublt txp.
X
CN(. 10.10)
Classe I
CNf.OS.IO)
Ct(.0S.3)
Gausj
LJ
Epaisseur de queue
Figure 2. Quatre classes de distributions
L'ultime etape consiste k fixer le reglage des deux estimateurs dans chaque classe. Puisque I'on ne s'interesse
qu'au cas symetrique, le paramette b de la fonction de
Cauchy est nul. Par simulations, on a determine pour les
huit lois de reference les constantes c optimales des
fonctions de Tukey et de Cauchy {le., minimisant la
variance de ces estimateurs ou, ce qui revient au mSme ici,
leur ecart quadratique moyen). Celles-ci diminuent bien
avec I'epaisseur de queue, si Ton excepte naturellement le
cas de la loi double exponentielle qui requiert un reglage
voisin de ceux utiUses pour les lois Slash et Cauchy.
L'estimateur de Tukey est plus efficace sur les lois
normale ou contaminees, mais il necessite en general un
reglage plus fin. La figure 3 montre I'exemple de la loi
contaminee CN{,10,10). Enfin, si le choix de la constante
apparait relativement critique pour les lois k queue epaisse
ou concenttees, une large bande de valeur est envisageable
pour les lois proches de la normale.
— Tukey
g
lojs
et pk^ 3,20
'
n
\
'
\ ^ _ \
Classe n:
"^^
77
0
Classe m:
5 , 8 - — < x (0,5)
T(0,5)
<; 3,6 - —
77
2
3
- ^
4
3
6
7
B
9
10
II
12
13
U
15
Constante de reglage
77
ClasseIV:
1
^
___—-3»
3,6 - — < T(0,5) ^ 5,8 - —
77
Cauchy
et pk> 3,20.
Figure 3. Variance des estimateurs de Tukey et de Cauchy pour la
loi C M . I O , 10) (77=100)
Techniques d'enquete, decembre 1997
113
La synthese de ces resultats permet de definir les
reglages k employer sur chaque classe de distribution. Ces
reglages, etablis pour des echantillons de taille 100
(tableau 2), restent tout a fait acceptables pour des
echantiUons dont la taille est comprise entre 50 et 150.
Tableau 2
Reglage des estimateurs selon la classe des
distributions des residus (n = 100)
Classe
Tukey
1
7
7
II
4,5
4
III
3
1
IV
3
1
Cauchy
5. APPLICATION A L'ENQUETE
INVESTISSEMENT
5.1 Le probleme de la stratification
Les sttates utilisees pour I'estimateur GI sont definies
par le croisement d'une activite (18 secteurs manufacturiers) et d'une tranche de taille d'entreprise (petites,
moyennes et grandes). Parmi ces 54 sttates, une vingtaine
environ ne regroupent jamais plus de vingt observations.
Cette stratification est done ttop fine pour I'utilisation
cortecte de la procedure adaptative qui suppose un nombre
minimal d'observations.
Comme les petites entreprises se distinguent assez
nettement des moyennes et des grandes, en termes de
dispersion et d'epaisseur de queue des residus, on conserve
la differentiation par taille. Des secteurs doivent done etre
regroupes. La methode, utiUsee par Sohre (1995), qui
consiste k regrouper apres la collecte des donnees les
secteurs ayant des parametres (ici revolution moyenne de
I'investissement) les plus proches, n'a pas ete retenue. La
proximite est en effet impossible a apprecier sur de petites
strates et les regroupements obtenus sont susceptibles de
changer d'une enquete a I'autre, rendant les comparaisons
difficiles. Nous avons prefere redefinir 15 nouvelles strates
k partir d'un niveau de nomenclature superieur distinguant
quatre secteurs seulement: biens intermediaires, biens
d'equipement professionnel, automobile et biens de
consommation.
5.2 Caracteristiques des strates
L'hypothese d'une variance des residus independante de
X dans le modeie ^ ne peut ette acceptee. Le choix de y dans
la fonction r\ s'effectue de fafon a ce que la courbe des
residus (en valeur absolue) en fonction du regresseur, Ussee
par la methode du LOESS, ne presente pas de tendance
(Cleveland 1979). Pour la strate - biens intermediaires,
taille moyenne - a I'enquete d'avril 1995 (voir figure 4),
Y = 1,3 est un compromis acceptable entre I'apparition
d'une tendance k la baisse pour les x perils et I'annulation
de la tendance a la hausse pour les plus grandes valeurs de
X. Un examen similaire sur les autres strates a confirme ce
choix pour I'ensemble de I'industrie manufacturiere.
Dans chaque strate, la distribution des residus apparait
systematiquement k queue plus epaisse que la loi normale,
sans etre a queue tres epaisse. Dans un meme secteur
d'activite, l'indice d'epaisseur de queue decroTt avec la
taiUe des entteprises. La grande majorite des strates
representant les petites et moyennes entreprises ont ete
affectees dans la classe 2. Les grandes entreprises
presentent plus souvent des distributions de residus k queue
peu epaisse, proches soit de la loi normale (classe 1), soit de
la loi double exponentielle (classe 4). La classe 2 est
largement majoritaire et represente 75 % des cas. Seulement
20 % des distributions sont reconnues k queue peu epaisse
et affectees en proportions egales dans les classes 1 et 4. En
revanche, les distributions k queue tres epaisse (classe 3)
sont exceptionnelles (moins de 5 % des cas). S'il semble
exister une certaine remanence de la classification, celle-ci
n'est pas parfaite. Et les changements sont bien reels
puisqu'ils resistent a une legere modification des frontieres
entte les classes. Ceci justifie done parfaitement I'utilisation
d'une procedure adaptative.
Figure 4. Valeur absolue des residus (y = 1,3, biens intermediaires
taille 2, Avril 95)
5.3 Les estimations realisees
La procedure d'estimation basee sur (5), appliquee aux
six enquetes couvrant la periode 1990-1995, a donne les
resultats portes sur la figure 5. On y trouvera aussi les
estimations de la Comptabilite Nationale, celles obtenues
par I'estimateur GI ainsi que celles calcuiees issues de
I'Enquete Annuelle d'Entteprise (E.A.E) qui est exhaustive.
Sur I'ensemble de I'industrie manufacturiere, les
resultats de la procedure adaptative sont comparables k
ceux de I'estimateur GL La fonction bicartee conduit k des
estimations toujours inferieures a celles obtenues avec la
fonction de Cauchy. Avec un point de rejet fini, la fonction
de Tukey est en effet moins influencee par la legere
Ravalet: Une procedure pour I'estimation du taux d'evolution de I'investissement
114
asymetrie vers la droite de la distribution des residus. Par
ailleurs, ces nouvelles estimations se rapprochent plus de
ceUes de 1'E.A.E que des Comptes Nationaux. Ceci n'est
guere tres surprenant vu I'excellente corteiation entre les
donnees individuelles de I'E.A.E et les reponses obtenues
k I'enquete. Les ecarts en 1991 et 1994 par rapport aux
comptes demeurent pour 1'instant inexplicables. En dehors
de I'annee 1994, les estimations obtenues avec la fonction
de Cauchy sont tout k fait acceptables dans les secteurs des
biens intermediaires, de 1'automobile, et dans une moindre
mesure des biens d'equipement professionnel. En revanche,
dans les biens de consommation, les resultats sont assez
eioignes des Comptes Nationaux. On se heurte ici vraisemblablement a un probleme de qualite de I'echantiUon. Ce
secteur est tres heterogene et quelques activites comme
I'imprimerie sont mal couvertes par I'enquete.
principes decrits dans la litterature, la procedure proposee
ici utilise des indicateurs d'epaisseur de queue et de
concentration des residus du modeie lineaire calcuies sur
rechantiUon, pour decider du reglage de la fonction de
poids k utiliser, les residus etant supposes par ailleurs
symetriques. Les estimations realisees avec la fonction de
Cauchy ont donne des resultats satisfaisants sur I'industrie
manufacturiere et vaUdent largement celles dej^ publiees.
Les avantages de cette methode par rapport k celle utilisee
actuellement s'expriment pour I'essentiel en termes de
cotits de mise en oeuvre et d'une plus grande maitrise de la
methodologie employee.
La procedure adaptative a ete construite independamment de I'enquete. Aussi I'optimalite de la classification par rapport au contenu des strates n'est pas garantie.
Par aiUeurs, nous n'avons pas etudie la robustesse de la
regie d'affectation a une classe. Cette question est importante lorsque I'on effectue plusieurs mesures successives et
I'on desire en interpreter les revisions. A Pevidence,
d'auttes recherches sur ces methodes de classification sont
necessaires, pour integrer, par exemple, I'information livree
par les estimations precedentes ou les enquetes exhaustives
sur la population etudiee.
REMERCIEMENTS
L'auteur tient a remercier Michel Hidiroglou et
Dominique Ladiray pour leurs commentaires et suggestions
lors de I'elaboration de cet article.
I Compte&o- Cauchy -Q- Tukey
1990
1991
1992
1993
[ ^ GI
1994
^
EAE
1995
Figure 5. Taux de croissance de I'investissement en valeur
dans I'industrie manufacturiere
6.
CONCLUSIONS
Cet article presente une justification theorique de la
procedure actuellement utiUsee pour depouiller i'enquete
Investissement, et notamment du principe d'exclusion des
points exttemes ou grands investisseurs. Toutefois la
strategic de reponderation de I'estimateur lineaire a la
Hidiroglou et Srinath (1981) presente ici des insuffisances,
liees pour I'essentiel a 1'identification et au ttaitement des
points exttemes representatifs. La dichotomie entre individus extrapolables et grands investisseurs apparait trop
radicale et conduit a un manque de robustesse, puisque la
courbe d'influence de cet estimateur n'est pas continue.
En revanche, I'hypotiiese d'un modeie lineake de superpopulation et son estimation par les GM-estimateurs nous
ont sembie etre d'un grand interet methodologique et
pratique. L'insertion de ces techniques au sein d'une procedure adaptative permet, de plus, de disposer d'un estimateur
robuste pour un ensemble varie de situations. Suivant les
BIBLIOGRAPHIE
BREWER, K.R. (1963). Ratio estimation and finite population: some
results deducible from the assumption of an underlying stochastic
process. The Australian Journal of Statistics, 5,93-105.
CHAMBERS, R.L. (1986). Outiier robust finite population
estimation. Journal of the American Statistical Association, 81,
1063-1069.
CHAMBERS, R.L., et KOKIC P.N. (1993). Outiier robust sample
survey inference. Bulletin de I 'Institut International de Statistique,
actes de la 49ihme session, livraison 2, 55-72.
CLEVELAND, W.S. (1979). Robust locally weighted regression and
smoothing scatterplots. Journal of the American Statistical
Association, 74, 829-836.
GWET, J.P., et RIVEST, LP. (1992). Outiier resistant alternatives to
the ratio estimator. Journal of the American Statistical
Association, 87,1174-1182.
HAMPEL, F.R., RONCHETO, E., ROUSSEEUW, P.J., et STAHEL,
W.E. (1986). Robust Statistics: The Approach Based on Influence
Function. New York: John Wiley.
HIDIROGLOU, M.A., et SRINATH, K.P. (1981). Some estimators
of the population total from simple random samples containing
large units. Journal of the American Statistical Association, 76,
690-695.
Techniques d'enquete, decembre 1997
115
HOAGLIN, D.C., MOSTELLER, P., et TUKEY, J.W. (1983).
Understanding Robust and Exploratory Data Analysis. New
York: John Wiley.
HOGG, R.V. (1974). Adaptive robust procedures: a partial review
and some suggestions for future applications and theory. Journal
of The American Statistical Association, 69, 909-923.
RAVALET, P. (1996). L'estimation du taux d'evolution de I'investissement dans I'enquete de conjoncture: analyse et voie
d'amelioration. Document de travail de I'lNSEE Methodologie
Statistique, 9604.
inferences.
RIVEST, L.P. (1989). De I'unicite des estimateurs robustes en
regression lorsque le paramfetre d'echelle et le parametre de
regression sont estimes simultanement. La Revue Canadienne de
Statistique, 17, 141-153.
HOGG, R.V., BRIL, G.K., HAN, S.M., et YUL, L. (1988). An
argument for adaptive robust estimation. Probability and
Statistics: Essays in Honor of Franklin A. Graybill. Amsterdam:
North-HoUand/Elsevier, 135-148.
ROYALL, R.M. (1970). On finite population sampling theory under
certain linear regression models. Biometrika, 57,377-387.
HUBER, P.J. (1981). Robust Statistics. New York: John Wiley.
SOHRE, P. (1995). The Adaptive KOF Procedure for the Estimation
of Industry Investment. 22nd CIRET Conference, Singapore.
HOGG, R.V. (1982). On adaptive statistical
Communication in Statistics, 11, 2531-2542.
LEE, H. (1995). Outliers in business surveys. Dans Business Survey
Methods. New York: John Wiley.
MOBERG, T.F., RAMBERG, J.S., et RANDLES, R.H. (1980). An
adaptive multiple regression procedure based on M-estimators.
Technometrics, 11, 213-224.
WELSH, A.H., et RONCHETTI, E. (1994). Bias-Calibrated Estimations of Totals and Quantiles from Sample Surveys Containing
Outliers. Rapport Technique, Department of Econometrics,
University of Geneva, Switzerland.
Techiniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 117-126
Statistique Canada
117
Tirage et maintenance d'un panel stratifie de taille fixe
F. COTTON et C. HESSE'
RESUME
Les offices statistiques constituent souvent leurs panels d'entreprises par tirages de Poisson, ou par tirages stratifies de taille
fixe et h probabilites uniformes dans chaque strate. A ces tirages correspondent des algorithmes utiUsant des numeros
permanents suivant une loi uniforme. Comme les caracteristiques des unites evoluent, il est necessaire d'effectuer
periodiquement des retirages tout en cherchant h. conserver le maximum d'unites. La solution par tirage de Poisson est la
plus simple et donne le recouvrement theorique maximal, mais avec I'inconvenient d'une taille aleatoire de I'echantillon.
Par contre, dans le cas du tirage stratifie de taille fixe, les changements de strates occasionnent des difficultes venant
justement de ces contraintes de taille fixe. Une premiere difficulte est qu'on diminue le recouvrement, d'autant plus que
la stratification est fine. Or c'est ce qui risque de se produire si les naissances constituent des strates k part. On montre
comment le fait de rendre equidistants les numeros avant les retirages peut servir k corriger cet effet. L'inconvenient, assez
faible, est que dans chaque strate le tirage n'est plus un tirage aleatoire simple ce qui rend moins rigoureuse I'estimation
de la variance. Une autre difficulte est de concilier le retirage avec une rotation eventuelle des unites dans I'echantiUon.
On presente un type d'algorithme qui prolonge apres retirage la rotation avant retirage. II est base sur des transformations
des numeros aleatoires servant aux tirages, de fafon h se ramener au retirage sans rotation. Ces transformations sont
particulierement simples quand elles portent sur les numeros equidistants, mais peuvent aussi se faire avec les numeros
suivant une loi uniforme.
MOTS CLES: Panel; tirage stratifie de taille fixe; tirage aleatoire simple stratifie; recouvrement maximal; rotation de
I'echantillon; numeros equidistants.
1. INTRODUCTION
On considere les tirages successifs d'echantiUons
destines a suivre dans le temps revolution de sommes de
variables, plus generalement de fonctions de sommes, dans
une population. Par exemple, il s'agit d'une population
d'entreprises ou d'etablissements dont on veut suivre
revolution mensuelle des ventes. L'ideal serait de pouvoir
conserver un echantiUon constant, mais des mouvements
demographiques I'empechent et on peut ne pas le souhaiter,
compte tenu de la charge que supportent les enquetes.
Les methodes de selection des unites presentees dans cet
article sont soumises aux trois contraintes suivantes.
Premierement, il est necessaire d'introduire reguUerement les naissances et de tenir compte des morts.
Deuxiemement, le tirage fait intervenir des caracteristiques evolutives d'unites, comme la taille ou I'activite
principale d'entreprises. Ces caracteristiques peuvent servir
k moduler les probabilites d'inclusion. Notamment, il est
souvent judicieux de faire croitre ces probabilites avec la
taille des unites si I'on estime des sommes de variables
corteiees avec cette taille. De plus, ces caracteristiques
peuvent intervenir comme criteres eventuels de stratification. Dans cet article, une strate signifiera un sousensemble de la population a I'interieur duquel le tirage est
a taille fixe, a un arrondi pres. Or les criteres ayant servi k
la stratification du premier tirage deviennent «inexacts»
comme I'activite principale de I'unite, ou de moins en
moins corteies avec les variables d'interet comme la taille.
II s'ensuit une augmentation progressive de la variance des
estimations. Pour y remedier, il convient de faire de temps
en temps un retirage de I'echantiUon apres avoir mis ^ jour
la stratification et calcuie de nouvelles probabilites
d'inclusion. Ceci doit etre fait en essayant de conserver un
maximum d'unites. Mais, fatalement, des unites seront
ecartees et d'autres seront introduites, principalement k
cause des changements de probabilites d'inclusion. Mais
cela arriverait aussi du fait des changements de sttates,
meme si les probabilites d'inclusion restaient constantes.
Troisiemement, on souhaite repartir les charges d'enquetes sur un plus grand nombre d'unites. On se fixe une
duree Umite d'inclusion dans le panel. Au-dela I'unite est
remplacee par une autre choisie parmi celles qui n'y ont
jamais ete, ou qui sont les plus anciennes k en etre sorties.
On appelle rotation cette evolution de I'echantiUon. Elle est
generalement lente et reguUere. Les differentes methodes
pour effectuer cette rotation sont bien connues dans les
offices statistiques. Elles consistent principalement k
attribuer, des le depart, un numero aleatoire permanent a
chaque unite de la population. Les echantiUons successifs
sont definis par des intervalles sur ces numeros ou sur les
rangs induits par ces numeros.
On appelle «panel» la suite chronologique des echantillons
resultant de ces operations de mise a jour, et maintenance du
panel I'ensemble des operations de mise ^ jour.
Le schema de maintenance presente dans cet article est
analogue k celui de Hidiroglou, Choudhry et Lavaliee
(1991). II cortespond k une frequence de mise k jour de la
' F. Cotton, Institut National de la Statistique et des Etudes feonomiques, Departement de I'lnformatique et C. Hesse, Institut National de la Statistique et des
feudes Economiques, Departement "Systeme Statistique d'Entreprises», 18 boulevard Adolphe-Pinard, 75675, Paris, Cedex 14.
118
Cotton et Hesse: Tirage et maintenance d'un panel stratifie de taille fixe
stratification et des probabilites beaucoup plus faible que la
frequence d'intertogation. Cela est generalement le cas
pour des enquetes a periodicite infra-annuelle. La vitesse
des mouvements demographiques n'est pas jugee assez
grande pour qu'il soit opportun de retirer I'echantiUon a
chaque occasion. La rotation se fait sans changement des
probabilites d'inclusion et des sttates entte deux retirages et
elle est etaiee reguUerement dans le temps pour garder une
certaine continuite k la quaUte des estimateurs d'evolution.
Cela cortespond aussi a une duree d'inclusion dont
I'esperance est constante. Dans certains algorithmes, on
pourta se fixer une duree constante entre deux retirages;
sinon on pourta la bomer superieurement. La vitesse de
rotation traduit un compromis entre l'efficacite des estimateurs d'evolution, d'autant plus grande que le taux de
renouvellement est faible, et le souci de ne pas garder une
unite ttop longtemps dans le panel. Notons que la recherche
d'un recouvrement maximal au retirage garde un sens avec
la rotation: on retranche d'abord la fraction a renouveler
comme s'il n'y avait pas retirage, puis on cherche le
recouvrement maximal avec la partie residuelle.
Nous examinerons plusieurs methodes de maintenance
de panel en priviiegiant la maximisation du recouvrement
des echantillons lors des retirages. Nous distinguerons plus
particulierement un precede qui assigne des numeros
equidistants aux unites avant chaque changement de strate.
L'article est divise comme suit:
Apres avoir rappeie des definitions et pose quelques notations a la section 2, on indique brievement k la section 3
comment letiragede Poisson permet de realiser simplement
et parfaitement le schema precedent de maintenance. Ce
tirage a I'inconvenient d'ette de taille aleatoire, mais il sert
de reference pour les tirages sttatifies de taille fixe que I'on
considere ensuite.
Le plus souvent, dans ces tirages, on se fixe au depart
des probabilites d'inclusion et on precede a un artondi pour
determiner une taille entiere de I'echantiUon dans chaque
strate. Ce probleme, traite a la section 4, n'est pas negligeable quand les strates sont petites, ce qui peut arriver
pour des strates de naissances. De plus I'artondi intervient
dans la methode qu'on propose pour maximiser le recouvrement apres retirage.
La section 5 traite du recouvrement maximal d'echantiUons de taille fixe. On rappelle d'abord deux methodes
connues: celle de Kish et Scott (1971) et une autre basee
sur I'attribution de nombres permanents independants
suivant la loi uniforme a chaque unite. La methode de Kish
et Scott (1971) ne parait guere adaptee k une rotation
intermediaire entte retirages. L'autte methode qui reproduit
des tirages aleatoires simples dans chaque sttate n'a pas cet
inconvenient, mais le recouvrement est plus faible qu'avec
la methode de Kish et Scott (1971). Finalement on propose
que les numeros soient equidistants avant retirage. On
obtient alors le meme recouvrement qu'avec la methode de
Kish et Scott (1971) au moins dans le cas de la repartition
proportionnelle, tout en facilitant les rotations intermediaires. Cependant le recouvrement reste inferieur au
recouvrement theorique maximum que I'on obtient, par
exemple, avec le tirage de Poisson.
Dans les sections 6 et 7 on presente les phases intermediaires de mise a jour des naissances et des morts et de
rotation.
Pour en terminer avec la maintenance, on montre k la
section 8 comment le retirage peut s'inserer entre deux
phases de rotation. On presente un type d'algorithme qui
prolonge apres retirage la rotation avant retirage. II est base
sur desttansformationsdes numeros aleatoires servant aux
tirages, de fagon k se ramener au retirage sans rotation. Ces
transformations sont particuUerement simples quand elles
portent sur les numeros equidistants, mais peuvent aussi se
faire avec les numeros uniformes de depart si on veut
continuer avec des tirages aleatoires simples.
2. RAPPELS, DEFINITIONS ET NOTATIONS
Soit une population, ou ensemble fini d'unites
ieU= {I,..., N] oil A^ est la taille de la population.
On ne considere que des echantillons sans remise. Un
echantiUon est alors simplement un sous-ensemble s de U.
On appelle taille de I'echantiUon le nombre n d'unites qu'il
contient.
Un plan de sondage ou tirage est une probabilite discrete
p{s) sur I'ensemble des echantillons.
On peut generaliser a des tirages conjoints de plusieurs
echantillons. En se Umitant a deux echantiUons 5,, jj, le
tirage conjoint est la probabilite/?(5j, Sj) sur I'ensemble des
couples (5p ^2).
La probabilite d'inclusion du premier ordre d'un individu
/ est definie par:
T^i=12p(s)s^i
£(.)etant I'esperance eu egard au sondage, on a:
E{n) =
'£n..
ieU
Dans le cas de deux echantillons avec les probabilites
d'inclusion du premier ordre 71/1,71,2' ^^ P^"^ definir la
probabilite d'inclusion conjointe:
^i,l,2= E
PiSvS2)-
On a la contrainte:
^i,i,2 ^ minKi- Jt,.2)-
(2.1)
Si ies^, la probabilite de reprise dans Sj est
7t,,2/7t,-, ^rrdn{l,n.2/n.j).
ban's le tirage de Poisson, les tirages des unites sont
independants et la taille de I'echantiUon est aleatoire. Sauf
k la section 3, on va plutSt considerer des tirages dont la
taille est fixe a un artondi pres.
Le tirage aleatoire simple (TAS) est un tirage de taille
fixe oil les echantillons sont equiprobables. Cela entraine
ji, = n/N.
Techniques d'enquete, decembre 1997
On effectue une partition de la population en strates
Uf^,h = l,..., H de tallies A^^. Dans cet article, on appellera
tirage stratifie de taille fixe un ensemble de H tirages
independants de taille fixe n^ dans chaque strate et on se
limitera k des tirages k probabilite d'inclusion du premier
ordre uniforme dans chaque strate. On utilisera alors la
notation /^ = n.. On appellera tirage aleatoire simple
stratifie (TASST) un tirage stratifie de taille fixe avec des
tirages aleatoires simples dans chaque strate.
On appelle duree d'inclusion d'une unite le nombre
d'enquetes consecutives ou elle figure dans le panel. On la
notera £)., ou D^ dans le cas particulier oti elle est la meme
pour toutes les unites d'une strate h. Quand TC. ^ 0,5, cette
duree ne peut pas ette inferieure a 71^(1 - ir^.). Par exemple,
si •K. = 0,7, la duree d'inclusion est d'au moins 3. En
pratique on ne ferait pas subir de rotation aux unites dont le •K.
depasse un certain seuil.
Les variables precedentes sont en plus indicees par la
vague d'enquete t. La population U^ de taille A^, et
I'echantiUon s^ de taille «, varient a cause des naissances
et des morts, et I'echantillon varie aussi par la rotation
qu'on s'impose. D'autre part, on va considerer les
echantillons aux epoques particulieres t = t^ du premier
tirage et / = /j du premier retirage. Pour alieger, ils seront
notes 5j, ^2 au lieu de s^,s^. Les algorithmes decrits pour
le couple (isj, jj) seront valables pour les couples suivants
de retirage.
3.
LA SOLUTION PAR LE TIRAGE DE POISSON
II est edairant d'examiner comment on peut observer le
schema de maintenance du panel par tirage de Poisson.
C'est le modeie dont on va chercher k se rapprocher afin de
choisir une methode de selection.
On attribue a chaque unite /, des sa naissance, un numero
qui est un nombre aleatoire ta. tire selon la loi uniforme
dans [0,1). H est sous entendu dans les formules oii
apparaissent ces nombres que les resultats des operations
sont modulo 1.
Au premier tirage, a la date t = t^, on selectionne les
unites telles que co. appartienne k I'intervalle [0, TI. j) oii
•K. J sont les probabilites d'inclusion que I'on se donrie. En
1'absence de rotation, on conserve cet intervalle aux dates
suivantes jusqu'au retirage. Les naissances ainsi que les
morts se repartissent au hasard dans cet intervalle. Le
retirage, k la date / = ?2 se fait en seiectionnant les unites de
I'intervalle [0,11.2) oil 7t.2 sont de nouvelles probabilites
d'inclusion. La probabilite d'inclusion conjointe est egale
k la longueur de I'intervalle commun, soit min(7i; j , n^.j) ce
qui est le maximum theoriquement possible d'apres la
formule (2.1). L'esperance du recouvrement est done eUememe maximale.
Considerons maintenant une rotation entte le tirage et le
retirage. On maintient la probabilite 7t^. j et on peut se fixer
une duree d'inclusion D.,, variable selon les unites, mais
fixe jusqu'au retirage. Cette contrainte est realisee en
definissant I'echantiUon a la date /(/, </<?2) par
I'intervalle
119
co,e[(/- t,)n.,/D.,,
{t- /,)7t.,/£>., + TC.,).
Le taux de rotation est une variable aleatoire. Son
esperance resulte des D. j . Elle est egale, pour un sous
ensemble quelconque ' V de la population, k
lievKi'^i.i^'^iev^^i.y
Au premier retirage a la date / = /j, on pourtait definir
I'echantiUon par
®,^ [(^2 - 'i)'^,.t/A,i. (^2 - U)\ilE>i,i + \2)Toutefois, on tombe sur une difficulte pour les unites
telles que
%<'t,.i 1
1
D i,l
et si CO. appartient a I'intervalle
W
(^2- ^)7t,./A.i ^\v
^h-h)\il^i,i
^hi
D 1,1
Ces unites qui etaient precedemment dans I'echantillon
le quittent, mais vont s'y rettouver k une prochaine rotation.
Si on veut I'eviter, il faut faire coiricider I'extremite du
nouvel intervaUe avec celui de I'ancien, et I'echantiUon k la
date / = ^2 est finalement defini par:
«>/^[«,,t'«,.l*\2)'
ou:
^u = (h ~ h^\i'E>i,i + max 0,7C,,
D,
-
\2
La probabilite d'inclusion conjointe est egale k la
longueur de I'intervalle en commun, soit
/
min
/
1
1
.Jt,',2
D,i.l
C'est aussi le maximum compatible avec la rotation.
Si on poursuit la rotation avec des durees d'inclusion
D^2 I'intervalle a la date / > ^2 ^st:
[«,,! + (' - '2)"/,2/A.2' «,.! + (^ - ' 2 ) ^ 2 / ^ , 2 + ^ 2 ) -
Le tirage de Poisson contr61e exactement la duree d'inclusion et maximise, en esperance, le recouvrement lors du
retirage mais avec I'inconvenient d'une taille d'echantiUon
aleatoire, dans n'importe quelle sous-population. Dans ce
qui suit, on recherche des algorithmes proches de ceux qui
viennent d'etre decrits pour le tirage de Poisson afin de les
appliquer a des tirages sttatifies a taiUes fixes. On essaie de
Cotton et Hesse: Tirage et maintenance d'un panel stratifie de taille fixe
120
conttoler la duree d'inclusion dans la rotation, comme pour
le tirage de Poisson, et d'approcher le meme taux de
recouvrement lors du retirage. On commencera par le
probleme du recouvrement lors du retirage a la section 5.
Mais auparavant, il est utile de preciser certaines notions
sur I'artondissage des tailles d'echantiUons par strate.
4. ARRONDISSAGE DES TAILLES
D'ECHANTILLON PAR STRATE
Ce probleme est relie aux formules d'estimation.
Celles-ci utilisent les probabilites d'inclusion du premier
ordre, que ce soit dans I'estimateur sans biais de HorvitzThompson ou dans des estimateurs caies. Soit y^ la probabilite d'inclusion par strate, et soit v^ =^hfh- ^ ^^"^ ""
nombre entier «^ par strate. Pour cela une premiere
methode consiste a restteindre le choix des f^^ de fagon que
v^ soit entier. Dans chaque strate oii I'on aurait eu v^ < 1
on doit prendre v^ = 1 pour que yj, > 0. Mais si la
stratification est tres fine vis-a-vis de la taille de
rechantiUon, cela se produit dans de nombreuses strates.
Cela oblige, soit a augmenter la taille de I'echantiUon, soit
a diminuer le taux de sondage dans les autres strates, au
detriment de I'efficacite.
On va utiUser une deuxieme methode, qui consiste a lier
de fa9on plus lache la probabilite f^ a n^. On applique un
processus d'artondi tel que E(n^ = v^, ou v^ n'est plus
necessairement entier.
Posons /(.) la fonction partie entiere. On doit avoir
Pr[K,=/(v^) + l] = «3,,
Pr[n,=I{v,)] = l-tp„
ou 'Ph = ''h-
^(^A)-
n n'est plus alors necessaire que «^ > 0 pour que f^>0.
Notons que la premiere methode peut etre consideree
comme un cas particulier de la seconde. Ces artondis
peuvent se faire de fa9on independants par strate, de fa9on
liee par artondissage systematique ou par la methode de
Cox (1987). Nous decrivons seulement I'arrondissage
systematique.
Ordonnons d'abord les strates, et indi9ons-les par leur
rang. Soient CQ = 0 et c^ = Yj^i %'•> on tir^ "" nombre
dans I'intervalle [0, 1), selon la loi uniforme et on prend
«^ =I{Vi) + 1 dans les strates telles que c^_j ^ w - 1 +
9<Cfj pour m entier.
Ceci implique que
("y, "
+ «.p-(v.^+...+v.p|<l.
pour tout j^,J2 tels que 1 ^y, ^yj ^ H.
En particulier la taille globale differe de moins d'une
unite de son esperance. Ce n'est evidemment pas le cas
avec des artondis independants.
5. ALGORITHMES POUR LE
RECOUVREMENT MAXIMAL
D'ECHANTILLONS DE TAILLE FIXE
Les algorithmes de maintenance que nous proposons
sont bases sur I'attribution de numeros equidistants. Cela
n'est pas necessaire au premier tirage, ni dans la rotation,
mais est utilise pour maximiser le recouvrement lors des
mises a jour de la sttatification. C'est pourquoi on examine
en premier cette phase de la maintenance.
Precisons d'abord les notations et faisons quelques
constatations utiles.
On tire un premier echantiUon s, stratifie selon un
critere hy Au bout d'un certain temps on tire un nouvel
echantiUon ^2 avec une stratification /ij ™se a jour. Les
probabilites d'inclusion du premier ordre sont respectivement ff^ ,ffj et les tailles des echantillons requises par
sttate sont respectivement «^ , «^ . U suffit de considerer ce
qui se passe dans une nouvelle strate quelconque /J2 = g.
Soit Sgi la partie du premier echantiUon s^ dans cette
nouvelle sttate, dont la taille n , est generalement aleatoire.
Soit Sg2 la partie du second echantiUon ^2 dans cette
nouvelle strate dont la taille est fixe a 1'artondi pres. La
taille ngi2 du recouvrement ne peut depasser la borne
«g^i 2 = min(«g_i, «g,2). On peut esperer trouver un precede
de retirage a probabilite d'inclusion du premier ordre dans
s 2 uniforme permettant d'atteindre cette borne, au moins
qiiand les probabilites d'inclusion du premier ordre dans
Sgi sont elles aussi egales a une seule valeur /^ =/,.
Remarquons que, meme si cette borne est atteinte, les
contraintes de taille fixe diminuent le recouvrement. Cet
effet est d'autant plus marque que la stratification est fine.
En effet plus I'effectif de la strate g est petit, plus le
coefficient de variation de n , risque d'Stte grand ainsi que
la proportion d'unites non reprises dans le cas ngi > ng2.
II y a une maniere evidente d'atteindre la borne «g*i,2Supposons d'abord que les probabiUtes d'inclusion du
premier ordre dans Sgi soient uniformes. Si «„ 1 < «„2 o"
ajoute n 2- n . unites a 5 , tirees au hasard darts le
complement de's j . Si «g 1 >'«g_2 on retranche w^j ~ "g,i
unites a s . tirees au hasard. Par construction on a
Sg^2 = •Sg.t OU 5g2 = 5g 1, et Mg, 2 = «gj,2- ^^ ^^^ probabiUtes
d'inclusion du premier orclfe dans 5, ne sont pas
uniformes, on applique la meme methode a I'interieur de
sous ensembles oti ces probabiUtes sont uniformes. C'est la
methode proposee par Kish et Scott (1971) a la page 468 de
6 leur article, lis ne precisent pas la maniere de tirer au hasard
mais on suppose qu'il s'agit de TAS.
Comme le signalent Kish et Scott (1971), les probabilites
d'inclusion du second ordre ne sont pas uniformes et si le
premiertirageest un TASST, le second tirage ne I'est plus.
La probabilite d'inclusion du premier ordre, elle-meme,
n'est pas strictement uniforme quand g regroupe des
morceaux de sttates du precedenttirage:voir un exemple en
annexe. Or il existe une autte methode qui verifie cette
condition. Elle est bien connue des offices statistiques qui
pratiquent la coordination d'echantiUons. Par commodite on
1'appelle «methode 1».
Techniques d'enquete, decembre 1997
La methode 1
Utilisation de numeros independants suivant
la loi uniforme
121
Pi,i
N,
(5.1)
On attribue aux unites, des leur naissance, des nombres
oti 9^ est un nombre reel verifiant:
CO, suivant la loi uniforme dans [0,1) et independants,
comme pour letiragede Poisson. Le premier echantiUon Sj
s'obtient en seiectionnant, par exemple, les «^ unites de
plus petit rang selon co^ dans chaque strate. ' Avec cet
algorithme, le recouvrement maximal s'obtient egalement
Sh,^l<Ph,'^)'\=I^^h)en seiectionnant les «^ unites de plus petit rang selon a.
dans chaque strate /j2.^Il est par ailleurs evident que ces
La transformation fait done intervenir 1'artondi des v^
deux tirages sont des TASST.
examine
k la section 4. Le tirage de ^2 s'effectue comme
11 est aussi evident qu'on ne peut pas avoir un plus grand
celui
de
5j
sauf que les p. j jouent maintenant le role des
recouvrement avec cet algorithme. De plus, on fad la
CO,
.
:
dans
chaque
nouvelle strate g on definit des tailles
conjecture qu 'il n 'est pas possible de faire mieux, pour des
artondies
n
2
et
on
selectionne les « - unites de plus petit
TASST, quel que soit I'algorithme.
rang selon p.y Notons que ces rangs sont differents de
Par contre le recouvrement est plus faible en esperance
ceux induits par co..
qu'avec la methode de Kish et Scott (1971), au moins dans
Supposons toujours une probabiUte d'inclusion uniforme
le cas particulier ou les probabilites d'inclusion du premier
dans
Sy SoU p^ la valeur de p., pour I'unite de rang n 2
ordre dans 5, sont uniformes. En effet, on n'a pas alors
dans
g. Si p^e[0,f^), on a 5g,2 = 5g_i. Sinon 5^2 ^•''g.inecessairement dans gs^2 = ^g,i «" •^g,2 = •^g.i' "g.i 2 = "g!i.2
Dans
ce cas particulier, on atteint done le recouvrement
et la perte de recouvrement esta'autant plus'grame que les
maximal
n*i2 comme dans la methode de Kish et Scott
strates sont petites au premier tirage.
(1971)
et
contrairement
a la methode 1. On illustre par les
Montrons-le, toujours dans le cas particulier d'une
figures
1
et
2
comment
la transformation en numeros
probabiUte d'inclusion uniforme / , dans Sy Posons co^ la
equidistants
permet
d'augmenter
le recouvrement par
plus grande valeur de co^ pour les unites de J, dans la sti^ate
rapport
a
la
methode
1.
hy et cOg la plus grande valeur de co. pour les unites de j j
On applique le mSme algorithme quand les probabilites
dans la sttate g. Soient coj = min(co^ ) et ©j = max(co/,j). Si
d'inclusion
dans 5, ne sont pas uniformes. Contrairement
o)g ^ coj on a 5^2 c s^^ et si co s co, on a Sg2 2 Sgi. Dans
a
la
methode
de Kish et Scott (1971), on n'a pas besoin de
les deux cas on a bien Wgi2 = «gti,2- Le risque de ne pas
fixer
la
taille
du nouvel echantiUon a I'interieur des
atteindre la borne n'existe que si oj] :s o) <. co^ Dans ce
sous-ensembles
oti
ces probabiUtes sont uniformes. C'est un
cas, on n'a plus necessairement Sg2 c Sgi ou 5g2 2 Sgi. voir
autre
avantage
et
on
pense que cela augmente le recoulafigure(1), oii on n'a considere que 2 strates hy La perte
vrement.
de recouvrement est d'autant plus grande que la quantite
(i>*i - (£>[ est plus grande en esperance, done que les strates Malgre tout, le recouvrement obtenu par cet algorithme
reste inferieur, en esperance, k celui d'un tirage de Poisson
//j sont petites.
qui aurait les memes probabiUtes d'inclusion. Pour avoir, en
esperance, le meme recouvrement qu'avec le tirage de
Poisson il suffirait de definir 5 2 par p,_i e [0,f^. En effet
La methode 2
on aurait alors Pr(/e5j 0^2) = min(yj, ,f), mais le tirage
UtUisation de numeros equidistants
ainsi obtenu ne serait plus de taille fixe.
Les retirages suivants, apres de nouvelles mises a jour,
Si on accepte de ne pas conserver un TASST, comment
se font en iterant le precede. Par exemple, avant de tirer j ^
modifier la methode precedente pour obtenir le meme
on calcuie des numeros equidistants p. j k partir de p. j (et
recouvrement que la methode de Kish et Scott (1971), au
non CO;) dans chaque strate /?2.
moins quand on a la probabilite d'inclusion uniforme / ,
Le plan de sondage qui en resulte dans les nouvelles
dans Sj ? On a vu que la perte de recouvrement venait de
strates n'est plus un TAS. En particulier les probabilites
I'ecart entre les co^. n suffit de transformer les co. en
d'inclusion des couples d'unites varient generalement en
nouveaux numeros p. j de fa9on que les ph cortespondant
fonction des anciennes strates. Dit de fa9on imagee, le
aux CO^ soient aussi proches que possible d'une valeur
retirage garde «ttace» de la sttatification du premier tirage.
commune, soit fy Plus precisement, on souhaiterait avoir
Par ailleurs, les probabiUtes d'inclusion des unites dans s j
r equivalence:
ne valent exactement fg, que pour I'echantiUon defini par
p.^e[0,f^. Pour I'echantiUon de taille fixe « , cette
probabilite varie en fonction des tailles des anciennes
{ies,^R,^{i)e[l,...,n,]}»p.,e[0,f,^,
strates. Comme dans la meUiode de Kish et Scott (1971) on
ne controle pas strictement ces probabilites. Mais I'ecart
entte X^t la probabiUte vraiedevient negUgeable quand « 2
oil i?^ (/) est le rang selon ta. dans h^ de I'unite /. Une
est assez grand.
solution est donnee par la ttansformation:
Cotton et Hesse: Tirage et maintenance d'un panel stratifie de taille fixe
122
Remarque 1. La transformation de numeros suivant
independamment la loi uniforme en numeros equidistants
a ete proposee par Brewer, Early et Hanif (1984) comme
un moyen d'effectuer la rotation d'echantiUons de la meme
maniere que le tirage de Poisson avec 1'avantage d'une
variance plus faible de la taille de I'echantiUon. Mais cette
transformation est faite en prenant I'ensemble de la
population, et done ils n'ont pas aborde le probleme du
recouvrement maximal lors des changements de sttate. Les
numeros ne changent qu'a I'occasion des mises k jour des
naissances et des morts, selon une procedure qui est
d'ailleurs bien differente de celle qu'on propose pour les
changements de strate.
Remarque 2. Dans la demonstration que I'on vient de
faire, il n'est pas necessaire que les numeros soient
compietement equidistants. II suffit que les n^ unites de s^
et les A^^ - «^ unites compiementaires' aient leurs
nouveaux numer()s respectivement dans [ 0 , ^ ) , [/^, 1). On
pourrait attribuer ces nouveaux numeros cle fa9on qu'ils
suivent independamment la loi uniforme dans ces
intervalles.
6. MISE A JOUR DES NAISSANCES ET DES
MORTS A L'INTERIEUR DES STRATES
Dans cette section et la suivante on considere la stratification {h) sans reference k la periode. La mise a jour des
naissances et des morts k I'interieur des sttates est, dans le
fond, un cas particuUer de changement de strate des unites.
Tout se passe comme si les naissances entraient dans les
sttates et que les morts en sortaient. On peut done appUquer les
methodes precedentes. Voyons en particulier la methode 2.
Dans une strate, la population f/^, d'effectif A';,, varie
a chaque mise a jour effectuee au tenips t. Notons 5^ ,^, les
naissances et / ) ; , , , les morts entte ^ et / + 1,' on a
^h,,.i =
^h,,^Bh,li-^h.,.v
On considere le cas simple ou les probabilites d'inclusion ffj restent uniformes dans C/^, et constantes. La taUle «^,
de I'echantiUon s^, est un artondi a I'entier de A''^ ,/J,. Les
numeros p., evoliient a chaque mise a jour. Juste avant la
mise a jour de 5^ ,, conduisant a s^ ,^j:
a) on rend equidistants les numeros p,.,_, dans U^y
b) on attribue des numeros equidistants aux unites de
Bh,t*l-
h=t
•
h=2
1
•
••
•
1
1
• I
1
*
• loQiD
1
^
1 D
1
1
(0=0
0>1
DO DD
DD
1
D
D
DD
1
1
•
COj 0>f
*
1
£0=1
CO
Figure 1. Recouvrement avec la methode 1 (numeros suivant la loi
uniforme).
On a represente les unites dans g selon la valeur du nombre co (en
abscisse) et la strate h^ du premier tirage (en ordonnee). On suppose
qu'il n'y a que deux strates. Les cercles correspondent & Sgi et les
carres k la partie compiementaire. Les pleins correspondent k Sg2 et
les vides k la partie compiementaire. La taille de i 2 ^ ^'^ ^''^^ ^ 9 ce
qui definit co . Dans cet exemple, on voit que deux unites ne sont pas
reprises (dans /i, = 1) et qu'une autre est nouvelle (dans h^ = 2). La
taille du recouvrement est de 8 alors que la methode de Kish et Scott
(1971) permettrait de reprendre les 9 unites dans s ,.
h=l
1
h=l
DD
•
p=0
• •
D
O
D D
D
n
a
7.
DD
ROTATION ENTRE DEUX RETIRAGES
7.1 Rotation sans mise a jour des naissances
et des morts
D D
p=l
Soit p., le numero ainsi obtenu. Une premiere solution
consisterait a seiectionner les «^ ,^, unites de [/^ ,^, ayant
les plus petits p.y Remarquons'que ceux-ci ne sont plus
equidistants parce qu'on a enleve les morts situes au hasard.
Cependant des unites aux numeros proches de yj,
peuvent sortir de I'echantiUon puis y retoumer k une
prochaine occasion. On y remedie par un deplacement vers
la droite de I'intervalle de selection. Soient p^ ^ le numero
de I'unite de debut de I'intervalle de selection pour S/,, et
/);, e celui de I'unite qui suit immediatement dans C/^,
I'unite de fin de cet intervaUe. Auttement dit I'echantiUon 5^',
consiste en I'intervalle ferme a gauche et ouvert k droite
[Pf,j,Pf, g). Entre let t + I, le nombre d'unites de t/;,,,.,
app'arteriaht a cet intervalle devient /«^ ,^,. Si «/,,,+i ^
OT^j^j, le debut de I'intervalle pour j ^ ,^, est fixe a I'unite
de numero pi,,d, sinon on deplace I'intervalle de fa9on que
sa fin soit I'unite de numero p^ ^ . On subit done une legere
rotation involontaire.
— •
p
Figure 2. Recouvrement avec la methode 2 (numeros equidistants).
On est dans la meme situation que dans la figure (1), mais cette fois-ci
les numeros equidistants p servent d'abscisses aux unites. Cette
equidistance est definie dans chacune des strates h, entieres et les trous
que I'on voit apparaJtre dans la sequence des numeros correspondent
aux unites qui ne sont pas dans g. Le premier echantiUon s j est
compose des unites dont ce numero est inferieur k la probabilite
d'inclusion /,, quelle que soit la strate. Le deuxifeme echantiUon s ^
est constitue des 9 unites de plus petit p et le recouvrement est de 9
comme pour la methode de Kish et Scott (1971).
On peut alors se donner un temps d'inclusion D^ entier
et constant dans la strate. On a deux variantes selon qu'on
garde le mSme artondi ou qu'on le fait varier.
7.1.1 Arrondi fixe
On a done une taille n. strictement fixe pendant la
rotation. On divise n.
Df^ nombresentiers n hi'
{l = l,...,Df) tels que \nh.l - "h'E'h <l. Soient q^ le
quotient et r^ le reste de la division de / - ^, par D^ et soit
L'echantiUon au temps t comprend les unites
"h,o = 0-
123
Techniques d'enquete, decembre 1997
allant du rang l+q^n^* Yi=o"h i ^^ r^^S (?/,"• 1)"/. "*" independants (mais moins qu'avec letiragede Poisson). On
peut done avoir interet k lier, au moins partiellement, les
I/*o"/,,/artondis. Par exemple, on fait un artondissage systematique
Si Df^ = D, on peut s'imposer en plus
dans la dimension h pour chaque b ou 1'inverse. On
conserve ensuite ces artondis et c'est la methode 7.1.1 qui
s'appUque alors plutot que la methode 7.1.2.
La variance du taux de rotation est alors pratiquement nuUe.
Toutefois, la duree d'inclusion n'est pas conttolee quand
v^ < 1: on a «^ 0 ou «^ = 1. Dans le premier cas, il n'y a
pas de rotation, et dans le deuxieme cas, au contraire, le
temps d'exclusion peut ette juge trop bref. La methode
suivante permet d'obtenir une rotation cortespondant a v^.
7.1.2 Arrondi variable
L'echantiUon 5^, est defini k partir des numeros rendus
equidistants:
t-t^
t-t^
'^^h,,^Pi,i^
La taille de I'echantiUon varie entre /(v^) et /(v^) + 1
dans la strate, et elle est independante des tailles dans les
autres strates. On rettouve ainsi ce que deviendrait la
rotation de I'echantiUon preconisee par Brewer, Early, et
Hanif (1984) dans le cas du tirage stratifie a taille fixe et
probabilite uniforme dans chaque strate.
7.2 Rotation avec mise a jour des naissances
et des morts
Pour simplifier, on suppose que chaque nouvelle vague
d'enquete est accompagnee de l'inttoduction des naissances
depuis la vague precedente et d'une rotation. La methode
bifurque en deux procedures selon qu'on veut ou non
respecter exactement les durees d'inclusion D^^ entre deux
retirages.
7.2.1 Procedure A
Les naissances sont isoiees dans des strates k part, et on
attend le retirage pour soustraire les morts. Dans ce cas,
chaque vague de naissances est ttaitee exactement comme
un premier tirage apres avoir attribue des nombres co,.. Le
tirage se fait en stratifiant avec la meme nomenclature (/J),
ou avec une autre plus edatee ou plus regroupee. Pour
simplifier les notations, mais sans perte de generalite, on
suppose que c'est la mSme nomenclature. L'indice de
stratification peut alors s'ecrire {b,h), oii b croise avec h
indique la vague des naissances avec une modalite
particuUere b = I cortespondant aux unites deja existantes
lors du premier tirage ou retirage precedent. On est ramene
aux cas de la section 7.1 dans chaque strate {b,h) et la
duree d'inclusion est respectee exactement.
Le nombre de strates, done d'artondis, est multiplie par
le nombre de vagues de naissances. La taille de
I'echantiUon peut devenir assez aleatoire avec des artondis
7.2.2 Procedure B
Dans la procedure B, on sousttait les morts k chaque
vague d'enquete. C'est le type de mise k jour presente k la
section 6. On voudrait une duree d'inclusion fixe, mais cela
est rendu difficile du fait du nombre aleatoire des morts.
Tout au plus peut-on essayer de controler une duree
d'inclusion maximale DM^^. On peut souhaiter egalement
eviter que des unites venant de sortir de I'echantiUon n'y
retoument a une prochaine occasion, ce qui peut artiver si
la rotation est lente. L'idee est de se ramener k I'algorithme
decrit a la section 6 en rettanchant d'abord de 5^, les unites
dont la duree anterieure de sejour dans s^, a atteint DA/^.
Elles se trouvent le plus a gauche de I'intervalle [p^d'Phe^
et sont meiangees avec des naissances trop recen'tes pour
avoir atteint DM^^. Mais ceUes-ci doivent etre quand meme
rettanchees pour que la repartition de I'echantiUon selon les
generations soit cortecte. Pour cela, il suffit d'attribuer aux
naissances une duree anterieure de sejour fictive comprise
entre 1 et DM^^, juste apres avoir defini I'echantiUon. Par
exemple, apres avoir defini Sf^y on affecte k chaque unite
de 5^, appartenant a I'echantiUon la meme duree
anterieure de sejour dans I'echantiUon que celle de I'unite
de Ufj i_, situee immediatement k gauche. Ensuite soit i?^ ^
le rang le plus eieve parmi les rangs selon p., des unites de
I'intervalle associe a 5^, ayant figure DMf^ fois dans
I'echantiUon, on ecarte les premieres unites de 5^, jusqu'au
rang /?^^ compris. Enfin, on est ramene k I'algorithme
decrit a la section 6 avec, pour Pf,j,le numero de I'unite de
rang -/?/,, + 1,P/, e restant celui de I'unite qui suit celle de
demier fang dan's's^;.
8. RETIRAGE APRES ROTATION
On reprend maintenant les indices de strates A,, /J2- ^ "
definit la stratification hj en fonction de la procedure
UtiUsee pour les mises k jour des naissances. Avec la
procedure A, on met les naissances dans des strates k part,
c'est la stratification definie en croisant les vagues de
naissances b avec la nomenclature hy Avec la procedure B,
h,est identique a hy Mais on conserve les notations des
quantites independantes de b comme f^,Df^.
Le tirage du nouvel echantiUon 52, dans une nouvelle
stratification /i2 doit etre fait a la periode t = ^2.
On commence par retrancher de rechantiUon precedent
(a la periode t = t2- 1) les unites qui ont atteint la duree
maximale d'inclusion autorisee. II reste un echantiUon 5',
de taille «',, dont on voudrait conserver le maximum
d'unites dans le retirage.
Dans le cas sans rotation examine k la section 5, il etait
facile de definir le retirage parce que rechantiUon 5, etait
Cotton et Hesse: Tirage et maintenance d'un panel stratifie de taille fixe
124
constitiie des unites de plus petit rang selon co,. dans chaque
strate apres un nombre reel independant des co,.. En
I'occurtence il s'agit de 0. Le retirage s'effectuait de la
meme maniere en seiectionnant les unites de plus petit rang
selon p. y apres ce nombre, dans les nouvelles strates.
Apres rotation cela ne marche plus: il n'existe plus de
reel independant des numeros tel que I'echantiUon s\ soit
constitue des unites de plus petit rang apres lui. Cela est
vrai meme dans le cas y^ =/] • Le probleme est evidemment
aggrave avec yj, variant'par strate. L'idee qui vient alors a
I'esprit est de proceder d'abord a une transformation des
numeros de fa9on que ceux de 5', se retrouvent au debut de
[0,1). On sera ensuite ramene au cas sans rotation. C'est le
meme genre d'idee qui est presente par Hidiroglou,
Choudhry et Lavaliee (1991).
Cette ttansformation est assez immediate dans le cas
particuUer oii les mises a jour se sont faites avec la
procedure A et avec les artondis variables de la section
7.1.2. Sans retirage I'intervalle de selection au temps ^2
aurait ete:
I'obtient en seiectionnant, dans chaque nouvelle strate /j2,
apres avoir rettanche les morts, les «^ unites de plus petit
rang selon il,., =P;, - a^^. Ce numero joue done, pour le
retirage, le meme role qu'a joue ©,. au premier tirage.
Si, par contre, on a choisi la procedure A avec artondi
fixe dans la rotation ou si on a choisi la procedure B, on
doit repartir du rang des unites de hj lors de la demiere
mise a jour. II s'agit du rang selon co,. avec la procedure A
ou du rang selon p, - 1 avec la procedure B. Posons A^^ la
taille de la population a la date ^2 ~ 1 • Soit i?^ ,^ le rang de
I'unite precedent celle de plus petit rang dans'5', et R^ (/)
le rang de I'unite i. Le numero servant a classer les unites
dans les nouvelles strates devient:
Rt, (/) - 1 - a^ +5.
\ i
N,.
ou:
flu
Pi.i^[ih - h^fhPh: ('2 - h)fhPh, V,,)Le retirage se traduit par de nouvelles strates avec des
probabilites yj,. Celles-ci incluent les creations d'unites
entre les dates^ ^2 ~ ^ ^'- '2' auxquelles on attribue des
numeros equidistants p. y dans chaque strate /jj, independamment des survivants. Elles contiennent toujours les
unites dont la mort est survenue depuis le tirage precedent.
II est possible de definir un nouvel echantiUon ^2 de la
meme maniere que pour le tirage de Poisson, c'est a dire
par I'intervalle
Pi,^ e\a.,a^
^4)'
ou:
11
«/,, = (^2 - ^^fhPh, + maxo.A.
D.
-4
'1/
Rappelons qu'on decale de la quantite supplementaire
A,
A,
pour eviter que des unites qui viennent de sortir de
I'echantiUon ne s'y retrouvent trop vite.
Comme pour le tirage de Poisson, la probabilite qu'a un
survivant d'etre dans I'ancien et le nouvel echantiUon est
alors le maximum possible, a savoir:
nun
TX
Jh.
Cependant la taille «), de cet echantiUon est aleatoire
alors qu'on veut un echantiUon de taille fixee n. . On
modulo 1,
=R,h,V
maxfO, «J, /K
-/..)•
Avec la procedure A on peut garder 5^ = ^^ alors qu' on
fait un choix de 5^ coherent avec le demier Wondi si la
procedure B est appliquee. Mais la rotation fait que ce
choix a une incidence faible sur le recouvrement et ce serait
presque aussi bien de tirer au hasard dans [0,1).
9.
CONCLUSION
Les algorithmes bases sur les numeros equidistants ne
produisent pas des TAS. Les probabilites d'inclusion du
premier ordre ne sont pas exactement conttoiees et celles du
second ordre sont inconnues. Lors des changements de
sttate, il subsiste une«ttace»des anciennes strates dans les
nouvelles. L'application des formules du TAS pour estimer
la variance aboutit a des resultats biaises, generalement
dans le sens de la surestimation. Cependant on pense que
I'ameiioration des recouvrements lors des retirages,
procuree par les algorithmes bases sur les numeros
equidistants I'emporte sur I'inconvenient d'une estimation
biaisee de la variance et des intervalles de confiance.
D'apres la section 5 cet avantage est d'autant plus net que
la stratification est plus fine. En particulier I'usage des
numeros equidistants parait bien indiquee avec la procedure
A oil les strates {b,h) risquent d'etre tres petites pour les
vagues de naissances {b>l). L'avantage des numeros
equidistants est moindre avec la procedure B. Mais le fait
de rendre equidistants les numeros des naissances rend
moins aleatoire le nombre de survivants repris k chaque
mise a jour de I'echantiUon ainsi que la duree d'inclusion.
Cependant, voyons rapidement ce qui changerait dans la
maintenance si on voulait conserver un TASST. A chaque
etape on doit conserver la distribution independante et
uniforme des co,.. D'abord les phases de mises ^ jour des
naissances et de rotation entre retirages decrites aux
sections 6 et 7 s'apphquent en conservant toujours le meme co,.
Techniques d'enquete, decembre 1997
125
et c'est meme plus simple. Le plus deiicat est le retirage
apres la phase intermediaire de rotation. Non seulement il
s'agit d'obtenir un TASST mais aussi d'avoir, si possible,
le meme recouvrement que pour la methode 1 de la
section 5.
Posons a,j (/) le numero co de I'unite de rang j dans
une ancienne strate hj.
Supposons d'abord que, dans une ancienne sttate, toutes
les unites soient teUes queyj, ^ nj, /A^^ . En particulier cela
se produit dans toutes les strates pour un sondage avec un
seul taux dans la partie sendee, si on ne baisse pas ce taux.
On cherche alors une transformation telle que les numeros
des unites de I'echantiUon se retrouvent au debut de [0,1).
La plus simple est la permutation:
Ph,C/-)=a,^(/- + A^,_-i?h,v).
Ph,(/)=ah_0"-^h,v).
J^\'d'
J>\'d-
ANNEXE
Les probabilites d'inclusion du premier ordre dans la
methode de Kish et Scott (1971)
Donnons un exemple oii la probabilite d'inclusion du
premier ordre n'est pas strictement contrSlee.
La population est divisee en trois parties A, B et C
d'egale taille A^. Le premier tirage est un TAS de 2a unites
dans A+ B et un TAS de a unites dans C. Au deuxieme
tirage, on veuttirera unites dans A et 2a unites dans B + C,
en retenant le maximum d'unites du premier echantiUon et
avec la probabilite d'inclusion uniforme a/N. La methode
de Kish et Scott (1971) consiste k rajouter ou retrancher par
TAS le nombre convenable d'unites separement dans A et
dans 5 + C Dans A, le second tirage marginal est un TAS
et la probabilite d'inclusion est bien uniforme. Montrons
qu'il n'en est pas de meme dans 5 + C. Soient «, et «2 les
tailles des deux echantillons successifs dans B. Par
symetrie, la probabilite d'inclusion au second tirage est
uniforme dans B. Elle y vaut:
Cependant une transformation moins coflteuse est:
£(«2)/Ar =[£(«,)+£(«2-«i)]W
Ph,(/•) = %{j) + S^(A^,_) - a,_(/?,_,^), j ^ i?,_,^,
Ph,0-)=aH,C/-)-ah,(^h,v).
^•>^h.v
II suffit d'aller rechercher a^ {R^ ,^ et a^ (A'^ ), apres
quoi un simple calcul sequentiel permet de deduire 'p de a.
Le Jacobien de la transformation est egal a 1 et par
consequent les numeros conservent leur distribution
uniforme. Par ailleurs la loi conjointe p{Sy s.^ est la meme
que s'il n'y avait pas eu rotation. La demonstration figure
dans Cotton et Hesse (1992, page 55). On a done le
recouvrement maximum de TASST.
Si dans la strate on a des unites avec f^ <«j, /N^ et
qu'on applique lattansformation,les unites dont le rang est,
en gros, compris entre A^^ f^ et «J, ne sont pas reprises
lors du retirage mais vont'etre reintroduites a I'occasion
d'une prochaine rotation. II est done preferable d'utiliser
pour ces unites unettansformationqui situe juste avant yj,
ies nouveaux numeros. On doit proceder par sousensembles selon la valeur de y^ . Mais cela tend k diminuer
le recouvrement.
REMERCIEMENTS
= a/N + £'(«2 - n^/N.
Si «j =a, «2 ~ "i = 0; sinon I'esperance de «2 ~ "i
conditionnelle a «, differe selon le signe de a - «,:
Si a-«,>0,£[(«2-«i)|«i]=(a-",)(A/'-«,)/(2A^-«,-a).
Si a - «j < 0, £[(«2 ~ "i) I "iJ = {o~ "i)"/("i + <3)Notons /?(«,) la probabilite que le premier echantiUon ait la
taille «, dans B. On a:
E{n2 - «,) = 52 p{n^E\(n2 - «,) |«,].
Comme les tailles de ^4 et 5 sont egales, /?(«,) =
p(2a - «i), d'ou:
= E/'(«i)(a-«i)[(^-«iV(2^-"i-«)-(2«-«,)/(3fl-i,)]
nj<a
Le point de depart de nos reflexions est un document
interne de la Division des methodes d'enquetes-entreprises
k Statistique Canada: Hidiroglou M.A., Srinatii K.P. (1990),
Methods of integrated sampling for sub-annual business
surveys.
Nous remercions un redacteur associe et un arbitre
anonymes pour leur aide apportee a la redaction de cet article.
Certaines des methodes proposees ont ete appliquees a
I'lNSEE, mais les opinions exprimees n'engagent que les
auteurs.
= (2a- iV) 1^ p(/j;)(a- «,)^/[(2A^-«, - a)(3a- «,)]
nj<a
^{la-N)K,K>Q.
Sauf dans le cas 2a- N = 0, £(«2 ~ "j) n'est pas nul et
E{n2)/N est different de a/N. La probabilite d'inclusion
n'est done pas uniforme dans B + C.
Cotton et Hesse: Tirage et maintenance d'un panel stratifie de taille fixe
126
BIBLIOGRAPHIE
BREWER, K.R.W., EARLY, L.J., et HANIF M. (1984). Poisson,
modified Poisson and collocated sampling. Journal of Statistical
Planning and Inference, 10, 15-30.
COTTON, P., et HESSE C. (1992). Tirages coordonnes d'echantiUons. Document de travail E9206 de I'lNSEE.
COX, L.H. (1987). A constructive procedure for unbiased controlled
rounding. Journal of the American Statistical Association, 82,
520-524.
HIDIROGLOU, M.A., CHOUDHRY, G.H., et LAVALLfe, P.
(1991). Methodes d'echantiUonnage et d'estimation pour des
enquetes infra-annuelles auprfes des entreprises. Techniques
d'enquete, 11, 221-111.
KISH, L , et SCOTT, A. (1971). Retaining units after changing strata
and probabilities. Journal of the American Statistical Association,
66,461-470.
Techniques d'enquete, decembre 1997
Vol. 23, n° 2, p. 127-134
Statistique Canada
127
Estimation de proportions pour petites regions par des methodes
empiriques de Bayes, a partir de variables ordinales
PATRICK J. FARRELL'
RESUMfi
La modeiisation des reponses ordinales a dejS fait I'objet de beaucoup de recherches. Selon certains auteurs, lorsque la
variable de reponses est ordinate, la prise en compte de cette caracteristique dans le modeie k estimer devrait accroTtre la
performance de ce modeie. Dans des conditions ordinales, Campbell et Donner (1989) ont compare le taux asymptotique
d'erreurs de classification du modeie logistique multinomial k celui du modeie logistique ordinal d'Anderson (1984). lis
ont demontre que ce demier etait assort! d'un taux asymptotique d'erreurs previsible inferieur k celui du modeie logistique
multinomial. Dans le present article, nous cherchons k comparer la performance d'un modeie logistique ordinal et d'un
modeie multinomial pour les reponses ordinales. Toutefois, au lieu de concentrer notre attention sur l'efficacite de
classification, nous nous attachons k estimer les proportions pour les petites regions. En utilisant un modeie logistique
multinomial et un modeie ordinal, nous cherchons plus particulierement k adapter I'estimation de proportions pour petites
regions k partir de donnees binomiales par des methodes empiriques de Bayes, tel que le suggerent Farrell, MacGibbon et
Tomberlin (1997a), aux variables qui appartiennent k plus de deux categories de resultats. Les proprietes des estimateurs
fondes sur ces deux modeles sont comparees au moyen d'une simulation au cours de laqueUe les methodes empiriques de
Bayes proposees sont appliquees k des donnees issues du recensement americain de 1950, afin de chercher k pr6voir, pour
des petites regions, les proportions des personnes appartenant aux diverses categories d'une variable de reponses ordinale
representant le niveau de revenu.
MOTS CLfiS:
Methode bootstrap; plan d'enquete complexe; regression logistique; modeies d'effets aleatoires;
statistiques sommaires sur les petites regions; series de Taylor.
1. INTRODUCTION
La modeiisation des reponses ordinales a fait I'objet de
beaucoup de recherches (voir Albert et Chib 1993;
Anderson 1984; Crouchley 1995 et McCuUagh 1980).
Selon certains auteurs, lorsque la variable de reponses est
ordinale, la prise en compte de cette caracteristique dans le
modeie a estimer devrait ameiiorer la performance de ce
modeie. Dans des conditions ordinales, Campbell et
Donner (1989) ont compare theoriquement le taux asymptotique d'crteurs de classification du modeie logistique
multinomial k celui du modeie logistique ordinal
d'Anderson (1984), demontrant que le modele ordinal
presentait un taux asymptotique d'erteurs previsible plus
bas. Toutefois, dans une simulation subsequente, CampbeU,
Donner et Webster (1991) ont demontre que les modeies
ordinaux donnent une classification moins exacte que les
modeies multinomiaux dans toutes sortes de circonstances;
ils en ont conclu que ces modeies ne presentent aucun
avantage lorsque la classification constitue le principal
objectif de I'analyse.
Nous cherchons egalement, dans le present article, a
comparer la performance d'un modeie logistique ordinal et
d'un modeie multinomial pour les reponses ordinales.
Toutefois, au lieu de concentrer notre attention sur
l'efficacite de la classification, nous nous attachons a
estimer les proportions pour les petites regions.
L'estimation des parametres d'une petite region est un
probleme d'echantiUonnage d'une population finie qui a
dejk fait I'objet d'enormement d'attention. Ghosh et Rao
(1994) proposent un excellent tour d'horizon de ces
recherches. Us demontrent que lorsqu'on les utilise en
guise de solution de compromis entre I'estimateur synthetique et l'estimateur direct, les estimateurs fondes sur les
methodes empiriques ou hierarchiques de Bayes ne sont pas
exposes aux biais importants parfois associes k I'estimateur
synthetique (voir Gonzales 1973); ils ne sont pas non plus
aussi variables qu'un estimateur direct. Fartell, MacGibbon
et TomberUn (1997a) arrivent a une conclusion semblable
a la suite d'une etude des methodes empiriques de Bayes
pour I'estimation de proportions pour une petite region k
partir d'une variable de resultats binSmiale.
Malgre les nombreux travaux qui ont cherche ct prevoir
les proportions pour petites regions k partir de variables de
reponses binomiales (voir Dempster et Tomberlin 1980;
MacGibbon et TomberUn 1989; FarteU 1991; FarteU et coll.
1997a; Malec, Sedransk et Tompkins 1993; Stroud 1991 et
Wong et Mason 1985), on s'est tres peu interesse k
I'estimation des proportions fondees sur les variables de
reponses appartenant a plus de deux categories de resultats.
Dans le present article, nous adaptons la demarche
empirique de Bayes utiUsee par FarteU et coU. (1997a), k de
teUes variables en fondant nos estimations sur des modeies
logistiques multinomial ou ordinal. Pour comparer les
' Patrick J. Farrell, professeur adjoint. Department of Mathematics and Statistics, Acadia University, Wolfville, (Nouvelle-fecosse), BOP 1X0.
128
Farrell: Estimation de proportions pour petites regions par des methodes empiriques de Bayes
estimations des proportions pour petites regions fondees sur
une variable ordinale en utiUsant un modeie multinomial ou
ordinal, nous appliquons les methodes empiriques
proposees par Bayes a des donnees issues du recensement
americain de 1950 afin de predire, pour une petite region
donnee, la proportion des personnes appartenant aux
diverses categories d'une variable de reponses ordinale
representant le niveau de revenu.
Ce genre d'estimation pose de nombreux problemes sur
lesquels il convient de se pencher. On peut mentionner en
particulier la selection des variables explicatives pour le
modeie, les diagnostics du modeie, le plan de sondage et les
proprietes des estimateurs utilisees. Par exemple, parmi les
diagnostics pour les modeles multinomial et ordinal figurait
une evaluation de I'ajustement du modele fondee sur les
valeurs. FarteU (1991) a propose une description de ce
diagnostic et d'autres diagnostics. Les resultats ne semblaient pas indiquer une absence d'ajustement pour Pun ou
l'autte des modeles. Dans la presente etude, nous cherchons
surtout a determiner les proprietes des estimateurs
empiriques de Bayes pendant I'utilisation repetee du plan
de sondage a I'aide d'une simulation. Pour de nombreux
specialistes d'enquetes, de telles proprietes revetent une
importance primordiale.
On reproche notamment aux methodes empiriques de
Bayes d'utiUser des estimations d'intervalles qui ne donnent
pas le niveau souhaite de couverture puisque 1'incertitude
qui decoule de I'obligation d'estimer les parametres de la
distribution anterieure n'est pas prise en compte. Dans la
presente etude, nous avons recours comme le suggerent
Laird et Louis (1987) aux methodes bootstrap pour
I'ajustement d'estimations nai'ves de I'exactitude. Par
ailleurs, Prasad et Rao (1990) ont mis au point une methode
qui tente de «capturep> I'incertitude qui n'est pas prise en
compte par les estimations naiVes. Cette methode a ete
congue pour trois modeles lineaires specifiques contenant
des effets aleatoires, mais Cressie (1992) a determine
certaines situations oii elle pourtait etre approprie. D
importe en particuUer de souligner que les resultats obtenus
doivent obeir a une distribution normale.
L'estimation par des methodes empiriques de Bayes
fondee sur un modeie logistique multinomial ou ordinal est
decrite a la section 2. L'etude de simulation visant a comparer
les modeies logistiques multinomial et ordinal pour les
reponses ordinales est decrite a la section 3. Nos observations
et nos conclusions sont presentees a la section 4.
2. METHODES D'ESTIMATION
Imaginons une caracteristique d'interet pour une
petite region discrete comportant M resultats possibles.
L'indice m permet d'identifier les categories, ou
m = l,...,M- I et m* = l,...,M. En outre, les lettres
minuscules et majuscules soulignees designent des vecteurs
tandis que les lettres majuscules en caracteres gras
representent des matrices.
Les methodes d'estimation sont illustrees dans un plan
d'echantiUonnage k deux degres ou les sujets sont choisis
a partir de regions locales preseiectionnees. Ainsi, les
regions locales constituent les primaires unites d'echantiUonnage. Designons par p.^^ la proportion des personnes
vivant dans la i-ieme region locale qui appartiennent a la
categoric w * de la variable de reponses. On obtient alors
^ E Yij^^lNr
(2.1)
j
oti yy>„+ est egal a 0 ou a 1, selon que lay-ieme personne de
la region locale / appartient a la categoric m* dela caracteristique d'interet et A^. designe la taiUe de la population de
la /-ieme region locale.
La methode utilisee par FarteU et coll. (1997a), pour
estimer les proportions pour petites regions en se fondant
sur les variables de resultat binomiales est adaptee ici pour
permettte I'estimation de p.^^. Cette methode s'inspire de
la demarche explicitement fondee sur la modeiisation
proposee par Dempster et Tomberlin (1980). Designons
par 7t,..,„^ la probabilite que lay-ieme personne appartenant
a la /-ieme region locale appartienne a la categoric m * de
la variable de reponses. Dans ce cas, selon Royall (1970),
la valeur p de l'equation (2.1) est estimee par
v.. • +
\jeS
E
ijm
Ny
(2.2)
jeS'
oii S represente I'ensemble des n. personnes echantillonnees dans la region locale /, et S' designe I'ensemble
des personnes appartenant a la region locale / non incluses
dans I'echantiUon. D nous reste maintenant a determiner les
valeurs de n..^. Pour obtenir ces estimations, on utilise des
modeles de regression logistique afin de decrire les probabilites associees aux membres de la population.
Dans un modele logistique multinomial, les valeurs n..^
sont decrites comme suit:
i«g(V/V)=^,Jfi."S/".'
5.~i.i.d.Nortnal(0,Z)),
(2.3)
oti 5' = (5,.,,..., 8,(A/-i)), /' = 1,..., /, etD designe une matrice
de c'ovariance inconnue. Dans ce modeie, Xf, est un
vecteur des variables expUcatives a effetsfixes,le vecteur g
contient les parametres a effets fixes associes k la m-ieme
categoric de la variable d'interet et 5.,„ designe un effet
aleatoire a distribution normale associe a la w-ieme
categoric de la caracteristique d'interet dans la /-ieme
region locale. Le vecteur Xj peut inclure des covariables
tant au niveau individuel qu'au niveau agrege. Pour les
plans de sondage comportant plus de deux etapes, un
modeie analogue contiendrait les effets aleatoires pour les
unites d'echantiUonnage a chaque stade, a I'exclusion du
stade final.
A noter que le modeie indique en (2.3), contrairement a
un modeie semblable propose par Malec et coll. (1993), ne
contient pas de termes d'interaction entre les effets de la
region locale et les variables explicatives a effets fixes.
Toutefois, les termes permettant de tenir compte d'une telle
interaction seraient inclus s'ils etaient juges necessaires.
Techniques d'enquete, decembre 1997
Pour obtenir les estimations de Bayes des parametres du
modeie, on attribue des valeurs quelconques aux paramettes
inconnus de la distribution des effets aleatoires. Designons
par y j = (y,yi, -^yy^ un vecteur du ij-ihme sujet echantiUonne oii la composante associee a la categoric de variable
de resultats k laqueUe cette personne appartient a une valeur
de un. Les entrees qui restent sont egales a zero. Si Fest
une matrice dont les rangs sont designes par y^, les
donnees seront alors distribuees comme suit:
''
yiF|a,s;an4''$-'5'
ij
oil fi^ = {^l,..., ^l,_,), et 5[ = (5j^,..., 8[). Si une disttibution
uniforme est precisee potir les effets fixes, la distribution
des parametres devient /(fi, 5^|Z)^) « exp(-'/25jD^5^), oii
D^ = diag{D,D,...,D). La distribution combinee des
donnees et des parametres est determinee en utilisant
f{Y\%h^) et /(fi,5JZ)^), et utilisee par la suite pour
obtenir la distribution posterieure des parametres.
Malheureusement, il est impossible de deriver une forme
fermee de cette distilbution posterieure a cause du caractere
insoluble de I'integration requise pour obtenir la distribution marginale de Y. Une methode d'integration stochastique comme celle de I'echantiUonnage de Gibbs (voir
Zeger et Karim 1991) representerait une solution possible.
Ripley et Kirkland (1990) indiquent qu'une telle demarche
presenterait notamment I'inconvenient de necessiter des
calculs intensifs et de laisser planer des incertitudes quant
au moment oii le processus d'echantiUonnage parvient a
I'equilibre. Comme le temps de calcul est une preoccupation particuUere de la simulation examinee a la section 3,
nous ne nous y attarderons pas plus avant ici. Par ailleurs,
Breslow et Clayton (1993) mentionnent qu'on peut toujours
envisager des methodes simples et approximatives.
Beaucoup de chercheurs ont demontre qu'une approximation normale multivariee de la distribution posterieure
donne d'excellents resultats en pratique (voir FarteU et coll.
1997a; Laird 1978; Tomberlin 1988 et Wong et Mason
1985). Breslow et Lin (1995) rappellent toutefois qu'une
telle methode pourtait donner des estimations incoherentes
pour les parametres a effets fixes. Ainsi, si p.^^ doit etre
fonde sur des estimations des effets fixes obtenues de cette
fafon, la meme mise en garderisquerade s'appliquer en ce
qui a ttait k la coherence de p.^^ pour I'estimation de p.^^.
Selon FarteU et coll. (1997a), une distribution normale
multivariee dont la moyenne cortespond au mode et dont la
matrice de covariance est egale a 1'inverse de la matrice
d'information evaluee au mode represente une approximation de la distribution posterieure des parametres. La
matrice d'information dont il est question ici est simplement
la deuxieme derivee de la distribution posterieure calcuiee
par rapport a ^ et a 5 . Lorsque des valeurs sont precisees
pour les parametres inconnus de la distribution des effets
aleatoires, le mode et la matrice de covariance qui en
decoulent constituent un ensemble initial d'estimations des
parametres du modeie. Les estimations empiriques de
Bayes sont alors obtenues en utiUsant I'algorithme EM
decrit par Dempster, Laird et Rubin (1977) afin de determi-
129
ner les estimations des parametres de la distribution des
effets aleatoires. L'algorithme converge rapidement, en
quelques minutes seulement en temps reel. Pour en savoir
plus sur la fa9on d'obtenir les estimations empiriques de
Bayes pour un modeie fonde sur un plan d'echantiUonnage
a deux degres et une variable de reponses binomiale, voir
MacGibbon et Tomberiin (1989).
Les estimations empiriques de Bayes des parametres du
modeie sont utilises en (2.2) pour determiner p.^^. Pour
eiaborer une expression cortespondant k I'incertitude de
p.^^, on presume que la valeur A^,. est connue. Comme la
demarche utilisee est fondee sur un modele et qu'elle est
predictive par nature, I'incertitude entourant p.^^ decoule
uniquement du terme Y^im* '< 1^terme5^y,..,„^a une variance
de zero. Ainsi, I'erteur quadratique moyenne de p.^^ en
tant que predicteur de p.^^ peut etre estimee comme suit:
REQM03.„,,)=Var
{ll%iA
JeS'
N.
E%„^(l-V') (2.4)
jeS'
N
Pour les regions locales echantillonnees oii n. est plus
grand que zero, lepremiertermede(2.4)estdel'ordrede I//7,.,
tandis que le second est de I'ordre de l/N.. Dans cette
etude, r approximation de I'erreur quadratique moyenne de p^^ ^
est fondee sur le premier terme uniquement, lequel donne
une approximation utile a condition que A^, soit grand
comparativement a «,. Pour les regions locales non
echantillonnees, le premier terme de (2.4) est de I'ordre de
1; il domine done toujours le second terme.
Pour estimer I'incertitude de p^^^, qui est exprimee sous
forme de fonction non lineaire des estimateurs des effets
fixes et aleatoires, I'expression de p.^^ est linearisee par
developpement en une serie de Taylor multivariee de
premier ordre autour des valeurs realisees des effets fixes et
aleatoires. La variance de I'expression qui en decoule,
designee par ^^(p.^^), est assimiiee a une estimation de
I'incertitude de p.^^. FarteU et coll. (1997a), foumissent des
informations detailiees sur le developpement des series de
Taylor pour une variable de resultats binomiale.
Lorsque les micro-donnees de population pour les
variables auxiUaires ne sont pas disponibles, il est impossible de determiner p.^^ avec (2.2). Pour les modeies non
lineaires comme (2.3), la prediction n'est pas directe dans
une telle sitiiation. Toutefois, un estimateur de rechange de p.^^,
p.^^ par exemple, qui necessite uniquement des statistiques
sommaires de la region locale (un vecteur de la moyenne et
une matiice de covariances de la population finie) tant pour
les variables continues que pour les variables nominales
peut etre obtenu en adaptant la demarche proposee par
Fartell, MacGibbon et Tomberlin (1997b) aux fins de la
realisation de cet objectif lorsqu'on cherche k estimer les
parametres binomiaux des petites regions. Ce meme
developpement des series de Taylor qu'on a utiUse pour
estimer I'exactitude de^.,^^ peut etre employee pour obtenir
une mesure de I'incertitude dans le cas de p. , \^{p. ).
Farrell: Estimation de proportions pour petites regions par des methodes empiriques de Bayes
130
La methode decrite dans la presente section peut
egalement servir a eiaborer des estimations ponctuelles et
des estimations d'intervaUes pour les proportions de petites
regions fondees sur p.^^ et p^^^, lorsqu'on utilise un modeie
ordinal. Dans la presente etude, nous proposons un modele
k effets fixes et aleatoires pour la valeur de %..^ fondee sur
le modeie ordinal propose par McCuUagh (1980):
71.., + . . . +
;:..
log
\
TC..,
, , + ... + Jt..
(/(m + l)
ijmj
5 - i.i.d. Normale {0,D).
Om & - ^ i . '
(2.5)
ou
..{B)
2^ Pbim *
_b
N.
II convient de noter que meme si les sujets ne sont pas
choisis par echantiUonnage aleatoire simple sans remise,
dans la presente emde, les donnees de sondage n'ont pas ete
ponderees. Toutefois, en pratique, les poids attaches k un
enregisttement varieront en fonction de caracteristiques du
plan de sondage telles que la non-reponse differentielle et
la repartition en grappes. Dans la presente etude, les
modeiestiennentcompte des effets de ces caracteristiques.
De plus amples recherches seront necessaires pour
determiner qu'elles sont les incidences sur la methode
bootsttap de 1'incorporation dans les modeies de poids lies
aux sondages.
Le vecteur 2C, contient les valeurs des variables
explicatives des effetsfixespour le ij-ihme sujet, tandis que g
represente un vecteur des parametres des effets fixes. II
existe un terme constant, p^,^, qui est associe a la /w-ieme
categorie de variables de reponses. On presume ici encore
3. EXEMPLE PRATIQUE
que les effets aleatoires ont une distribution normale. II
convient de noter que le modele (2.5) exige en particulier
On a procede a une comparaison des estimations de
que la restriction %^^^^^ - %^ ^ 5.„,• 5.(,„^,. se realise pour
proportions pour petites regions fondee sur des modeies
que Tt,y(„+n ^ 0. Nous revenons en details sur cette
logistiques multinomial ou ordinal en utiUsant une etude de
contrainte k la section 3.
simulation oti la variable de reponses etait ordinale.
La demarche choisie pour donner I'approximation de
L'ensemble de donnees est fonde sur un echantiUon de 1 %
I'incertitude en o. ^ et 5. ^ lorsque n.. ^ est fonde sur la
preieve k meme le recensement americain de 1950 (United
formule (2.3) ou (2.5) peut etre qualifiee de naive, puisque
States Bureau of the Census 1984). On utilise les donnees
\^{p.^J
et y^{p.^J
ne tiennent pas compte de
fondees sur le recensement de 1950 puisqu'il s'agit d'un
I'incertitude qui decoule de I'estimation des parametres de
echantiUon de micro-donnees accessible au public et que
la distribution des effets aleatoires. Ainsi, les estimations
aucun des recensements plus recents n'est disponible sous
d'intervalles pour p.^^ qui sont fondees sur \ar{p.^J et
cette forme. Ainsi, les resultats examines ci-apres pour les
V^{pi^^) sont typiquement trop courtes. On a propose de
modeies multinomial ou ordinal sont obtenus en utilisant
nombreuses methodes pour corriger ce probleme (voir
des variables explicatives pour chaque sujet a I'interieur
Cariin et Gelfand 1990; et Laird et Louis 1987). Dans la
d'une region locale. Pour un examen detailie des difficultes
presente etude, la methode bootstrap de type HI proposee
rencontrees dans la recherche des micro-donnees, voir
par Laird et Louis (1987) sert a ajuster les mesures
Betiilehem, Keller et Pannekoek (1990).
d'incertitude obtenues par I'estimation naive. Cette
L'application envisagee est I'estimation de la proportion
methode est decrite par FarteU et coU. (1997a), pour une
des personnes vivant dans une region locale donnee
variable de resultats binomiale. Elle peut etre adaptee a
cortespondant a chacune desttoiscategories de variables de
(2.3) ou k (2.5), et s'applique peu importe que I'estimation
resultats ordinales representant le revenu personnel total, oii
soit fondee sur p. ^ ou sur p. ^.
la region locale cortespond typiquement k un Etat. Cette
La methode exige qu'un certain nombre d'echantiUons
variable englobe toutes les sources de revenu, y compris les
bootsttap, A'^, soient generes pour un ensemble particulier
salaires, les revenus d'affaires et les revenus nets provenant
de donnees. Supposons que I'estimation de la proportion
d'autres sources. Les categories utilisees sont celles des
pour la petite region doive etre fondee sur p.^^. Pour le
personnes a faible revenu (moins de 2 500$), a revenu
b-ihme echantiUon bootstrap, on obtient une estimation
moyen (2 500$ a moins de 10 000$) ou a revenu eieve
Pbim* V^^^ Pirn* fondee sur (2.3) ou (2.5) en meme temps
(10 000$ et plus) en 1949. Ainsi, m = 1 pour les personnes
qu'une estimation naive de la variabilite de pbim*' k faible revenu (categoric 1), m =2 pour les personnes k
y^iPbi..)Les valeurs p,.^^ et Var(pi™.) sont deterrevenu moyen (categorie 2) et »j = 3 pour les personnes k
minees pour chacun des Ng echantillons bootsttap, et
revenu eieve (categorie 3). Les modeies multinomial et
servent a calculer une estimation de la variabiUte associee
ordinal ont chacun ete utilises pour obtenir des estimations
k p.^^ et ajustee selon la methode bootstrap:
ponctuelles et des estimations d'intervaUes dans 42 regions
locales. Vingt de ces regions ont ete echantillonnees. II
convient de noter que les personnes sans revenu ont ete
incluses dans la categorie 1. On aurait pu, en guise de
EVar(p,,„0 E(P*,.'-AL'')'
solution de rechange, proceder en deux etapes: d'abord
Va^'''(p,.-) = ^
avec
un modele logistique de la probabilite d'un revenu
N^
N^-l
different de zero, et ensuite avec un modeie multinomial ou
Techniques d'enquete, decembre 1997
ordinal de la categoric de revenu conditionnel a un revenu
different de zero.
En pratique, les donnees historiques sont souvent
disponibles aux fins de la planification des enquetes. Par
exemple, la selection des variables aux fins des predictions
du modeie pourtait etre fondee sur les donnees des
recensements anterieurs. Pour simuler cette situation, un
echantiUon aleatoire de 2 000 sujets a ete tire de I'echantiUon de 1 %. Les variables pour la prediction du modeie
ont ete determinees en appliquant une methode de regression logistique par degres; il s'agissait de Page, du sexe et
de la race (blancs, noirs ou autres).
Ainsi, les modeies multinomial et ordinal utilises dans la
presente etude incluaient quatre variables individuelles
explicatives pour Page, le sexe et la race (deux variables
indicatrices etaient requises pour coder les diverses races).
Toutefois, ils comprenaient egalement quatre variables de
la region locale representant I'age moyen, la proportion
d'hommes, la proportion de blancs et la proportion de noirs.
Peu importe le modele retenu, ces variables au niveau de la
region locale sont necessaires. En effet, lorsqu'elles sont
exclues, on observe que plus la valeur attendue de p.^^
augmente, plus le biais augmente egalement, passant d'une
grande valeur negative a une grande valeur positive.
L'inclusion de covariables appartenant au niveau du
domaine eiimine cette corteiation. En consequence, puisque
les variables de la region locale sont egalement incluses
dans les modeles, le modeie multinomial contient 18
parametres des effets fixes (deux pour chacun des niveaux
individuels et des variables explicatives de la region locale,
et deux termes constants) et 40 effets aleatoires (deux pour
chacune des 20 regions locales echantillonnees), tandis que
le modeie ordinal contient dix parametres des effets fixes
(un pour chacune des variables explicative des niveaux
individuel et regional et deux termes constants) et 40 effets
aleatoires (deux pour chacune des 20 regions locales echantillonnees). Pouruneetudedetailieecomparantles modeies de
regression logistique pour I'estimation des proportions pour
petites regions avec ou sans covariables du domaine et qui
utilisent des donnees binSmiales, voir FarteU et coll. (1997a).
Les donnees servant a I'estimation des proportions de
sujets de chacune des regions locales appartenant aux
diverses categories de revenu ont ete obtenues a partir de
I'echantiUon del%k I'aide d'un plan d'echantiUonnage
autopondere a deux degres. Au premier degre, 20 des
42 regions locales ont ete choisies sans remise, avec
probabilite proportionnelle a la taille (PPT). La methode
utilisee pour choisir ces regions locales etait en fait la
metiiode d'echantiUonnage systematique aleatoire avec PPT
(voir Kish 1965, p. 230). A la seconde etape, 50 sujets ont
ete choisis au hasard dans chacune des regions locales.
Cinq cent echantiUons ont ainsi ete tires a I'aide de ce plan
k deux degres. Toutefois, on n'a pas precede a I'echantillonnage repete au stade de la selection des regions locales.
Ainsi, les 500 echantillons ont ete tires des 20 memes
regions locales. Pour ces 20 regions, les proportions
moyennes par region locale pour les categories 1,2 et 3 des
niveaux de revenu sont 0,7142, 0,2260 et 0,0598.
131
11 convient de noter que pour le modeie ordinal, la
contrainte p^^ - PQI ^ 5,., - 6,.^ doit etre respectee pour que
n.j2 i 0. Une verification de cette contrainte pour chacun
des 500 echantillons k I'aide des estimations des termes
constants et des effets aleatoires a permis de verifier qu'elle
etait respectee dans tous les cas. En fait, on a decouvert que
pour chacun des 500 echantillons tires, la difference
observee dans les estimations des termes constants etait
toujours positive, superieure d'au moins deux ordres de
grandeur a la majorite des differences absolues des estimations des effets aleatoires, et superieure d'un ordre de
grandeur a la totalite d'entre elles. Ainsi, les termes
constants dans le modeie dominent les effets aleatoires.
Pour comparer les proprietes des estimateurs des proportions dans les petites regions sur une serie de repetitions
du plan de sondage, pour chacun des 500 echantillons
choisis, les valeurs j$,,„^, •^(p,.„J, et ^'^*(p.,„J associees
a chaque niveau de revenu ont ete obtenues pour chaque
region locale, echantillonnee ou non, a I'aide des modeies
multinomial et ordinal. Pour chaque modeie, les estimations
de Vs^{p.^J et ^'^'(p,,„J ont servi respectivement k
etablir des intervalles de confiance symettiques (95 %),
naifs ou ajustes par la metiiode bootstrap, de la distribution
empirique de Bayes. Les estimations de ^'*'(p,,„J ont
ete obtenues a I'aide de la methode bootstrap afin de
generer 100 echantillons bootstrap pour chacun des 500
echantillons de simulation.
II convient de noter que pour le modeie ordinal, la
conttainte P^^ - Pg, ^ 6., - 5,.^ doit egalement etre respectee
dans la methode bootstrap pour les effets aleatoires generes
a partir d'une distribution estimee; la creation des
echantiUons bootstrap risquerait autrement de donner des
estimations negatives pour certaines des probabilites TI. ^.
Tout au long de la simulation pour I'application examinee
ici, aucune probabilite negative n'a ete relevee lors de
I'utilisation de la methode bootstrap. Une des methodes
envisageables pour revaluation de la vraisemblance des
probabiUtes negatives pendant I'application de la methode
bootstrap consiste a considerer le rapport de la difference
§02 ~Poi ^^^ I'ecart-type anterieur estime de la difference
5,1 - 5,.2. Ce rapport a ete determine pour chaque region
locale echantillonnee dans chacun des 500 echantillons de
simulation tires. La moyenne de ce groupe entier de
rapports etait 6,8, et aucun n'etait inferieur k 5,8. Ainsi, on
a determine que la difference p^^ - p^, etait toujours au
moins 5,8 fois plus grande que I'ecart-type estime de la
difference 5., - 5,.2. On pourtait ainsi empiriquement
conclure que lorsque le ratio decrit ci-dessus est d'au moins
3, 11 est hautement improbable que la methode bootstrap
conduise a des probabilites negatives.
Nous presentons au tableau 1 les statistiques sommaires
moyennes des 500 echantillons de simulations obtenus pour
les modeies multinomial et ordinal sur I'ensemble des
regions locales echantillonnees pour chacune des trois
categories de revenu. Une etude de la stabilite de ces
statistiques a ete realisee en examinant comment elle
changeait sous l'effet de la prise d'echantiUons suppiementaires. Seuls des changements minimes ont ete observes
132
Farrell: Estimation de proportions pour petites regions par des methodes empinques de Bayes
apres 150 echantillons suppiementaires. Le tableau 1 comprend les statistiques sommaires obtenues pour les 200
premiers echantillons (entre parentheses) pour fins de
comparaison.
Pour chacune des categories de revenu, deux statistiques
sommaires presentees au tableau 1 ont ete evaluees pour
comparer le biais du au plan de sondage de p.^^ pour les
modeles multinomial et ordinal, le biais moyen de p.^^ et le
biais absolu moyen de p.^^. Le biais moyen cortespond
simplement a la moyenne pour I'ensemble des regions
locales echantillonnees des differences obtenues lorsque la
proportion reelle, p.^^, pour la /-ieme region locale est
soustraite de I'estimation ponctuelle moyenne pour la
region sur les 500 echantillons de simulation. Le biais
absolu moyen est defini d'une fa9on similaire, mais en
utilisant cette fois la valeur absolue de chaque difference.
D'une maniere generale, les resultats obtenus pour ces deux
statistiques sommaires etaient legerement meilleurs dans le
cas du modeie ordinal, sans egard a la categorie de revenu
examinee. Toutefois, le modele multinomial a laisse voir
un biais moyen quelque peu plus faible pour p.^^, pour la
categorie des personnes a faible revenu.
Pour chaque region locale echantillonnee, les valeurs
empiriques la racine carter de I'erteur quadratique moyenne
(REQM) ont ete calcuiees pour les 500 echantillons de
simulation avec chacun des deux modeies et chacune des
trois categories de revenu. Pour chaque combinaison de
modele et de niveau de revenu, les valeurs empiriques
appropriees de la REQM ont ete calcuiees pour I'ensemble
des regions locales echantiUonnees, pour donner les valeurs
empiriques moyennes de la REQM presentees au tableau 1.
Ici encore, le modele ordinal donne une performance
legerement meilleure pour I'ensemble des trois categories
de revenu.
Pour examiner la reduction de la valeur empirique de la
REQM lorsqu'on utilise une estimation fondee sur la
modeUsation au Ueu d'une methode classique de conception
non biaisee, on a calcuie les valeurs empiriques moyennes
de la REQM analogues a celles du tableau 1 fondees sur les
500 echantiUons, en utiUsant les proportions observees des
echantillons de regions locales au lieu de p^^^. Les valeurs
empiriques moyennes de la REQM obtenues etaient
sensiblement plus grandes (0,0617, 0,0564 et 0,0311 pour les
categories a revenu faible, moyen et eieve respectivement) que
celles fondees sur p.^^ et ce, pour les deux modeles.
Le tableau 1 comprend egalement des statistiques
sommaires portant sur I'ensemble des regions locales
echantillonnees et qui mettent en rapport les mesure naive
et celles obtenues par la methode bootsttap de la variabilite
de p.^^, ainsi que la valeur empirique moyenne de la REQM.
Tableau 1
Statistiques sommaires moyennes fondees sur 500 echantillons de simulation pour les modeies logistique multinomial et ordinal, sur
I'ensemble des petites regions echantillonnees pour chacune des categories de revenu. Les statistiques sommaires moyennes obtenues pour
les 200 premiers echantillons de simulation sont indiquees entre parentheses, pour fins de comparaison
Moyenne
Biais de p. ^
Faible revenu
Ordinal
Multinomial
-0,0005
-0,0004
(-0,0006)
(-0,0004)
Revenu moyen
Ordinal
Multinomial
-0,0004
-0,0007
(-0,0003)
(-0,0006)
Revenu eieve
Multinomial
Ordinal
0,0009
0,0011
(0,0009)
(0,0010)
Biais absolu de p.^^^
0,0076
(0,0078)
0,0051
(0,0055)
0,0089
(0,0085)
0,0048
(0,0046)
0,0108
(0,0106)
0,0074
(0,0073)
REQM empirique
0,0479
(0,0483)
0,0467
(0,0469)
0,0417
(0,0414)
0,0401
(0,0402)
0,0236
(0,0233)
0,0231
(0,0229)
Biais relatif de
-0,1192
(-0,1197)
-0,1125
(-0,1128)
-0,1273
(-0,1276)
-0,1180
(-0,1186)
-0,1524
(-0,1521)
-0,1376
(-0,1372)
0,1192
(0,1197)
0,1125
(0,1128)
0,1273
(0,1276)
0,1180
(0,1186)
0,1524
(0,1521)
0,1376
(0,1372)
-0,0275
(-0,0272)
-0,0173
(-0,0175)
-0,0309
(-0,0314)
-0,0204
(-0,0207)
-0,0391
(-0,0393)
-0,0273
(-0,0269)
Biais relatif absolu de
0,0294
(0,0290)
0,0227
(0,0228)
0,0349
(0,0343)
0,0263
(0,0265)
0,0450
(0,0446)
0,0353
(0,0347)
Taux de couverture naif
91,35
(91,325)
91,91
(91,875)
91,19
(91,225)
91,78
(91,750)
90,67
(90,650)
91,26
(91,300)
Ecart absolu de la couverture naif par
rapport au taux nominal de 95 %
3,65
(3,675)
3,09
(3,125)
3,81
(3,775)
3,22
(3,250)
4,33
(4,350)
3,74
(3,700)
Taux de couverture ajuste
94,44
(94,400)
94,75
(94,775)
94,37
(94,350)
94,68
(94,650)
93,91
(93,925)
94,40
(94,375)
Ecart absolu de la couverture ajuste par
rapport au taux nominal de 95 %
1,58
(1,600)
1,43
(1,425)
1,71
(1,725)
1,50
(1,525)
1,91
(1,900)
1,62
(1,650)
^^(P,..)
Biais relatif absolu de
^^^,..)
Biais relatif de
^v^""(P".,)
Techniques d'enquete, decembre 1997
133
Pour chaque categoric de revenu, le biais relatif niown et le
cortespond simplement a la moyenne, pour I'ensemble des
biais relatif absolu moyen de la racine cartee de 'V2^{p. J, regions locales echantillonnees, des valeurs absolues de la
utilises a titre d'estimation de la valeur empirique de la
difference obtenue lorsqu'on soustrait le taux nominal de
REQM, sont presentes au tableau 1 pour les modeies
95 % des taux de couverture naifs pour les regions locales
multinomial et ordinal. Le biais relatif moyen cortespond
echantiUonnees sur I'ensemble des 500 echantillons de
simplement a la moyenne, pour I'ensemble des regions
simulation. L'ecart absolu moyen des taux de couverture
locales echantillonnees, des valeurs obtenues lorsque la
ajustes par la methode bootstrap par rapport au taux
difference decoulant de la soustraction de la valeur
nominal de 95 % est defini d'une maniere analogue.
empirique de la REQM pour la i-ieme region locale de la
Vingt-deux des regions locales n'ont pas ete echanvaleur moyenne de la racine cartee de ^/i^(p.^J pour cette
tillonnees. On a egalement obtenu pour ces regions des
region, repetee pour I'ensemble des 500 echantillons de
estimations de la proportion des sujets appartenant a
simulation, est divisee par la valeur empirique de la REQM.
chacune des categories de revenu a I'aide des modeies
Le biais absolu moyen est defini d'une fa9on analogue,
multinomial et ordinal. Les resultats obtenus etaient
mais en utilisant cette fois la valeur absolue de chaque
semblables a ceux des regions locales echantillonnees.
difference. Le tableau presente egalement les moyennes
Toutefois, la performance des modeles s'est deterioree
semblables cortespondant aux mesures ajustees par la
quelque peu puisque les regions locales non echantillonnees
methode bootstrap de la variabilite ^'^'(p,.,„^). Pour les
constituent un echantiUon restant. Pour une evaluation
modeies logistiques multinomial et ordinal, le biais relatif
detainee des resultats cortespondant aux regions locales
moyen et le biais relatif absolu moyen des estimations de la
non echantillonnees, voir FarteU et coU. (1997a).
variabilite ajustees par la methode bootstrap sont sensiOn a egalement compare les estimations pour les
blement plus faibles que leurs contreparties obtenues par la
3 categories de revenu fondees sur les micro-donnees, p^^^,
methode naive pour I'ensemble des trois categories de
a celles fondees sur les statistiques sommaires des regions
revenu. En outte, ces statistiques sommaires de la moyenne
locales, p.^^, pour chacun des modeies. Pour les deux
ajustee par la methode bootstrap sont toutes tres petites, ce
modeies, les resultats obtenus pour p.^^ etaient heureusequi porte a conclure que les estimations de la variabilite
ment proches de ceux obtenus k I'aide de p. , meme si
ajustee par la methode bootsttap peuvent prendre en compte
ceux obtenus pour p.^^ etaient legerement meilleurs. FarteU
la majeure partie de I'incertitude qui decoule de I'utiUsation
et coll. (1997b) ont obtenu des resultats semblables en
d'une estimation de la distribution des effets aleatoires.
procedant a une comparaison detailiee de p.^^ et de p.
Pour chaque region locale echantillonnee, les taux de
pour une variable de resultats binomiale.
couverture naifs et ajustes par la metiiode bootstrap, fondes
sur des estimations par intervaUes de confiance a 95 %, ont
ete calcuies pour plus de 500 echantillons avec chacun des
4. CONCLUSION
deux modeies et chacune des trois categories de revenu.
Pour I'ensemble des combinaisons de categorie de revenu
En utilisant des modeles logistiques multinomial et
et de modeie, les taux de couverture ajustes par la methode
ordinal, on a adapte la demarche empirique de Bayes
bootsttap pour les regions locales individuelles variaient de
proposee par FartcU et coll. (1997a) a I'estimation des
92,2 k 97,6 %. Puisque la borne approximative pour I'erteur
proportions de petites regions k partir des donnees de
de Monte Carlo est 3 V(0,96)(0,05)/500, ou 0,029, tous les
resultats binomiales afin de prendre en compte les variables
taux de couverture ajustes par la methode bootstrap se
appartenant k plus de deux categories. On a ainsi determine
trouvent en-deqk de 3 ecarts-types de 95 %.
que la performance de la methode est maintenue pour les
Pour chaque combinaison de modeie et de categoric de
donnees de resultats appartenant a des categories multiples.
revenu, on a calcuie la moyenne des taux de couverture
Pour comparer les estimations des proportions pour
appropries sur I'ensemble des regions locales echantilpetites regions fondees sur une variable ordinale k I'aide
lonnees pour obtenir les taux moyens naifs et ajustes par la
des modeies logistiques multinomial et ordinal, on a
methode bootsttap presentes au tableau 1. On peut tirer de
applique les methodes empiriques de Bayes fondees sur ces
ces resultats un certain nombre d'observations valables
deux modeies a des donnees issues du recensement
pour chacune des categories de revenu. Pour les modeies
americain de 1950 en cherchant k predire, pour une petite
multinomial et ordinal, les taux de couverture moyens pour
region, la proportion des personnes appartenant k diverses
les intervalles ajustes par la methode bootstrap sont
categories d'une variable de reponses ordinale representant
beaucoup plus pres du taux nominal de 95 % que ceux
le niveau de revenu. Les estimations fondees sur le modeie
associes aux intervalles naifs. Toutefois, les taux de
ordinal ne sont que legerement meilleures en ce qui a trait
couverture moyens naifs et ajustes par la methode bootstrap
au biais du plan de sondage, k la REQM empirique et aux
pour le modeie ordinal sont legerement meilleurs que leurs
taux de couverture. En outre, le modeie logistique ordinal
contreparties du modeie multinomial. C'est ce que I'on
se distingue particulierement par le fait que la contrainte
observe egalement pour I'ecart absolu moyen des deux
Po(m*i) - Pom ^ ^in, - 5,(„.i) doit etre respectee pour que
categories de taux de couverture par rapport au taux
Tt,y(„+,) s 0. Puisque les resultats des modeles multinomial
nominal de 95 %. L'ecart absolu moyen des taux de
et ordinal sont tres semblables, on pourtait utiliser un
couverture naifs par rapport au taux nominal de 95 %
modeie multinomial pour I'estimation des proportions de
134
Farrell: Estimation de proportions pour petites regions par des methodes empiriques de Bayes
petites regions en s'appuyant sur les variables de resultats
ordinales lorsqu'on a des raisons de craindre que
I'utiUsation d'un modeie ordinal n'aboutisse a des
estimations negatives pour certaines de ces probabiUtes.
FARRELL, P.J. (1991). Empirical Bayes Estimation of Small Area
Proportions. These de doctorat, Department of Management
Science, McGill University, Montreal, Quebec, Canada.
REMERCIEMENTS
FARRELL, P.J., MacGIBBON, B., et TOMBERLIN, T.J. (1997b).
Empirical Bayes small area estimation using logistic regression
models and summary statistics. Journal ofBusiness and Economic
Cette etude a beneficie de I'aide financiere du CRSNG
du Canada. L'auteur remercie le redacteur associe et les
lecteurs pour leurs commentaires et leurs suggestions utiles.
BIBLIOGRAPHIE
ALBERT, J.H., et CHIB, S. (1993). Bayesian analysis of binary and
polytomous response data. Journal of the American Statistical
Association, 88,669-679.
ANDERSON, J.A. (1984). Regression and ordered categorical
variables. Journal of the Royal Statistical Society, Series B, 46,
1-30.
BETHLEHEM, J.G., KELLER, W.J., et PANNEKOEK, J. (1990).
Disclosure control of microdata. Journal of the American
Statistical Association, 85, 38-45.
BRESLOW, N.E., et CLAYTON, D.G. (1993). Approximate
inference in generalized linear mixed models. Journal of the
American Statistical Association, 88, 9-25.
BRESLOW, N.E., et LIN, X. (1995). Bias correction in generalised
linear mixed models with a single component of dispersion.
Biometrika, &2,&l-9\.
CAMPBELL, M.K., et DONNER, A. (1989). Classification
efficiency of multinomial logistic regression relative to ordinal
logistic regression. Journal of the American Statistical
Association, 84, 587-591.
FARRELL, P.J., MacGIBBON, B., et TOMBERLIN, T.J. (1997a).
Empirical Bayes estimators of small area proportions in multistage
designs. Statistica Sinica, 7, 1065-1083.
Statistics, 15,101-108.
GHOSH, M., et RAO, J.N.K. (1994). Small area estimation: an
appraisal. Statistical Science, 9, 55-93.
GONZALES, M.E. (1973). Use and evaluation of synthetic
estimation. Proceedings of the Social Statistics Section, American
Statistical Association, 33-36.
KISH, L. (1965). Survey 5'a/wp/ing. New York: John Wiley & Sons Inc.
LAIRD, N.M. (1978). Empirical Bayes methods for two-way
contingency tables. Biometrika, 65, 581-590.
LAIRD, N.M., et LOUIS, T.A. (1987). Empirical Bayes confidence
intervals based on bootstrap samples. Journal of the American
Statistical Association, 82, 739-750.
MacGIBBON, B., et TOMBERLIN, T.J. (1989). Estimation de
proportions pour petites regions par des methodes empiriques de
Bayes. Techniques d'enquete, 15, 247-262.
MALEC, D., SEDRANSK, J., et TOMPKINS, L. (1993). Bayesian
predictive inference for small areas for binary variables in the
National Health Interview Survey. In Case Studies in Bayesian
Statistics, (Eds. C. Gatsonis, J.S. Hodges, R. Kasf, et N.D.
Singpurwalla). New York: Springer Veriag.
McCULLAGH, P. (1980). Regression models for ordinal data.
Journal of the Royal Statistical Society, Series B, 42, 109-142.
PRASAD, N.G.N., et RAO, J.N.K. (1990). On the estimation of mean
square error of small area predictors. Journal of the American
Statistical Association, 85, 163-171.
CAMPBELL, M.K., DONNER, A., et WEBSTER, K.M. (1991). Are
ordinal models useful for classification? Statistics in Medicine, 10,
383-394.
RIPLEY, B.D., et KIRKLAND, M.D. (1990). Iterative simulation
methods. Journal of Computational and Applied Mathematics, 31,
165-172.
CARLIN, B.P., et GELFAND, A.E. (1990). Approaches for empirical
Bayes confidence intervals. Journal of the American Statistical
Association, 85,105-114.
ROYALL, R.M. (1970). On finite population sampling theory under
certain linear regression models. Biometrika, 74, 1-12.
CRESSIE, N. (1992). Estimation du maximum de vraisemblance avec
contrainte (MVC) dans le lissage des taux de sous-denombrement
du recensement selon 1' approche empirique de Bayes. Techniques
d'enquete,li,%2-\Q^.
CROUCHLEY, R. (1995). A random-effects model for ordered
categorical data. Journal of the American Statistical Association,
90,489-498.
DEMPSTER, A.P., LAIRD, N.M., et RUBIN, D.B. (1977).
Maximum likelihood estimation from incomplete data via the EM
algorithm. Journal of the Royal Statistical Society, Series B, 39,
1-38.
DEMPSTER, A.P., et TOMBERLIN, T.J. (1980). The analysis of
census undercount from a postenumeration survey. Proceedings
of the Conference on Census Undercount, ArUngton, VA, 88-94.
STROUD, T.W.F. (1991). Hierarchical Bayes predictive means and
variances with application to sample survey inference.
Communications in Statistics, Theory and Methods, 20, 13-36.
TOMBERLIN, T.J. (1988). Predicting accident frequencies for
drivers classified by two factors. Journal of the American
Statistical Association, 83, 309-321.
UNITED STATES BUREAU OF THE CENSUS (1984). Census of
the Population, 1950: Public Use Microdata Sample Technical
Documentation, edite par J.G. Keane, Washington, D.C.
WONG, G.Y., et MASON, W.M. (1985). The hierarchical logistic
regression model for multilevel analysis. Journal of the American
Statistical Association, 80, 513-524.
ZEGER, S.L., et KARIM, M.R. (1991). Generalized linear models
with random effects; a Gibbs sampling approach. Journal of the
American Statistical Association, 86, 79-86.
Techniques d'enquete, decembre 1997
Volume 23, n° 2, pages 135-145
Statistique Canada
135
Stratification a posteriori en un grand nombre de categories
par regression logistique hierarchique
A N D R E W G E L M A N et T H O M A S C. L I T T L E '
RESUME
La stratification a posteriori est une methode appliquee couramment pour tenir compte de I'inegalite des probabilites
d'echantiUonnage et de la non-reponse lors des enquetes par sondage. Cette methode consiste k subdiviser la population
en plusieurs categories, k estimer la repartition des reponses dans chaque categorie, puis, k donner k chaque categorie un
poids proportionnel k sa taille dans la population. Nous considerons la stratification a posteriori comme un cadre de
reference general englobant de nombreux scenarios de ponderation utilises dans le domaine de I'analyse d'enquete
(consulter Littie 1993). Nous construisons un modele de regression logistique hierarchique pour determiner la moyenne
conditionnelle d'une variable de reponse binaire subordonnee k des cellules, ou categories, de stratification a posteriori.
Le modeie hierarchique permet d'inclure un nombre beaucoup plus grand de cellules que les methodes classiques, done,
d'introduire beaucoup plus de renseignements sur la population, tout en incluant tous les renseignements qui sous-tendent
I'inference lors de I'echantiUonnage d'enquete. Done, nous combinons la methode de modeiisation appliquee frequemment
k I'estimation des petites regions aux renseignements sur la population utilises k I'etape de la stratification a posteriori. Nous
appliquons la methode k un ensemble de sondages d'opinion preeiectoraux effectues aux 6tats-Unis, dont les donnees sont
stratifiees a posteriori selon I'Etat et selon les variables demographiques habituelles. Nous evaluons les modeies
graphiquement en comparant les resultats qu'ils produisent k ceux des elections au niveau de I'etat.
MOTS CLES: Inference Bayesienne; prevision electorate; non-reponse; sondages d'opinion; enquetes par sondage.
1. INTRODUCTION
Le fait de fonder entierement ou principalement la
ponderation sur la sttatification a posteriori, expression qui
designe generalement toute methode d'estimation visant k
rajuster les chiffres d'apres les totaux calcuies pour
I'ensemble de la population, est une pratique courante dans
le cas des sondages d'opinion. Essentiellement, la methode
se resume k repartir la population en un certain nombre de
categories k I'interieur desquelles les resultats de I'enquete
sont analyses comme s'ils etaient obtenus selon un plan
d'echantiUonnage aleatoire simple. L'etape de sttatification
a posteriori consiste a estimer les parametres a I'echeUe de
la population en faisant la moyenne des estimations dans les
categories, apres avoir donne k celles-ci un poids proportionnel k leur taille relative dans la population. Ordinairement, on definit les categories de la stratification a
posteriori d'apres les caracteristiques demographiques
(sexe, age, etc.) et d'apres toute variable utiUsee dans la
stratification. Un autte niveau de complication, que nous
n'abortions pas ici, surviendrait en cas d'echantiUonnage en
grappes.
La definition des categories de la sttatification a
posteriori pose une difficulte fondamentale. H est souhaitable de diviser la population en un grand nombre de petites
categories, afin que I'hypotiiese selon laqueUe I'echantillonnage est aleatoire simple dans chaque categorie soit
raisonnable. Toutefois, si le nombre de repondants par
categorie est faible, il est difficile d'estimer avec precision
la reponse moyenne dans chaque categorie. Par exemple, si
on stratifie a posteriori selon le sexe, le groupe ethnique.
Page, le niveau de scolarite et la region des Etats-Unis,
certaines cellules de 1' echantiUon pourtaient ette vides, tandis
que d'autres ne contiendraient qu'un ou deux repondants.
Un moyen general de resoudre ce probleme consiste k
modeUser les reponses en subordonnant le modeie aux
variables de stratification a posteriori (consulter Little
1993). Par exemple, pour corriger les donnees en fonction
de plusieurs variables demographiques, on applique
generalement la methode iterative du quotient entre des
marges unidimensionnelles ou bidimensionnelles (c.-^-d. un
ajustement proportionnel iteratif, Denting et Stephan 1940).
Cet exercice cortespond essentiellement k faire une
stratification a posteriori couvrant entierement le tableau
multidimensionnel, mais en se servant d'un modeie des
reponses, subordonne aux variables demographiques, qui
donne une valeur nuUe aux interactions de niveau superieur.
Les methodes fondees sur les poids de Ussage peuvent aussi
Stte considerees comme des sttatifications a posteriori, avec
modeies de reponses cortespondants (consulter Littie
1991). Quand les categories de la sttatification a posteriori
sont conformes a uiie stiiicture hierarchique (par exemple,
personnes dans un Etat aux Etats-Unis), on peut ameiiorer
Tefficacite de I'estimation en ajustant un modeie
hierarchique (p. ex., Lazzeroni et Littie 1997). Dans le
contexte connexe de I'estimation par regression, Longford
(1996) montre que les modeies hierarchiques lineaires
permettent d'ameUorer la precision des estimations des
petites regions fondees sur des donnees d'enquete par
sondage.
Andrew Gelman, Department of Statistics, Columbia University, New York, NY 10027 et Thomas C. Little, Morgan Stanley Dean Witter, New York, NY.
Gelman et Little: Stratification a posteriori en un grand nombre de categories
136
Dans le present article, nous decrivons un modeie
hierarchique de regression logistique con9u pour estimer
une variable binaire par stratification a posteriori.
Comparativement k la stratification a posteriori type, ce
modeie permet d'utiliser un nombre nettement plus grand
de categories, done des renseignements beaucoup plus
detailies sur la population. En pratique, la methode est
surtout avantageuse dans le cas des petits sous-groupes de
poj)ulation. Nous I'appUquons aux resultats, au niveau de
I'Etat, d'un ensemble de sondages d'opinion preeiectoraux
effectues aux Etats-Unis. Le choix de cet exemple nous
permet notamment de verifier nos inferences au moyen
d'une source exteme, en les comparant aux resultats
eiectoraux au niveau de I'Etat. En annexe, nous decrivons
le calcul du modeie hierarchique au moyen d'un algorithme
EM d'esperance approximative et de maximisation.
2. MODELE
2.1
Renseignements sur Pechantillonnage et la
stratification a posteriori
Considerons une subdivision de la population en R
variables nominales, oti la r-ieme variable possede J^
niveaux, ce qui donne un total de J = 11,.,,/^ categories
(cellules), que nous annotonsy = 1,..., J. Supposons qu'on
connait N., c'est-a-dire le nombre d'unites de population
dans la categorie j , pour toutes les valeurs de j .
Representons par y une reponse binaire que I'on veut
etudier et representons par KJ, la reponse moyenne de la
population dans chaque categoric y. Alors, la moyenne
globale de la population est Y = V Nj tij/Yj ^j- Supposons
que la population est suffisamment grande pour qu'on
puisse ignorer toutes les cortections ayant trait aux
populations finies.
Effectuons maintenant une enquete par sondage en vue
d'estimer Y (et peut-etre certains autres regroupements des
Tij). Pour chaquey, representons par nj le nombre d'unites
dans la categories de I'echantiUon. En la subordonnant aux
variables explicatives R, emettons I'hypothese qu'on peut
ignorer I'impact de la non-reponse (Rubin, 1976). Done, les
variables R devraient inclure tous les renseignements
necessaires pour calculer les poids d'enquete, ainsi que
toute autre variable susceptible de foumir des renseignements sury.
Dans le cas de I'exemple expose a la section 3, nous
categorisons la population d'adultes dans les 48 Etats
americains contigus d'apres R = 5 variables, a savoir I'etat
de residence, le sexe, le groupe ethnique, I'age et le niveau
de scolarite, avec (J,,..., J^) = (48,2,2,4,4). (Les variables
du groupe ethnique, de Page et du niveau de scolarite sont
discretisees chacune en 4 categories, comme on le decrit a
la section 3.1.) Les J = 3 072 categories varient de
"Alabama, homme, noir, de 18 a 29 ans, sans dipl6me
d'etudes secondaires» a «Wyoming, femme, non noire,
65 ans et plus, dipl6me coliegial». D'apres les donnees du
Recensement des Etats-Unis, nous pouvons calculer de
bonnes estimations de A'^. dans chacune de ces categories.
Nous considererons des estimations pour I'ensemble de la
population (obtenues en calculant la somme pour les
3 072 categories) ainsi que des estimations par Etat (en
calculant separement la somme de 64 categories dans
chaque Etat). Puisque, dans le cas d'un echantiUon
d'enquete de taille raisonnable, il est impossible d'obtenir
des estimations independantes des reponses moyennes TI.
pour des categories j distinctes (en fait, la plupart des
categories sont vides ou ne contiennent qu'un seul
repondant), nous devons modeiiser les n. pour pouvoir faire
la stratification a posteriori, et done nous servir des effectifs
connus des categories Nj. La stratification a posteriori offre
I'avantage (eventuel) d'apporter une cortection pour la
variation du taux de non-reponse d'une categoric a I'autre.
2.2
Modeles de regression dans le contexte de la
stratification a posteriori
On peut creer un modeie de regression logistique pour
determiner la probabilite n. que les repondants de la
categoriey disent «oui». 11 aura la forme
logit(;i,.)=X^.p,
(1)
oii X est une matrice de variables explicatives et oii Xj
represente la y-ieme rangee deX. Si nous supposons que la
distribution a priori est uniforme en regard de p, alors, en
vertu du modeie susmentionne, I'inference bayesienne pour
differents choix deX cortespond de pres k divers schemas
classiques de ponderation. Ces cortespondances, que nous
presentons ci-apres, sont generates et s'appuient sur la
linearite du modeie suppose (autrement dit, Xj^ dans (1)).
(Dans le cas des donnees binaires etudiees dans le present
article, les estimations classiques et bayesiennes avec une
distribution a priori uniforme ne sont pas identiques etant
donne la transformation logistique non lineaire representee
par (1), mais, pour de grands echantillons, les ecarts sont
minimes.)
Les modeies qui suivent cortespondent aux estimations
classiques par stratification a posteriori les plus courantes.
- Faire cortespondre Xkla matrice d'identite JxJ equivaut a ponderer chaque unite de la ceUuley par N/n.,
autrement dit, a effectuer une stratification a posteriori
simple. D est bien connu que cette methode ne donne de
bons resultats que si les nj sont suffisamment grands (et
ne marche pas du tout si nj = 0 pour certains 7).
- Si nous faisons cortespondre X a la matrice de variables
explicatives Jx (£f=i-^^) pour chaque variable, alors,
I'estimation de7 cortespond a peu pres a celle obtenue
par application de la methode iterative du quotient entre
les marges unidimensionnelles pour toutes les R.
- Inclure diverses interactions dans X revient k inclure ces
interactions dans I'ajustement proportionnel iteratif. De
fagon plus generale, supposer que X presente une
"Structure" quelconque equivaut a regrouper d'une
certaine fa9on les strates a posteriori.
Techniques d'enquete, decembre 1997
- Le fait de n'inclure aucune variable explicative dans le
modeie (autrement dit a poser que X est simplement un
vecteur de 1) mene a I'estimation de la moyenne
d'echantiUon y.
Pour une discussion plus detailiee de la relation entre les
estimations par ponderation et la stratification a posteriori,
consulter HoU et Smith (1979), ainsi que Little (1993).
2.3
Modele de regression hierarchique pour
regroupement partiel
Si le nombre de cellules est grand, aucune option
susmentionnee ne permet d'utiliser efficacement les renseignements foumis par les categories (par exemple, la
sttatification a posteriori simple produit des estimations qui
sont ttop variables; toutefois, si nous excluons les variables
explicatives pour un grand nombre de categories, nous
eiiminons des renseignements importants). Pour remedier
k cette situation, nous effectuons un groupement partiel des
cellules en ajustant un modeie a effets mixtes (consulter,
par exemple, Clayton 1996). Nous representons le vecteur p
par {a, YJ, ..., y^), oua est un sous-vectcur de coefficients
non groupes et oii chaque y,, pour 1 = 1,..., L, est un sousvecteur de coefficients (y^^) auxquels nous ajustons un
modele hierarchique:
ind
y„~N{0,t^),k=l,...,K,
Donner k x, une valeur nuUe (0) equivaut a exclure un
ensemble de variables; donner a x, une valeur infinie (~)
equivaut k une distribution a priori non informative en
regard des parametres y^,.
Etant donne les reponses y. dans les categories y, nous
constiuisons une matrice C de categorisation nxj pour
laqueUe C.j = I si le repondant / se trouve dans la celluley.
Posons que Z = CX. On peut alors ecrire l'equation du
modeie (1) sous la forme d'un modeie hierarchique de
regression logistique de la fagon suivante:
y, ~ BemoulU(p,.)
logit(p.)=Zp
P ~ ^(0,Ep).
ou Yp est une matrice diagonale dont tous les elements de a
sont nuls, suivis det," pour chaque element de y,, pour
chaque /. Nous representons par p. la probabilite cortespondant a I'unite /, de fagon a la distinguer de TI., c'est-^dire la probabilite agregee cortespondant k la categoric y.
Consulter Nordberg (1989), ainsi que BeUn, Diffendal,
Mack, Rubin, Schafer et Zaslavsky (1993) pour une
discussion generale des modeies hierarchiques de regression logistique applicables aux donnees d'enquete.
2.4 Inference en vertu du modele
Pour faire des inferences au sujet des parametres k
rechelle de la population, nous adoptons la strategic
137
empttique de Bayes, c'est-^-dire premierement, estimer les
hyperparametres x,, etant donne les valeurs de y;
deuxiemement, faire une inference bayesienne en ce qui
conceme les coefficients de regression p, etant donne yet
les t, estimes;ttoisiemement,calculer les inferences pour
le vecteur des moyennes des cellules TI = logit"' (XP);
quatriemement, calculer les inferences pour les parametres
a I'echeUe de la population en additionnant les NJ'KJ. NOUS
considerons cette methode comme une approximation de
I'analyse bayesienne complete, qui consiste a faire la
moyenne sur les paramettes x,. Les deux methodes different
surtout quand on estime les composantes x, de fa?on
imprecise ou qu'on ne peut les distinguer de 0 (consulter,
par exemple, Gelman et coll. 1995, section 5.5). Dans
I'exemple examine ici, le probleme ne se pose pas, car
I'estimation des diverses composantes montre clairement
que ces demieres different de 0. Si cela n'etait pas le cas,
cela vaudrait siirement la peine de pousser plus loin I'effort
de programmation afin d'effectuer une analyse bayesienne
complete. Toutefois, la presente etude vise k examiner
l'efficacite de la combinaison de la modeiisation hierarchique a la stratification a posteriori, plutot que les
differences techniques assez mineures entre les analyses
bayesiennes empiriques et non empiriques.
Le rettecissement des estimations dans les cellules a lieu
a la deuxieme etape et son importance depend de la taille de
I'echantiUon «^. et des valeurs de y .. Le rettecissement est
d'autant plus important que les valeurs de nj sont faibles et
que les valeurs de pj s'ecartent des predictions fondees sur
le modeie de regression logistique. En outre, le retrecissement est plus important si les parametres x, sont petits.
Ainsi, un lot de coefficients y, dont le pouvoir predictif est
faible sera reduit de fagon k tendre vers zero dans
I'estimation, parce qu'il sera estime que x, a une valeur
faible. Cette methode permet d'inclure un grand nombre de
coefficients dans le modeie hierarchique sans augmenter
trop la variabilite des estimations des grandeurs k I'echeUe
de la population.
3. APPLICATION: VENTILATION DES
DONNEES D'ENQUETES NATIONALES
SELON L'ETAT
3.1 Donnees d'enquete
Nous appliquons la methodologie susmentionnee pour
determiner, au niveau de I'Etat, les resultats de sept
sondages d'opinion nationaux effectues par le reseau de
television CBS aupres des eiecteurs enregisttes durant les
deux semaines precedant directement I'eiection presidentielle de 1988 aux Etats-Unis. Conformement k la notation
generale que nous avons adoptee, nous assignonsy. = 1 aux
partisans de Bush et y, = 0 aux partisans de Dukakis; nous
eiiminons les enquetes qui n'ont exprime aucune opinion
(environ 15 % du total; conformement k la pratique
courante, nous comptons les repondants qui «penchent» vers
un candidal comme des partisans k part entiere).
Puisqu'aucune donnee n'a ete collectee k Hawaii ni en
138
Gelman et Little: Stratification a posteriori en un grand nombre de categories
Alaska, seuls les 48 Etats contigusfigurentdans le modele.
Bien qu'il soit inclus dans les enquetes, I'Etat de
Washington, D.C. est exclu de I'analyse. En effet, les
preferences en matiere de vote y different tellement de
ceUes observees dans les autres Etats qu'un modeie lineaire
generalise adapte aux 48 Etats ne serait pas aussi bien
adapte a cet Etat et, les donnees qu'on y coUecterait
influeraient done indument sur les resultats obtenus pour les
etats. Puisqu'on dispose de moins d'observations pour les
petits etats et que la variation du soutien estime pour Bush
d'un sondage a I'autre est similaire a la variabilite d'echantiUonnage binomial (telle que mesuree par le test y^ de
PegaUte des proportions d'eiecteurs qui appuient Bush dans
les sept sondages), nous regroupons les donnees de tous les
sondages.
La CBS determine les coefficients de ponderation
d'enquete par application de la methode iterative du
quotient aux variables suivantes, avec les classifications
implicites pour la non-reponse a une question indiquee
entre crochets:
region de
recensement:
sexe:
groupe ethnique:
age:
niveau de
scolarite:
nord-est, sud, centre nord, ouest.
masculin, feminin.
noir, [blanc/autre].
de 18 a 29 ans, de 30 a 44 ans, [de 45 a
64 ans], 65 ans et plus,
pas de diplSme d'etudes secondaires,
[diplSme
d'etudes
secondaires],
certaines etudes coUegiales, diplome
coUegial.
L'appUcation de la methode iterative du quotient englobe
tous les effets importants plus les interactions sexe x
groupe ethnique et age x education. Nous incluons toutes
ces variables a titre d'effets constants dans le modeie de
regression logistique, et nous excluons de I'analyse les
repondants, assez rares, qui ne produisent pas de reponse
pour une variable demographique quelconque. Les
coefficients de ponderation calcuies par la CBS tiennent
aussi compte des nombres de lignes teiephoniques et
d'adultes dans le menage, car ils ont une incidence sur les
probabilites d'echantiUonnage; cependant, ces elements
n'ont qu'un effet mineur sur les estimations de la preference
pour I'un ou I'autte candidat a la presidence (consulter
Little 1996, chapitre 3) et nous ne les incluons pas dans le
modeie. Le lecteurttouverad'auttes renseignements sur les
methodes d'enquete et de cortection appUquees par la CBS
dans Voss, Gelman et King (1995).
Notre modeie va au-del^ de I'analyse effectuee par la
CBS, car il comprend des indicateurs des effets aleatoires
lies aux 48 Etats, regroupes en quatre lots cortespondant
aux quatre regions de recensement. Nous verifions la
performance du modele en comparant les estimations
obtenues pour chaque Etat aux resultats reels de I'eiection
presidentielle. (Les sondages d'opinion effectues juste
avant I'eiection sont des indicateurs fiables du resultat reel
de I'eiection; consulter, p. ex., Gelman et King 1993.)
Nous comparons aussi la stabilite des estimations fondees
sur les resuUats de divers sondages au cours d'une breve
periode.
3.2
Chiffres de population pour la stratification a
posteriori
Afin de faire une stratification a posteriori en regard de
toutes les variables susmentionnees, ainsi que de I'Etat,
nous devons connaitte la repartition agregee de population
pour les variables demographiques dans chaque Etat,
c'est-a-dire les totaux de population A'^. pour chacune des
2 x 2 x 4 x 4 8 cellules definies par sexe x groupe
ethnique x age x Etat. Puisque les eiecteurs enregistres
sont la population cible, nous devrions nous fonder sur la
repartition de cette population. En tant qu'approximation,
nous utilisons les totaUsations croisees provenant des
donnees de la Public Use Micro Survey (PUMS) pour tous
les citoyens de 18 ans et plus. Les donnees de la PUMS
contiennent des enregistrements pour 5 % des unites de
logement aux Etats-Unis et pour les personnes qui les
habitent, soit plus de 12 miUions de personnes et plus de
5 milUons d'unites de logement. Ces donnees produisent un
echantiUon stratifie des 15,9 % d'unites de logement
environ qui ont regu un questionnaire detailie a I'occasion
du Recensement de 1990. Les personnes qui vivent en
etablissements ou dans d'autres logements coUectifs sont
egalement incluses dans I'echantillon. Les poids sont
calcuies, tant pour I'unite de logement que pour les
personnes qui I'occupent, d'apres les probabilites d'echantiUonnage et les cortections apportees aux totaux du recensement pour les variables incluses dans le questionnaire
abrege. Nous utilisons les donnees ponderees de la PUMS
pour estimer A'', pour chaque strate a posteriori et nous ne
tenons pas compte de I'erteur d'echantiUonnage dans ces
chiffres. Les chiffres ponderes tires de la PUMS sont fort
semblables k ceux provenant de la stratification a posteriori
auxquels la CBS a applique la methode iterative du quotient
(voir Little 1996, chapitre 3).
3.3 Resultats
Nous presentons les resultats pour quatre methodes
appliquees aux donnees agregees de sept sondages:
1. Estimation classique par la methode iterative du quotient
selon les variables demographiques (region, sexe,
groupe etiinique, age, niveau de scolarite, sexe x groupe
ethnique et age x niveau de scolarite). Cette methode
est fort semblable k la methode de ponderation utilisee
par la CBS. Pour I'estimation des resultats selon I'Etat,
nous calculous les moyennes ponderees pour chaque
Etat, d'apres les poids obtenus par la methode iterative
du quotient.
2. Estimation par regression en se servant des variables
demographiques ainsi que des indicateurs sur les Etats,
sans modeie hierarchique (c.-^-d. regression en
supposant les effets d'Etat constants). Cette methode est
fort semblable a I'ajustement iteratif proportionnel
couvrant les Etats ainsi que les variables demogra-
Techniques d'enquete, decembre 1997
phiques. Les estimations au niveau de I'Etat produites
par ce modeie devraient etre meilleures que ceUes
obtenues en appUquant la methode iterative du quotient
en regard des variables demographiques, car les
estimations des Uj sont ponderees par les chiffres de
population N. pltitot que par I'effectif de I'echantiUon,
nj, dans chaque Etat.
3. Estimation par regression en se servant uniquement des
variables demographiques, et en donnant une valeur
nulle aux effets d'Etat. En vertu de ce modeie, les
reponses moyennes dans les Etats different uniquement
a cause des variations demographiques; dans la mesure
oti les caracteristiques demographiques n'expliquent pas
compietement la variation de I'opinion, le modeie sousestime la variabilite d'un Etat a I'autre.
4. Estimation par regression en se servant des variables
demographiques et en estimant les effets des 48 Etats au
moyen d'un modeie hierarchique (selon la notation
adoptee k la section 2, Z, = 4 et Ky ATj, K^ K^ =
12,13,12,11). Nous nous attentions kce que ce modeie
donne les resultats les meilleurs non seulement parce
que le modeie hierarchique de regression est souple,
mais aussi parce que la stratification a posteriori se
fonde sur les chiffres de population Nj.
Nous ajustons chacun des modeies de regression aux
donnees d'enquete, produisons des tirages par simulation a
posteriori pour chaque coefficient (subordonnes aux
Xj, Xj, Xj, x^ estimes), et effectuons de nouveau la ponderation d'apres les donnees de la PUMS pour obtenir, dans
chaque sttate a posteriori, la proportion estimee d'eiecteurs
enregistres qui appuient la candidature de Bush a la
presidence.
Le tableau 1 presente les estimations obtenues par la
methode iterative du quotient, les medianes et les intervaUes
interquartiles a posteriori pour les ttois modeies, ainsi que
les donnees sur les reponses aux sondages et les resultats
reels de I'eiection. Le tableau 2 donne les crtcurs de
prediction au niveau national et les crtcurs moyennes
absolues de prediction au niveau des Etats pour la methode
iterative du quotient et pour les trois modeies. Les quatre
methodes produisent pratiquement les memes resultats au
niveau national; I'ameiioration reelle des estimations grace
aux modeies se manifeste au niveau des Etats. La reduction
de I'crtcur moyenne absolue de prediction d'environ 6 %
jusqu'^ 5 % peut ette attiibuee k I'utiUsation des renseignements resuUants de la sttatification a posteriori, et la
reduction supplementaire jusqu'a 3,5 %, a la modeiisation
hierarchique. De surcroit, les deux demieres lignes du
tableau 2 monttent que les intervalles d'incertitude estimes
par le modeie hierarchique sont courts et relativement bien
etalonnes (un peu moins de la moitie des valeurs vraies
tombent dans les intervalles de 50 %, resultat raisonnable si
I'on considere que ces intervalles tiennent compte de
I'erteur d'echantiUonnage, mais non des erteurs non dues
k I'echantiUonnage ni des variations d'opinion).
La figure 1 donne une representation graphique, selon
I'Etat, des resultats reels de I'eiection en fonction des
estimations produites par la methode iterative du quotient
139
et des medianes des strates a posteriori calcuiees pour les
trois modeies. II n'est pas etonnant de constater que le
modeie hierarchique diminue la variance, done I'erteur
d'estimation, par retrecissement. Bien que les quatre
metiiodes permettent de corriger de pratiquement la meme
grandeur le biais qui entache I'estimation au niveau
national, elles ont des effets differents au niveau de I'Etat,
le modele hierarchique etant celui qui produit les resultats
les meilleurs. Lafigure2 permet de comparer les erteurs de
prediction resultant de I'application du modeie hierarchique
et de la methode iterative du quotient pour produire les
estimations pour les Etats.
Fait interessant, le modeie hierarchique ne semble pas
rapprocher suffisamment les donnees de la moyenne
nationale puisque, comme le montre la figure d, le resultat
actuel de i'eiection est plus eieve que prevu pour les valeurs
que I'on prevoyait faibles et plus faibles que prevu pour
celles que I'on prevoyait eievees. Le 50i«-rettecissement
signifie que la valeur des paramettes estimes t, est
probablement/j/us grande que leur valeur reelle, situation
qui pourtait etre due k une courbe de non-reponse non
negligeable, variant d'un Etat k I'autre, si bien que la
variabilite observee des proportions au niveau de I'Etat
resulte de la variation de la courbe de non-reponse en plus
de la variation reelle de la moyenne des opinions (consulter
Little et Gelman 1996, pour un examen de cet exemple,
ainsi que Krieger et Pfeffermann 1992, pour un traitement
plus general). On pourtait quantifier le sous-rettecissement
en comparant le niveau de retrecissement estime au niveau
juge optimal, mais ceci n'est faisable qu'apres avoir
observe les valeurs reelles.
On peut aussi comparer les modeies en les ajustant
individuellement k chaque sondage et en examinant la
stabilite des estimations au cours d'une periode breve. II
s'agirait-lk d'un moyen raisonnable d'etudier les modeies
dans la situation, courante, oii on ne connait jamais les
moyennes reelles de population. La figure 3 montre, pour
chacun des sept sondages, les estimations obtenues par la
methode iterative du quotient et grace au modeie hierarchique. (Au moment de la modeiisation individuelle des
enquetes, nous avons utilise une variance hierarchique
commune pour les 48 Etats, car nous ne disposions pas de
donnees suffisantes pour obtenir des estimations fiables du
maximum de vraisemblance pour les quatre regions
separement d'apres les donnees de chaque sondage.) Les
resultats sont presentes pour I'ensemble des Etats-Unis et
pour ttois Etats representatifs, k savoir la Califomie (grand
Etat), I'Etat de Washington (Etat de taille moyenne) et le
Nevada (petit Etat). Par souci de commodite, la representation graphique montte aussi les estimations calcuiees
d'apres les donnees agregees des sept sondages et les
resultats reels de I'eiection. Pour chacun des Etats,
I'estimation grace au modeie hierarchique varie moins que
celle obtenue par la methode iterative du quotient. C'est
pour le Nevada, oti l'effectif des echantillons des divers
sondages etait si faible que les estimations par la methode
iterative du quotient se reduisaient a 0 ou k 1 dans la plupart
des cas, que la tendance est la plus nette, mais la superiorite
du modeie hierarchique est manifeste dans le cas des autres
140
Gelman et Little: Stratification a posteriori en un grand nombre de categories
Tableau 1
Selon I'fitat: resultats de I'eiection (proportion des votes pour les deux partis obtenue par Bush en 1988); donnees d'enquete (moyenne non
ponderee et taille de I'echantiUon)tireesdes sondages regroupes; estimation par la methode iterative du quotient en utilisant les variables de
la CBS; mediane a posteriori (et intervalle interquartile, autrement dit, largeur de I'intervalle d'incertitude central de 50 %) des estimations
par stratification a posteriori fondees sur les effets d'fitat non lisses, consideres nuls ou estimes au moyen d'un modeie hierarchique. Les
estimations sont numerotees 1, 2, 3 et 4 conformement aux descriptions de la section 3.3.
Estimations par stratification a posteriori (et IIQ)
]6tat
Resultat de
I'eiection
Taille de
I'dchantillon
Moyenne non
ponderee
1: Methode du
quotient iterative
2: effets d'Etat non
lisses
3: effets d'fitat
nuls
4: Modeie
hierarchique
AL
AR
AZ
0,6
0,57
0,61
0,72
0,57
0,62
0,67
0,53
0,61
0,63 (0,05)
0,53 (0,06)
0,62 (0,05)
0,56 (0,01)
86
141
CA
0,52
1075
0,57
0,53
0,55 (0,02)
0,53 (0,01)
CO
CT
DE
FL
0,54
0,53
0,56
126
103
0,57 (0,01)
0,49 (0,02)
0,60 (0,01)
0,57 (0,05)
0,51 (0,06)
0,52 (0,08)
553
211
102
0,59
0,55
0,37
0,62
0,58 (0,06)
0,52 (0,06)
0,42(0,11)
0,61
0,6
0,45
0,63
0,59
0,53
0,4
0,64
0,58
(0,03)
(0,04)
(0,06)
(0,12)
0,62 (0,01)
0,56 (0,01)
0,61 (0,03)
0,56 (0,04)
31
0,62
0,38
0,52
0,61
0,56
0,38
0,52
0,59 (0,01)
0,59 (0,02)
0,41 (0,06)
0,55 (0,08)
0,51
0,6
0,57
429
215
105
0,55
0,75
0,72
0,52
0,53 (0,03)
0,74 (0,04)
0,52(0,01)
0,56 (0,01)
0,57 (0,01)
0,52 (0,03)
0,72 (0,04)
0,68 (0,05)
0,56
0,55
0,46
0,51
0,56
0,54
146
153
277
207
44
0,57
0,62
0,47
0,52
0,52
0,53
0,6
0,41
0,64(0,01)
0,54 (0,01)
0,50 (0,02)
0,57
0,59
0,47
0,50
399
0,55
0,46
0,52
0,61
0,53
210
235
170
31
239
54
0,58
0,54
0,46
0,69
0,39
0,59
0,56
0,58
0,43
0,7
0,4
0,6
0,56
0,6
0,55 (0,09)
0,56 (0,07)
0,58 (0,01)
0,58 (0,01)
0,58 (0,01)
GA
lA
ID
IL
IN
KS
KY
LA
MA
MD
ME
MI
MN
MO
MS
MT
NC
ND
NE
NH
NJ
NM
0,58
0,57
0,61
134
30
90
0,38
0,58
0,73
0,71
0,5
0,52
0,53
0,71
0,56
0,61
0,46
0,49
(0,06)
(0,05)
(0,05)
(0,04)
(0,04)
0,55 (0,10)
0,57 (0,03)
0,53 (0,05)
0,46 (0,04)
0,65 (0,04)
0,40(0,12)
0,55 (0,04)
0,60(0,01)
0,56 (0,02)
0,56 (0,01)
0,52 (0,02)
0,54(0,01)
0,59 (0,01)
0,55 (0,01)
0,53(0,01)
0,58 (0,02)
0,62
0,55
0,61
0,55
(0,05)
(0,06)
(0,05)
(0,02)
(0,05)
(0,04)
(0,04)
(0,04)
0,54 (0,08)
0,57 (0,03)
0,53 (0,04)
0,47 (0,04)
0,63 (0,04)
0,50 (0,09)
0,55 (0,04)
0,56 (0,08)
0,56 (0,06)
0,63
20
0,7
0,68
0,73 (0,13)
0,53 (0,02)
0,61 (0,10)
301
87
0,57
0,55
0,6
0,54
0,53 (0,04)
0,57 (0,07)
0,46 (0,01)
0,54 (0,02)
0,53 (0,03)
0,56 (0,06)
NV
NY
OH
0,57
0,53
0,61
0,48
0,55
19
639
454
0,68
0,42
0,62
0,8
0,37
0,67(0,13)
0,41 (0,03)
0,56 (0,02)
0,45 (0,01)
0,60 (0,09)
0,41 (0,02)
OK
OR
0,58
0,48
93
111
0,57
0,5
0,63
0,62
0,47
0,58 (0,03)
0,59 (0,07)
0,50 (0,06)
0,55 (0,01)
0,63 (0,01)
0,58 (0,02)
0,58 (0,03)
0,60 (0,06)
0,52 (0,06)
PA
0,51
0,44
431
65
0,54
0,54
0,28
0,7
0,29
0,67
0,52 (0,03)
0,27 (0,07)
0,48 (0,02)
0,50 (0,02)
0,66 (0,05)
0,55 (0,01)
0,52 (0,03)
0,34 (0,06)
0,64 (0,04)
0,54
0,68
0,58
0,8
0,51
0,69
0,52
0,85
0,53 (0,09)
0,66 (0,04)
0,58 (0,01)
0,60(0,01)
0,56 (0,03)
0,79 (0,07)
0,60 (0,01)
0,60 (0,02)
0,54
0,65
0,56
0,72
0,69
0,54
0,47
0,72
0,58
0,41
0,67 (0,04)
0,60 (0,19)
0,46 (0,04)
0,59 (0,01)
0,53 (0,02)
0,58 (0,01)
0,66 (0,03)
0,55(0,11)
0,48 (0,04)
0,49
0,48
0,53
0,52
0,36
0,48 (0,04)
0,48 (0,07)
0,59 (0,17)
0,57(0,01)
0,65 (0,01)
0,59 (0,02)
0,49 (0,04)
0,53 (0,06)
0,59 (0,10)
RI
SC
0,62
151
SD
TN
0,53
0,58
TX
UT
0,56
0,67
52
252
594
VA
VT
WA
WI
WV
WY
0,6
0,52
0,49
0,48
0,48
0,61
61
255
12
269
264
79
13
0,5
(0,08)
(0,03)
(0,02)
(0,06)
141
Techniques d'enquete, decembre 1997
Tableau 2
Statistiques sommaires concemant la moyenne brute des reponses, I'estimation par la methode iterative du quotient et les trois estimations
par stratification a posteriori d'aprfes les donnees agregees des sondages. Les valeurs sommaires presentees sont la moyenne estimee
des proportions de vote pour les 48 6tats ponderees par le nombre de personnes ayant vote dans chaque fitat (done, proportion estimee
des suffrages exprimes pour Bush, k I'exclusion de 1'Alaska, d'Hawaii et du district de Columbia), I'erreur moyenne absolue
des estimations pour les 48 fitats, la largeur moyenne des intervalles de 50 % pour les fitats et le nombre d'6tats pour lesquels
les valeurs reelles tombent dans I'intervalle de 50 %
R6sume
moyenne des suffrages exprim&
erreur absolue moyenne pour les fitats
largeur moyenne des intervalles de 50 %
nombre d'fitats contenus dans I'intervalle de 50'.
0.2
Resultats
r&ls
Moyenne non
ponderee
Methode du
quotient
Effets d'fitat
non lisses
Effets d'foat
nuls
Modeie
hierarchique
0,539
0,568
0,056
0,549
0,066
0,548
0,049
-0,069
18
0,547
0,048
-0,016
3
0,55
0.035
-0,057
20
0.4
0.6
0.8
Resultat privu (quotitnO
0.2
0.4
0.6
0.8
Risultat pitva (non tiss£)
a
I
Figure 1.
Risultat privu (va^O)
Risultat privu (l>i<rarcliique)
Resultatsdereiectionselonrfitatenfonctionderestimationmedianeaposterioripoura)lamethodeiterativedu quotient appliqueaux
variables demographiques, b) le modeie de regression incluant les indicateurs sur les 6tats sans modeie hierarchique, c) le modeie de
regression avec les effets d' 6tat consideres nuls et d) le modeie de regression avec adaptation d'un modeie hierarchique aux effets d' fitat.
Etats egalement. Par exemple, il n'etait pas realiste de
n'accorder k Bush que 46 % du soutien en Califomie
(durant les ttois joumees de sondage avant I'eiection) ni
30 % seulement dans I'Etat de Washington. Neanmoins, k
I'echeUe des Etats-Unis, les deux estimations sont assez
semblables (en fait, quand on regroupe les sept sondages,
I'estimation par la methode iterative du quotient donne des
resultats un tout petit peu meilleurs), situation qui indique
une fois de plus que la methode par modeiisation parait
surtout avantageuse quand on etudie des sous-ensembles de
la population.
De fa9on etonnante, dans le cas des resultats obtenus
pour I'Etat de Washington, I'estimation par regression
fondee sur les sondages regroupes (representees au temps
«-l» sur le graphique) est plus faible que les sept estimations
calcuiees d'apres les sondages Originaux. Cette observation
tient au fait que les donnees des sondages regroupes indi,,^
, „, , .
.°
,"
.'^
,
quent que I'Etat de Washington appuie Bush moins qu on
^"^"^ <•« P'^^'^'°"" '^*°<*« <•" 1"°"^"'
Figure 2: Diagramme de dispersion des erreurs de prevision, selon I'fitat,
P°'^.''= "«^^'^ hierarchique par rapport a la m6thode iterative du
quobent. Les erreurs produUes par le modele hierarchique sont
p,us foibles par la piupan des fitats.
Gelman et Little: Stratification a posteriori en un grand nombre de categories
142
c
(so
c
i
-
""k'"
a
k.
3
O
c
•Si
a
o
;
'^•^o
1
+
-8
-2
-8
- 8 - 4 - 2
0
Nombre dejours avant rejection <§ Nombre dejours avant i'eiection
oT
10
^I 1
r .-I-..
ci
a
i
/i
•*-.
I
\T
1
f +
v^
>« t
So
Bq
a
o m
sq
\ i
i>.
a
c
•Si
a
R
0.8
>
ifor
"^
§.?
-8
-2
V
L
-6
Nombre dejours avant I'eiection ^ Nombre dejours avant i'eiection
Figure 3.
Soutien pour Bush estimfi s^parfiment d'aprfes sept sondages d'opinion distincts ex&ut6s peu
de temps avant I'eiection pour a) I'ensemble des Etats-Unis (sauf 1'Alaska, Hawaii et le district
de Columbia), b) un grand Etat (Califomie), c) un Etat de taille moyenne (Washington) et d'
un petit Etat (Nevada). Dans chaque graphique, la ligne en pointilies represente les estimations
par la methode iterative du quotient et la courbe en trait plein, celle produite par le modeie
hierarchique, et les barres d'erreur indiquent les limites de confiance de 50 % pour la methode
du quotient et les intervalles a posteriori de 50 % pour les estimations fondees sur le modfele.
Les sondages d'opinion ont eu lieu entre le neuvidme et le deuxieme jours precedant I'eiection.
Les estimations fondees sur les donnees agregees des sondages sont indiquees au temps «-1»,
et les resultats reels de I'eiection sont indiques au temps «0» dans chaque graphique.
le prevoirait en neutralisant simplement les covariables
covariables demographiques (cette prevision serait I'estimation pour I'Etat de Washington^ calcuiee d'apres le
modeie oil la valeur des effets d'Etat est maintenue nulle,
prevision qui, d'apres le tableau 1, est egale a 0,58).
Neanmoins, aucun sondage, pris isoiement, ne foumissait
suffisamment de donnees pour soutenir, de fa9on convaincante, que I'opinion dans I'Etat de Washington s'ecartait a
ce point de la moyenne nationale. Par consequent, I'estimation bayesienne a retreci plus fortement les estimations
tirees de ces sondages. S'il parait etrange a priori, ce
comportement n'en est pas moins approprie: dans le cas
d'une enquete de petite envergure, on dispose de moins de
renseignements sur les diverses categories resultant de la
sttatification a posteriori et les estimations axees sur le
modeie produisent, pour chacune de ces categories, une
estimation plus proche de la moyenne d'echantiUon. Quand
on agrege les resultats des sept sondages, on dispose de plus
de renseignements et le modeie s'appuie davantage sur les
donnees dans chaque categorie. C'est essentiellement par ce
precede que la methode de Bayes contrebalance les
difficultes que pose la sttatification a posteriori comptant un
nombre trop petit ou trop grand de categories.
4. DISCUSSION
La stratification a posteriori est la methode type de
cortection pour tenir compte de 1' inegalite des probabilites de
selection et de la non-reponse lors des enquetes par sondage.
Vue sous I'angle de la modeiisation, i'application de la
methode iterative du quotient ou de la stratification a
posteriori a un ensemble de covariables est etroitement liee k
I'application d'un modeie de regression des reponses
subordonne k ces covariables, les chiffres de population etant
estimes par sommation sur la repartition connue de la
population selon ces covariables. Imposer comme conttaintes
des covariables observees plus compietement permet
d'inclure plus de renseignements pour calculer les estimations de population, mais il est bien connu que P appUcation
de la methode iterative du quotient k un ensemblettopgrand
de covariables produit des inferences dont la variabilite est
inacceptable. Nous proposons d' appli-quer une methode de
stratification a posteriori a un grand sous-ensemble de
variables tout en adaptant un modeie hierarchique k la
regression resultante, done detirerparti des points forts bien
connus de I'inference bayesienne dans le cas de modeies
comptant un grand nombre de parametres echangeables.
143
Techniques d'enquete, decembre 1997
La sttatification a posteriori bayesienne est surtout utile
pour calculer des estimations sur des sous-ensembles de la
population (p. ex., Etats distincts dans le cas des sondages
d'opinion aux Etats-Unis) pour lesquelles I'effectif de
I'echantiUon est faible. Un domaine connexe dans lequel la
modeiisation devrait donner de bons resultats est celui du
regroupement d'enquetes effectuees par des organismes
distincts, avec modeiisation subordonnee a toutes les
variables susceptibles d'avoir une influence sur la nonreponse dans I'une ou I'autte enquete. De surcroit, les
methodes decrites dans le present article peuvent manifestement etre appliquees a des reponses continues en
rempla9ant les modeies de regression logistique par
d'autres modeies lineaires generalises.
Dans le cas de la modeUsation bayesienne, notte objectif
ne consiste pas k ajuster un modeie subjectivement «vrai»
aux donnees ni aux reponses sous-jacentes, mais plutot k
estimer avec une precision raisonnable la reponse moyenne,
en imposant comme conttainte un grand ensemble de
covariables observees compietement. Des modeies plus
precis des reponses devraient permettre de faire des
inferences plus exactes - neanmoins, meme le simple
modeie a effets mixtes echangeables que nous avons ajuste,
avec hyperparametres estimes d'apres les donnees, devrait
donner de meilleurs resultats que les valeurs extremes
produites par les modeies a effets constants ou par I'adoption d'une valeur nulle pour les coefficients^ En demiere
analyse, I'objectif de la modeiisation probabiliste et de
I'inference bayesienne dans le contexte d'une enquete par
sondage est de pouvoir se servir de la profusion de
renseignements au niveau des strates a posteriori (p. ex.,
donnees de recensement classees selon le sexe, le groupe
etiinique, I'age, le niveau de scolarite et I'Etat) pour rajuster
les donnees d'une enquete effectuee sur un echantiUon
relativement petit.
Les methodes de modeiisation que nous proposons
pourtaient poser diverses difficultes. Si on adapte a un
grand nombre de categories un modeie ttop faible (comme
le modeie avec effets d'Etat non lisses), la variabilite des
estimations resultantes pourtait etre trop forte. Si on ne
connait pas la repartition de la population pour les variables
utilisees pour effectuer la stratification a posteriori (par
exemple, rajustement pour une variable qui n'est pas
mesuree ou qui est mesuree de fa9on imprecise au moment
du recensement), alors il faut modeiiser les N. egalement,
ce qui donne un surcroit de travail. Naturellement,
I'application de la methode iterative du quotient k ces
variables necessiterait aussi du ttavail supplementaire.
Puisque toutes les methodes, y compris la methode iterative
du quotient et les metiiodes de regression, se fondent sur la
supposition qu'on peut ne pas tenir compte de la nonreponse, les inferences produites seront incortectes si les
variables non mesurees ont une incidence sur la nonreponse et sont corteiees aux resultats que I'on veut etudier.
Les methodes decrites ici visent a ameUorer les
cortections par sttatification a posteriori du genre de la
methode iterative du quotient et ne sont pas destinees, en
soi, k apporter une cortection pour la non-reponse dont on
doit tenir compte. Cependant, en permettant de faire le
rajustement pour un plus grand nombre de variables, la
sttatification a posteriori bayesienne devrait rendre possible
I'utiUsation de modeles pour lesquels I'hypothese selon
laqueUe on ne doit pas tenir compte de la non-reponse est
plus raisonnable. Considerer un grand nombre de categories
pour la sttatification a posteriori (p^ ex., dans 48 Etats) cree
des problemes quand on applique les methodes classiques
de ponderation, car nombre de categories ne comptent que
quelques repondants, voire aucun. Cependant, il est
interessant de noter que le fait de travailler avec un grand
nombre de categories rend parfois la modeiisation
bayesienne plusfiable:un plus grand nombre de categories
signifie un plus grand nombre d'effets aleatoires dans la
regression, situation susceptible de faciliter I'estimation des
composantes de la variance.
REMERCIEMENTS
Nous remercions Xiao-Il Meng et plusieurs evaluateurs
de leurs commentaires precieux, ainsi que la National
Science Foundation pour la bourse DMS-9404305 et le
Young Investigator Award DMS- 9457824.
ANNEXE: CALCUL
Nous utilisons un algorithme de type EM pour estimer
les hyperparametres Xy Etant donne ces parametres, nous
tirons I'echantiUon a partir de la distiibution a posteriori des
coefficients P au moyen d'une approximation normale de
la vraisemblance de regression logistique. Nous utilisons
cette approximation en raison de sa simpUcite et parce
qu'elle est realiste pour des enquetes relativement importantes, comme celles de I'application que nous decrivons k
la section 3. Au besoin, des calculs plus precis peuvent etre
effectues au moyen de I'echantiUonneur de Gibbs et de
I'algoritiime de MettopoUs (consulter Clayton 1996), peutetre en utilisant I'algorithme decrit ici comme point de
depart.
Si la distribution des donnees est normale et que les
moyennes sont Uneaires dans les coefficients de regression,
on peut utiliser I'algorithme EM pour estimer les composantes de la variance (Dempster, Laird et Rubin 1977) en
traitant le vecteur des coefficients P comme des «donnees
manquantes». Dans ce contexte, la log-vraisemblance
d'avoir des «donnees completes" pour T, est
1 '^'
L{x, IY,) = const - ii:,logx, - ^
H Yw.
2x, *=i
de sorte que la statistique exhaustive pour T, est
t{yi) = Ef=iY«- Etant donne I'estimation courante x™"",
I'esperance de la statistique exhaustive est
Gelman et Little: Stratification a posteriori en un grand nombre de categories
144
Nous poursuivons I'iteration jusqu'i la convergence, puis
nous utilisons P et les elements appropries de K pour
estimer var(Y, | y, x^'™").
I E{yi I y, i"'™") II2 + trace(var(Y, | y, T"'™)).
Puisqu'on ne peut ttaiter analytiquement ces deux termes
dans le cas de notre modeie, nous utilisons les approximations suivantes que I'on peut obtenir facilement: (1) on
s'approche de £(Y, |y, t™"") avec une estimation Y/.
fondee sury et I'estimation x"'^'", et (2) on s'approche de
var(Y, |y, X™™) de la courbure de la log-vraisemblance
avec I'estimation K,^ = (-Z,"(Y,))''. Nous mettons ces
approximations a jour iterativement pour tous les
l = l,...,L
simultanement, pour converger vers une
estimation du maximum de vraisemblance approximative
(ti,..., tf). Etant donne une valeur provisoire initiale de
.jvieux^ I'algorithme procede vers la convergence par
iteration des deux etapes suivantes.
Etape E approximative. Resoudre les equations de
vraisemblance iterativement, comme decrit ci-apres. Se
servir des estimations p pour obtenir une approximation de
E{t{y,) I y, X"""'') pour chaque / = 1,..., L.
Nous resolvons les equations de vraisemblance
d/d^ Z (P I y, X) = 0 au moyen de moindres cartes ponderes
iterativement, en incluant une approximation normale de la
vraisemblance p(y ] P) =Yl.p(^. \ P), fondee sur I'approximation locale du modeie de regression logistique par un
modeie de regression lineaire (voir Gelman et coll. 1995,
p. 391). Posons que r|. = {Z^). est le predicteur lineaire de
la i-ieme observation.^ En commengant par la valeur
provisoire courante de p, posons que fj = Zp. Alors, une
extension de la serie de Taylor a L{y. \ TJ.) donne z. =
A''(TI,., a]), ou
(1 + exp(fi.))^
%
2
exp(ii,.)
exp(fi,.)
yi
Etape M. Maximiser sur les parametres x, pour obtenir
^nouveaiT^ (£(/(Y,) | y, x^'^^fK,)^ pour chaquc /= 1,..., L.
Remplacer la valeur de x^'^"" par celle de x""""^^" et
retoumer a P etape E approximative.
Une fois que I'algorithme EM a converge vers une
estimationX, nous tirons P d'une approximation normale de
la distribution conditionnelle a posteriori ;7(P |y, t), en
nous servant des valeurs produites par les equations (2) et
(3) a la demiere etape EM comme matrice de la moyenne et
de la variance dans I'approximation normale. Pour chaque
tirage du parametre vectoriel p, nous calculous les
moyennes des categories, Jt = logit-' (X^), et tous les totaux
de population que I'on veut etudier, en comptant Nj unites
de population dans chaque categoriey.
BIBLIOGRAPHIE
BELIN, T.R., DIFFENDAL, G.J., MACK, S., RUBIN, D.B.,
SCHAFER, J.L., et ZASLAVSKY, A.M. (1993). Hierarchical
logistic regression models for imputation of unresolved
enumeration status in undercount estimation (avec discussion).
Journal of the American Statistical Association 88, 1149-1166.
CLAYTON, D.G. (1996). Generalized linear mixed models. In
Practical Markov Chain Monte Carlo, fids. W. Gilks,
S. Richardson et D. Spiegelhalter, 275-301. New York: Chapman
&Hall.
DEMING, W., et STEPHAN, F. (1940). On a least squares
adjustment of a sampled frequency table when the expected
marginal tables are known. Annals of Mathematical Statistics 11,
427-444.
DEMPSTER, A.P., LAIRD, N.M., et RUBIN, D.B. (1977).
Maximum likeUhood from incomplete data via the EM algorithm
(avec discussion). Journal of the Royal Statistical Society, 39,
1-38.
1 + exp(f^,.)^
(l^exp(fi,))^
exp(ii,.)
GELMAN, A., CARLIN, J.B., STERN, H.S., et RUBIN, D.B. (1995).
Bayesian Data Analysis. London: Chapman and Hall.
Representons par Ya^^ valeur de £„ fondee sur
I'jnttoduction de I'estimation courante t et posons que
Y^- diag((T^). Alors, nous obtenons une estimation et une
matrice de variance a jour en nous servant des moindres
cartes ponderes fondes sur la distribution normale a priori
et sur I'appUcation de I'approximation normale a la
vraisemblance de regression logistique:
GELMAN, A., et KING, G. (1993). Why are American Presidential
election campaign polls so variable when votes are so predictable?
British Journal of Political Science, 23,409-451.
(2)
LAZZERONI, L.C., et LITTLE, R.J.A. (1997). Random-effects
models for smoothing post-stratification weights. Journal of
Official Statistics, k paraitre.
p = (z'E;'z-EpVz'E^
1\-I
K-iz'ii-}z.Y:,')
(3)
HOLT, D., et SMITH, T.M.F. (1979). Post stratification. Journal of
the Royal Statistical Society, 142, 33-46.
KRIEGER, A.M., et PFEFFERMANN, D. (1992). Estimation par la
methode du maximum de vraisemblance dans des enquetes par
sondage complexes. Techniques d'enquete, 18, 241-256.
LITTLE, R.J.A. (1991). Inference with survey weights. Journal of
Official Statistics, 7, 405-424.
Techniques d'enquete, decembre 1997
145
LITTLE, R.J.A. (1993). Post-stratification: a modeler's perspective.
Journal of the American Statistical Association, 88, 1001-1012.
NORDBERG, L. (1989). Generalized linear modeling of sample
survey data. Journal of Official Statistics, 5, 223-239.
LITTLE, T.C. (1996). Models for nonresponse adjustment in sample
surveys. These de doctorat. Department of Statistics, University of
California, Berkeley.
RUBIN, D.B. (1976). Inference and missing data. Biometrika, 63,
581-592.
LITTLE, T.C, et GELMAN, A. (1996). A model for differential
nonresponse in sample surveys. Rapport technique.
LONGFORD, N.T. (1996). Small-area estimation using adjustment
by covariates. QUestio 20, k paraitre.
VOSS, D.S., GELMAN, A., et KING, G. (1995). Pre-election survey
methodology: details from nine polling organizations, 1988 and
1992. Public Opinion Quarterly, 59, 98-132.
Techniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 147-157
Statistique Canada
147
Estimation de la population et des caracteristiques
des etablissements de sante et des populations de clients au moyen
d'un plan d'echantiUonnage a plusieurs degres avec enchainement
K.K. SINGH, A.O. TSUI, CM. SUCHINDRAN et G. NARAYANA'
RESUMfi
Le present article montre Tutilite d'un plan de sondage k plusieurs degres pour obtenir le denombrement total des
etablissements de sante et de la population de clients eventuels dans une region. Le plan decrit a ete utilise pour effectuer
une enquete k I'echeUe de I'Etat d'Uttar Pradesh, en Inde, au milieu de 1995. II comprend la selection d'un echantiUon
areolaire en grappes k plusieurs degres ou Tunite primaire d'echantiUonnage est soit un ilot urbain, soit un village rural.
On a fait le releve cartographique, dresse la liste et selectionne tous les points de foumiture de services de sante, qu'il
s'agisse d'etablissements autonomes ou d'agents de distribution, situes dans les unites primaires d'echantiUonnage ou
assignes officiellement k ces demieres. On a tire un echantiUon systematique de menages et interviewe toutes les femmes
faisant partie de ces menages qui satisfaisaient les criteres predetermines d'admissibilite. On a applique des poids
d'echantiUonnage aux etablissements ainsi qu'aux personnes. Pour les etabUssements, les poids sont corriges pour tenir
compte du fait que certains etablissements desservent plusieurs unites secondaires d'echantiUonnage. Pour les personnes,
on a corrige les poids pour tenir compte des taux de reponse k I'enquete. L'estimation par sondage du nombre total
d'etablissements pubUcs Concorde bien avec les totaux publies. Pareillement, I'estimation de la population de clientes
calcuiee d'apres I'enquete concorde avec le chiffre total du Recensement de 1991.
MOTS CLES: Enquete par sondage; evaluation des programmes; services de sante; pays en voie de developpement.
1. INTRODUCTION
Pour evaluer 1'incidence des programmes de services de
sante sur la sante de la population, 11 est souvent necessaire
de connaitre le nombre et les caracteristiques des etablissements de sante et des clients eventuels. Or, pareils renseignements font souvent defaut dans les pays en voie de
developpement oii les dossiers sur les programmes et les
systemes d'enregistrement des donnees de I'etat civil sont
en general incomplets et mal tenus a jour.
Pour obtenir des renseignements courants sur I'etat de
sante, I'utilisation des services de sante, le rendement des
services et les besoins des clients, les responsables des
programmes s'appuient sur des enquetes par sondage
occasionnelles, souvent confues et effectuees independamment les unes des autres, a un niveau infraregional (Aday
1991; Ross et McNamara 1983). Neanmoins, certaines
enquetes sur la demographic et sur la sante (Macro
International 1996) foumissent un profil national de divers
aspect de la sante de la population, comme la fecondite, la
mortalite infantile et le bien-etre nutritionnel. L'avantage
distinct que presente un echantiUon national de population
pour la planification des programmes de sante tient au fait
qu'il permet d'evaluer les attitudes et les comportements
des clients ainsi que des non-cUents. Les statistiques sur les
services offerts par les programmes se limitent aux clients
reels et ne permettent pas toujours de brosser le tableau le
plus a jour qui soit de I'utiUsation des services.
Outre le comportement des clients, il est utile de surveiller 1'offre de services ainsi que la qualite de ceux-ci,
mais cet exercice necessite un examen distinct de la
foumiture de services par les etabUssements de sante ou par
les etablissements connexes. Les efforts deployes k cet
egard dans les pays en voie de developpement, comme les
etudes d'analyse de la situation (Miller, Ndhiovu, Gachara
et Fisher 1991), incluent I'execution, aupres des etablissements de sante, d'enquetes probabilistes qui donnent un
apergu national du rendement des programmes. Cependant,
ces enquetes probabiUstes sont souvent Umitees k I'examen
des programmes de sante publique. En effet, I'enregistrement incomplet ou inexact des foumisseurs de services de
sante du secteur prive, comme les cliniques privees ou les
pharmacies, empeche de recourir k cette methode d'enquete
pour suivre les tendances de la prestation des soins de sante
par ce secteur.
Les ressources dont on dispose pour etendre et ameUorer
la foumiture de services de sante sont de plus en plus
limitees tant dans les pays en voie de developpement que
dans les pays developpes. Par consequent, toutes les parties
concemees cherchent k mieux utiliser les ressources
existantes pour effectuer le suivi et Pevaluation, particulierement au moyen d'enquetes. On devrait done eiaborer
Kauslialendra K. Singh, Carolina Population Center, University of Nortli Carolina at Chapel Hill, CB #8120 University Square, Chapel Hill, NC 27516-3997
and Department of Statistics, Faculty of Science, Banaras Hindu University, Varanasi 221005 India; Amy O. Tsui, Director, Carolina Population Center,
University of North Carolina at Chapel Hill, CB #8120 University Square, Chapel Hill, NC 27516-3997 and Department of Matemal and Child Health, School
of Public Health, University of North Carolina at Chapel Hill, CB #7400 Rosenau Hall, Chapel Hill, NC 27599-7400; Chirayath M. Suchindran, Carolina
Population Center, University of North Carolina at Chapel Hill, CB #8120 University Square, Chapel Hill, NC 27516-3997 and Department of Biostatistics,
School of Public Health, University of North Carolina at Chapel Hill, CB #7400 Rosenau Hall, Chapel Hill, NC 27599-7400; Gaade Narayana.The Futures
Group International, 1050 17"" Street, N.W., Suite 1000, Washington, DC 20036.
Singh, Tsui, Suchindran et Narayana: Estimation de la population et des caractenstiques
148
des methodes d'enquete innovatrices permettant de foumir
aux planificateurs et aux gestionnaires des services de sante
le plus de renseignements possible en perdant le moins de
precision possible.
Nous presentons ici les resultats d'une enquete par
echantiUonnage en grappes a plusieurs degres congue pour
estimer la population et les caracteristiques des etablissements de sante et des populations de clients visees.
L'echantiUon en grappes de I'enquete, qui a ete effectuee
dans le grand Etat d'Uttar Pradesh, en Inde du Nord, a servi
de base pour la selection des etablissements de sante et des
menages. Puis, on a selectionne les prestateurs de soins
dans les etablissements et les femmes mariees en age de
procreation dans les menages. L'enquete a ete confue pour
produire des echantillons independants d'etabUssements de
sante, de membres du personnel, de menage et de population de clients des services de sante.
Dans la section qui suit, nous decrivons le plan de
sondage, son contenu et les methodes de travail sur le
tertain appliquees en Uttar Pradesh. Puis, a la section
suivante, nous comparons les resultats obtenus pour les
etablissements de sante et pour la population de clients et,
a la demiere section, nous degageons de I'application de la
methode en Uttar Pradesh certaines le9ons au chapitte de la
conception d'enquetes. Ces enseignements seront particulierement importants au moment de la repetition de
I'enquete prevue dans deux ans, mais Us sont aussi
susceptibles d'interesser d'autres pays qui voudraient
adopter le plan d'echantiUonnage en grappes enchainees.
2. L'ENQUETE PERFORM EN
UTTAR PRADESH
L'enquete PERFORM ou Project Evaluation Review For
Organizational Resource Management (examen evaluatif
des projets pour la gestion des ressources organisationneUes) a pour objectif d'evaluer des indicateurs de
reference pour un grand projet de planification familiale,
baptise Innovations in Family Planning Services (EFPS)
project execute au Uttar Pradesh et finance conjointement
par le gouvemement de I'Inde et par la U.S. Agency for
International Development. L'Etat d'Uttar Pradesh compte
plus de 140 millions d'habitants et, pris individuellement,
representerait le cinquieme plus grand pays en voie de
developpement.
2.1 Contenu
L'estimation d'indicateurs pour I'IFPS doit ette effectuee
k trois niveaux, a savoir 1) les points de foumiture de
services (PES) publics et prives, 2) les prestateurs de
services faisant partie du personnel des PFS ou des
etabUssements de sante et 3) la population de cUentes, c'esta-dire les femmes en age de procreation. Comme I'IFPS a
pour objectif d'ameliorer I'environnement dans lequel a lieu
la prestation de services de planification familiale, il est
imperatif de mesurer les indicateurs a ce niveau, mais de
fafon a ce que la mesure puisse etre reliee aux femmes qui
vivent dans cet environnement.
Par consequent, I'equipe de I'enquete PERFORM a
con9U sept questionnaires:
1-2) questionnaire visant un ilot urbain ou un village pour
dresser la liste de tous les foumisseurs eventuels et
reels de services de sante dans le village ou I'llot
echantillonne;
3) questionnaire visant les points de foumiture de
services fixes (PFSF) pour recueillir des renseignements sur les membres du personnel, les services,
I'equipement, les foumitures et les activites de formation et de motivation aupres des etablissements
publics et prives echantillonnes;
4) questionnaire s'adressant aux membres du personnel,
a faire rempUr par tous les membres du personnel des
PFSF qui offrent des services de planification
familiale (recenses d'apres les reponses au questionnaire visant les PFSF) pour evaluer leurs competences
et leur experience;
5) questionnaire s'adressant aux prestateurs individuels
de services (PIS), a faire remplir par toutes les
personnes travaillant en-dehors des etablissements
autonomes (PFSF) qui prodiguent actueUement ou qui
pourtaient prodiguer des services de planification
familiale, dont les services de medecins particuliers,
de pharmaciens, de sages-femmes, de travailleurs de
la sante non specialises et de detaillants;
6) questionnaire visant les menages, a faire remplir par
les chefs des menages echantiUonnes pour recenser les
membres du menage et recueillir des donnees sur les
caracteristiques demographiques et sociales;
7) questionnaire personnel s'adressant aux femmes
mariees a I'heure actuelle, agees de 13 ^ 4 9 ans
(reperees grace au questionnaire sur le menage) pour
coUecter des renseignements sur ce qu'elles savent de
I'existence de services de sante et sur I'utilisation
passee, courante et prevue de ces services, sur les
grossesses recentes et les comportements k I'egard de
la contraception et sur d'autres caracteristiques
generales.
2.2 Plan d'echantiUonnage
L'enquete PERFORM a ete congue pour estimer les
caracteristiques des etablissements de sante et de leur
population de cUents au niveau de I'Etat, de la region, de la
division et du district. Ce demier est important, car il s'agit
du niveau oil est concentre le lancement de methodes
innovatrices et d'efforts suppiementaires dans le cadre de
I'ISPS. Au moment de la conception de I'enquete, I'Etat
d'Uttar Pradesh comptait 14 divisions administratives.
Dans chacune de ces divisions, on a selectionne deux
districts par echantiUonnage avec probabilite proportionnelle a la taille (PPT). Ces unites geographiques possedent
des limites politico-administratives, done des services
d'administration publique. En outre, on a agrege les
districts en cinq groupes regionaux.
On a fixe a 1 500 le nombre total de menages k seiectionner dans chaque district. On a en effet determine qu'un
echantiUon de 1 500 menages suffirait pour la production
Techniques d'enquete, decembre 1997
149
d'estimations pour les principaux indicateurs de niveau de
population. Une taille globale cible d'echantiUon de 1 627
femmes de 13 a 49 ans ayant deja ete mariees a ete
necessaire pour deceler une variation de cinq points de la
prevalence de la contraception (avec a = 0.05 et
1 - P = 0.90) au niveau du district. Comme on s'attend a
ce que le nombre par menage de femmes de 13 a 49 ans
ayant dej^ ete mariees soit de 1,15, on obtiendrait le nombre
requis de femmes deja mariees en rendant visite a un
echantiUon de 1 415 menages. En se donnant une marge de
securite supplementaire de 5 % pour tenir compte de la nonreponse et de la non-disponibilite, on a estime qu'un
echantiUon cible de 1 725 femmes de 13 a 49 ans ayant deja
ete mariees tire de 1 500 menages serait suffisant. Le
diagramme schematique du plan d'echantiUonnage est
presente k la figure 1.
ETAT
DISTRICTS
1
1
1
URBAIN
1
URBAIN 1
1
RURAL
1
URBAIN 2
r
RURAL 1
1
RURAL:
1
1
1
RURAL 3
RURAL 4
'
'
'
'
'
VILLES
VILLES
VILLAGES
VILLAOES
VILLAGES
VILLAGES
ILOTS
ILOTS
MANAGES
MANAGES
MANAGES
MENAGES
MANAGES
MANAGES
1
Stratification
ichantilloimage
Figure 1. Diagramme schematique du plan d'echantiUonnage
PERFORM
De surcroit, on a stratifie les districts en regions rarales
et urbaines. Selon les definitions du Recensement de I'Inde,
tous les lieux comptant une municipaUte, une «corporation»
municipale, un conseil de canton ou un comite regional
notifie, ainsi que tous les autres lieux comptant au moins
5 000 habitants dont au moins 75 % de la population active
masculine effectue des travaux non agricoles et dont la
densite de population est au moins egale a 400 personnes
par kilometre carte sont classes dans la categorie des
regions urbaines. Les Tlots urbains et les villages mraux
servent d'unites secondaires d'echantiUonnage (USE). Les
1 500 menages k echantiUonner dans chaque district ont ete
repartis entre les regions mrales et urbaines proportionnellement k la taiUe de la population du district. Cependant,
dans les cas oti la proportion allouee de population urbaine
etait inferieure a 20 %, on a fixe 1'allocation de menages
dans la region urbaine a 20 %, afin d'etre certain de couvrir
un nombre suffisant de points de foumiture de services de
sante.
Dans les regions mrales, on a selectionne les menages
selon un plan d'echantiUonnage stratifie a deux degres. On
a d'abord reparti les villages des regions mrales en quatre
sttates, selon la taille de la population, de la fa9on suivante:
trate
I
11
III
IV
Taille de la population du village
100-499
500 -1 999
2 000 - 4 999
5 000 et plus.
On a exclu de la liste les villages comptant moins de
100 habitants ou moins de 20 menages (pareils villages
etaient rares dans le cas de I'etude decrite ici). Le nombre
de villages a seiectionner dans chaque district a ete reparti
proportionnellement entte les quatte strates. Pour seiectionner les villages, on a commence par les ordonner dans la
strate selon le taux de d'alphabetisation des femmes, puis
on a selectionne le nombre requis de village par une
methode d'echantiUonnage avec probabilite proportionnelle
a la taille. Apres avoir dresse la liste et fait le releve cartographique de tous les menages dans les villages selectionnes, on a tire un nombre cible de 20 menages dans
chaque viUage selon une methode d'echantiUonnage systematique. On a reparti les villages comptant plus de
500 menages ou 2 500 habitants et plus (certains villages de
la sttate HI et tous ceux de la sttate IV) en quatte groupes et
selectionne de ces deux groupes pour I'etablissement de la
liste et la selection des menages. On a selectionne les
20 menages requis en tirant dix menages de chaque groupe
par echantiUonnage aleatoire systematique.
Dans les regions urbaines, on a egalement selectionne les
menages selon un plan d'echantiUonnage stratifie k deux
degres. On a stratifie les villes des regions urbaines de
chaque district d'apres la taiUe de la population, de la fa§on
suivante:
Strate
I
II
Taille de la population de la ville
100 000 et plus
Moins de 100 000.
On a selectionne toutes les villes de la strate I avec
certitude. Dans le cas de la sttate n, on a ordonne les villes
selon la taille de la population, puis on a selectionne le
nombre requis par echantiUonnage avec probabilite
proportionnelle a la taille. Ensuite, de chaque ville echantillonnee, on a echantillonne au moins deux ilots avec
probabiUte proportionnelle a la taille. Enfin, on a dresse la
liste et fait le releve cartographique de tous les menages
dans les Uots selectionnes et on a tire 15 menages de chaque
Uot par echantiUonnage aleatoire systematique.
2.2.1 Probabilite de selection des districts
Representons par w^ la population du A:-ieme district
dans une division. Comme on doit seiectionner deux
districts dans chaque division, la probabilite de seiectionner
le ^-ieme district d'une division r^ est donnee par
Singh, Tsui, Suchindran et Narayana: Estimation de la population et des caracteristiques
150
r =2 * - ^
*
M
oil M represente la population totale de la division
{M = Y!k=i '"A) St oil t represente le nombre total de distticts
dans la division.
2.2.2 Probabilite de selection des villages et
des menages
Representons par n^^ le nombre de menages dans le
I-ieme viUage, la>ieme strate et le *-ieme distiict. Alors, p,^.^.,
c'est-a-dire la probabilite de seiectionner le viUage / dans la
y-ieme strate et le ^-ieme district est donnee par
'ijk
*/-,.
• ""jk *
^jk
ou a,7t et A'^.^ representent, respectivement, le nombre de
villages selectionnes et le nombre total de menages dans la
y-ieme strate et le ^^-ieme district.
Representons par q.j^ la probabilite de seiectionner un
menage dans les regions mrales d'un district selectionne.
Alors, on peut calculer q.j,^ selon l'equation
20
oil iiy^t represente le nombre d'llots urbains selectionnes et oil Yjk
represente le nombre total de menages dans lay-ieme ville du
k-ihme distiict, et x..,^ represente le nombre de menages dans
le i-ieme Uot de lay-ieme ville du A:-ieme distiict.
La probabiUte de seiectionner un menage de l'/-ieme ilot
et du k-\hme district, representee par v,^.^, est donne par
15
"ijk
v„
"ijk *
-ijk
oil 15 est le nombre de menages tires de Pilot urbain
selectionne.
Les poids appliques aux ilots urbains et aux menages
sont alors egaux k 1'inverse de la probabilite de selection de
ces ilots ou menages, c.-^-d. l/u.jf^ et l/v.j^, et sont
representes par UW^.j,^ et HW^.JJ^, respectivement.
Puisqu'au niveau de la population, les estimations sont
fondees sur des personnes, on a applique a tous les membres
d'un mSme menage selectionne le poids attribue k ce
menage. Aucune metiiode de selection n'a ete appliquee aux
membres d'un menage admissibles comme repondants.
2.2.4 Correction pour la non-reponse au
questionnaire sur le menage et pour le
surechantillonnage des ilots urbains
9ijk=Pijk
Pour tenir compte de la non-reponse dans le calcul des
poids appliques aux menages, on suppose que la nonreponse est aleatoire dans le village (ou dans Pilot) et on
oil 20 est le nombre de menages tires du village selectionne.
precede comme suit:
Les poids appliques aux villages et aux menages sont
Posons que «j est le nombre de menages selectionnes et
alors egaux a 1'inverse de la probabilite de selection de ces
que
«2 est le nombre de menages oii sont effectuees des
demiers, c.-a-d. l/p.j,^ et l/q-j,^, et sont representes par
interviews.
Alors, le poids corrige en fonction de la nonVW^..i^ et HW^.ji^, respectivement.
reponse qu'on attribue aux menages est defini comme
2.2.3 Probabilite de selection des villes, des ilots
urbains et des menages
^ 2 , . = ^ . / , . *
•ijk
La probabiUte de seiectionner de lay-ieme ville dans le
A:-ieme district, /f.^., est egale a
r. = 1 si la population de la ville est > 100 000
Jk
S
t.,= Cf-^ si la population de la ville est < 100 000
Le poidsfinalapplique aux menages comprend aussi une
cortection de la proportion de population urbaine dans le
district, dans les cas ou il y a eu surechantillonnage des ilots
urbains (distticts dont la population urbaine est inferieure k
20 %).
Posons que n^ est la proportion reelle de population
urbaine dans un district et que n^ est la proportion de
population urbaine dans I'echantiUon. Alors, le poids
corrige pour tenir compte de la non-reponse et du surechantiUonnage des Tlots appUque aux menages est defini par
oil 5.J. represente le nombre total de menages dans lay-ieme
ville'(ayant une population <100 000) du A:-ieme distiict, c^.
represente le nombre de viUes selectionnees dans le district
k et S^ represente le nombre total de menages dans les
villes dont la population est inferieure a 100 000 dans le
f^Vjk-f^2ijk*^district k.
Representons par M ..^. la probabilite de seiectionner le
/-iemeTlot dans lay-iemeviUeet lexeme distiict. Alors, u.j^. 2.2.5 Selection des points de foumiture de services
est donnee par
dans les echantillons de district
u. =6 * _ E */ *r.
"y*
"jk
y
jk
k
Pour obtenir un echantiUon probabiliste des points de
foumiture de services, on a selectionne les PFSF et les PIS
en rapport avec les USE, c.-a-d. les villages ou les Tlots, de
la fafon suivante:
Techniques d'enquete, decembre 1997
1.
2.
3.
4.
5.
6.
tous les etablissements de sante prives et publics dans
ies USE mrales et urbaines selectionnees;
tous les sous-centres, les centres primaires de sante,
les centres communautaires de sante et les centres de
soins post-partum qui foumissent des services k la
population des USE rarales selectionnees;
tous les hopitaux prives comptant au moins 10 lits
dans la ville la plus proche (dont la population est
inferieure k 100 000 habitants) dans un rayon de
30 kilometres des USE rurales selectionnees;
tous les hopitaux municipaux, les hopitaux de district
et les hopitaux universitaires;
toutes les cliniques et tous les hSpitaux exploites par
des organismes benevoles, le secteur des soins
organises et les cooperatives;
tous les PIS dans les villages et les Tlots selectionnes.
II serait probablement utile de commencer par decrire la
prestation organisee de soins de sante par le secteur public.
Les residents de tous les villages ont droit a obtenir des
soins de sante aupres d'un sous-centre public (SC), d'un
centte primaire de sante (CPS) ou d'un centre conununautaire de sante (CCS). Les viUages de 5 500 habitants et plus
comptent souvent un sous-centte sur leur territoire. Environ
six SC dependent d'un CPS; a leur tour, les CPS sont
rattaches k un CCS. Comme le CPS est parfois integre au
CCS, nous avons dii estimer le nombre combine de CCS et
de CPS, tout en estimant le nombre de SC separement. (La
croissance de la population a oblige a etablir des «CPS
suppiementaires" et a rerepartir en districts les zones
desservies par les CPS originaux. Ces CPS suppiementaires sont inclus dans I'estimation du nombre de CPS.) On
a effectue une visite sur place dans tous les SC attribues a
un village echantillonne, ainsi qu'aux CPS et CCS
affiUes.
Au moment de I'etablissement de la liste et du releve
cartographique des menages dans chaque Tlot ou village, on
a egalement dresse la liste et fait le releve cartographique
des PFSF et des PIS. De surcroit, dans chaque USE, on a
interviewe des informateurs cies afin de prendre connaissance des points de foumiture de services de sante dont
I'existence est moins manifeste. La selection des points de
foumiture de services - PFSF et PIS situes dans les limites
des USE ou affiUes a un sous-centte de sante public - a ete
faite par recensement complet. Seuls les hopitaux municipaux, les hSpitaux de district et les hSpitaux universitaires
font exception et on leur a attribue un poids unitaire. Les
probabiUtes de selection des autres PFSF et PIS dependent
alors de la probabiUte de selection de I'USE et I'inverse de
cette demiere represente le poids du PFSF ou du PIS. On
a calcuie les poids appliques aux CCS, aux CPS et aux SC
selon la methode decrite plus bas, apres avoir deceie
certaines «defaiUances» sur le tertain lors de la selection de
ce type d'etabUssements. (On discutera de ces defaillances
plus tard.)
Comme les CCS et les CPS sont associes a plus d'une
USE, nous avons suppose qu'il existe un CPS pour 30 000
habitants (chiffre qui represente a peu pres la moyenne
reelle pour I'Etat d'Uttar Pradesh) et qu'un SC dessert
151
environ 5 500 personnes (les chiffres moyens reels pour les
districts varient de 4 000 k 6 500). Dans ces conditions, le
poids applique aux CCS/CPS pour chaque USE
seiectionnee est
^CCS/CPS ~ Population totale
de I'USE seiectionnee *lW,,,(ouf/fP,,,)
30 000
et le poids appUque aux SC pour chaque USE seiectionnee
est
W.
^(. - Population totale
de I'USE seiectionnee *^iijk(ouUW,y,).
5 500
II a fallu corriger les poids calcuies pour les PFSF non
autoseiectionnes afin de tenir compte de la multiplicite, c.a-d. les situations oii un PFSF est selectionne dans
I'echantiUon en rapport avec plus d'une USE. Par exemple,
il arrive qu'un CCS/CPS soit selectionne k cause de deux
USE. Le cas echeant, on a applique au CCS/CPS, un poids
egal a la somme des poids des deux USE choisies, c.-a-d.
W
•^•^ CCS/CPS-
2.3 Mise en oeuvre de I'enquete
Le travail sur le tertain de I'enquete PERFORM a ete
effectue de juin a septembre 1995 dans I'Etat d'Uttar
Pradesh. L'enquete a ete executee sous contrat par quatre
organismes choisis selon une methode d'approvisionnement
concurrentiel. Un organisme qui avait teste le plan de
I'enquete PERFORM dans un district I'annee auparavant a
joue le role d'organisme nodal ou coordonnateur. Les
coordonnateurs et le superviseur du projet ont re9u une
formation d'instiiicteur principal, y compris la participation
a un essai preUminaire sur le tertain. L'enquete PERFORM
proprement dite a ete effectuee par des equipes de six
personnes comprenant un superviseur, une verificatrice, un
intervieweur et quatre intervieweuses. Chaque organisme
charge du ttavail sur le tertain a engage, en moyenne, trois
equipes pour couvrir un district, soit 18 employes regionaux
en tout pour la collecte des donnees par district (ou 21
equipes comptant en tout 126 employes regionaux pour
couvrir 7 districts). La supervision globale sur le tertain a
ete confiee k une equipe de quatre personnes designees
specialement, assignees chacune k un des organismes
charges de I'execution de I'enquete. Apres verification sur
le tertain, les questionnaires ont ete achemines au bureau
central des organismes charges de I'enquSte aux fins de la
saisie et de I'epuration des donnees.
3.
RESULTATS
Le tableau 1 donne la couverture de I'echantiUon de
I'enquete PERFORM en ce qui conceme le nombre
d'unites de chaque type selectionnees, le nombre d'unites
effectivement interviewees et le taux de reponse. Le taux
Singh, Tsui, Suchindran et Narayana: Estimation de la population et des caractenstiques
152
Tableau 1
Couverture des unites d'echantiUonnage de I'Enquete PERFORM, Uttar Pradesh, 1995
Couverture de
rechantiUon
Villages
Nombre echantillonne
1539
ilots
urbains
738
Unites d'echantiUonnage
PFS
Femmes
Menages
fixes
admissibles
2 549
48 009
42 006
Personnel
des PFSF
7 026
Agents
individuels
23 364
6 320
22. 335
89,9
95,6
Nombre interviewe
1539
738
40 633
45 277
2 428
Taux de reponse
100,0
100,0
96,7
94,3
95,3
Nota: Les villages et les Tlots urbains ont servi d'unites primaires d'echantiUonnage; pour etre admissible, les femmes devaient
etre couramment mariees et avoir entre 13 et 49 ans.
PFS = point de foumiture de services.
de reponse est tres eieve pour les unites d'echantiUonnage
qui ont necessite une interview sur place - variant de
94.3 % pour les femmes admissibles k 96.7 % pour les
menages. Pour les etablissements de sante et les prestateurs
individuels de services, le taux de reponse se chiffre a 95 %.
Le taux n'est plus faible que pour les membres du personnel
des etablissements fixes. Toutefois, a 90 %, s'il n'est pas
remarquable, il est quand meme respectable. (Un type de
membre du personnel, a savoir les infirmieres auxiUaires sages femmes, postees dans les sous-centtes a ete difficile
a rejoindre, meme apres les trois essais habituels.)
3.1 Taille et caracteristiques de la population
Le tableau 2 permet de comparer, a I'echeUe de la
population, les valeurs de certains indicateurs demogra-
phiques obtenues d'autres sources a celles foumies par
I'enquete PERFORM. Les chiffres indiquent que les
resultats de I'enquete PERFORM concordent avec ceux du
recensement, ainsi qu'avec ceux de la demiei^e National
Family Health Survey (NFHS) effectuee dans I'Etat d'Uttar
Pradesh a la fin de 1992 et au debut de 1993 aupres d'un
echantiUon de 11 438 femmes de 13 ^ 49 ans ayant dej^ ete
mariees. La population recenseea augmente presque de
10,5 milUons de personnes depuis le Recensement de 1991
et le pourcentage de menages dans les regions urbaines est
a peu pres le meme selon les trois sources. Le ratio du
nombre de femmes au nombre d'hommes (rapport de
masculinite) est legerement plus faible dans le cas de
I'enquete PERFORM (891) que dans celui de la NFHS
(917). La comparaison des pourcentages de population
Tableau 2
Indicateurs demographiques de base pour 1'Uttar Pradesh (Inde)
Uttar Pradesh
Indice
Population
Pourcentage de population urbaine
Recensement
(1991)
139 112 287
19,8
NFHS
(1992-93)
nd
22,6"
PERFORM (1995)
Erreur-type
149 758 641
1 542 952
Effet de plan
21,6"
0,6553
12,6095
0,9727
Rapport de masculinite''
879
917
891
34,1010
Pourcentage de 0 & 14 ans
39,1
41,8
40,2
0,1306
1,9049
4,7
0,0513
1,5789
Pourcentage de 65 ans et plus
3,8
4,8
Pourcentage appartenant k une
caste designee
21,0
18,0"
20,0"
0,3790
3,6536
Pourcentage appartenant k une
tribu designee
0,2
1,1°
3,1"
0,1818
4,4694
55,7
25,3
41,6
65,3
31,4
49,9
4,8
67,6
37,4
53,3
4,5
0,3352
0,3824
0,3352
6,4634
8,6821
12,2385
-
Pourcentage sachant lire et ecrire'^
Hommes
Femmes
Total
Indice synthetique de fecondite
5,1
-
Prevalence des methodes
3,4111
0,3499
22,0"
18,5"
nd
modemes de contraception
"^ Non disponible
"
Calcuie d'apres le nombre de menages
''
Nombre de femmes pour mille hommes
'
Calcuie d'apres la population de 7 ans et plus dans le cas du recensement et d'aprfes la population de 6 ans et plus dans le cas de la NFHS
et de I'Enquete PERFORM
"
Pourcentage de femmes actuellement mariees de 15 & 49 ans utilisant une methode modeme de contraception.
Techniques d'enquete, decembre 1997
153
dans les deux groupes d'age (de 0 a 14 ans et 65 ans et plus)
est bonne, ainsi que celle des pourcentages de menages
appartenant aux castes designees. La proportion des
menages appartenant aux tribus designees est egale a 3,1,
valeur superieure k celle 1,1 observee dans le cas de la
NFHS. Ces resultats pourtaient refleter une croissance
reelle du nombre de ces menages, accompagnee d'une
augmentation de 1'immigration des membres des tribus
designees dans les grandes villes. La proportion de
personnes sachant lire et ecrire a augmente legerement
depuis I'execution de la NFHS, mais dans I'ensemble, les
resultats sont comparables. L'indice synthetique de
fecondite et le niveau d'utiUsation des contraceptifs
modemes sont egalement similaires et les directions de leur
variation durant I'intervalle entre les deux enquetes
effectuees en Uttar Pradesh concordent. Les resultats du
tableau 2 donnent a penser que le plan d'echantiUonnage de
I'enquete PERFORM, fondee sur un echantiUonnage en
grappes a plusieurs degres utilise ordinairement pour les
enquetes demographiques, a ete execute comme il convient
pour produire des resultats au niveau de I'Etat comparables
k ceux du recensement et de la NFHS effectues anterieurement. Le tableau renseigne aussi sur Perreur-type et
sur l'effet du plan d'echantiUonnage sur les estimations.
Au tableau 3, nous comparons la repartition de la
population de 1'Uttar Pradesh selon Page et le sexe etablie
d'apres la NFHS et d'apres I'enquete PERFORM, ainsi que
d'apres le Sample Registration System (systeme d'enregistrement des echantillons) tenu par le bureau general de
I'etat civil. Nous donnons aussi les rapports de masculinite
calcuies d'apres les resultats des deux enquetes. De
nouveau, les repartitions selon I'Sge et le sexe etablies
d'apres les donnees des trois sources sont comparables.
Cependant, I'enquete PERFORM produit un rapport de
masculinite nettement plus faible pour le groupe des 30 a
49 ans (820) et legerement plus eieve pour le groupe des 50
a 64 ans (993) que la NFHS (941 et 960, respectivement).
Nous pensons que ces ecarts sont dus, en partie, au fait que
les travailleurs de tertain d'un des organismes charges de
I'enquete ont «pousse» les femmes k la fin de la periode de
procreation hors de cette tranche d'age pour ne pas etre
obliges de remplir le calendrier des grossesses et les
sections reservees aux antecedents du questionnaire. (Apres
avoir effectue une enquete supplementaire, nous avons
constate que le rapport de masculinite pour la tranche des
femmes de 50 a 64 ans etait uniformement plus eieve dans
les sept districts sous la responsabilite d'un organisme
particulier que dans les auttes.) Par consequent, le nombre
de femmes de 50 a 64 ans produit par I'enquete PERFORM
est probablement un peu plus eieve qu'il ne I'est en realite.
Cela pourtait aussi signifier que les naissances attribuables
a des femmes ayant effectivement moins de 50 ans ont ete
sous-denombrees. Toutefois, comme il ne s'agit pas d'un
groupe d'age a haute fecondite, le biais n'est probablement
pas tres important.
3.2 Taille et caracteristiques des etablissements
En se rendant dans les etablissements selectionnes par le
biais des USE, ou grappes, et en y interviewant les membres
du personnel, on peut produire un echantiUon independant
d'etablissements de sante et de foumisseurs de services.
(Sont inclus ceux qui foumissent des services de
planification familiale a I'heure actuelle, ainsi que ceux
susceptibles de le faire, c'est-a-dire les points de vente au
detail (magasins de marchandises diverses, kirana et
bureaux de preteurs sur gage) inclus dans le nombre global
estime, mais qui ne distribuent pas de contraceptifs k
I'heure actiieUe.) Le denombrement pondere de ces points
de foumiture de services figure au tableau 4. Le fait que
nombre d'agents independants ne soient pas enregistres,
particulierement les medecins «non qualifies" (ou
charlatans), rend plus difficile la validation des estimations
de leur nombre. Selon Narayana, Cross et Brown (1994:
tableau 8), en 1991, I'Uttar Pradesh comptait en tout
Tableau 3
Repartition en pourcentage de la population de Jure, selon I'age et le sexe, d'apres le
SRS, la NFHS et I'Enquete PEFORM, pour la periode de 1991 a 1995
SRS (1991)
Age
Hommes
Femmes
NFHS (1992-93)
PERFORM (1995)
Hommes
Femmes
Rapport de
masculinite
Hommes
Femmes
Rapport de
masculinite
0-4
14,4
14,4
14,6
14,6
917
13,8
14,0
909
5-14
24,9
24,4
27,5
26,0
868
27,2
26,3
861
15-29
28,4
26,8
25,1
26,4
967
25,4
27,7
972
30-49
20,7
21,9
19,2
19,7
941
19,8
18,3
820
50-64
8,2
8,5
8,4
8,8
960
8,6
9,6
993
65+
3,6
4,0
5,2
4,4
718
5,2
4,1
702
100,0
100,0
100,0
100,0
100,0
100,0
Total
Source des donnees du Sample Registration System (SRS): Bureau general de I'etat civil de I'Inde (1993a)
Source des donnees de la NFHS: National Family Health Survey, Utttar Pradesh (1992-1993).
Singh, Tsui, Suchindran et Narayana: Estimation de la population et des caracteristiques
154
112 568 viUages, ce qui donne k penser qu'U existait
pratiquement une accoucheusettaditionnellepar village et un
travailleur anganwandi pour 4,5 villages, en moyenne. Ces
ratios semblent raisonnables compte tenu de ce que I'on salt de
I'acces k ce genre de soin. Les chiffres sont fort comparables
et prouvent qu'il est utile de se servir d'un plan d'echantiUonnage en grappes enchainees.
3.3 Methodes d'estimation
Les nombres estimes de CCS/CPS et de SC presentes au
tableau 4 se fondent sur I'hypothese selon laqueUe pareils
etablissements desservent une population de taille
constante, c.-k-d. 30 000 personnes et 5 500 personnes,
respectivement, chiffres qui sont ceux utiUses par
P administration pubUque pour planifier la foumiture de
services de sante. La precision des estimations serait
meilleure si on connaissait la taille reelle de la population
des secteurs desservis. Faute de ces renseignements, nous
avons choisi une estimation constante de population pour
ces deux types d'etablissements.
Nous avons examine d'autres methodes d'estimation
avant de choisir celle susmentionnee. La premiere est
illusttee au tableau 5 oti sont presentes les nombres reels et
ponderes de CCS/CPS et de SC dans chacun des 28 distiicts
observes. Ces chiffres se fondent sur la ponderation des
etablissements selectionnes selon la taille de I'USE
uniquement, sans cortection pour tenir compte de la
multiplicite. L'echantiUon PERFORM compte en tout
633 CCS/CPS, soit 34.8 % du total (1 818), et 1 267 SC;
soit 13.3 % du total (9 491), selectionnes dans les
28 districts. Si on compare ces chiffres au nombre reel de
CCS/CPS et de SC releves en 1995 par le ministere de la
Sante et du Bien-etre familial de I'Uttar Pradesh, on
constate que la methode de ponderation susmentionnee
aboutit k une surestimation importante du nombre de
CCS/CPS (3 472 comparativement i 1 818), mais produit
un nombre pratiquement identique de SC (9 495
comparativement a 9 491). L'utiUsation des villages et des
Tlots urbains comme USE est raisonnable, puisqu'il s'agit
des unites (et des chiffres de population) que P administration pubUque utiUse pour determiner I'emplacement des
sous-centtes.
Cependant, ces unites ne representent pas une base de
sttatification appropriee pour les grands etablissements de
sante. n y a perte de precision, car, comme nous prenons
pour poids I'inverse de la population de I'USE, ce poids est
gonfle de fagon disproportionnee quand on selectionne des
CCS/CPS dans des tres petites USE. II y a alors surdenombrement de ce type d'etablissement, situation qui est
particuUerement probiematique dans deux districts AUahabad et Sultanpur. Si on supprime ces deux districts,
la surestimation est de 22.5 % (± 0,8) au lieu de 91 %.
(Dans la sittiation inverse, conune c'est le cas pour le district de BareiUy, on aboutit k une sous-estimation des CCS/
CPS. En raison de I'echantiUonnage avec probabilite proportionneUe a la taiUe (PPT), les grands viUages de la strate
IV ont un faible poids et, en fait, la plupart des PFSF de ce
district ont ete selectionnes pour des USE de cette taille.)
Une deuxieme methode d'estimation que nous avons
utilisee consiste a calculer le nombre prevu de CCS/CPS et
de SC en sachant a priori que les etablissements de ce genre
sont situes dans une USE dont la taille minimale est de
30 000 ou 5 500, respectivement. Grace aux donnees du
Recensement de 1991 sur la population des USE, nous
avons reconstrait la courbe de repartition de la population
de chaque distiict selon la taille de la sttate et divise chaque
sttate par la taiUe du secteur desservi par le CCS/CPS ou le
SC (30 000 ou 5 500, respectivement). Nous avons obtenu
Tableau 4
Nombre total de points publics et prives de foumiture de services, selon le type, Uttar Pradesh (Inde), 1995
Points de foumiture de services fixes
Total
Nombre
31400
Hopitaux
Prestateurs individuels de services
Total
Medecins particuliers
Nombre
1 099 825
Gouvemementaux- allopathic
968
Residents-allopathie
32 182
Gouvemementaux-MIC
688
Agrees-allopathie
Municipaux-allopathie
57
Residents (non qualifies)
9011
62 880
Municipaux-MIC
23
Resident-MIC
42 343
Agrees-MIC
9 138
25 994
Prives
Prives benevoles
Prives-MIC
Industriels
Ecoles de m6decine
CCS/CPS/CPS suppiementaires
Sous-centres
Autre
5 212
130
35
61
9
3 948
20151
137
Travailleurs Anganwadi
Travailleurs de la sante des villages
Accoucheuses traditionnelles
Magasins de produits et services medicaux
65 532
110 546
40 979
Magasins de marchandises diverses
133 517
Magasins Kirana
376 679
Bureaux de preteurs sur gage
Detenteurs de depots
136 353
5 818
Autre
48 855
155
Techniques d'enquete, decembre 1997
ainsi le nombre prevu de CCS/CPS et de SC dans chaque
district. Puis, nous avons compare les resultats obtenus aux
chiffres recueilUs pour ce type d'etabUssements au moment
du travail sur le tertain aupres des informateurs communautaires auxquels on a demande d'indiquer s'il existait un
CCS/CPS et (ou) des SC dans I'USE. La comparaison est
presentee au tableau 6, qui montre aussi le code de
I'organisme charge du travail sur le tertain (I k IV)
permettant de reperer toute erteur systematique eventuelle
d'enquete. En appliquant cette methode, on surestime le
nombre de sous-centres de 19,6 % et on sous-estime le
nombre de CCS/CPS de 26,5 %. Si on eiimine les deux
districts comptant un grand nombre d'USE dans la strate I
(Allahabad et Sultanpur), la surestimation du nombre de
CCS/CPS n'est plus que de 10,2 %. La totaUsation de
I'erteur d'estimation selon I'organisme du travail sur le
tertain n'indique aucun biais.
Les resultats des deux metiiodes de ponderation donnent
a penser que I'USE donne une mesure de population
appropriee pour la selection des sous-centres, puisque la
taille moyenne de sa population s'approche de I'effectif des
secteurs desservis par les SC, soit 5 500. Une mesure plus
grande de population aurait sans doute donne de meilleurs
resultats dans le cas de la selection des CCS/CPS, puisque
le secteur desservi par ces etablissements couvre ceux
desservis par cinq a six sous-centres. Comme on s'appuie
sur la taiUe de I'USE pour calculer le coefficient de
ponderation du CCS/CPS, si I'USE est petite, le biais qui
entache les denombrements estimes peut ette important. Un
plan de sondage qu'il conviendrait d'etudier dans I'avenir
consiste a seiectionner une grappe d'USE contigue a I'USE
seiectionnee pour obtenir une mesure d'effectif comparable
a la population du secteur desservi par les CCS/CPS.
Alors, la probabiUte que pareil etablissement se situe dans
les limites de la grappe d'USE sera plus forte et le poids,
calcuie d'apres le total de la population de la grappe d'USE
sera plus fiable. Autrement dit, le fait de ne pas savoir
combien d'USE sont desservies par un CCS/CPS limite la
precision de I'estimation.
4. DISCUSSION
Le plan d'echantiUonnage en grappes pour la production
d'echantiUons independants d'etabUssements et de menages
que I'on peut analyser individuellement ou coUectivement
merite d'ette considere davantage pour la collecte des
donnees necessaires k I'etude et k revaluation des programmes de sante dans les pays en voie de developpement.
Si on fait preuve de minutie pour etabUr le plan d'enquete
et pour executer ce demier sur le tertain, on obtient des
estimations par sondage de grande qualite et de precision
acceptable, comme 1'indiquent nos resultats. Les totaux
ponderes, plutot que les totaux d'echantiUon representent
eux-mSmes des chiffres utiles pour les planificateurs de
programme qui doivent decider des flux de personnel, de
materiel et de fonds vers les divers etablissements et
prestateurs de soins locaux et entre ces demiers. De
surcroTt, le couplage d'un etablissement k des enregisttements individuels offre d'importantes possibilites
analytiques, conune revaluation de I'importance relative de
facteurs lies aux antecedents professionnels du personnel et
a la foumiture de services sur les resultats particuliers
etudies en matiere de sante (p. ex., Boyd et Iversion 1979).
Tableau 5
Nombre total reel et estim6 de centres communautaires de sante, de
centres primaires de sante" et de sous-centres, selon le district,
Uttar Pradesh (Inde), 1995
Sous-centre
CCS/CPS
District
Reel
Estime
Reel
Estime
69
399
369
103
69
475
949
44
104
254
468
112
981
594
677
Ballia
73
93
357
485
Banda
89
101
322
302
BareiUy
71
42
355
162
Dehradun
24
41
139
60
Etawah
69
84
323
364
Fatehpur
57
73
309
327
Aligarh
Azamgarh
Almora
Allahabad
77
33
34
234
236
107
183
528
461
Gorakhpur
59
84
470
460
Jhansi
51
77
251
157
Firozabad
Gonda
Kanpur Nagar
12
13
81
74
Maharajgang
30
39
195
180
Meenit
76
187
410
119
Mirzapur
64
69
309
302
Moradabad
92
81
485
248
Nainital
53
79
287
344
Rampur
37
19
170
139
Saharanpur
60
49
293
388
Shahjahanpur
52
59
301
298
Sultanpur
70
487
394
649
Tehri Garhwal
31
5
159
63
Unnao
63
162
344
106
Sitapur
87
44
437
450
Varanasi
122
144
Total
1818
3 472(±21)
Total"
1636
2 004(±13)
616
9 491
658
9 495(±15)
' Inclut les centres primaires de sante suppiementaires
'' N'inclut pas les districts d'Allahabad et de Sultanpur
Source des chiffres reels de 1995: gouvemement de I'Uttar Pradesh,
ministere de la Sante et du Bien etre familial.
Singh, Tsui, Suchindran et Narayana: Estimation de la population et des caracteristiques
156
Tableau 6
Nombre echantillonne observe et prevu de CCS/CPS" et de sous-centres dans les villages ruraux (Uots urbains),
selon le district, Uttar Pradesh (Inde), 1995
CCS/CPS
Sous-Centre
District
Reel
Aligarh
6
Estime
5
Reel
10
Estime
Organisme
charge du
travail sur le
terrain
17
II
Azamgarh
3
5
24
15
III
Almora
5
2
14
9
I
19
4
17
18
III
9
7
34
27
III
Banda
8
9
19
27
III
BareiUy
5
3
10
16
II
Dehradun
5
7
10
21
I
Etawah
8
7
17
20
II
Fatehpur
9
7
22
25
IV
Firozabad
6
6
28
30
II
Gonda
8
5
15
18
IV
Gorakhpur
5
4
16
20
IV
Jhansi
7
6
16
24
Kanpur
2
2
6
8
Maharajgang
4
4
9
13
12
8
12
34
Mirzapur
7
7
22
22
Moradabad
5
5
9
19
Nainital
6
4
19
19
Rampur
2
5
14
16
Saharanpur
6
6
25
21
Shahjahanpur
5
3
14
15
16
6
21
15
1
3
3
10
3
6
17
17
10
6
6
9
18
24
II
II
IV
II
III
I
I
I
I
II
IV
I
IV
IV
III
Allahabad
Ballia
Meerut
Sultanpur
Tehri
Unnao
Sitapur
Varanasi
5
186
Total
147
Total'
151
137
" Inclut les centres primaires de sante suppiementaires
' N'inclut pas les districts d'Allahabad et de Sultanpur.
Parallelement, plusieurs enseignements se degagent de
notre application du plan d'enquete propose. Premierement, il est manifeste qu'il faut surveiller etroitement le
travail sur le tertain et intensifier la saisie de donnees sur
place, afin d'empecher le phenomene apparent consistant
a«pousser» des femmes admissibles hors des groupes d'Sge
les plus avances. Ce phenomene est difficile a deceler par
verification ponctueUe des questionnaires individuels, mais
peut ette depiste grace aux totaUsations agregees produites,
disons, hebdomadairement d'apres les questionnaires
remplis. Deuxiemement, le surdenombrement des CCS/CPS
450
18
538
dans deux districts, ou le ttavail sur le tertain a ete effectue
par deux organismes distincts, donne a penser que les
villages de la strate I ont ete selectionnes de fa^on
disproportionnee ou que certains CCS/CPS declares comme
etant dans les limites de I'USE ne I'etaient pas en realite.
La premiere situation peut avoir eu Ueu a cause d'une crtcur
d'echantiUonnage, puisque chaque organisme charge du
travail sur le tertain a regu une liste des USE echantillonnees. Troisiemement, le listage et le releve cartographique des etablissements, des prestateurs prives de
services de sante et des menages a I'echeUe des USE est
157
Techniques d'enquete, decembre 1997
une etape importante du travail sur le tertain. L'execution
ininutieuse de ces taches permet de retracer les unites
echantillonnees auxfinsdes suivis qui seront une activite de
mesure indispensable pour evaluer le projet EFPS.
Le fait qu'une enquete aussi complexe que PERFORM,
executee k une echeUe qui permet de saisir tant les niveaux
que les variations de la prestation de services de sante et
d'utiUsation des services par les clients dans une region
aussi peupiee que I'Uttar Pradesh, produise des donnees qui
satisfont la plupart des normes de precision temoigne, sans
conteste, d'un grand accomplissement sur le tertain, ainsi
que d'une innovation importante en matiere de plan
d'echantiUonnage.
REMERCIEMENTS
La presente etude a ete financee en partie par The
EVALUATION Project, USAID Conttact #DPE-3060C-00-1054-00. Les opinions exprimees ici n'engagent que
les auteurs et ne representent pas celles de I'organisme
partain. . Les auteurs expriment leur gratitude k
Daniel Horowitz et a T.K. Roy pour I'aide qu'ils leur ont
apportee anterieurement pour etablir le plan d'echantillonnage. Ds remercient aussi Lynn Moody Igoe, du Carolina
Population Center, d'avoir revise Particle. Enfin, ils
remercient les examinateurs anonymes de leurs suggestions
et de leurs commentaires precieux.
BIBLIOGRAPHIE
ADAY, L.A. (1991). Designing and Conducting Health Surveys: A
Comprehensive. San Francisco: Jossey-Bass Publishers.
BOYD, L.H., Jr., et IVERSION, G.R. (1979). Contextual Analysis:
Concepts and Statistical Techniques. Belmont, CA: Wadsworth.
MACRO INTERNATIONAL, INC. (1996). Demographic and
Health Surveys Newsletter, 8, 1-12.
MILLER, R. A., NDHIOVU, L , GACHARA, M.M., et HSHER, A. A.
(1991). The situation analysis study of the family planning
program in Kenya. Studies in Family Planning, 21,131-143.
NARAYANA, G., CROSS, H.E., et BROWN, J.W. (1994). Family
planning programs in Uttar Pradesh issues for strategy
development: tables. Centre for Population and Development
Studies, Hyderabad, India.
ROSS, J. A., et McNAMARA, R. (fids.) (1983). Survey Analysis for
the Guidance of Family Planning Programs. Liege, Belgium:
Ordina Editions.
Techniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 159-169
Statistique Canada
159
Les interviews assistees par ordinateur dans un environnement
decentralise: Le cas des enquetes-menages a Statistique Canada
J. DUFOUR, R. KAUSHAL et S. MICHAUD'
RESUME
En 1993, Statistique Canada introduisait I'interview assistee par ordinateur (lAO) pour certaines enquetes-menages menees
dans un environnement decentraUse. Cette technologie a ete utilisee avec succes pendant quelques annees et la plupart des
enquetes-menages sont maintenant converties k cette methode de collecte. Le present document fait un resume de
I'experience acquise et des lefons apprises depuis le debut de la recherche sur le sujet. II decrit certains des essais qui ont
mene k I'adoption de cette technologie et quelques-unes des nouvelles possibilites qui sont nees de sa mise en oeuvre. II
presente aussi un certain nombre d'enjeux qui se sont poses lors de I'adoption de I'lAO (certains existant encore
aujourd'hui) et se termine sur un bref survol de ce que nous reserve I'avenir.
MOTS CLfiS:
Enquetes-menages; collecte de donnees; interviews assistees par ordinateur; environnement decentralise.
1. INTRODUCTION
Les premiers systemes d'interview assistee par ordinateur (lAO) ont ete mis au point au debut des annees 1970
(voir NichoUs et Groves 1986). Ces systemes ont surtout ete
eiabores par des organisations faisant des etudes de marche
aux Etats-Unis et, un peu plus tard et de fagon independante, par des centres de recherche universitaires bien
connus. Vers la fin de la decennie 1970 et le debut des
annees 1980, les systemes d'interview assistee par ordinateur se sont considerablement perfectionnes, et leur usage
s'est largement repandu. Ainsi, vers la fin des annees 1980,
un nombre des universites et centres d'enquete americains
possedaient un systeme de collecte informatisee (voir
Lyberg, Biemer, Collins, de Leeuw, Dippo, Schwarz et
Trewin 1997). Clark, Martin et Bates (1997) font un survol
de I'elaboration et de la mise en oeuvre de ces systemes
dans quatre grandes organisations statistiques gouvemementales.
En 1987, Statistique Canada faisait ses premiers essais
en matiere d'interview assistee par ordinateur en 1'appliquant aux enquetes-menages. Les essais avaient alors lieu
dans un «niilieu centralise de collecte des donnees par
telephone*. Cette serie d'essais a ete prolongee jusqu'au
debut des annees 1990, dans un effort pour adapter cette
technologie aux methodes plus generales de collecte de
donnees.
La plupart des enquetes-menages effectuees a Statistique
Canada partagent la meme base de sondage et le meme
environnement de coUecte de donnees. Le principal utilisateur de cette base est I'Enquete sur la population active
(EPA) mensuelle. La collecte des donnees est decenttalisee,
la premiere interview ayant lieu sur place au logement du
menage choisi et les cinq interviews suivantes etant menees
par telephone a partir de la residence de I'intervieweur.
Pour ce faire, pres d'un millier d'intervieweurs ont ete
equipes d'un ordinateur portatif Les intervieweurs sont
rattaches k I'un des cinq bureaux regionaux couvrant le
Canada. Statistique Canada adopte une strategic similaire
pour un certain nombre d'enquetes-menages, en procedant
a un sous-echantillonnage de I'echantiUon de I'Enquete sur
la population active, en administtant une serie de questions
suppiementaires apres I'interview de I'EPA proprement dite
ou en communiquant avec des personnes qui ont dej^
participe k I'enquete. Par consequent, I'EPA partage avec
les autres enquetes non seulement son echantiUon mais
aussi son infrastmcture de collecte des donnees. Tous les
intervieweurs sont tenus de travailler pour le compte de
I'EPA pendant une semaine precise de chaque mois, tandis
que, le reste du temps, ils se consacrent a d'auttes enquetes,
ayant ete equipes et formes en ce sens. Pour de plus amples
renseignements sur la methodologie de I'Enquete sur la
population active, voir Statistique Canada (1998).
Dans les annees 1990, on a etendu I'essai de la methode
de collecte assistee par ordinateur non seulement k I'EPA
mais egalement a d'autres enquetes, qui partageaient une
infrastmcture commune mais avaient des besoins tres
differents. Les resultats de ces differents essais ont mene k
la mise en oeuvre, en novembre 1993, de I'interview
assistee par ordinateur dans le cadre de I'EPA (Dufour,
Kaushal, Clark et Bench 1995), tandis que les enquStes
mensuelles suppiementaires de I'EPA etaient graduellement
modifiees par la suite. En Janvier 1994, une nouvelle
enquete longitudinale, I'Enquete sur la dynamique du
travail et du revenu (EDTR) etait lancee, laqueUe recourait
a I'interview assistee par ordinateur (voir Lavigne et
Michaud 1995). Depuis lors, I'EnquSte nationale sur la
sante de la population (ENSP) et I'Enquete longitudinale
nationale sur les enfants et les jeunes (ELNEJ), lancees en
aout et novembre 1994 respectivement, adoptaient
egalement cette methode de coUecte (voir Tambay et Catiin
1995, Brodeur, Montigny et Berard 1995). Pour de plus
' J. Dufour et R. Kaushal, Division des methodes d'enquetes des mfinages; S. Michaud, Division des methodes d'enquetes sociales, Statistique Canada, Ottawa,
(Ontario), KIA 0T6.
160
Dufour, Kaushal et Michaud: lAO dans un environment decentralise
amples details sur la stmcture et la mise en oeuvre de cette
methode de collecte informatisee dans le cadre des enquetes
longitudinales, voir Brown, Hale et Michaud 1997.
Aujourd'hui, la plupart des donnees des enquetes-menages
de Statistique Canada sont coUectees par technique
informatisee et partagent une infrastructure commune.
Cet article porte surtout sur les aspects methodologiques
de I'interview assistee par ordinateur dans un milieu
decentralise telle qu'elle a ete appliquee aux enquetesmenages. On presente une vue d'ensemble du processus de
mise en oeuvre a Statistique Canada dans son ensemble,
une breve presentation des defis associes a cette nouvelle
methode de collecte et une bibliographic pour permettre au
lecteur d'en apprendre davantage sur certains sujets precis.
Malgre les difficultes de croissance, Statistique Canada
continue d'experimenter et de mettre en oeuvre cette
nouvelle technologie dans le cadre de differentes enquetes
afin d'ameliorer leur rapport cout-efficacite, la qualite des
donnees et le processus de suivi de ces enquetes.
Cet article comprend cinq sections. Dans la section
suivante, on presente divers aspects de la mise en oeuvre de
I'interview assistee par ordinateur dans le cadre de
differentes enquetes. La section 3 presente les nouvelles
possibilites offertes par I'lAO. Dans la section 4, on passe
en revue les enjeux actuels et les nouveaux problemes
auxquels les enquetes doivent faire face suite a I'application
de cette methode de coUecte informatisee, de meme que les
changements qui en decoulent. La demiere section evoque
I'avenir de I'lAO pour les enquetes- menages a Statistique
Canada.
2. LES PREMIERES ANNEES DE MISE
EN OEUVRE
L'adoption d'une methode de coUecte informatisee pour
les enquetes-menages offrait plusieurs avantages prometteurs: i) une reduction des coflts d'enquete, ii) une meilleure
quaUte des donnees, iii) la possibiUte d'utiUser des questionnaires plus complexes, iv) des donnees disponibles plus
rapidement, v) un outil de depistage, vi) la possibilite de
realiser des interviews dependantes et vii) une methode de
collecte generalisee pour toutes les enquetes-menages de
Statistique Canada. Toutefois, ces avantages ne se sont pas
concretises du jour au lendemain ou sans effort, n a fallu,
au cours des etapes d'introduction et de stabilisation,
proceder a des evaluations et des rajustements constants.
Bien qu'un certain nombre d'essais aient ete effectues
avant la mise en oeuvre de I'lAO, I'adoption de cette
metiiode a entraine des problemes imprevus, meme si, avec
le temps, ils sont devenus moins nombreux et plus faciles a
resoudre. De plus, au cours de cette periode, la serie
d'indicateurs de la qualite analyses soigneusement par
differents groupes d'experts de Statistique Canada a ete
quelque peu perturbee. Les avantages anticipes ont pris
environ un an avant de se reaUser. La presente section decrit
les principaux points du passage entre la methode
traditionnelle «sur papier» a la methode d'interview assistee
par ordinateur, laqueUe permet d'integrer la collecte etla
saisie des donnees.
donnees
2.1 L'interview telephonique assistee par ordinateur
en environnement centralisee
La methodettaditionneUed'interview consistait a utiliser
un questionnaire sur papier que I'intervieweur remplissait
avec un crayon afin de faciliter les cortections. On fait
souvent reference a cette methode sous 1'appellation
«interview papier et crayon (IPC)». Avec cette methode
traditionnelle, I'intervieweur verifiait le questionnaire pour
s'assurer que les renseignements consignes etaient exacts et
complets. Les abreviations utilisees pour reduire la duree de
I'interview etaient retranscrites au long apres I'interview
avant que le questionnaire soit transmis pour la saisie des
donnees. La premiere etape vers I'informatisation a ete
franchie avec I'adoption de l'«interview telephonique
assistee par ordinateur» (ITAO). On utilisait cette methode
de collecte de donnees pour les enquetes menees par
telephone a partir d'un emplacement unique. L'lTAO a ete
la premiere experience d'integration de la collecte et de la
saisie d'information dans le cadre des enquetes-menages.
Compte tenu de la technologie de I'epoque, il fallait utiliser
des ordinateurs de taille relativement considerable pour
trailer la complexite associee a I'interview assistee par
ordinateur. II n'etait done possible de remplacer I'IPC par
I'lTAO que dans le cadre d'enquStes teiephoniques
centralisees. Dans les annees 1990,1'avenement d'ordinateurs portatifs plus puissants a permis a I'lAO en milieu
decentraUse de remplacer I'IPC. On a en effet maintenant
recours a une methode de collecte decentralisee pour la
plupart des enquetes-menages. De plus, cette collecte
decentralisee requiert souvent que I'interview puisse se
faire par telephone ou en personne. Quoi qu'il en soit, la
plus grande part du savoir-faire et de I'experience acquis
avec I'interview telephonique assistee par ordinateur a pu
ette appUquee a I'interview assistee par ordinateur dans un
environnement decentraUse.
Depuis les annees 1980, c'etait I'Enquete sur la
population active (EPA) qui servait pour la recherche et les
essais technologique du monde ITAO. Le premier essai a
ete effectue en 1987 sous la forme d'une etude controiee
qui comparait I'lTAO dans un environnement centralise
avec I'IPC. D s'agissait d'un projet de recherche mene
conjointement par Statistique Canada et le Bureau of the
Census des Etats-Unis (voir Catiin et Ingram 1988).
L'etude a mis en relief les ecarts qui existaient entre les
methodes du point de vue de la qualite des donnees, ces
differences favorisant I'lAO (reduction du taux de rejet lors
des verifications, reduction des erteurs d'aiguillage sur les
questionnaires et diminution du sous-denombrement k
regard de I'EPA).
Bien que ITTAO n'ait jamais ete appliquee a I'EPA,
I'experience a servi a mettte au point une fonction ITAO de
composition aleatoire (CA) pour les enquetes-menages.
Avec I'evolution technologique, I'lTAO a servi k des
enquetes CA plus complexes comme I'Enquete sociale
generale (ESG) et I'Enquete sur la violence envers les
Techniques d'enquete, decembre 1997
femmes. L'interview telephonique assistee par ordinateur
continue de faire partie integrante du systeme de collecte
des donnees aupres des menages a Statistique Canada et de
servir de complement k 1'infrastmcture de I'interview
assistee par ordinateur.
2.2 Essais technologiques
Une nouvelle vague de tests a pris son essor au debut des
annees 1990, dans le cadre du remaniement decennale de
I'EPA (Singh, Gambino et Laniel 1993; Drew, Gambino,
Akyeampong et Williams 1991). Grace au lancement de
ttois enquetes longitudinales k grande echelle qui permettait
une mise en commun des coflts, Statistique Canada a pu
engager les fonds pour la mise en place d'une infrastmcture
d'lAO. En 1991, on a done procede a un deuxieme essai sur
I'EPA et I'EDTR pour evaluer la faisabiUte d'utiUser les
nouveUes technologies (voir Williams et SpauU 1992). On
a fait I'essai des ordinateurs portatifs, qui fonctionnent avec
un stylet plutot qu'un clavier pour la saisie des donnees. Les
resultats ont montre que la technologie etait prometteuse
mais qu'il y avait matiere k amelioration avant qu'elle
puisse repondre aux exigences se rapportant k la conduite
des enquetes-menages k Statistique Canada.
L'annee suivante, de juillet 1992 k Janvier 1993, on a
effectue unttoisiemeet un quatrieme essais, mais cette fois
au moyen d'ordinateurs portatifs conventionnels. Les
resultats pour I'EPA sont presentes dans Kaushal et Laniel
(1995), tandis que les resultats pour I'EDTR sont rapportes
dans Michaud, Le Petit et Lavigne (1993) et Michaud,
Lavigne et Pottie (1993). Dans le cas de I'EPA, le ttoisieme
essai avait pour principal objectif d'etablir si une conversion k la nouvelle technologie aurait pour effet de perturber
la serie de donnees de I'EPA. L'objectif secondaire etait de
determiner si la nouvelle technologie influencerait la quaUte
des donnees et les frais d'interview. II s'agissait egalement
de proceder au developpement operationnel et a Pevaluation de I'lAO. Pour ce qui conceme les enquetes longitudinales, la principale preoccupation etait la longueur et la
complexite des questionnaires et I'ajout de nouvelles
fonctions comme le depistage. Par consequent, le principal
critere d'evaluation de I'application etait la faisabiUte de
developper diverses fonctions. Les resultats ont montre que
I'lAO n'avait pas d'influence importante pour I'EPA que ce
soit sur la diffusion de la serie de donnees, sur les principaux indicateurs de qualite ou sur les couts d'interview.
Apres des comparaisons generales avec des sources
extemes et une analyse des variables manquantes, on a
adopte la nouvelle technologie.
2.3 Nouvelle dimension de la non-reponse
L'adoption de I'lAO a enttaine I'apparition impromptue
d'une nouvelle dimension de non-reponses causees par des
«probiemes techniques*. Ces non-reponses provenaient de
cas perdus ou non re9us avant la fin de la periode de
collecte. Ce type de non-reponse existait avec la methode
IPC sous la forme de problemes postaux occasionnels.
Conceptuellement, ces situations ne se rapportent pas a de
161
veritables refus de repondre; toutefois I'infomiation n'est
pas disponible a temps pour faire partie des estimations.
Ces problemes techniques peuvent prendre trois formes
differentes: i) problemes de transmission, ii) problemes
materiels et iii) problemes inevitables. Les problemes de
transmission sont les plus courants. lis se produisent, par
exemple, lorsque les lignes teiephoniques sont en panne,
lorsqu'il y a une difficulte empechant le teiechargement
automatique des donnees, lorsque I'on tente de teiecharger
les donnees au moment oil 1'ordinateur central fait I'objet
de travaux de maintenance, ou simplement parce qu'il y a
un mauvais fonctionnement du systeme lAO. Le second
type de probleme, qui est moins courant, artive lorsqu'un
disque dur ou un lecteur de bande magnetique tombe en
panne, qu'il y a insuffisance de memoire ou qu'il y a un
probleme de materiel informatique au bureau regional.
Enfin, les problemes inevitables, qui sont encore plus rares,
sont des problemes particuliers implicitement causes par
I'une des situations ci-dessus, par exemple lorsque
seulement I'une des deux composantes des reponses d'un
sonde est transmise ou si les parametres d'initialisation
necessaires au bon fonctionnement des programmes font
defaut.
Le nombre de non-reponses attribuables k des problemes
techniques a diminue au cours des premiers mois. On a
analyse tres soigneusement cette composante de la nonreponse pour expliquer la tendance k la hausse k cet egard
et pour evaluer la performance de la methode lAO (voir
Simard, Dufour et Mayda 1995, Dufour, Simard et Mayda
1995). Au debut de la conversion des enquStes- menages k
I'lAO, les problemes techniques representaient en moyenne
15 % du nombre total de non-reponses et pouvaient
expliquer jusqu'a 25 % de celles-ci. Ce n'est qu'environ au
bout d'une annee entiere que I'on a pu observer une
reduction importante de cette composante de la nonreponse. Aujourd'hui en 1997, les non-reponses attribuables a des problemes techniques sont k peu pres
inexistantes.
Au cours de la premiere annee, le gros des problemes
etait cause par un conflit de gestion de memoire dans
1'ordinateur portatif entte deux logiciels servant k la gestion
des cas. On eiimina le conflit en reecrivant une partie du
logiciel, ce qui rendit le systeme plus efficace. Les
elements les plus subtils de cette periode de transition
etaient la communication et I'experience. On a eiabore une
strategic de communication pour permettre aux differents
intervenants (en particuUer le personnel technique et les
intervieweurs) de mieux comprendre le role de chacun, de
diffuser I'information plus rapidement et d'informer
adequatement toutes les personnes concemees. Lorsque
riAO a ete introduite initialement, certains problemes
prenaient plus d'un jour avant d'etre resolus par le
personnel de soutien technique. Des procedures visant k
acceierer le depannage ont ete eiaborees, et un service de
soutien de 24 heures a ete mis en place au siege social k
Ottawa. Dans le cas d'un changement aussi important, une
periode d'apprentissage et d'ajustement est necessaire, et,
a Statistique Canada, on n'a pas fait exception k cette regie.
162
2.4 L'incidence de PIAO sur la non-reponse
Dufour, Kaushal et Michaud: lAO dans un environment decentralise
effectuee en juin 1995, alors qu'il n'y avait pas presque
d'auttes enquetes en cours. L'operation a permis de hausser
le taux de reponse d'environ 5 %, ce qui etait plus eieve que
prevu. On en a conclu que I'lAO devait s'accompagner
d'une plus grande souplesse relativement a la longueur de
la periode de collecte de donnees et qu'il fallait que
plusieurs applications puissent resider dans P ordinateur en
meme temps, de sorte que I'on puisse conserver les taux de
reponse du temps de la methode du papier et du crayon.
Y a-t-il lieu de croire que l'utilisation de PIAO a eu un
effet sur le taux de non-reponse? La reponse k cette
question doit etre affirmative, compte tenu des problemes
techniques survenus, principalement au debut du processus
de conversion. Cependant, si I'on fait abstraction de cet
aspect, il ne semble pas que I'lAO ait un effet durable sur
le taux de non-reponse. Dans le cas de I'EPA, le taux de
non-reponse afluctuea la suite de I'introduction de I'lAO,
mais ces mouvements peuvent s'expliquer par un certain
nombre d'auttes facteurs (le remaniement de I'echantiUon
3. DE NOUVELLES POSSIBILITES POUR LES
par exemple, qui est maintenant plus urbanise ou
ENQUETES-MENAGES
I'embauche de nouveaux intervieweurs, etc.), puisque
I'EPA a fait I'objet d'un remaniement majeur. Apres juste
L'adoption de I'interview assistee par ordinateur a ouvert
un peu moins de deux ans, le taux de non-reponse est
de
nouveUes possibilites en ce qui conceme les enquetesrevenu a des niveaux semblables a ceux de la periode du
menages.
Ces nouvelles possibilites, qui etaient ou bien
papier et crayon.
inexistantes ou difficiles k realiser avec la methode du
La conversion de I'EPA a la nouvelle methode a pris
papier et du crayon, permettent de reduire les crtcurs non
cinq mois, au cours desquels on a pu comparer les taux de
dues a I'echantiUonnage, de recueillir des renseignements
non-reponse des methodes IPC et lAO. Ces comparaisons
plus specialises, de faciliter la reconstmction des entites
ont demontre que les taux de non-reponse de la methode
familiales et de joindre les elements des unites familiales
lAO (a I'exclusion des problemes techniques) et ceux de
qui se sont separees ou fusionnees. En fait, cette methode
I'IPC etaient du meme ordre et suivaient les memes
de collecte est mieux adaptee aux besoins changeants de la
tendances (voir Simard et Dufour 1995). De plus, la
societe d'aujourd'hui.
repartition des principaux motifs de non-reponse, soit le
refus de participer a I'enquete, I'absence temporaire du
3.1 Interviews dependantes
menage, personne a la maison et autres raisons, etait
L'introduction de la nouvelle technologie a permis de
sensiblement la meme avant et apres I'adoption de la
resoudre des problemes qui s'etaient averes insolubles
nouvelle methode. On s'est inquiete que, dans le cas des
lorsque les enquetes-menages etaient effectuees au moyen
interviews sur place, les repondants pourtaient se montrer
de la methode du papier et crayon. Notamment, I'lAO a
plus reticents a repondre eu egard a la presence de
permis d'accroitre la quantite d'information foumie par
1'ordinateur, ce qui aurait fait croitre le nombre de refus.
I'intervieweur k un repondant joint pour la seconde fois et
Toutefois, on n'a pas detecte de variation quant k la
i) de reduire les erteurs de reponse (erteur de codage, de
composante refus de repondre.
saisie ou de memoire), et particulierement les problemes de
Au debut de 1995, la collecte des donnees des ttois
concordance et de teiescopage et ii) d'alieger la tache du
enquetes longitudinales (EDTR, ELNEJ et ENSP) a ete
repondant en confirmant les renseignements plutot qu'en
menee en meme temps que celle de I'EPA. L'environles demandant de nouveau (ou en n'en demandant qu'une
nement de gestion de cas d'alors, conjugue k la mise en
partie).
commun de P infrastmcture entre les enquetes, a cree des
Les problemes de concordance ont ete decrits pour les
pressions additionneUes sur les intervieweurs sur le tertain.
enquetes longitudinales par Murtay, Michaud, Egan et
De plus, les periodes de collecte des enquetes etaient
Lemaitte (1990), qui explique qu'ils se produisent lorsque
limitees parce qu'un nombre restreint d'applications
I'on essaie de reconcilier les donnees de periodes de
pouvaient resider dans P ordinateur en meme temps. On a
collecte successives. Si I'on n'avait pas tente de faire des
effectue une analyse pour determiner si PIAO provoquait
reconciliations entte les coUectes de donnees, on aurait
un deiai d'execution provenant de la simultaneite ou de la
observe generalement des variations artificiellement
succession rapide des enquetes sur le tertain. Dans le cas de
importantes entre les estimations provenant de deux
la coUecte trimestrielle de I'ENSP, les intervieweurs
periodes consecutives. Ce probleme s'explique genefaisaient une relance aupres des non-repondants des
ralement du fait que les repondants ont de la difficulte a
coUectes anterieures. On a precede a une analyse de cette
indiquer la date exacte d'un changement. En ce qui
operation pour evaluer le taux de conversion possible. Les
conceme le teiescopage, il provient d'un tendance k inclure
resultats ont montre que, lorsque qu'il y avait moins
certains evenements s'etant produits k I'exterieur de la
d'enquetes lAO sur le tertain en meme temps, une premiere
periode de reference.
vague de relance des non-repondants augmentait le taux de
reponse, mais que reproduire P operation une deuxieme ou
Avec la methode papier et crayon, les intervieweurs ne
unettoisiemefois n'apportait que peu de gains additionnels
pouvaient disposer que d'une quantite limitee d'infor(augmentation de 5,76 % du premier au deuxieme tiimestte, mation. Les questionnaires ne pouvaient que contenir de
de 0,97 % du deuxieme au troisieme et de 0,91 % du
I'information de base, puisqu'il y avait des Umites k la
troisieme au quatiieme). Toutefois, une demiere relance fut
quantite de renseignements pouvant etre preimprimes, en
Techniques d'enquete, decembre 1997
particulier pour les longs questionnaires. Dans certains cas,
I'information additionnelle pouvait meme ette imprimee sur
un questionnaire separe. Cette methode posait d'auttes
problemes logistiques pour I'intervieweur. L'utilisation
d'information provenant d'interviews precedentes est
connue sous le nom de retroaction. Avec I'interview
assistee par ordinateur, la retroaction est rendue possible de
deux manieres: proactive et reactive. On trouvera un autre
expose sur ce sujet dans Brown et coll. (1997).
L'utilisation proactive de la rettoaction permet de reduire
les erreurs de reponse en aidant le repondant k se situer. Par
exemple, dans le cadre de I'EDTR, on recueille des renseignements detailies sur un maximum de six emplois au
cours de I'annee precedente. Sans la retroaction, le nom de
I'employeur ou le titre du poste pourtait etre ecrit de fagon
legerement differente et un emploi qui s'est poursuivi
pendant deux ans pourtait etre classe comme un changement. Au debut, on a craint que les repondants per9oivent
la retroaction de fa9on negative, mais en fait, peu de
commentaires negatifs ont ete exprimes.
Le taux de confirmation est generalement eieve - plus de
90 % - pour les donnees qui sont presentees au repondant
(voir Hale et Michaud 1995). L'etude de Hiemstta, Lavigne
et Webber (1993) portant sur le marche du travail suggere
que la retroaction sert generalement a reduire les problemes
de concordance, mais que ceux-ci ne sont que partiellement
resolus. Ainsi, dans le cadre de I'EDTR, on confirme
I'occupation d'un emploi, la recherche d'un emploi,
I'absence d'emploi au debut de I'annee civile precedente et
pour une periode d'un an pour laqueUe le repondant doit
faire appel a sa memoire. Des micro- comparaisons avec
une enquete transversale mensuelle menee au cours des
cinq premiers mois de I'annee ont permis d'observer que la
retroaction reduit considerablement les problemes de
concordance. Toutefois, la coherence avec les donnees
transversales diminue a mesure que les mois passent, ce qui
laisse supposer que les erteurs de reponse, meme si elles
sont reduites par la rettoaction, continuent d'etre un
probleme.
L'utiUsation proactive de la rettoaction peut, cependant,
creer une sous-estimation des mesures de changement. Pour
cette raison, dans le cas d'information delicate ou pour des
raisons de confidentialite, la technique est egalement
utilisee de fagon reactive. On peut utiliser la retroaction
reactive pour reperer des changements insolites, ou pour
verifier des incoherences dans les donnees. Par exemple,
lors de I'interview de la premiere vague de I'EDTR, on
demande au repondant d'indiquer ses periodes de chomage
et, pour chaque periode, s'il a regu des prestations
d'assurance-emploi. Au cours de l'interview de la deuxieme
vague, on demande des renseignements detailies sur les
differentes sources de revenu et les montants refus, y
compris les prestations d'assurance-emploi. Des comparaisons avec des sources extemes ont permis d'etablir
qu'habituellement, les montants d'assurance-emploi
rapportes dans une enquete representent environ 80 % des
prestations versees. Dans le cadre de I'EDTR, les
163
renseignements precedents etaient conserves dans la
memoire de I'ordinateur. Si un montant n'etait pas rapporte
et qu'un indicateur signalait une incoherence avec la
premiere interview, alors I'intervieweur posait une question
additionnelle pour etablir si le montant avait ete omis. Une
analyse de la premiere vague d'interviews de I'EDTR
suggere que la retroaction reactive a permis d'augmenter ce
type de renseignements par une proportion de pres de 30 %.
Toutefois, 28 % des personnes qui avaient neglige de
rapporter un montant de revenu ont confirme qu'elles
avaient bien re§u ce montant mais ont refuse d'en indiquer
le montant. On pouvait done confirmer la source du revenu,
mais le montant devait etre impute et le probleme n'etait
pas totalement resolu. Pour de plus amples renseignements
sur ce sujet, consulter Dibbs, Hale, Loverock et Michaud
(1995).
3.2
Un outil plus efficace
Grace a un instrament de collecte aussi efficace que
PIAO, il est maintenant possible de recueillir des
renseignements detailies, de les limiter, d'y acceder et de
lesttansferer,ce qui auparavant etait ties difficile, ou meme
impossible lorsque Ton utilisait le mode IPC.
3.2.1 Matrice des relations entre les differents
membres d'un menage
Les enquetes-menages creent differents niveaux
d'analyse, tels que la famille economique et la famille de
recensement, en utilisant les relations entre les differents
membres du menage et une personne appeiee le «chef de
famiUe». Cette methode a ses limites, par exemple lorsqu'il
s'agit d'identifier les enfants de families mixtes ou de
rettacer une famille sur trois generations. Dans un contexte
longitudinal, la definition de chef de famille peut varier
avec le temps, et c'est pourquoi pour un certain nombre
d'enquetes on a utilise une matrice des relations pour tous
les membres du menage. L'LAO peut limiter la collecte de
donnees k la diagonale inferieure de la matrice. Si la
composition d'un menage n'a pas change entre deux
coUectes de donnees, il n'est pas necessaire d'etablir k
nouveau une matrice des relations. Les verifications
interactives (a propos de Page par exemple) servent k
cortiger toute relation saisie dans I'ordre inverse (par
exemple une relation parent-enfant). On a dfl proceder k un
certain nombre d'essais pour eiaborer un moyen efficace
d'identifier les relations qui permettrait non seulement la
collecte de renseignements mais leur cortection facile.
Grace a la version ameiioree de la methode de collecte,
moins de 1 % des relations ont besoin d'ette corrigees apres
la collecte initiale (comparativement k un taux de 5,3 %
d'incoherence avant les verifications interactives sur la
matrice des relations). Les methodes de cortections des
donnees dans un environnement d'lAO sont Pun des
domaines oil la recherche est encore necessaire.
Dufour, Kaushal et Michaud: lAO dans un environment decentralise
164
3.2.2 Acces a des instruments de collecte plus
perfectionnes
L'lAO a egalement donne acces a des instmments de
collecte plus perfectionnes. Par exemple, dans le cadre de
I'ELNEJ, on obtient une variete de renseignements sur une
cohorte d'enfants ages de 0 a 11 ans. Une section de
l'interview consiste a evaluer le niveau de vocabulaire de
1'enfant. L'un des instiiiments utiUses a cet egard est le test
de vocabulaire par 1'image de Peabody (PPVT). Toutefois,
on utilise generalement le PPVT dans un environnement
plus specialise, et les personnes qui administrent ce test
doivent normalement suivre plusieurs jours d'une formation
approfondie, le test necessitant la presentation d'une serie
d'images parmi lesquelles I'enfant doit choisir celle qui
cortespond k un mot donne. Le niveau de depart du test
depend de I'age de I'enfant. L'intervieweur pose des
questions jusqu'a ce que I'enfant^ ait donne un certain
nombre de mauvaises reponses. A ce moment, I'intervieweur doit retoumer au niveau de depart et reposer les
questions deja posees, jusqu'a ce que I'enfant donne un
nombre predetermine de mauvaises reponses. Pour
administrer le test, il faut done etablir un seuil d'apres
certains criteres, compter le nombre de mauvaises reponses,
sauter des questions dans le cas ou I'enfant donne un certain
nombre de mauvaises reponses et mettre un terme au test.
Cette marche a suivre aurait necessite une formation tres
approfondie s'il avait fallu faire passer ce test sur papier.
L'LAO a grandement facilite le precede en permettant la
preprogrammation des regies de validation. Les donnees de
la premiere collecte permettent de penser que I'administtation de ce type de test dans un environnement lAO offre
des resultats de bonne qualite lorsqu'on les compare avec
les normes extemes.
3.2.3
Etablissement de liens iongitudinaux
Dans le cas des liens Iongitudinaux, il peut artiver que
tous les membres d'un menage initial fassent partie de
I'echantiUon longitudinal, a I'EDTR par exemple. Au cours
des coUectes suivantes, les personnes longitudinales sont
interviewees, de meme que toutes les personnes avec qui
elles vivent. Si un menage se separe, on doit creer un
nouveau menage pour les personnes qui ont quitte le
menage d'origine. Grace k I'adoption de I'lAO, U est
devenu possible de creer des identificateurs de menages
propres aux nouveaux menages mais relies aux identificateurs originaux, et de retracer ainsi plus facilement la
dynamique des changements dans la composition des
menages. Le traitement des doubles veritables qui resultent
d'un changement dans la composition d'un menage est un
probleme particulier qui a ete grandement ameiiore. Par
exemple, un adolescent peut faire partie d'un menage donne
au moment de la premiere collecte, puis avoir laisse ses
parents au moment de la deuxieme interview, puis y etre
retoume quand artive la troisieme collecte. A la deuxieme
collecte, on indique que la personne fait partie d'un
nouveau menage et un nouvel identificateur y est associe.
Lorsque I'on communique a nouveau avec les parents au
moment de la troisieme interview, I'adolescent qui est
revenu pourtait passer pour un nouveau membre du
menage. Si I'intervieweur dispose de la liste des personnes
qui ont deja fait partie du menage, la necessite de reduire
les doubles est grandement reduite. On a mis sur pied un
precede semblable dans le cas des emplois occupes par une
personne, de sorte que la liste des employeurs precedents de
celle-ci est utiUsee pour une reconciliation longitudinal des
emplois.
3.2.4
Depistage des individus
Avec I'adoption de I'LAO, certaines fonctions ont pu ette
informatisees, notamment le depistage. Brown et coll.
(1997) en donnent des exemples precis. Comme on Pa note
plus haut relativement a I'etablissement des liens Iongitudinaux, on peut inclure tous les individus «depistes» dans
un nouveau menage en leur accolant un identificateur
unique. II y a moins de manipulation de papier, et il est
maintenant possible d'obtenir davantage d'information en
matiere de gestion. Grace k I'lAO, il a ete possible de
mettte en place une methode de depistage a deux niveaux.
L'intervieweur essaie d'abord d'effectuer le depistage. S'il
ne reussit pas, toute I'information sur le cas est transferee a
une unite de depistage au bureau regional, ou davantage de
sources de depistage sont disponibles. L'automatisation a
eiimine de nombreuses manipulations et la transcription des
donnees sur papier. Auparavant, lorsqu'un menage se
separait, on devait creer sur papier une nouvelle feuille
d'identification assortie d'un Uen avec le menage anterieur.
Le nom des personnes qui avaient quitte le menage etait
indique sur cette feuille. Si on ne trouvait pas la personne
que I'on cherchait, il fallait transferer toutes les feuilles de
toutes les personnes ayant vecu ensemble au cours de
I'annee precedente. Ces manipulations augmentaient
considerablement le risque d'erteurs. Le transfert des cas
entre les niveaux de depistage se fait egalement plus
rapidement. De plus, chaque recherche est enregistree
automatiquement avec son resultat. Meme si la methode
etait semblable a I'epoque du crayon et du papier, il etait
rare que les renseignements soient enregistres. II etait
egalement difficile d'analyser I'information pour
determiner quelles seraient les meilleures sources pour
retracer une personne.
Le depistage est un facteur cie du maintien de la qualite
des donnees. Grace aux methodes de depistage actuelles,
les cas devant faire I'objet d'une recherche peuvent
demeurer sur le tertain un peu plus longtemps, meme si la
periode de coUecte demeure limitee. D sera possible
d'instaurer des methodes plus efficaces si les efforts
associes aux differentes enquetes sont mis ensemble. On
etudie actuellement comment atteindre une meilleure
fonctionnalite, conjuguee a un depistage centralise. On
pourtait ainsi combiner les efforts de depistage des
differentes enquetes, et I'on pourtait aussi proceder k des
saisies par lots afin de tenter de relier les cas necessitant des
recherches dans les bases de donnees.
Techniques d'enquete, decembre 1997
3.3 Nouveaux indicateurs de qualite
La methode LAO adoptee par Statistique Canada pour ses
enquetes-menages offre un systeme complexe de controle
des operations d'enquete au cours des periodes de collecte
pour veiller a ce que tout fonctionne bien. Ce systeme
appeie «systeme de gestion des cas» (SGC) est un systeme
perfectionne qui permet de gerer toutes les operations du
debut k la fin du cycle d'enquete. Ce systeme est souple,
puisqu'il peut etre adapte aux besoins des differentes
enquetes-menages qui I'utilisent. Le SGC execute trois
fonctions principales: i) le cheminement des cas, ii) la
production de rapports sur les operations et iii) I'aide aux
intervieweurs. Le module de cheminement dirige les
mouvements de cas durant I'enquete, que ce soit de
I'intervieweur au bureau regional, du bureau regional au
siege social, etc. Le deuxieme module du SGC produit
differents rapports decrivant I'etat de I'enquete k un point
donne dans le temps, evaluant les performances et le
progres de I'enquete et indiquant I'etat des interviews.
Toute une gamme de renseignements sont produits par cette
deuxieme composante du SGC. Enfin, le troisieme module
permet aux intervieweurs de remplir leurs tSches plus
efficacement, au moyen d'options de prises de rendez-vous,
d'enregistrement de notes, etc.
Par consequent, ce systeme offre une masse d'information sur ce qui artive effectivement sur le tertain au cours
d'une enquete; toute mesure prise relativement k un cas est
enregistree par le SGC. Le grand defi dans ce type de
systeme est d'eviter de se perdre dans la grande masse de
renseignements disponibles. On a mis sur pied des equipes
dettavailpour maitriser ces sources d'information, eiaborer
de nouveaux indicateurs de qualite en utilisant cette
information ou en la combinant avec d'autres renseignements dej^ disponibles,ttouverdes utilisations (formations
additionneUes, amelioration de I'instmment de collecte de
donnees) et trouver des manieres de presenter ces indicateurs de fagon efficace.
On a produit un grand nombre d'indicateurs de qualite
(voir Simard et coll. 1995; AUard, Brisebois, Dufour et
Simard 1996) a un rythme regulier et a differents niveaux
d'interet (geographique, intervieweurs, administration). On
peut grouper ces indicateurs en deux categories: information et controle. Parmi les indicateurs d'information
mentionnons: le nombre de tentatives avant de completer un
cas, la distribution des interviews terminees par jour de
collecte, la meilleure combinaison jour-heure pour joindre
un repondant, la duree mediane des interviews et le nombre
de regies de validation dedenchees et ignorees ou
dedenchees et sur lesquelles on a pris des mesures (voir
Brisebois, Dufour et Levesque 1997). Les indicateurs
d'information servent a ameiiorer ou k modifier la strategic
ou le processus de collecte.
En matiere de contrSle, on se sert d'une serie d'indicateurs pour retracer les irtegularites commises sur le
tertain, qu'elles soient humaines ou techniques. Parmi ces
indicateurs, on peut mentionner: les appels ou les visiles
effectues apres la date de transmission mais avant la
semaine d'enquete, les appels ou les visites faits apres le
165
dimanche de la semaine de d'enquete, les periodes de
travail trop tot, les periodes de travail trop tardives, les
interviews trop courtes, etc. Ces renseignements servent k
verifier si les instmctions formuiees par le siege social sont
suivies et si certains intervieweurs ont besoin de davantage
de formation. Toutefois, toutes ces donnees doivent etre
analysees avec pmdence pour determiner la cause de
I'irtegularite. Par exemple, une interview menee ii 4 h 30 du
matin peut tres bien I'avoir ete k la demande du repondant,
un fermier par exemple, a moins que I'horloge de
I'ordinateur ne soit mal regMe (voir Brisebois et coll. 1997).
L'LAO permet egalement aux intervieweurs d'inclure un
commentaire pour chaque question ou d'expliquer pourquoi
tel code a ete donne. II est done possible d'adapter la
formation en fonction de ces commentaires, de mieux
comprendre les enquetes et, par consequent, de mieux les
adapter aux realites du tertain. Par exemple, cette fonction
a permis de mener une etude speciale sur les motifs de refus
de participer a I'une des enquetes-menages de Statistique
Canada. Une telle etude aurait auparavant necessite
beaucoup d'efforts (voir AUard, Dufour, Simard et Bastien
1996).
4. LES DEFIS ACTUELS DE L'L\0
Cette section decrit les defis k long terme qui se posent
en matiere d'eiaboration, de mise en oeuvre et de comprehension de I'utiUsation de I'LAO pour les applications
d'enquetes. Les puissants outils rendus accessibles par
I'LAO ont emmene avec eux la complexite en matiere de
contenu, de logiciel et de communications eiectroniques,
laqueUe n'est peut-etre pas bien appreciee de tous. La
conversion a I'lAO a enttaine une nouvelle dependance par
rapport a 1'informatique. Cette dependance est l'un des
defis les plus importants auxquels Statistique Canada doit
faire face, puisque la technologie evolue k un rythme
effrenee.
4.1 Charge de travail des intervieweurs
La mise en commun d'une infrastructure necessite le
partage par differentes enquetes de ressources limitees,
comme des intervieweurs formes equipes d'ordinateurs
portatifs. Par consequent, toute augmentation du nombre
d'enquetes ou de la quantite des donnees recueillies dans
une enquete doit etre assumee conjointement par
I'ensemble des autres enquetes. II faut souligner que,
souvent, les memes intervieweursttavaillentpour un grand
nombre d'enquetes, de sorte qu'ils peuvent se retrouver
avec une charge dettavailconsiderable, situation exacerbee
par la brievete des periodes de collecte. Bien que le taux de
reponse se soit retabU depuis I'introduction de I'LAO, une
charge de travail trop lourde peut alterer la qualite des
donnees (moins de suivis et plus de non-reponses).
Compte tenu de la nature du SGC, il faut mettte en place
une stmcture administrative a I'egard des communications,
fondee sur les besoins de chaque enquete (selon les codes
de reponses), pour permettre le cheminement des cas entre
166
Dufour, Kaushal et Michaud: IAD dans un environment decentralise
les intervieweurs, leurs superviseurs et les bureaux
regionaux. Depuis que I'lAO a ete adoptee pour la premiere
fois, le processus de communication a ete sensiblement
ameUore, de sorte que chaque intervieweur puisse recevoir
ses taches, la demiere version de I'application ou differents
changements. Neanmoins, ce processus doit faire I'objet
d'un conttole permanent. Par exemple, a la fin de la periode
de coUecte, les cas doivent etre transmis et supprimes de
I'ordinateur de I'intervieweur. La plupart du temps, les cas
non transmis sont essentiellement des non-reponses.
Comme ces cas ne sont pasttansmisau siege social apres la
fin de la periode de collecte, on perd parfois I'information
sur les motifs de ces non-reponses. Bien que beaucoup de
ces problemes puissent ette reperes durant les essais, il reste
qu'il demeure toujours quelques cas exceptionnels.
4.2 Procedes de controle pour PIAO
Le SGC et les appUcations d'enquetes ont la capacite de
produire de nombreuses bases de donnees. La quantite de
donnees est souvent ecrasante et I'on n'exploite pas
reellement ces donnees a leur potentiel maximal. En outre,
la vitesse inherente a I'lAO fait que I'on n'a pas assez de
temps et de ressources pour analyser et contrSler cette
masse d'information. Pour le moment, cette information est
utilisee apres coup, mais il serait grandement souhaitable
que I'on puisse I'utiUser pendant que I'enquete est en cours.
Les intervieweurs devraient pouvoir acceder a cette
information dans un format integre. Cependant, il faut un
juste equilibre pour eviter I'exces de surveillance qui
amenerait les intervieweurs a porter davantage d'attention
aux indicateurs de qualite qu'a la qualite des donnees
comme telles. Idealement, on pourtait analyser plusieurs
enquetes pour relever les problemes particuliers, et
concevoir ensuite des trousses de formation breves et
pertinentes. De plus, les taux de reponse et les taux de
couverture pourtaient ette integres pour les enquetes. Tous
ces renseignements pourtaient servir a ameiiorer la gestion
du temps ou a preparer de la formation sur des competences
d'interview particulieres.
4.3 Verification en cours de collecte
Bien que I'lAO permette d'inclure un grand nombre de
regies de verification pouvant servir au moment de
I'interview, il est important ici de maintenir un equilibre
entte les regies programmees dans 1'outil de collecte et les
regies appliquees au cours du traitement par lots au siege
social. Les regies programmees dans I'application
prolongent l'interview, ce qui augmente les coflts et le
fardeau des repondants. Avec revolution technologique
rapide que nous devrions connaitte d'ici quelques temps, il
devrait etre possible d'appliquer un plus grand nombre de
regies de verification au cours de I'interview, sans en
perturber le rythme. Par ailleurs, toute clarification donnee
pendant I'interview ameiiore la qualite des donnees. Les
donnees de I'Enquete nationale sur la sante de la population
sont de meilleure qualite a la coUecte du deuxieme trimestte
parce que I'on utilise les renseignements du premier
trimestre pour alimenter le systeme de verification. Par
exemple, donner des clarifications au repondant au cours de
I'interview nous a permis de decouvrir que, dans le cas de
la variable artiirite, sur les 7 % de repondants qui indiquent
un changement dans leur etat entte les deux trimestres,
seulement 3,3 % avait reellement connu un changement,
alors que pour 3,5 % U s'agissait d'crteurs. Pour de plus
amples details, voir Catiin, Roberts et Ingram (1996).
Avec PIAO, il est egalement possible de stocker
I'information pour indiquer quelles regies de verification
ont ete dedenchees et quelles cortections ont ete apportees.
Une etude portant sur les regies de verification les plus
souvent dedenchees permettrait de determiner quelles
regies influencent le plus la qualite des donnees. Une telle
etude servirait non seulement a titre informatif mais ses
resultats permetttaient de modifier des regies trop sttictes et
serviraient de base k un systeme de cortection dynamique.
Un autre aspect aussi important conceme la facilite avec
laqueUe I'intervieweur peut faire les cortections necessaires. S'il suffit de corriger la reponse actuelle ou la
reponse precedente k une question, I'intervieweur peut le
faire facilement. Par contre, s'il faut verifier une serie de
reponses, remonter d'une reponse a I'autre et determiner
laqueUe a besoin d'etre cortigee, cela peut etre trop
complexe pour que cette verification ait lieu durant
I'interview.
Outte les problemes techniques, il existe des problemes
methodologiques associes a 1'incidence des regies de
verification sur la quaUte des donnees. A quelle etape
I'appUcation des differentes regies de verification est-elle la
plus efficace? Les regies touchant !'enchainement du
questionnaire et celles qui determinent quelles personnes
sont hors du champ d'application de I'enquete sont
essentielles. Les variables cies servant k la stratification a
posteriori et aux estimations cies se definissent mieux au
moment de I'interview. Le nombre de regies de validation
pouvant ette integrees k I'lAO est fonction de la vitesse de
I'ordinateur portatif En outte, lorsque certaines regies sont
eiaborees pour I'instmment tandis que d'autres sont
destinees auttaitementcenttal, il faut s'assurer que les deux
types de regies n'enttent pas en contradiction.
4.5
Confidentialite des donnees
La preservation de la confidentialite des donnees, conformement aux stipulations de la Loi sur la statistique, est
une des exigences fondamentales qui regissent I'utilisation
de I'lAO et des systemes qui la soutiennent. Pour repondre
a cette exigence, on a eiabore un certain nombre de
procedures et on a mis en place, notamment, un environnement informatique comportant deux reseaux de
communication, un interne et un exteme. Les donnees sont
transferees physiquement, sur bande, du reseau exteme au
reseau interne confidentiel, parce qu'il n'y a pas de
connexion entre ces deux reseaux. D est impossible
d'acceder au reseau interne k I'aide d'un modem public.
On assure aussi la confidentialite de I'information par le
cryptage des donnees des que celles-ci doivent etre
transmises par le reseau telephonique. De plus, un systeme
de contrSle des acces est integre dans tous les ordinateurs
Techniques d'enquete, decembre 1997
portatifs, de sorte que seul I'intervieweur a acces aux
renseignements. De plus, les donnees sont cryptees
lorsqu'elles resident dans I'ordinateur portatif
Les difficultes que pose PIAO en matiere de confidentialite sont tres differentes de celles que I'on avait avec la
methode du papier et du crayon. Dans le cas de I'EDTR, les
interviews dependantes posent des difficultes de cet ordre.
L'information sur une famille provenant d'une collecte
precedente peut devenir delicate dans le cas oii, par
exemple, le menage se separe. Par consequent, si la
nouveUe methode permet de conduire des interviews
dependantes, celles-ci posent des inconvenients qui doivent
etre evalues pour chaque situation.
Avec I'apparition de 1'auto-interview audio assistee par
ordinateur (AIAO-A), il est plus facile de ttaiter les sujets
deiicats. Le repondant est reUe k I'ordinateur par un casque
d'ecoute et les questions sont lues par une voix numerisee.
Le repondant peut done choisir s'il veut ou non que les
questions s'affichent a Pecran. Grace a cette technique, le
repondant peut remplir le questionnaire de fagon parfaitement anonyme. On prevoit commencer a utiliser cet outil
dans le cadre de I'ELNEJ avant la fin de Pan 2000.
4.6 Programmes de reinterview
En ce qui conceme les programmes de reinterview,
I'lAO offre certains avantages par rapport k I'IPC.
Premierement, la rapidite de la transmission eiectronique
des donnees reduit les ecarts attribuables a des problemes
de memoire, puisque les reinterviews peuvent avoir lieu
dans un deiai plus court suivant la premiere interview.
L'observation rigoureuse des regies de reconciliation
integrees dans le logiciel permet d'obtenir une estimation
plus precise des erteurs de mesure. Les intervieweurs
feuilletent le questionnaire avant de commencer la
reinterview. De meme, les reconciliations peuvent etre
faites apres un sous-ensemble de questions, k la fin d'une
section ou a la fin du questionnaire, et autant de fois qu'il le
faut. Les cas de reinterviews sont facilement automatises et
integres dans un processus de controle de la qualite tenant
compte des caracteristiques de I'intervieweur et de
I'interview (cas particuliers se rapportant a des problemes
de formation, cas appartenant k un groupe particulier). La
qualite des donnees est meilleure parce qu'un grand nombre
de regies de verification, identiques k celles qui sont
appliquees au cours de I'interview sont programmees pour
les reinterviews. Les fonctions offertes par le SGC sont
egalement un atout pour le programme de reinterviews:
progression du programme de reinterviews, performance et
progression des reinterviews, transfert facile des cas, etc.
4.7 Formation de I'intervieweur
Avec l'adoption de I'lAO, les intervieweurs ont vu leurs
methodes de travail changer considerablement. La formation s'est reveiee une etape essentielle, leur permettant de
s'adapter efficacement a cette methode informatisee de
collecte de donnees. Us se sont familiarises a de nouveaux
outils de travail (clavier, ordinateur portatif et toutes les
procedures informatiques qu'il faut suivre, comme
167
renregisttement des donnees, le chargement des piles et la
transmission par modem). lis ont egalement dfl adapter leur
style d'interview aux exigences de I'LAO. Par aiUeurs, les
nouveaux intervieweurs ont dfl se familiariser avec les
concepts propres aux enquetes, les techniques d'interview
et I'instmment de collecte. Pour relever ce defi, Statistique
Canada a eiabore une strategic de formation fondee sur
I'experience qu'elle a acquise au cours des essais anterieurs
et sur I'experience de coUegues britanniques et americains.
La formation des intervieweurs demeurera l'un des
facteurs cies du succes des enquetes de Statistique Canada,
et I'organisme innove constamment dans ce domaine. Par
exemple, I'une des initiatives dans le cadre de I'EPA est la
mise en application d'une strategic consistant k permettre
aux intervieweurs principaux de recevoir reguUerement une
petite tache d'lAO (environ 15 cas), de sorte qu'ils puissent
s'exercer a cette methode de collecte et se tenir au fait de
revolution de I'application d'lAO. Outre les cas de
formation ordinaires qui sont toujours accessibles dans
I'ordinateur, le systeme lAO offrira aux intervieweurs des
modules integres au systeme de collecte et ttaitant de sujets
complexes comme la couverture et les logements multiples,
de sorte qu'ils pourtont se tenir ^ jour et reviser differents
concepts difficiles.
5. L'AVENm DE L'LVO A
STATISTIQUE CANADA
Dans le nouvel environnement de ressources limitees et
de lourd fardeau des repondants, la collecte statistique
devient de plus en plus adaptee k chaque enquete. Alors que
les enquetes aupres des entreprises ont pris cette forme
depuis un certain temps deja, la collecte mixte commence
a ette en demande pour les enquetes-menages. La collection
centralisee a I'exterieur de la periode de coUecte pour un
nombre Umite de repondants peut permettte d'ameliorer le
taux de reponse (en mettant P accent sur le depistage par
exemple). L'environnement necessaire k ce type de collecte
ressemble davantage k I'lTAO qui permet la mise en
commun de fonctions de bases de donnees pour un petit
echantiUon, ainsi que des fonctions de planification
d'appels.
On prevoit que, d'ici la fin du siede, I'appUcation d'lAO
et le systeme de gestion des cas seront compietement
repenses. Au cours de ce remaniement, les equipes de
travail devront tenir compte non seulement des capacites de
I'ordinateur, mais aussi de facteur humain. Ce demier
facteur est important parce que la collecte de donnees et la
qualite des donnees en dependent. Les intervieweurs
doivent lire a Pecran et faire la saisie des reponses, des
taches qui requierent des habiletes perceptives et motrices
differentes de celles qu'ils utilisaient avec la methode du
papier et crayon. Le Ubelie des questions est egalement plus
difficile k lire a I'ecran, et les intervieweurs disent qu'il est
plus ardu de visuaUser la stmcture d'ensemble d'un
questionnaire. II faut done porter une attention speciale au
design de I'ecran, au choix des couleurs, k la quantite de
Dufour, Kaushal et Michaud: lAO dans un environment decentralise
168
texte affichee, aux fonctions cies preprogrammees et a la
facilite de deplacement d'un ecran a un autre. De plus,
comme on demande aux intervieweurs dettavaiUersur plus
d'une enquete, il faudrait, dans la mesure du possible, faire
un effort d'uniformisation des formats d'ecran.
En ce qui conceme les composantes materielles et
logicielles, les equipes de travail s'affairent actuellement a
choisir la meilleure combinaison. A I'heure actuelle, on
utilise differents logiciels pour differentes composantes
dans le cadre de plusieurs enquetes. Afin de normaliser le
plus possible les applications disponibles, on projette
d'utiliser une plate-forme uniformisee pour toutes les
enquetes dans un environnement Windows. L'environnement Windows devrait donner aux intervieweurs et aux
programmeurs une plus grande souplesse. II faut aussi
repenser les systemes de securite, pour les rendre conforme
k la technologie adoptee et pour satisfaire aux exigences de
Statistique Canada. II faut tenter d'harmoniser les questions
d'une enquete a I'autre, ce qui permettrait de modulariser
davantage la programmation de I'lAO. Le fardeau du
repondant en serait lui aussi allege.
Le nouveau systeme devra pouvoir tenir compte des
exigences tant passees que presentes. Par exemple, les
caracteristiques des systemes sont reexaminees sur la base
des rapports d'etapes foumis au personnel operationnel
pour determiner quels sont les points a ameiiorer. Comme
on I'a note dans la section 4, un certain nombre d'autres
possibilite sont envisagees, telles que la formation
interactive des intervieweurs, des modules de formation
speciaux, la possibilite de mener des reinterviews et de
meilleurs instmments de depistage. Grace a ces fonctions,
on pourta mieux tirer parti de la souplesse acquise par
l'automatisation du processus.
On est egalement en train de concevoir un nouveau
systeme de gestion des cas. L'un des imperatifs vises est
d'installer un systeme de communication robuste qui
permettta lattansmissionuniforme des changements et une
fonction de replication. On espere pouvoir eiaborer un
systeme informatique qui sera utilise pendant de
nombreuses annees a venir, mais la realite actuelle semble
suggerer que I'lAO devrait continuer d'evoluer rapidement.
Eu egard a cette rapide evolution technologique (on n'a
qu'^ penser k Internet), le defi present consiste a mettre au
point un systeme souple qui pourta ette facilement adapte
sans necessiter une restructuration complete.
REMERCIEMENTS
Les auteurs veulent remercier les nombreuses personnes
de la Division des methodes d'enquetes des menages, de la
Division des methodes d'enquetes sociales, de la Division
des enquetes-menages et de la Division des operations
d'enquetes qui, au fil des annees, ont contribue a
I'elaboration de I'LAO a Statistique Canada. C'est grace a
leur travail que le present document a ete rendu possible.
Nous voulons egalement remercier Ann Brown,
Brian Williams, Jean-Louis Tambay et Frank Mayda de
leurs precieux commentaires qui ont permis d'ameliorer la
quaUte de ce document.
BIBLIOGRAPHIE
ALLARD, B., BRISEBOIS, P., DUFOUR, J., et SIMARD, M.
(1996). How do interviewers do their job? A look at new data
quality measures for the Canadian Labour Force Survey. Presente
k I'lntemational Conference on Computer-assisted Survey
Information Collection.
ALLARD, B., DUFOUR, J., SIMARD, M., et BASTIEN, J.-F.
(1996). Pourquoi refuse-t-on de participer aux enquetes? Le cas
de I'Enquete sur la population active. Direction de la
metiiodologie, document de travail, DMEM, 96-003F. Statistique
Canada.
BRISEBOIS, P., DUFOUR, J., et LEVESQUE, I. (1997). New LPS
quality measures. Direction de la methodologie, document de
travail, Statistique Canada. A paraitre.
BRODEUR, M., MONTIGNY, G., et BERARD, H. (1995).
Challenge in developing the National Longitudinal Survey of
Children. Proceedings of the Section on Survey Research
Methods, American Statistical Association, 21-28.
BROWN, A., HALE, A., et MICHAUD, S. (1997). Use of
Computer-assisted Interviewing in Longitudinal Surveys. Presente
k I'lntemational Conference on Computer-assisted Survey
Information Collection.
CATLIN, G., et INGRAM, S. (1988). The effects of CATI on cost
and data quality. Dans Telephone Survey Methodology, edite par
R.M. Groves et coll.. New York: John Wiley and Sons.
CATLIN, G, ROBERTS, K. et INGRAM S. (1996). Validite de
r auto-declaration des problemes de sante chroniques lors de
I'enquete nationale sur la sante de la population. Presente au
Symposium 96, Erreurs non dues k I'echantiUonnage, Statistique
Canada.
CLARK, C , MARTIN, J., et BATES, N. (1997). Development and
Implementation of CASIC in Government Statistical Agencies.
Presente k I'lntemational Conference on Computer-assisted
Survey Information Collection.
DIBBS, R., HALE, A., LOVEROCK, R., et MICHAUD, S. (1995).
Some Effects of Computer-assisted Interviewing on the Data
Quality of the Survey of Labour and Income Dynamics. Enquete
sur la dynamique du travail et du revenu, documents de recherche,
95-07. Statistique Canada.
DREW, D., GAMBINO, J., AKYEAMPONG, E., et WILLIAMS, B.
(1991). Plans for die 1991 redesign of the Canadian Labour Force
Survey. Proceedings of the Section on Survey Research Methods,
American Statistical Association.
DUFOUR, J., KAUSHAL, R., CLARK, C , et BENCH, J. (1995).
Converting the Labour Force Survey to Computer-assisted
Interviewing. Direction de la methodologie, document de travail,
DMEM, 95-009E. Statistique Canada.
DUFOUR, J., SIMARD, M., et MAYDA, F. (1995). The First Year
of Computer-assisted Interviewing for the Canadian Labour Force
Survey: An Update. Direction de la methodologie, document de
travail, DMEM, 95-01 IE. Statistique Canada.
Techniques d'enquete, decembre 1997
169
HALE, A., et MICHAUD, S. (1995). Dependent Interviewing: Impact
on Recall and on Labour Market Transitions. Enquete sur la
dynamique du travail et du revenu, documents de recherche,
95-06. Statistique Canada.
MURRAY T.S., MICHAUD, S., EGAN, M., et LEMAITRE, G.
(1990). Invisible seams? The experience with the Canadian
Labour Market Activity Survey. Proceedings of the 1990 Annual
Research Conference. U.S. Bureau of the Census.
HIEMSTRA, D., LAVIGNE, M., et WEBBER, M. (1993). Labour
Force Classification in SLID: Evaluation of Test 3A Results.
Enquete sur la dynamique du travail et du revenu, documents de
recherche, 93-14. Statistique Canada.
NICHOLLS II, W.L., et GROVES, R.M. (1986). The status of
computer-assisted telephone interviewing: Part I. Journal of
Official Statistics, 2, 93-115.
KAUSHAL, R., et LANIEL, N. (1995). Computer-assisted
interviewing data quality test. Proceedings of the 1993 Annual
Research Conference. U.S. Bureau of the Census, 513-524.
LAVIGNE, M., et MICHAUD, S. (1995). Aspects generaux de
I'Enquete sur la dynamique du travail et du revenu. Recueil des
textes des presentations du colloque sur les applications de la
statistique. L'association canadienne frangaise pour I'avancement
des sciences.
LYBERG, L., BIEMER, P., COLLINS, M., de LEEUW, E., DIPPO, C ,
SCHWARZ, N., et TREWIN, D. (1997). Survey Measurement
and Process Quality. New York: John Wiley and Sons.
MICHAUD, S., LE PETIT, C , et LAVIGNE, M. (1993). Aspects
qualitatifs de la collecte du test 3A de I'Enquete sur la dynamique
du travail et du revenu, documents de recherche, 93-07.
Statistique Canada.
MICHAUD, S., LAVIGNE, M., et POTTLE, J. (1993). Aspects
qualitatifs de la collecte du test 3B de I'Enquete sur la dynamique
du travail et du revenu, documents de recherche, 93-11.
Statistique Canada.
SIMARD, M., et DUFOUR, J. (1995). Impact de I'implantation des
interviews assistees par ordinateur comme nouvelle methode de
collecte k I'enquete sur la population active. Rapport: technique,
division des methodes d'enquetes-menages, Statistique Canada.
SIMARD, M., DUFOUR, J., et MAYDA, F. (1995). The first year of
computer-assisted interviewing as the Canadian Labour Force
Survey data collection method. Proceedings of Section on Survey
Research Methods, American Statistical Association, 533-538.
SINGH, M.P., GAMBINO, J., et LANIEL, N. (1993). Research
studies for the Labour Force Survey sample redesign. Proceedings
of the Section on Survey Research Methods, American Statistical
Association.
STATISTIQUE CANADA (1998). Methodologie de I 'enquete sur la
population active du Canada. 71-526 au catalogue. A paraitre.
TAMBAY, J.-L, et CATLIN, G. (1995). Plan d'echantiUonnage de
I'Enquete nationale sur la sante de la population. Rapports sur la
sante. Catalogue 82-003, Statistique Canada, 7, 31-42.
WILLL\MS, B., et SPAULL, M. (1992). Computer-assisted Personal
Interviewing LPS DateUite Test 0691-1191. Rapport interne.
Conference des gestionnaires de ISS, Statistique Canada.
171
Techniques d'enquete, decembre 1997
Vol. 23, n° 2, pp. 171-180
Statistique Canada
Analyse de regression des fichiers de donnees
apparies par ordinateur - Partie II
FRITZ SCHEUREN et WILLIAM E. WINKLER'
RESUME
Dans bien des cas, les meilleures decisions en matiere de politiques sont celles qui peuvent s'appuyer sur des donnees
statistiques, eUes-memes obtenues d'analyses de microdonnees pertinentes. Cependant, il arrive parfois que I'on dispose
de toutes les donnees necessaires mais que celles-ci soient reparties entre de multiples fichiers pour lesquels il n'existe pas
d'identificateurs commons (p. ex. numero d'assurance sociale, numero d'identification de I'employeur ou numero de
securite sociale). Nous proposons ici une methode pour analyser deux fichiers de ce genre: 1) lorsqu'il existe des
informations communes non uniques, sujettes k de nombreuses erreurs et 2) lorsque chaque fichier de base contient des
donnees quantitatives non communes qui peuvent etre reliees au moyen de modeies appropri6s. Une telle situation peut se
produire lorsqu'on utihse des fichiers d'entreprises qui n'ont en commun que I'information - difficile k utiliser - sur le nom
et I'adresse, par exemple un premier fichier portant sur les produits energetiques consommes par les entreprises et I'autre
fichier regroupant les donnees sur le type et la quantite de biens produits. Une autre situation similaire peut survenir avec
des fichiers sur des particuUers, dont le premier contiendrait les donnees sur les gains, le deuxieme, des renseignements sur
les depenses reUees k la sante et le troisieme, des donnees sur les revenus compiementaires. Le but de la methode presentee
est de realiser des analyses statistiques valables, avec production ou non de fichiers de microdonnees pertinentes.
MOTS CLfiS: Verification; imputation; couplage d'enregistrements; analyse de regression.
1. INTRODUCTION
1.1 Cadre d'application
Pour modeiiser adequatement le rendement energetique,
un economiste peut avoir besoin de microdonnees propres
k l'entreprise sur sa consommation de carburant et de
matieres premieres - lesquelles donnees ne sont disponibles
qu'aupres de I'organisme A - et des microdonnees cortespondantes sur les biens produits par l'entreprise, lesquelles
microdonnees sont disponibles uniquement de I'organisme
B. Autre exemple, pour etabUr un modeie sur la sante des
personnes vivant dans la societe, le demographe ou le
responsable de I'elaboration des poUtiques en matiere de
sante peut avoir besoin de donnees propres a la personne,
par exemple I'information sur les personnes touchant des
prestations sociales des organismes Bl, B2 et B3,
I'information cortespondante sur le revenu, obtenue de
I'organisme I et I'information sur les services de sante,
foumie par les organismes HI et H2. Or une telle
modeiisation n'est possible que si Panalyste a acces aux
microdonnees et s'il existe des identificateurs cohimuns et
uniques (p. ex. Oh et Scheuren 1975; Jabine et Scheuren
1986). Cependant, si les seuls identificateurs communs qui
existent sont sujets k erteurs ou qu'ils ne sont pas uniques ou les deux - alors il faut utiUser une technique d'appariement probabiliste (p. ex. Newcombe, Kennedy, Axford
et James 1959; Fellegi et Sunter 1969).
1.2 Liens avec des travaux anterieurs
Dans le cadre dettavauxanterieurs (Scheuren et Winkler
1993), nous avions propose une theorie qui permettait de
cortiger avec justesse les analyses de regression eiementaires en fonction de I'erteur d'appariement, k partir des
donnees sur la qualite de I'appariement. Pour ces travaux,
nous nous etions bases largement sur la technique
d'estimation du taux d'crtcur de Belin et Rubin (1995).
D'auttesttavauxeffectues par la suite (Winkler et Scheuren
1995, 1996) ont demontre qu'il etait possible d'ameUorer
encore davantage cette technique en utilisant des donnees
quantitatives non communes provenant des deux fichiers,
de maniere k ameiiorer I'appariement et k corriger les
analyses statistiques en fonction de I'erteur d'appariement.
La principale exigence - meme dans les cas qui semblaient
jusque la impossibles - etait qu'il devait exister un modeie
raisonnable des relations entre les donnees quantitatives
non communes. Dans I'exemple empirique presente ici,
nous utilisons des donnees pour lesquelles un tres petit
sous-ensemble de paires peut ette apparie de fagon exacte,
k partu uniquement de I'information sur le nom et I'adresse,
la oti il existe une corteiation tout au moins moderee entre
les donnees quantitatives non communes. Dans d'autres
cas, les chercheurs pourtaient utiliser un petit fichier de
microdonnees qui represente exactement les relations entte
des donnees non communes pour un ensemble de gros
fichiers administratifs ou s'appuyer uniquement sur une
presomption raisonnable des liens entte les donnees non
' Fritz Scheuren, Emst and Young, 1225 Connecticut Avenue, N.W., Washington, DC 20036, U.S.A., [email protected]; William E. Winkler, U.S. Bureau
of the Census, Washington, DC 20023, U.S.A.
172
Scheuren et Winkler: Analyse de regression des donnees apparies par ordinateur
communes. Bien que nous ne puissions le garantir, nous
croyons que les methodes presentees ici donneront assez
souvent des resultats concluants, de sorte que I'on peut leur
attribuer une valeur generale, a la condition d'avoir un point
de depart acceptable.
1.3
Approche fondamentale
Les fondements intuitifs de nos methodes s'appuient sur
les techniques aujourd'hui bien connues du couplage
d'enregistrements probabiliste (CE) et de la verification et
imputation (VI). Les principes modemes du CE ont ete
introduits par Newcombe (Newcombe et coll. 1959) et
formalises mathematiquement par FeUegi et Sunter (1969).
Des methodes recentes sont decrites dans Winkler (1994,
1995). La VI est habituellement utilisee pour eiiminer les
donnees crtonees des fichiers. Les methodes les plus
pertinentes sont ceUes basees sur le modeie de VI de Fellegi
et HoU (1976).
Pour adapter une analyse statistique en fonction de
I'erteur d'appariement, nous utilisons une demarche recursive tres puissante, en quatte etapes. Nous commenfons par
une technique ameUoree de CE (p. ex. Winkler 1994; Belin
et Rubin 1995), pour definir un sous-ensemble de paires
d'enregistrements dans lesquelles on estime que le taux
d'crteur d'appariement est tres faible. Nous procedons
ensuite a une analyse de regression (AR) des enregistrements couples avec faible taux d'crtcur, puis nous
corrigeons partiellement le modeie de regression d'apres les
paires qui restent, en appliquant les methodes precedentes
(Scheuren et Winkler 1993). Nous ameiiorons ensuite le
modeie de VI par les methodes traditionnelles de detection
des valeurs abertantes, afin de verifier et d'imputer les
valeurs abertantes dans le reste des paires coupiees. Une
autre analyse de regression (AR) est faite a ce stade-ci et
ces resultats sont integres au processus de couplage en vue
de I'ameUorer. Le cycle se poursuit ainsi jusqu'a ce que les
resultats d'analyse desires cessent de changer. Ces
methodes de couplage analytique peuvent etre representees
schematiquement par la formule suivante:
a comprendre et difficiles a utiUser pour I'appariement; les
resultats obtenus sont presentes a la quatrieme section.
L'article se termine, a la section cinq, par un enonce de
quelques conclusions et de domaines d'etudes futurs.
2.
METHODES DE VI ET DE CE
2.1 Verification et imputation
Les methodes de verification des microdonnees avaient
habituellement pour but d'eiiminer les incoherences
logiques dans les bases de donnees. Le logiciel etait
construit selon des regies de type «si-alors», qui etaient
specifiques de la base de donnees et tres difficiles k mettre
a jour ou a modifier pour les garder actuelles. Les methodes
d'imputation faisaient partie de la serie de regies si-alors
mais pouvaient donner lieu malgre tout au rejet des
enregisttements revises, au moment de la verification. A la
suite d'une percee theorique importante, qui est venue
rompre avec les methodes statistiques jusque la utilisees,
Fellegi et Holt (1976) ont propose des methodes basees sur
la recherche operationneUe, qui permettent a la fois de
verifier la coherence logique d'un systeme de verification
et de toujours pouvoir mettte a jour un enregisttement rejete
a la verification a partir de valeurs imputees. De cette
maniere, I'enregistrement revise satisfait k toutes les verifications. Autte avantage du systeme Fellegi et Holt (1976)
celui-ci permet de lier directement la methode de verification aux methodes actueUes d'imputation des microdonnees (p. ex. Little et Rubin 1987).
Bien que le present article porte uniquement sur les
donnees continues, les techniques de VI peuvent egalement
s'appliquer aux donnees discontinues ou a une combinaison
de donnees continues et discontinues. Aux fins du present
exemple, supposons que nous avons des donnees continues
oil I'ensemble des verifications pourtait consister en des
regies pour chaque enregisttement, ayant la forme suivante:
c^X<Y<C2X
En termes plus precis,
CE<- AR 4- VI
1.4 Aper^u des sections qui suivent
Le present article se divise en cinq sections, incluant
I'introduction. Dans la deuxieme section, nous faisons un
bref examen des methodes de verification et imputation
(VI) et de couplage d'enregisttements (CE). Notte but n'est
pas de decrire ces methodes en detail, mais plutot d'en
preciser le cadre aux fins de la presente application.
L'analyse de regression (AR) etant une technique bien
connue, nous ne I'aborderons qu'en rapport avec les
simulations particuUeres examinees (section 3). Ces
simulations ont pour but de presenter des scenarios d'appariement plus difficiles que ceux qui sont habituellement
traites par la plupart des responsables du couplage. Nous
utilisons des donnees quantitatives qui sont a la fois faciles
On peut s'attendre a ce que y soit superieur k c^X
et inferieur a C2X; par consequent, si Y est
inferieur k c^X et superieur a C2X, alors
I'enregistrement de donnees devrait Stre revise (^
partir des ressources et auttes considerations
pratiques determinant les homes effectives
utiUsees).
Dans I'exemple presente, Zpourtait representer le salaire
total; X ette le nombre d'employes et ci et Cj etre des
constantes ou c, < C2. Lorsqu'une paire {X, Y) associee a
un enregisttement est rejetee a la verification, nous pouvons
remplacer, disons Y, par une estimation (ou prevision).
2.2 Couplage d'enregistrements
Le processus de couplage d'enregistrements consiste a
repartir, a I'interieur d'un espace provenant du produit de
Techniques d'enquete, decembre 1997
173
travaux anterieurs (Scheuren et Winkler 1993), nous avions
examine trois scenarios dans lesquels les appariements
etaient plus faciles k distinguer des non-appariements.
L'idee generale dans ces deux documents demeure
toutefois la mSme, k savoir produire des donnees ayant des
proprietes de distiibution connues, attribuer les donnees aux
deuxfichiersa apparier, puis evaluer l'effet d'une quantite
croissante d'crteurs d'appariement sur les analyses. Comme
R = Pr((Yer | M)/Pr{{yer \ U)
les methodes presentees ici donnent de meilleurs resultats
ou Y est une configuration de concordance arbitraire dans que celles proposees anterieurement, nous n'examinons ici
qu'un scenario d'appariement qualifie de "deuxieme
P espace de comparaison F. F, par exemple, pourtait etre
scenario pauvre», car celui-ci est plus difficile que le
forme de huit configurations representant une concordance
scenario pauvre (le plus difficile) que nous avions examine
simple (ou non) en regard du nom de famille, du prenom et
anterieurement.
de Page. Ou encore, chaque yeF pourtait representer la
Nous avons commence avec deux fichiers de la
frequence relative k laqueUe des noms de famille
population (effectif de 12 000 et 15 000), contenant tous
particuUers, comme Scheuren ou Winkler par exemple, sont
deux de bonnes donnees d'appariement et pour lesquels le
presents. Les champs compares (nom de famille, prenom,
veritable statut d'appariement etait connu. Les cadres ont
age) sont designes variables d'appariement. La regie de
ete definis comme suit: intersection eievee, moyenne ou
decision est definie comme suit:
faible, selon le nombre de cas dans le petit fichier qui
Si i? > Limite superieure, alors designer la paire comme etaient egalement inclus dans le grand fichier. Dans la
premiere situation (inclusion eievee), environ 10 000 cas
un couplage.
sont presents dans les deux fichiers, ce qui donne un taux
Si Limite inferieure ^ R ^ Limite superieure, alors
d'inclusion ou d'intersection par rapport au petit fichier (ou
designer la paire comme un couplage possible et la
fichier de base) d'environ 83 %. Dans le scenario d'intersoumettre a une revision manuelle.
section moyenne, nous avons preieve un echantiUon d'un
SiR< Limite inferieure, alors designer la paire comme fichier, de maniere a ce que 1'intersection des deux fichiers
a apparier soit d'environ 25 %. Enfin, dans le scenario k
un non-couplage.
faible intersection, les echantillons preieves des deux
Fellegi et Sunter (1969) ont demontre que cette regie de
fichiers etaient tels que le taux d'intersection entre les
decision etait optimale car, pour toute paire dont les homes
fichiers a apparier etait d'environ 5 %. De toute evidence,
sont fixes dans R, la region mediane est reduite au
le nombre de cas intersectes limite le nombre d'apparieminimum en regard de I'ensemble des regies de decision,
ments vrais que Ton peut obtenir.
dans le meme espace de comparaison F. Les seuils
Nous avons ensuite genere les donnees quantitatives
d'inclusion, Superieur et Inferieur, sont determines par les ayant des proprietes de distribution connues et les avons
homes de I'erteur. Nous designons le ratio R, ou toute
attiibuees auxfichiers.Ces variations sont decrites ci-apres
transformation monotone croissante de ce rapport (genect illustrees k la figure 1, ou sont representes le scenario
ralement un logarithme), comme un poids d'appariement
pauvre (designe «premier scenario pauvre») decrit dans
ou poids de concordance totale.
notre article de 1993 et le "deuxieme scenario pauvre»
L'introduction de systemes informatiques peu coQteux a
retenu pour la presente analyse. Dans cette figure, le poids
favorise la proliferation des travaux sur les techniques de
d'appariement - le logarithme de R- est represente gracouplage d'enregisttements (p. ex. Jaro 1989; Newcombe
phiquement en abscisse en fonction de la frequence - elle
etcoU. 1992; Winkler 1994,1995). Les nouvelles metiiodes
aussi exprimee selon une echelle logarithmique - en ordoninformatiques reduisent, et parfois meme eiiminent, les
nee. Les appariements (ou couplages vrais) sont representes
besoins en revision manuelle lorsque le nom, I'adresse et
par un asterisque (*) et les non-appariements (nonles auttes renseignements servant a I'appariement sont de
couplages vrais) sont representes par un petit cercle (o).
qualite raisonnable. Le compte rendu d'une recente
conference intemationale sur le couplage d'enregisttements
3.2 Premier scenario «pauvre» (figure la)
vient confirmer ces notions et pourtait constituer en soi la
meilleure reference (Alvey et Jamerson 1997).
Le premier scenario d'appariement pauvre consistait k
utiliser le nom de famiUe, le prenom, une variante de
I'adresse et Page. Des erteurs typographiques mineures ont
3. CADRE DE SIMULATION
ete inttoduites separement dans un cinquieme des noms de
famille et le tiers des prenoms, dans un des fichiers. Des
3.1 Scenarios d'appariement
erteurs typographiques moyennement graves ont ete
incluses separement dans le quart des adresses du meme
Aux fins de nos simulations, nous avons utilise un
fichier. Les probabilites d'appariement ont ete choisies de
scenario selon lequel il est pratiquement impossible de
maniere a s'ecarter sensiblement du niveau optimal, le but
distinguer les appariements des non-appariements; lors de
deux fichiers AxB les paires entre M- I'ensemble des
couplages vrais - et U, I'ensemble des non-couplages vrais.
A partir de concepts rigoureux introduits par Newcombe
(p. ex. Newcombe et coll. 1959; Newcombe, Fair et
Lalonde 1992), Fellegi et Sunter (1969) ont examine les
rapports R des probabilites sous la forme
174
Scheuren et Winkler: Analyse de regression des donnees apparies par ordinateur
vise etant d'obtenir des couplages qu'un praticien peu
experimente pourtait choisir. Cette situation se compare k
celle ou seraient utiUsees des listes administratives de
personnes pour lesquelles I'information d'appariement
serait de pietre qualite. Le taux de non-appariement vrai a
ete ici de 10,1 %.
3.3 Deuxieme scenario «pauvre» (figure lb)
Le deuxieme scenario d'appariement pauvre consistait a
utiliser le nom de famille, le prenom et une variante de
I'adresse. Des erteurs typographiques mineures ont ete
inttoduites separement dans le tiers des noms de famille et
letiersdes prenoms, dans un des deuxfichiers.Des erteurs
typographiques graves ont ete introduites dans le quart des
adresses du meme fichier. Les probabilites d'appariement
ont ete choisies de maniere a s'ecarter sensiblement du
niveau optimal, le but vise etant de representer une situation
qui se produit frequemment avec des listes d'entteprises
pour lesqueUes le responsable du couplage a peu d'emprise
sur la qualite. II est souvent tres difficile de comparer
efficacement I'information sur le nom - une caracteristique
d'identification cie - avec les Ustes d'entreprises. Le taux
de non-appariement vrai a ete ici de 14,6 %.
3.4 Resume des scenarios d'appariement
De toute evidence, notre capacite de distinguer les
couplages vrais des non-couplages vrais varie sensiblement
en fonction du scenario. Dans le premier scenario, le
chevauchement - illustre par les courbes de la frequence
(exprimee selon une echelle logarithmique) en fonction du
poids - est substantiel (figure la); dans le deuxieme
scenario, le chevauchement des courbes de la frequence
(echelle logarithmique) en fonction du poids est presque
total (figure lb). Lors de ttavaux anterieurs, nous avons
demontre que notte methode d'ajustement theorique
donnait de bons resultats lorsqu'on utiUse les taux
d'appariement vrais connus dans nos ensembles de
donnees. Dans les cas oii les courbes representant les
couplages vrais sont assez bien separees de celles illustrant
les non-couplages vrais, nous avons pu estimer avec
exactitude les taux d'ertcur par la methode mise au point
par Belin et Rubin (1995), et notre methode pourtait Stre
utilisee en pratique. Cette methode de Belin et Rubin
n'avait pu foumir d'estimations exactes des taux d'crteur
dans le scenario d'appariement pauvre decrit anterieurement (premier scenario pauvre decrit ici), mais notre
methode d'ajustement theorique avait neanmoins donne de
bons resultats. C'est ce qui nous a amenes k reconnaitre
qu'il nous faUait, soit ameiiorer la methode de Belin-Rubin,
soit eiaborer des methodes faisant un plus grand usage des
donnees disponibles. (Incidemment, cette conclusion
decoulant de nostiavauxanterieurs a mene, apres quelques
faux departs, k la presente methode).
3.5 Scenarios quantitatifs
Apres avoir precise les situations de couplage, nous
avons utiUse le SAS pour generer des donnees selon la
metiiode des moindres cartes ordinaires, d'apres le modeie
Y = 6X + e. Les valeurs dcVont ete choisies de maniere a
etre distribuees uniformement entre 1 et 101. Les termes
d'ecart, sont normaux et homoscedastiques, avec des
variances respectives de 13 000, 36 000 et 125 000. Les
regressions ainsi obtenues de Y en fonction de X ont des
valeurs de i?^ dans la population appariee vraie qui
cortespondent respectivement k 70 %, 47 % et 20 %. II est
difficile de faire un appariement avec des donnees quantitatives car, pour chaque enregisttement dans un fichier, il
existe des centaines d'enregistrements dont les valeurs
quantitatives se rapprochent de celles de I'enregistrement
qui constitue un appariement vrai. Pour rendre la modeiisation et I'analyse encore plus difficiles dans le scenario
a chevauchement eieve, nous avons utilise tous les faux
appariements et seulement 5 % des appariements vrais;
dans le scenario k chevauchement moyen, nous avons
utilise tous les faux appariements et seulement 25 % des
appariements vrais. (Nota: Afin d'accentuer l'effet visuel,
nous avons inttoduit ici une autre etape d'echantiUonnage
aleatoire, afin que le lecteur puisse mieux «visualiseD> dans
les figures les effets d'un appariement mediocre. Cet
echantiUon depend du statut d' appariement et se limite seulement aux cas apparies - cortcctement ou incortectement.)
Une hypothese pratique essentieUe de la presente analyse
est que les analystes peuvent produire un modeie
raisonnable (estimation subjective) des relations entte les
donnees quantitatives non communes. Pour la modeiisation
initiale dans I'exemple empirique presente ici, nous
utiUsons le sous-ensemble de paires pour lesquelles le poids
d'appariement est eieve et le taux d'crteur est faible. Le
nombre de faux appariements dans ce sous-ensemble est
done maintenu k un minimum. Meme si, ni la methode de
Belin et Rubin (1995), ni celle de Winkler (1994) exigeant
une intervention ponctueUe, n'a pu ette utiUsee pour estimer
les taux d'ertcur, nous croyons qu'il est possible pour une
personne experimentee dans I'appariement de choisir un
ensemble de paires k faible taux d'ertcur, meme dans le
deuxieme scenario pauvre.
4. RESULTATS DE LA SIMULATION
La majeure partie de cette section est consacree k la
presentation des graphiques et des resultats de I'ensemble
du processus applique au deuxieme scenario pauvre, ou la
valeur de R^ est moderee et oii I'intersection entte les deux
fichiers est grande. Ces resultats sont ceux qui illusttent le
mieux les procedures definies dans le present document. A
la fin de la section (paragraphe 4.8), nous resumons les
resultats pour I'ensemble des valeurs de i?^ et tous les
chevauchements. Afin d'accroitre encore davantage la
difficulte de la modeUsation et d'illustrer la puissance des
methodes de couplage analytique, nous utilisons tous les
appariements faux ainsi qu'un echantiUon aleatoire forme
de seulement 5 % des appariements vrais. Seules les
paires dont le poids d'appariement est superieur k une
borne inferieure - laqueUe a ete determinee en fonction de
175
Techniques d'enquete, decembre 1997
F
r
e
q
u
e
n
c
e
o
o
«
^
,
1
o
g
o
oo o o
o o <
o
a
Appariements
' Non-appariements
oo
•
o
Poids d'appariement
Figure la. Premier scenario d'appariement pauvre
F
r
o
e
q
u
e
n
c
e
I
o
g
o
o
o
o
o
o
o
a
o oo
o *
o
o
o o
o
03
«
Appariements
Non-appariements
Poids d'appariement
Figure lb. Deuxieme scenario d'appariement pauvre
176
Scheuren et Winkler: Analyse de regression des donnees apparies par ordinateur
considerations analytiques et de notre experience - sont
prises en consideration. Pour les paires incluses dans notre
analyse, cette restriction fait en sorte que le nombre
d'appariements faux depasse largement le nombre
d'appariements vrais. (Rappelons a nouveau que ceci est
fait dans le but d'accentuer l'effet visuel des rejets
d'appariement et d'accroitre la difficulte du probleme).
Pour illustter la situation des donnees et la technique de
modeiisation, nous presentons un triple de ttaces. Le
premier trace illustre la situation des donnees reelles,
comme si chaque enregistrement d'un fichier etait lie a
I'enregisttement auquel il cortespond vraiment dans I'autre
fichier. Les paires de donnees quantitatives cortespondent
au portrait red. Le deuxieme trace illustre les donnees
observees. On constate qu'une forte proportion de paires
comportent des erteurs, car elles cortespondent a des
appariements faux. Pour obtenir le troisieme trace, nous
utiUsons un modeie avec un petit nombre de paires (environ
100) dans lesqucUes les valeurs abertantes sont remplacees
par des paires oti I'on substitue la valeur observee de 7par
une valeur prevue de Y.
4.1 Relation de regression vraie initiale
La figure 2a iUustte la relation de regression vraie redle
et le nuage de points qui y cortespond, pour une de nos
simulations, qui seraient obtenus s'il n'y avait pas d'crteurs
d'appariement. Dans cette figure et celles qui suivent, la
courbe vraie de regression est toujours indiquee pour fins
de reference. Enfin, la pente de la population vraie, ou
coefficient beta (a 5,85), et la valeur de i?^ (a 43 %) sont
foumies pour les donnees (echantiUon de paires) affichees.
4.2 Regression apres I'etape initiale CE^AR
40 000. En utilisant notre approche anterieure (Scheuren et
Winkler 1993), un autre ajustement a ete fait du coefficient
beta estime, lequel est passe de 4,78 a 5,4. Si une paire
d'enregistrements apparies donnait une valeur abertante,
alors les valeurs prevues (non illustrees) obtenues ^partir de
l'equation Y = 5,4X etaient imputees. Si la paire ne donnait
pas de valeur abertante, la valeur observee etait utilisee
comme valeur prevue.
4.4 Deuxieme regression de reference vraie
La figure 3a illustre un nuage de points de A'et Y, que
I'on obtiendrait s'il s'agissait d'appariemcnts vrais bases
sur une deuxieme etape de CE. A noter que la serie de
paires coupiees differe ici quelque peu de la precedente,
parce que nous avons utilise les resultats de la regression
pour faciliter le couplage. En termes plus precis, pour la
deuxieme etape de CE, nous avons utilise les valeurs
prevues de Y tel qu'obtenues precedemment; nous
disposions done de plus d'information sur laqueUe baser le
couplage. Cela signifie que nous avons obtenu un different
groupe d'enregistrements couples apres la deuxieme etape
de CE. Comme la qualite du couplage etait sensiblement
ameiioree, il y a eu moins de faux appariements. En
consequence, la taille de notre echantiUon forme de tous les
faux appariements et de 5 % des appariements vrais a
diminue, passant de 1 104 - auxfigures2a ^ 2c - a 650 aux
figures 3a a 3c. Durant cette deuxieme iteration, la pente
vraie ou coefficient beta et les valeurs de R^ sont demeures
presque identiques pour ce qui est de la pente estimee (5,85
contre 5,91) et de I'ajustement (43 % contre 48 %).
4.5 Analyse de regression apres la deuxieme etape
CE-AR
La figure 2b illustre la regression des liens observes
reds - non pas des liens que I'on devrait obtenir dans une
situation optimale, mais ceux obtenus dans une situation
tres imparfaite. Fait peu surprenant, nous n'observons
qu'une faible relation de regression de 7 a X. La pente
observee, ou coefficient beta, differe sensiblement de sa
valeur redle (2,47 contre 5,85). La valeur de R^ est elle
aussi affecee - de 43 %, die diminue a 7 %.
A la figure 3b, nous observons une amelioration
significative de la relation entre YetX,k partir des liens
observes reds apres la deuxieme etape de CE. La pente
estimee est ainsi passee de 2,47 (initialement) a 4,75. Meme
si cette valeur demeure ttop faible, il y a eu neanmoins nette
amelioration. Une amelioration similaire a ete observee au
niveau de I'ajustement, qui est passe de 7 % a 33 %.
4.3 Analyse de regression apres la premiere etape
combinee CE-AR-VI-AR
4.6 Analyse de regression apres la deuxieme etape
combinee CE-AR-VI-AR
La figure 2c complete notte illustration du premier cycle
du processus iteratif que nous utilisons. Les donnees dans le
graphique illustte ont ete corrigees comme suit.
Premierement, en utilisant uniquement les 99 cas pour
lesquels le poids d'appariement etait superieur ou egal k 3,
nous avons tente d'ameliorer les pietres resultats de la
figure 2b. A partir de cet ajustement provisoire, nous avons
obtenu des valeurs prevues pour tous les cas apparies; par la
suite, les valeurs abertantes dont le residu etait superieur ou
egal a 460 ont ete supprimees et 1' analyse de regression a ete
ajustee de nouveau en fonction des paires restantes. Cette
nouvelle equation, utilisee k la figure 2c, est representee
essentiellement par Y = 4,1SX + e, avec une variance de
La figure 3c vient completer Pillustration du deuxieme
cycle de notte processus iteratif Les donnees ont ete
verifiees comme suit. A partir de I'ajustement (d'apres le
paragraphe 4.5), nous avons obtenu une autre serie de
valeurs prevues pour tous les cas apparies (comme au
paragraphe 4.3). La nouveUe equation est representee
essentiellement par Y = 5,26X+e, avec une variance
d'environ 35 000. Si une paire d'enregisttements apparies
donnait une valeur abertante, alors les valeurs prevues
obtenues k partir de l'equation Y = 5,3X etaient imputees.
S'il n'y avait pas de valeur abertante, la valeur observee
etait utilisee comme valeur prevue.
177
Techniques d'enquete, decembre 1997
ooo -
V
a
r
i
a
b
1
e
= 8
BOO -
" ' '
~
°^
6 oo o
4 00
i
2 0 0-
(*>•*€>i o o . <
,
#
°
-
.
-
k
3
-
O
o
-
-
.
~
-
*
"
"
5 - r - " " „ % j _ =°°-_° -"'•'
Variable x
Figure 2a. Deuxieme scenario pauvre, P iteration
Ensemble des appariements faux et 5 % des appariements vrais, donnees reelles, chevauchement eieve,
1104 points, beta=5,85, R^ =0,43
V
a
r
i
a
b
1
e
Variable x
Figure 2b. Deuxieme scenario pauvre, P iteration
Ensemble des appariements faux et 5 % des appariements vrais, donnees observees, chevauchement eieve,
1104 points, beta=2,47, R^ =0,07
V
a
r
i
a
b
1
e
Variable x
Figure 2c. Deuxieme scenario pauvre, P iteration
Ensemble des appariements faux et 5 % des appariements vrais, valeurs aberrantes-donnees corrigees,
1104 points, beta=4,78, R^ =0,40
Scheuren et Winkler: Analyse de regression des donnees apparies par ordinateur
178
V
a
r
i
a
b
1
e
'°°°1
'"I
-•«».
Variable x
Figure 3a. Deuxieme scenario pauvre, 2' iteration
Ensemble des appariements faux et 5 % des appariements vrais, doimees reeUes, chevauchement eieve,
650 points, beta=5,91 R^ =0,48
V
a
r
i
a
b
1
e
0 0 -
°°
-CJ
0 0 -
—
^
-t- _|HI
O
"•TH*^
>" " i
^~
_
""^ -
O 0 11 i«^
0 -
—£--• - W o
O
0 0
o
_p
^ ^ * ' * '
>.i^ti
«
Q
-
>ieo
—
"
-
,
«
„
3
w
"
,-^
^
•"
°
•"
o
»
"•
*t__ ^
- -
=
-
=
Variable x
Figure 3b. Deuxieme scenario pauvre, 2° iteration
Ensemble des appariements faux et 5 % des appariements vrais, donnees observees, chevauchement eieve,
650 points, beta=4,75, R^ =0,33
V
a
r
i
a
b
1
e
Variable x
Figure 3c. Deuxieme scenario pauvre, T iteration
Ensemble des appariements faux et 5 % des appariements vrais, valeurs aberrantes-donnees corrigees,
650 points, beta=5,26, R^ =0,47
Techniques d'enquete, decembre 1997
4.7 Iterations additionneUes
Bien que les resultats ne soient pas presentes ici, nous
avons effectue un troisieme cycle d'appariement. Le
coefficient beta, apres ajustement, a peu change. Nous n'en
concluons pas k I'absence de biais asymptotique, mais
presumons plutot que la methode - sous sa forme actueUe comporte des avantages dont on peut rapidement tirer
profit.
4.8 Autres resultats
Nos auttes resultats sont de deux types. Nous avons
d'abord examine ce qu'il etait artive avec le scenario
moyen pour R^ (c.-a-d. R^ egal a 0,47), pour les cas
d'intersection faible et moderee. Nous avons a nouveau
examine les cas oii la valeur de R^ etait plus eievee (0,70)
ou plus faible (0,20). Dans le cas du scenario moyen pour R ^
avec faible intersection, I'appariement a ete legerement plus
facile, du fait qu'il y a eu beaucoup moins de faux
appariements et qu'il a ete plus facile de separer les vrais
appariements des appariements faux. Pour les scenarios
avec fortes valeurs de R ^, la modeiisation et I'appariement
ont eux aussi ete plus simples qu'avec le scenario moyen.
II n'y a done pas eu de nouveaux problemes la non plus.
A I'inverse, avec le scenario a faible valeur de J?^, il
nous a ete impossible de distinguer les appariements vrais
des faux, quel que fut le degre d'intersection, et ce meme
avec nos methodes ameiiorees. A notre avis, ceci est dfl au
nombre eieve de valeurs abertantes associees aux appariements vrais. Nous ne pouvons done plus presumer qu'un
pourcentage moderement eieve de valeurs abertantes dans
le modeie de regression soit du a des appariements faux. En
fait, pour chaque appariement vrai associe a une valeur
abertante de Y, il peut y avoir bon nombre d'appariements
faux dont les valeurs de Y se rapprochent davantage de la
valeur prevue que I'appariement vrai.
5. COMMENTAIRES ET AUTRES ETUDES
5.1 Resume
Nous avons utilise dans cet article un cadre d'analyse
tres restteint, a savoir une regression simple d'une variable
dependante quantitative d'un fichier en fonction d'une
variable independante quantitative d'un autre fichier. Cette
analyse courante a toutefois ete traitee dans un cadre tres
inhabitud et les scenarios d'appariement ont ete tres
complexes. De fait, il y a a peine quelques annees, le
deuxieme scenario d'appariement pauvre aurait sans doute
sembie "sans espoir».
Cependant, comme nous I'expliquons ci-apres, de
nombreux aspects restent encore a regler. Aussi la
demonsttation presentee ici peut-eUe ette qualifiee - ajuste
titre croyons-nous - de realisation limitee. Cependant,
qu'on ne s'y meprenne pas, notre approche est tout a fait
nouvelle. Auparavant, il y avait une nette separation entre
les donnees d'identification et les donnees d'analyse pour
le couplage d'enregistrements. Ici, nous utiUsons une
179
analyse de regression pour obtenir un meilleur couplage et
ce couplage ameiiore sert k ameiiorer I'analyse, et ainsi de
suite.
Dans notte article de 1993, nous preconisions une
approche unifiee entre le couplage et I'analyse. A cette
epoque, toutefois, nous ne pouvions que proposer que les
probabiUtes de couplage soient utilisees dans I'analyse pour
corriger en fonction des rejets et permettre le parachevement adequat de I'etape d'appariement. Le present article
est le premier a proposer une methode compietement
unifiee et a demontrer comment P appliquer.
5.2 Application prevue
Nous croyons que les premieres applications de nos
nouvelles methodes porteront sur de larges bases de
donnees d'entreprises, oii les donnees quantitatives non
communes sont souvent moderement ou fortement corteiees
et oil les variables quantitatives {k la fois prevues et
observees) peuvent avoir un grand pouvoir distinctif pour
le couplage, en particuUer lorsqu'elles sont combinies k
des informations sur le nom et le lieu geographique, comme
le code postal.
n est egalement une deuxieme observation qu'il convient
de faire au sujet de nos resultats. Ainsi, les travaux
effectues a ce jour font largement ressortir la necessite
d'ameUorer certaines techniques actuellement utilisees de
routine pour proteger les fichiers a grande diffusion contre
une re-identification. En fait, il s'avere que, dans certaines
situations - meme apres protection de la confidentialite des
donnees quantitatives (selon les methodes traditionnelles)
et en I'absence de toute variable d'identification directe les methodes definies dans le present document peuvent
reussu a identifier de nouveau une fraction substantieUe des
enregisttements que I'on croyait raisonnablement k I'abri de
ce risque (tel que predit par Scheuren 1995). Pour des
exemples, voir Winkler 1997.
5.3 Extensions prevues
Qu'advient-il lorsqu'il y a generalisation de nos resultats,
dans les cas de regression multiple? Nous etudions actuellement ce phenomene et nos premiers resultats indiquent
certains domaines sur lesquels devraient porter les
recherches futures. Nous croyons que le degre d'association
sous-jacente /?^ continuera d'ette 1 element dominant quant
a savoir si une analyse utilisable est possible.
II y a egalement le cas de la regression k variables
multiples, qui pose un probleme plus difficile et exigeant.
Dans ce document, les extensions multidimensionnelles
simples de la comparaison k une variable des valeurs de Y
n'ont pas donne les resultats esperes. Pour une telle analyse,
il est possible que les variantes et extensions de Littie et
Rubin (1987, chapittes 6 et 8) constitueront un bon point de
depart.
5.4 Realisation «limitee»
Jusqu'a aujourd'hui, il aurait ete absolument insense de
penser a faire une analyse basee sur le deuxieme scenario
pauvre. Aussi, meme si ce n'est que pour cette raison.
Scheuren et Winkler: Analyse de regression des donnees apparies par ordinateur
180
devons-nous etre satisfaits de nos resultats. Un examen plus
approfondi reveie toutefois un certain nombre de lacunes,
qui indiquent que I'approche illustree est plus faible qu'elle
ne devrait I'ette ou qu'elle n'est tout simplement pas finie.
Pour ceux qui recherchent une methode par demonstration
de theoremes, ceci peut poser un probleme particuUerement
grand. La preuve de convergence, par exemple, est un des
points importants a regler, meme pour les cas de regression
simple. II nous faut egalement faire une demonstration
pratique de notre approche sur plus de deux fichiers
apparies, encore que cela puisse sembler plus simple.
JABINE, T.B., et SCHEUREN, F. (1986). Record linkages for
statistical purposes: Methodological issues. Journal of Official
Statistics, 1, 255-277.
5.5 Guide de pratique
NEWCOMBE, H., FAIR, M., et LALONDE, P. (1992). The use of
names for linking personal records. Journal of the American
Statistical Association, 87, 1193-1208.
Nous n'avons pour I'instant aucun conseil a formuler
pour quiconque voudrait faire I'essai de notre approche.
Notre experience, a ce stade-ci, est en effet insuffisante
pour que nous puissions formuler des idees sur la fagon
d'orienter la pratique, si ce n'est que de rappeler les
precautions additionneUes usudles qui s'imposent avec
toute nouvelle appUcation. Peut-ette serons-nous en mesure
de formuler d'auttes conseils, lorsque nos propres efforts et
ceux d'autres analystes auront muri.
BIBLIOGRAPHIE
ALVEY, W., et JAMERSON, B. (Eds.) (1997). Record Linkage
Techniques -1997. Recueil du An International Record Linkage
Workshop and Exposition, le 20-21 mars 1997, Arlington, VA.
JARO, M.A. (1989). Advances in record-linkage methodology as
applied to matching the 1985 census of Tampa, Florida. Journal
of the American Statistical Association, 89, 414-420.
LITTLE, R.J.A., et RUBIN, D.B. (1987). Statistical Analysis With
Missing Data. New York: John Wiley.
NEWCOMBE, H.B., KENNEDY, J.M., AXFORD, S.J., et JAMES,
A.P. (1959). Automatic linkage of vital records. Science, 130,
954-959.
OH, H.L., et SCHEUREN, F. (1975). Fiddling around with
mismatches and nonmatches. Proceedings of the Social Statistics
Section, American Statistical Association.
SCHEUREN, F. (1995). Review of private lives and public policies:
Confidentiality and accessibility of government services. Journal
of the American Statistical Association, 90, 386-387.
SCHEUREN, F., et WINKLER, W.E. (1993). Analyse de regression
de fichiers de donnees couples par ordinateur. Techniques
d'enquete, 19,45-65.
WINKLER, W.E. (1994). Advanced methods of record linkage.
Proceedings of the Section on Survey Research Methods,
American Statistical Association, 467-472.
WINKLER, W.E. (1995). Matching and record linkage. Business
Survey Methods, (Eds. B.C. Cox et coll.). New York: J. Wiley,
355-384.
BELIN, T.R., et RUBIN, D.B. (1995). A method for calibrating
false-match rates in record linkage. Journal of the American
Statistical Association, 90, 694-707.
WINKLER, W.E., et SCHEUREN, F. (1995). Couplage des donnees
pour creer I'information. Recueil: Symposium 95, Des donnees a
I'information-methodes et systemes, Statistique Canada, 31-40.
FELLEGI, I., et HOLT, T. (1976). A systematic approach to
automatic edit and imputation. Journal of the American Statistical
Association,ll, 17-35.
WINKLER, W.E., et SCHEUREN, F. (1996). Recursive analysis of
linked data files. Proceedings of the 1996 Annual Research
Conference. U.S. Bureau of the Census.
FELLEGI, I., et SUNTER, A. (1969). A theory of record linkage.
Journal of the American Statistical Association, 64,1183-1210.
WINKLER, W.E. (1997). Producing Public-Use Microdata That are
Analytically Valid and Confidential. Presente au 1997 Joint
Statistical Meetings, Anaheim, CA.
181
REMERCIEMENTS
Techniques d'enquete desire remercier les personnes suivantes, qui ont accepte de faire la critique d'un article durant I'annee
1997. Un asterisque indique que la personne a participe plus d'une fois.
J.C. Arnold, Virginia Polytechnic Institute
M. Bankier, Statistique Canada
* D.R. Bellhouse, University of Western Ontario
* T.R. Belin, University of California - Los Angeles
* D.A. Binder, Statistique Canada
G.J. Brackstone, Statistique Canada
F.J. Breidt, Iowa State University
A. Brinkley, U.S. Bureau of the Census
L. Cahoon, U.S. Bureau of the Census
N. Caron, Institut national de la statistique et des etudes
economiques
R. Caspar, Research Triangle Institute
R. Chambers, University of Southampton
S.X. Chen, New York University
G.H. Choudhry, Statistique Canada
W. Davis, Klemm Analysis Group
* J. Denis, Statistique Canada
J.-C. DeviUe, Institut national de la statistique et des
etudes economiques
* P. Dick, Statistique Canada
J.D. Drew, Statistique Canada
D.F. Findlay, U.S. Bureau of the Census
B. Forsyth, Westat, Inc.
L.A. Franklin, Indiana State University
W.A. Fuller, Iowa State University
J. Gambino, Statistique Canada
G. Gates, U.S. Bureau of the Census
B.V. Greenberg, U.S. Bureau of the Census
* R.M. Groves, University of Maryland
J.-P. Gwet, Westat, Inc.
* M.A. Hidiroglou, Statistique Canada
D. Holt, Central Statistical Office. U.K.
C. Julien, Statistique Canada
* G. Kalton, Westat, Inc.
S. Kaufman, National Center for Education Statistics
D. Kcrt, Statistique Canada
J.J. Kim, U.S. Bureau of the Census
P. Kokic, University of Southampton
M. Kovacevic, Statistique Canada
R. Lachapelle, Statistique Canada
M. Latouche, Statistique Canada
* P. Lavaliee, Statistique Canada
J. Ledent, Universite de Quebec
S. Linacre, Australian Bureau of Statistics
R. Littie, University of Michigan
D. Malec, National Center for Health Statistics
* H. Mantel, Statistique Canada
N. Matiiiowetz, University of Maryland
C. Moriarity, National Center for Health Statistics
* B.Nandram, Worcester Polytechnic Institute
G. Nathan, Central Bureau of Statistics, Israel
D. Pfeffermann, Hebrew University
* B. Quenneville, Statistique Canada
T.E. Raghunathan, University of Michigan
E. Rancourt, Statistique Canada
* J.N.K. Rao, Carleton University
* L.-P. Rivest, Universite Laval
G. Roberts, Statistique Canada
* I. Sande, Bell Communications Research, U.S.A.
G. Sande, Sande & Assoc.
F.J. Scheuren, George Washington University
* J. Sedransk, Case Western Reserve University
J. Shao, University of Wisconsin - Madison
* A.C. Singh, Statistique Canada
* M.P. Singh, Statistique Canada
B.K. Sinha, University of Maryland
* R. Sitter, Simon Eraser University
C.J. Skinner, University of Southampton
G. Smith, Statistique Canada
P. Steel, U.S. Bureau of the Census
* D. Stukel, Statistique Canada
W. Sun, Statistique Canada
J.-L Tambay, Statistique Canada
A. Theberge, Statistique Canada
* R. Thomas, Carleton University
M. Thompson, University of Waterloo
I. Thomsen, Statistics Norway
Y. Tille, Ecole nationale de statistique et de I'analyse de
I'information
R. Valliant, U.S. Bureau of Labor Statistics
V.K. Verma, University of Essex
P.J. Waite, U.S. Bureau of the Census
J. Waksberg, Westat, Inc.
K.M. Wolter, National Opinion Research Center
F. Yu, Australian Bureau of Statistics
M. Yu, Statistique Canada
* A. Zaslavsky, Harvard University
On remercie egalement ceux qui ont conttibue a la production des numeros de la revue pour 1997: S. Beauchamp et
L. Durocher (Unite de composition) et L. Perteault (Division des langues officielles et ttaduction). Finalement on desire exprimer
notie reconnaissance k D. Blair, S. DiLoreto, C. Larabie et D. Ixmire de la Division des metiiodes d'enquetes des menages, pour
leur apport k la coordination, la dactylographie et la redaction.
The Canadian Journal of Statistics
La Revue Canadienne de Statistique
CONTENTS
TABLE DES MATlfeRES
Volume 25, No. 4, December/decembre 1997
Christian GENEST
Statistics on statistics: measuring research productivity by journal publications between 1985 and 1995
Debajyoti SINHA
Time-discrete beta process model for interval-censored survival data
Lynn KUO and Bani MALLICK
Bayesian semiparamamettic inference for the accelerated failure time model
Stephen G. WALKER and Bani K. MALLICK
A note on the scale parameter of the Dirichlet process
Nancy HECKMAN and John RICE
Line ttansects of two dimensional random fields: Estimation and design
Fulvio DE SANTIS and Fulvio SPEZZAFERRI
Alternative Bayes factors for model selection
Gemai CHEN and Richard A. LOCKHART
Box-Cox ttansformed linear models: A parameter based asymptotic approach
Holger DETTE
E-optimal designs for regression models with quantitative factors - a reasonable choice?
Jeesen CHEN
A general lower bound of minimax risk for absolute ertor loss
Yodit SEIFU and N. REID
Applications of bivariate and univariate local Lyapunov exponents
Robert TIBSHIRANI and Donald A. REDELMEIER
Cellular telephones and motor vehicle collisions: some variations on matched pairs analysis
JOURNAL OF OFFICIAL STATISTICS
An International Review Published by Statistics Sweden
JOS is a scholarly quarteriy that specializes in statistical methodology and applications. Survey methodology and other issues pertinent to the
production of statistics at national offices and other statistical organizations are emphized. All manuscripts are rigorously reviewed by
independent referees and members of the Editorial Board.
Contents
Volume 13, Number 4,1997
A Sampling Scheme With Partial Replacement
J.L. Sdnchez-Crespo
Sources of Error in a Survey on Sexual Behavior
R. Tourangeau, K. Rasinski, J.B. Jobe, T.W. Smith, and W.F. Pratt
Developing an Estimation Strategy for a Pesticide Data Program
Phillip 5. KoU andD. Andrew Carr
Estimating Interpolated Percentiles from Grouped Data with Large Samples
Edward L Korn, Douglas Midthune, and Barry L Graubard
Ratio Estimation of Hardcore Drug Use
Doug Wright, Joe Gfroerer, and Joan Epstein
Statistical Disclosure Control and SampUng Weights
A.G. de Waal andL.C.R.J Willenborg
-^41
367
385
"^^^
417
Book Reviews
Editorial Collaborators
'^^
Index to Volume 13,1997
"^^
All inquires about submissions and subscriptions should be directed to the Chief Editor:
Lars Lyberg, R&D Department, Statistics Sweden, Box 24 300, S -104 51 Stockholm, Sweden.
DIRECTIVES CONCERNANT LA PRESENTATION DES TEXTES
Avant de dactylographier votte texte pour le soumettte, priere d'examiner un numero recent de Techniques d'enquete (k partir
du vol. 19, n° 1) et de noter les points suivants:
1.
Presentation
1.1
Les textes doivent ette dactylographies sur un papier blanc de format standard (S'/z par 11 pouces), sur une face seulement,
k double interligne partout et avec des marges d'au moins IVi pouce tout autour.
1.2 Les textes doivent ette divises en sections numerotees portant des tittes appropries.
1.3 Le nom et I'adresse de chaque auteur doivent figurer dans une note au bas dela premiere page du texte.
1.4 Les remerciements doivent paraitte a la fin du texte.
1.5 Toute annexe doit suivre les remerciements mais preceder la bibliographic.
2.
Resume
Le texte doit commencer par un resume compose d'un paragraphe suivi de ttois a six mots cies. Eviter les expressions
mathematiques dans le resume.
3.
Redaction
3.1
.3.2
Eviter les notes au has des pages, les abreviations et les sigles.
Les symboles mathematiques seront imprimes en italique a moins d'une indication conttaire, sauf pour les symboles
fonctionnels comme exp(-) et log(-) etc.
Les formules courtes doivent figurer dans le texte principal, mais tous les caracteres dans le texte doivent correspondre k
un espace simple. Les equations longues et importantes doivent ette separees du texte principal et numerotees en ordre
consecutif par tin chiffre arabe a la droite si I'auteur y fait reference plus loin.
Ecrire.les fractions dans le texte a I'aide d'une barre oblique.
Distinguer clairement les caracteres ambigus (cornme w, (o; 0, O, 0; 1, 1).
Les caracteres italiques sont utilises pour faire ressortir des mots. Indiquer ce qui doit ette imprime en italique en le
soulignant dans le texte.
3.3
3.4
3.5
3.6
4.
Figures et tableaux
4.1
Les figures et les tableaux doivent tous ette numerotes en ordre consecutif avec des chiffres arabes et porter un titre aussi
explicatif que possible (au bas des figures et en haut des tableaux).
lis doivent paraitte sur des pages separees et porter une indication de Pendroit oil ils doivent figurer dans le texte.
(Normalement, ils doivent ette inseres pres du passage qui y fait reference pour la premiere fois).
4.2
5.
Bibliographie
5.1 Les references k d'auttes ttavaux faites dans le texte doivent preciser le nom des auteurs et la date de publication. Si une
partie d'un document est citee, indiquer laqueUe apres la reference.
Exemple: Cochran (1977, p. 164).
5.2 La bibliographie k la fin d'un texte doit ette en ordre alphabetique et les tittes d'un meme auteur doivent etre en ordre
chronologique. Distinguer les publications d'un meme auteur et d'une meme annee en ajoutant les letttes a, b, c, etc. k
I'annee de pubhcation. Les tittes de revues doivent etre ecrits au long. Suivre le modele utilise dans les nurheros recents.
Was this manual useful for you? yes no
Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Download PDF

advertisement