1 ...7 8 9 11 12 13 ...17 Resampling methods have been developed for finite populations (Shao & Tu, 1995; Groves, 2004b). Of course measurement errors will always remain a major research topic (Fuller, 1987; Groves, 2004a). Finally, substantial progress has been made in nonresponse methods: reweighting methods or imputation techniques (Särndal & Lundström, 2005; Bethlehem et al., 2011; De Waal et al., 2011; Kim & Shao, 2013).
One of the challenges that is currently emerging is the integration of data from multiple sources: administrative files, registers, and samples. In a thoughtful article entitled Big data: are we making a big mistake? , Tim Harford (2014) reminds us that the abundance of data is never a guarantee of quality. Access to new sources of data should not make us fall back into the mistakes of the past, as was the case during the 1936 US presidential election (see Section 1.5, page 6).
There have been methods for decades to integrate data from different sources. However, the multiplication of available sources makes these integration issues more and more complex. There is still a lot of research and development work needed to define the methods for integrating data from multiple sources by appropriately addressing the different measurement errors.
1 1 Translated from French: “À mon avis, il n'existe qu'un seul moyen de parvenir à une connaissance exacte de la population et des élémens dont elle se compose : c'est celle d'un dénombrement effectif et détaillé ; c'est‐à‐dire, de la formation d'états nominatifs de tous les habitans, avec indication de leur âge et de leur profession. Ce n'est que par ce mode d'opérer, qu'on peut obtenir des documens dignes de confiance sur le nombre réel d'habitans d'un pays, et en même temps sur la statistique des âges dont la population se compose, et des branches d'industrie dans lesquelles elle trouve des moyens d'aisance et de prospérité.”
2 2 Translated from French: “La Place avait proposé de substituer au recensement d'un grand pays, tel que la France, quelques recensements particuliers dans des départements choisis, où ce genre d'opération pouvait avoir plus de chances de succès, puis d'y déterminer avec soin le rapport de la population soit aux naissances soit aux décès. Au moyen de ces rapports des naissances et des décès de tous les autres départements, chiffres qu'on peut constater avec assez d'exactitude, il devient facile ensuite de déterminer la population de tout le royaume. Cette manière d'opérer est très expéditive, mais elle suppose un rapport invariable en passant d'un département à un autre. [] Cette méthode indirecte doit être évitée autant que possible, bien qu'elle puisse être utile dans certains cas, où l'administration aurait à procéder avec rapidité ; on peut aussi l'employer avec avantage comme moyen de contrôle.”
3 3 Translated from French: “Ne pas se procurer la faculté de vérifier les documents que l'on réunit, c'est manquer à l'une des principales règles de la science. La statistique n'a de valeur que par son exactitude ; sans cette qualité essentielle, elle devient nulle, dangereuse même puisqu'elle conduit à l'erreur.”
4 4 Translated from French: “C'est surtout dangereux de se déclarer pour ce système des investigations représentatives au sein d'une assemblée de statisticiens. On comprend que pour des buts législatifs ou administratifs un tel dénombrement restreint peut être utile – mais alors il ne faut pas oublier qu'il ne peut jamais remplacer l'observation statistique complète. Il est d'autant plus nécessaire d'appuyer là‐dessus, qu'il y a parmi nous dans ces jours un courant au sein des mathématiciens qui, dans de nombreuses directions, voudraient plutôt calculer qu'observer. Mais il faut rester ferme et dire : pas de calcul là où l'observation peut être faite.”
5 5 Translated from French: “Je crois qu'il n'est pas juste de donner par un vœu du congrès à la méthode représentative (qui enfin ne peut être qu'un expédient) une importance que la statistique sérieuse ne reconnaîtra jamais. Sans doute, la statistique faite avec cette méthode ou, comme je pourrais l'appeler, la statistique, pars pro toto, nous a donné ça et là des renseignements intéressants ; mais son principe est tellement en contradiction avec les exigences que doit avoir la méthode statistique, que, comme statisticiens, nous ne devons pas accorder aux choses imparfaites le même droit de bourgeoisie, pour ainsi dire, que nous accordons à l'idéal que scientifiquement nous nous proposons d'atteindre.”
Chapter 2 Population, Sample, and Estimation
2.1 Population
The theory of survey sampling is a set of tools for studying a population by examining only a part of it. The population denoted by
is assumed to be discrete and composed of a finite number of elements, e.g. companies, individuals, and households. Each unit can be identified by a label or an identification number. For simplicity, we will consider that the population is a set of identification numbers, in other words,
. There is also a formalization for continuous populations (Deville, 1989; Cordy, 1993) that will not be developed below.
In population
, we are interested in variables (or characters)
or
. The values taken by these variables on the observation unit
are denoted by
and
. In the design‐based approach,
and
are not random. Indeed, under this approach, the only source of randomness is the way of selecting the sample.
The objective is to estimate parameters in this population. These parameters are also called functions of interest because they do not correspond to the usual definition of parameter used in inferential statistics for a parametric model. Parameters are simply functions of
or
. For example, the goal may be to estimate totals,
means,
or population variances,
Читать дальше