Wednesday, January 2, 2019

On the Issue of Statistical Inference in Quota Sampling

I think medyo mali yung nakikita ng iba na mali sa paggamit ng quota sampling. Hindi issue kung nagbibigay ba siya ng "representative sample" o kung better siya sa convenience sampling. Ang nakikita kong dalawang issue sa quota sampling ay:
  1. Yung lack of inclusion probability which is needed for the derivation of the estimators.
  2. Yung sampling procedure itself, which is not a random experiment: an essential requirement for the estimators to be random variables.

Ang isang mali sa quota sampling ay yung nawawala na yung konsepto ng inclusion probability which is an essential tool to have the sampling weights or yung dami ng units sa population na kayang irepresenta ng isang unit sa sample mo. Dahil sa sampling weight meron tayong power to generalize or infer from sample to population using our estimators. Sila yung ginamit na pang-derive ng kung ano mang estimators meron tayo sa stat: sample mean, total, variance etc. Sa elementary statistics course, di na pinakita, pero nabuo yung simplest formula for the sample mean (yung sum ng Xi's over n) kasi may assumption na yung sample selected ay isang SRSWOR or an SRSWR. Ang kinagandahan sa dalawang sampling procedures na yun, since equal ang weights ng units mo, kaya nating i-simplify sa ganoong formulas yung mga estimator, without dealing with the sampling weights (wala na yung mga Wi's sa formula). Now, pag meron kang quota sample, tapos gumamit ka ng estimator na may assumption na SRSWOR o SRSWR, edi misleading na lahat ng estimates mo.

Another thing is yung kaibahan ng random variable at isang variable lamang. A variable can assume any values from different units sabi nga sa definition. Mas may kulay ang random variable, kasi sa pagbuo niya dapat may kalakip siya laging random experiment, or an experiment that can be repeated under similar conditions.
Tignan natin yung pagkuha ng isang probability sample from a population as our random experiment. So wala tayong problema kasi yung mga statistics na makukuha sa mase-select na probability sample ay isang random variable.

Pero what if nag-quota sampling ka lang? Since di na random experiment yung pag-select mo ng sample, edi di na  random variables yung mga "estimators" mo sa mase-select mong sample. Variable na lang siyang matuturing. And ito ang importante: dahil di na random variables ang mga "estimators" mo from the quota sample, wala silang mga probability distributions. Di mo na pwede masabing normally distributed yung sample mean from your quota sample kasi di nga random variable yung sample mean. And alam natin na kailangan natin itong mga probability distributions na ito for creating confidence intervals, hypothesis testing at modelling. So pretty much screwed ka sa statistical inference pag nag quota sampling ka.

So ibig sabihin ba nito useless na yung nakuha kong data from my quota sample? Natural hindi. Di ba motto nga natin sa stat na it is better to have less information than no information at all. Pag nonprob ang nakuha nating sample, laging maging maingat tayo sa pag-interpret ng estimates. Heto yung mga pwede nating gawin:

1. I-reduce na lang natin yung study natin to descriptive stat, meaning walang explicit generalization sa population na magaganap. Parang yung sa Family Feud, pag nag-aannounce yung host ng sagot sa board, laging may disclaimer na "Ayon sa 100 respondents namin" at di niya sinasabi na "Sabi ng buong bansa." Yung conclusion niya only applies to the 100 respondents. And yes, nawalan na ng impact yung ginawa mong result kasi it only applies to the data at hand pero may halaga pa rin siya sa readers. Parang sinasabi mo kasi implicitly sa readers na "posible na di malayo sa sample mean na ito yung mean ng buong population, pero we can't quantify for sure yung possibility na yun."

2. If you really want to generalize, kailangan mong i-defend nang husto at magbigay ng madugong proof na "super representative" ng sample mo yung target population mo. Try characterizing your target population sa RRL (demographics etc.), then state na yung sample na kinuha mo ay kamukha ng iyong target population. Note lang na you can't use the computed standard error na nilalabas ng softwares as a reliability measure of your estimates kasi nga nabuo yung concept ng standard error na (again) may assumption na random variable yung estimators mo. Pwede mo lang masabi na since "representative" naman yung sample ko edi oks na sabihin na ganito rin yung numerong lalabas pag nag-census ako.

There could be other ways to make sense of a quota sample or any nonprob sample pero laging tatandaan na kailangan mong maging maingat sa pag-interpret lalo na kung yung purpose ng study mo is to generalize to the whole population.

TLDR;

Walang inclusion prob sa quota sampling, which is needed for the derivation of the estimators. Di rin random variables yung estimators mo pag quota sampling, so wala silang probability distribution. Di ibig sabihin na useless lahat ng information collected from the quota sample, basta kailangan ingat lang tayo sa pag-interpret.