آزمون خطای استاندارد میانگین

اگر عدد Z داخل ناحیه‌ی قرمز بیوفتد می‌توانیم با سطح معنای ۰/۰۵ فرضیه‌ی صفر را رد کنیم

آزمون Z نوعی آزمون آماری است که توزیع آماره‌ی آزمون تحت فرضیه‌ی صفر می‌تواند به صورت یک توزیع نرمال تخمین زده‌شود. به علت قضیه حد مرکزی بیشتر آماره‌های آزمون برای تعداد زیاد نمونه، به صورت تقریبی با توزیع نرمال قابل تخمین زدن هستند. برای هر سطحی معنادار بودن آزمون Z یک مقدار بحرانی دارد (برای مثال ۱/۹۶ برای ۵٪ دو طرفه) که نسبت به آزمون t راحتی بیشتری ایجاد می‌کند زیرا در آزمون t برای هر تعداد نمونه یک مقدار بحرانی مشخص وجود دارد. برای همین در بیشتر آزمون‌های آماری در صورتی که واریانس جمعیت مشخص باشد یا تعداد نمونه‌ها زیاد باشد به‌راحتی می‌توان به صورت تقریبی از آزمون Z استفاده کرد. در صورتی که واریانس جمعیت مشخص نباشد (و لازم باشد که از روی نمونه‌ها به‌دست آورده شود) یا تعداد نمونه‌ها کم باشد (کم‌تر از ۳۰)، آزمون t مناسب‌تر از این آزمون است.

اگر T یک آماره باشد که تحت فرض صفر به صورت تقریبی از توزیع نرمال پیروی کند، قدم بعدی برای انجام دادن آزمون Z محاسبه‌ی امید ریاضی T است. فرض کنید مقدار آن θ باشد. در این صورت اگر انحراف معیار T را نیز حساب کنیم و آن‌را s بنامیم، عدد Z به‌دست آمده برابر $Z={\frac {(T-\theta )}{s}}$ خواهد بود که با استفاده از این عدد می‌توانیم پی-مقدار یک‌طرفه یا دوطرفه را حساب کنیم. این مقدار برای آزمون یک‌طرفه برابر $\Phi (Z)$ برای سمت راست یا $\Phi (-Z)$ برای سمت چپ است. در آزمون دوطرفه نیز این مقدار برابر $2\Phi (|Z|)$ است که $\Phi$ همان تابع استاندارد توزیع تجمعی نرمال است.

شرایط

برای اینکه آزمون Z قابل اعمال روی داده‌ها باشد باید در شرایطی صدق کنند:

پارامترهای Nuisance باید مشخص باشد یا با دقت بالایی تخمین زده‌شود (یکی از مثال‌های این پارامتر انحراف معیار است). آزمون Z فقط روی یک پارامتر تمرکز دارد و تمام پارامترهای نامشخص را به صورت ثابت در مقدار واقعی [و نا مشخص] آن‌ها فرض می‌کند.
آماره‌ی آزمون باید از توزیع نرمال پیروی کند. بعضی‌ها ممکن است با قضیه حد مرکزی توجیه کنند که آماره‌ی آزمون از توزیع نرمال پیروی می‌کند. تحقیق‌های بسیاری در این زمینه انجام شده‌است که در چه مواقعی آماره‌ی آزمون به صورت تقریبی از توزیع نرمال پیروی می‌کند. اگر این آماره به صورت قوی از نرمال پیروی نکند، آزمون Z نباید استفاده شود.

مثال

فرض کنید که در یک منطقه‌ی جغرافیایی میانگین و انحراف معیار نمرات یک امتحان به ترتیب ۱۰۰ نمره و ۱۲ نمره باشد. می‌خواهیم نمرات ۵۵ دانش‌آموز را در مدرسه‌ای بررسی کنیم. میانگین نمرات این دانش‌آموزان ۹۶ است. حال سؤال این است که آیا میانگین این دانش‌آموزان به صورت معنا داری پایین‌تر از دانش‌آموزان منطقه است یا خیر. یا به عبارتی دیگر آیا میانگین نمرات این دانش‌آموزان به صورت شگفت انگیزی پایین‌تر از دانش‌آموزان منطقه است یا خیر.

ابتدا باید خطای استاندارد میانگین را پیدا کنیم:

\mathrm {SE} ={\frac {\sigma }{\sqrt {n}}}={\frac {12}{\sqrt {55}}}={\frac {12}{7.42}}=1.62\,\!

که ${\sigma }$ انحراف معیار جمعیت است.

سپس باید مقدار Z را حساب کنیم که برابر است با اختلاف میانگین نمونه‌ها و جمعیت تقسیم بر خطای استاندارد میانگین:

Z={\frac {M-\mu }{\mathrm {SE} }}={\frac {96-100}{1.62}}=-2.47\,\!

در این مثال فرض کردیم که واریانس نمونه‌ها و جمعیت مشخص است، که این فرض در صورتی که از تمام دانش‌آموزان منطقه امتحان را بگیریم فرض درستی است. وقتی که پارامترهای جمعیت نامشخص باشند باید از آزمون t استفاده کرد.

میانگین مدرسه برابر ۹۶ است که ۲/۴۷- تا واحد انحراف معیار استاندارد از میانگین جمعیت (که برابر با ۱۰۰ است) دورتر است. حال اگر این مقدار را در جدول مقادیر توزیع نرمال استاندارد (توزیع نرمالی با میانگین ۰ و انحراف معیار ۱) جستجو کنیم، احتمال اینکه عدد ۲/۴۷- یا کم‌تر را مشاهده کنیم تقریباً برابر ۰/۰۰۶۸ = ۰/۴۹۳۲ - ۰/۵ است. این پی-مقدار یک‌طرفه برای فرضیه‌ی صفر "۵۵ دانش‌آموز این مدرسه در امتحان میانگین نمره یکسانی با دانش‌آموزان منطقه دارند" است. همچنین پی-مقدار دوطرفه‌ی آن نیز برابر ۰/۰۱۴ (دو برابر پی-مقدار یک‌طرفه) است.

به عبارتی دیگر به احتمال ۰/۹۸۶ یک نمونه‌گیری تصادفی ۵۵ تایی از دانش‌آموزان میانگینی خواهند داشت که داخل بازه‌ی ۴ انحراف معیار از میانگین جمعیت است. یعنی با اطمینان ۹۸/۶٪ ما فرضیه‌ی صفر را رد می‌کنیم (چون میانگینی که به‌دست آوردیم فقط به احتمال ۰/۰۱۴ به وقوع می‌پیوندد)

استفاده‌های دیگر آزمون Z

یکی دیگر از زمینه‌های استفاده‌ی آزمون Z در برآورد درست‌نمایی بیشینه پارامترها در یک مدل پارامتری آماری است. برآوردهای درست‌نمایی بیشینه در شرایطی خاص از توزیع نرمال پیروی می‌کنند. برآورد درست‌نمایی بیشینه تقسیم بر خطای استاندارد آن می‌تواند به عنوان یک آماره باشد برای فرضیه‌ی صفری که مقدار آن پارامتر در جمعیت برابر صفر است. به‌صورت کلی اگر ${\hat {\theta }}$ برآورد درست‌نمایی بیشینه پارامتر $\theta$ باشد و $\theta _{0}$ مقدار $\theta$ تحت فرضیه‌ی صفر باشد در این صورت:

({\hat {\theta }}-\theta _{0})/{\rm {SE}}({\hat {\theta }})

می‌تواند به عنوان یک آماره‌ی آزمون Z باشد.

وقتی از آزمون Z برای برآورد درست‌نمایی بیشینه استفاده می‌کنیم، مهم است بدانیم که نرمال بودن توزیع به‌صورت تقریبی ممکن است برای نمونه‌هایی که به اندازه‌ی کافی زیاد نیستند، ضعیف عمل کند و با تقریب خوبی نرمال نباشد.

با اینکه قانونی ساده و عمومی وجود ندارد که بفهمیم چقدر تعداد نمونه‌ها باید زیاد باشد تا بتوان از آزمون Z استفاده کرد، روش مونت کارلو می‌تواند ایده‌ی خوبی باشد که آیا یک آزمون Z برای داده‌ها مناسب است یا خیر.

آزمون Z می‌تواند در مواقعی استفاده شود که ثابت شود آماره‌ی آزمون تحت فرضیه‌ی صفر از توزیع نرمال پیروی می‌کند. تعداد زیادی از آماره‌های غیر پارامتری مانند آماره‌ی U برای تعداد نمونه‌های زیاد، به صورت تقریبی از توزیع نرمال پیروی می‌کنند و برای همین معمولاً از آزمون Z در این مواقع استفاده می‌شود.

موضوعات مرتبط

منابع

Sprinthall, R. C. (2011). Basic Statistical Analysis (9th ed.). Pearson Education. ISBN 978-0-205-05217-2.
Casella, G., Berger, R. L. (2002). Statistical Inference. Duxbury Press. شابک ‎۰−۵۳۴−۲۴۳۱۲−۶