توزیع حاشیه‌ای

در نظریه آمار و احتمال، توزیع حاشیه‌ای از یک زیرمجموعه از یک مجموعه ای از متغیرهای تصادفی، توزیع احتمال از متغیرهای موجود در زیر مجموعه هست. احتمال مقادیر مختلف متغیرها را در زیرمجموعه بدون مراجعه به مقادیر سایر متغیرها ارائه می‌دهد. در حالی که توزیع شرطی، احتمالات را مشروط به مقادیر متغیرهای دیگر می‌کند.

متغیرهای حاشیه‌ای آن متغیرها در زیرمجموعه متغیرهایی هستند که حفظ می‌شوند. این مفاهیم «حاشیه‌ای» هستند زیرا با جمع کردن مقادیر در جدول در امتداد سطرها یا ستون‌ها و نوشتن حاصل جمع در حاشیه جدول، می‌توان آنها را یافت.^[۱] توزیع متغیرهای حاشیه‌ای (توزیع حاشیه‌ای) توسط حاشیه سازی حاصل می‌شود، یعنی تمرکز روی مبالغ موجود در حاشیه بیش از توزیع متغیرهای کنار گذاشته شده‌است، و گفته می‌شود که متغیرهای دور انداخته شده، به حاشیه رانده شده‌اند.

به‌طور ساده‌تر گاهی نیاز داریم توزیع مستقل دو متغیر تصادفی را هم از توزیع توأم به دست آوریم. جواب این سؤال ما در توزیع حاشیه‌ای نهفته‌است.

تعریف

برای حساب کردن توزیع حاشیه‌ای یکی از این متغیرها کافی است به نوعی تأثیر آنرا بر روی تابع توزیع توأم حذف کنیم.

تابع جرم احتمال حاشیه‌ای

فرض کنید توزیع توأم^[۲] دو متغیر تصادفی گسسته $X$ و $Y$ به ما داده شده‌است. توزیع حاشیه‌ای هر یک از این متغیرها - به عنوان مثال $X$ - برابر است با توزیع احتمال $X$ هنگامی که مقادیر $Y$ در نظر گرفته نمی‌شوند. این را می‌توان با جمع کردن احتمال توزیع توأم روی تمام حالات $Y$ محاسبه کرد. به‌طور مشابه، برای عکس آن نیز درست است؛ یعنی توزیع حاشیه‌ای $Y$ را نیز می‌توان با جمع کردن احتمال توزیع توأم روی حالات $X$ محاسبه کرد.

p_{X}(x_{i})=\sum _{j}p(x_{i},y_{j})

p_{Y}(y_{j})=\sum _{i}p(x_{i},y_{j})

مقادیر توزیع توأم این دو متغیر تصادفی، در مستطیل 3*4 وسط، و مقادیر توزیع حاشیه‌ای این دو متغیر، در **حاشیه** راست و پایین آورده شده‌است.
X Y	x₁	x₂	x₃	x₄	p_Y(y) ↓
y₁	4/32	2/32	1/32	1/32	8/32
y₂	3/32	6/32	3/32	3/32	15/32
y₃	9/32	0	0	0	9/32
p_X(x) →	16/32	8/32	4/32	4/32	32/32

احتمال حاشیه‌ای می‌تواند به صورت امید ریاضی نیز نوشته شود.

$p_{X}(x)=\int _{y}p_{X\mid Y}(x\mid y)\,p_{Y}(y)\,\mathrm {d} y=\operatorname {E} _{Y}[p_{X\mid Y}(x\mid y)]\;$

به‌طور شهودی احتمال حاشیه‌ای $X$ با بررسی احتمال شرطی $X$ به شرط مقدار خاصی از $Y$ ، و سپس میانگین این احتمال شرطی بر روی توزیع همه مقادیر $Y$ محاسبه می‌شود.

این از تعریف امید ریاضی (بعد از انجام قانون LOTUS) می‌آید.

$\operatorname {E} _{Y}[f(Y)]=\int _{y}f(y)p_{Y}(y)\,\mathrm {d} y$

تابع چگالی احتمال حاشیه‌ای

فرض کنید توزیع توأم دو متغیر تصادفی پیوسته $X$ و $Y$ به ما داده شده‌است. تابع چگالی احتمال حاشیه‌ای $X$ را می‌توان از انتگرال احتمال توزیع توأم روی تمام حالات $Y$ محاسبه کرد.

f_{X}(x)=\int _{+\infty }^{-\infty }f(x,y)\,dy

f_{X}(y)=\int _{+\infty }^{-\infty }f(x,y)\,dx

و یا به‌طور شهودی تر داریم:

f_{X}(x)=\int _{c}^{d}f(x,y)\,dy

f_{X}(y)=\int _{a}^{b}f(x,y)\,dx

x\in [a,b],y\in [c,d]

تابع توزیع تجمعی حاشیه‌ای

به راحتی می‌توان تابع توزیع تجمعی حاشیه‌ای را از روی تابع چگالی احتمال حاشیه‌ای به دست آورد.

تابع توزیع تجمعی حاشیه‌ای متغیر تصادفی گسسته

برای متغیرهای تصادفی گسسته داریم:

F(x,y)=P(X\leq x,Y\leq y)

تابع توزیع تجمعی حاشیه‌ای متغیر تصادفی پیوسته

برای متغیرهای تصادفی پیوسته داریم:

F(x,y)=\int _{a}^{x}\int _{c}^{y}f(x',y')\,dy'dx'

حال فرض کنید می‌خواهیم توزیع تجمعی حاشیه‌ای یک متغیر تصادفی را از روی توزیع تجمعی توأم بدون استفاده از تابع چگالی آنها بدست آوریم.

F_{X}(x)=F_{X},_{Y}(x,\infty )=\lim _{x\to \infty }F_{XY}(x,y)

توزیع احتمال حاشیه‌ای و توزیع احتمال شرطی

تعریف

احتمال حاشیه‌ای، احتمال رخ دادن یک رخداد مستقل از رخدادهای دیگر است. از سمت دیگر احتمال شرطی، احتمال رخ دادن یک رخداد به شرطی که رخدادهای مشخص دیگری اتفاق افتاده باشند است. این بدین معنا است که در چنین احتمالی محاسبات مربوط به یک متغیر تصادفی به محاسبات متغیرهای تصادفی دیگر وابسته می‌باشد.^[۳]

توزیع احتمال شرطی یک متغیر تصادفی به شرط رخ دادن متغیر تصادفی دیگر معادل توزیع احتمال توأم هر دو متغیر تصادفی تقسیم بر توزیع احتمال حاشیه‌ای متغیر تصادفی دیگری است که بالاتر معرفی شد می‌باشد.^[۴] پس داریم،

برای متغیرهای تصادفی گسسته،

$p_{Y|X}(y|x)=P(Y=y\mid X=x)={\frac {P(X=x,Y=y)}{P_{X}(x)}}$

برای متغیرهای تصادفی پیوسته،

$f_{Y|X}(y|x)={\frac {f_{X,Y}(x,y)}{f_{X}(x)}}$

مثال

فرض کنید داده‌های مربوط به دانشجویان یک کلاس ۲۰۰ نفری را داریم. این داده‌ها شامل میزان زمان مطالعه دانشجویان (X) و درصد جواب‌های درست دانشجویان در امتحان (Y) هستند.^[۵] فرض کنید که X و Y متغیرهای تصادفی گسسته هستند؛ توزیع احتمال توأم X و Y را می‌توان با استفاده از لیست کردن تمام مقادیر ممکن p(x_i,y_j) همانند جدول پایین، تعریف کرد.

جدولی از داده‌های رابطهٔ بین میزان زمان مطالعه و تعداد پاسخ‌های درست در یک کلاس با ۲۰۰ دانشجو
X Y	میزان زمان مطالعه (دقیقه)
% جواب‌های درست		x₁ (0-20)	x₂ (21-40)	x₃ (41-60)	x₄(>60)	p_Y(y) ↓
	y₁ (0-20)	2/200	0	0	8/200	10/200
	y₂ (21-40)	10/200	2/200	8/200	0	20/200
	y₃ (41-59)	2/200	4/200	32/200	32/200	70/200
	y₄ (60-79)	0	20/200	30/200	10/200	60/200
	y₅ (80-100)	0	4/200	16/200	20/200	40/200
	p_X(x) →	14/200	30/200	86/200	70/200	1

توزیع احتمال حاشیه‌ای می‌تواند تعداد دانشجوهایی که نمره ۲۰ یا کمتر گرفته‌اند را مشخص کند:

$p_{Y}(y_{1})=P_{Y}(Y=y_{1})=\sum _{i=1}^{4}P(x_{i},y_{1})={\frac {2}{200}}+{\frac {8}{200}}={\frac {10}{200}}$ ، یعنی ۱۰ دانشجو یا ۵ درصد دانشجویان.

توزیع احتمال شرطی برای مشخص کردن احتمال اینکه یک دانشجو که ۶۰ دقیقه یا بیشتر مطالعه کرده باشد، نمرهٔ ۲۰ یا پایین‌تر کسب کند به کار می‌رود:

$p_{Y|X}(y_{1}|x_{4})=P(Y=y_{1}|X=x_{4})={\frac {P(X=x_{4},Y=y_{1})}{P(X=x_{4})}}={\frac {8/200}{70/200}}={\frac {8}{70}}={\frac {4}{35}}$ ، این عبارت به این معنی است که ۱۱ درصد احتمال این وجود دارد که نمره دانشجو پس از حداقل ۶۰ دقیقه مطالعه، ۲۰ شود.

نمونه ای از دنیای واقعی

فرض کنید احتمال برخورد یک عابر پیاده با ماشین در حین عبور از جاده در گذرگاه عابر پیاده بدون توجه به چراغ راهنمایی محاسبه شود. فرض کنید $H$ یک متغیر تصادفی گسسته باشد که یک مقدار از {Hit, Not Hit} را می‌گیرد. فرض کنید L (برای چراغ راهنمایی) یک متغیر تصادفی گسسته باشد که یک مقدار از {RED, YELLOW, GREEN} را می‌گیرد.

در واقع، H به L وابسته خواهد بود؛ یعنی P(H = Hit) بسته به قرمز، زرد یا سبز بودن L مقادیر متفاوتی خواهد گرفت (و به همین ترتیب برای P(H = Not Hit)). برای مثال، یک عابر زمانی که چراغ‌های راهنمایی سبز هستند، احتمال بیشتری وجود دارد که هنگام عبور با خودرو برخورد کند تا زمانی که قرمز باشد. به عبارت دیگر، برای هر جفت مقادیر ممکن معینی برای H و L، باید احتمال توزیع توأم H و L را در نظر گرفت تا در صورت نادیده گرفتن حالت چراغ راهنمایی توسط عابر، احتمال وقوع آن جفت رویدادها با هم پیدا شود.

هرچند، در تلاش برای محاسبه احتمال حاشیه‌ای P(H = Hit)، آنچه مورد نظر است، احتمال برخورد H = Hit در شرایطی است که مقدار خاص L ناشناخته است و در آن عابر پیاده وضعیت چراغ راهنمایی را نادیده می‌گیرد. به‌طور کلی، اگر چراغ‌ها قرمز باشد یا اگر چراغ‌ها زرد یا اگر چراغ‌ها سبز باشند، می‌توان به عابر پیاده ضربه زد؛ بنابراین، پاسخ احتمال حاشیه‌ای را می‌توان با جمع P(H | L) برای همه مقادیر ممکن L، با وزن هر مقدار L با احتمال وقوع آن یافت.

در اینجا جدولی وجود دارد که بسته به وضعیت چراغ‌ها، احتمالات مشروط ضربه خوردن را نشان می‌دهد. (توجه داشته باشید که ستون‌های این جدول باید تا ۱ جمع شوند زیرا بدون توجه به وضعیت نور، احتمال اصابت یا عدم اصابت ۱ است)

Conditional distribution: $P(H\mid L)$
L H	Red	Yellow	Green
Not Hit	0.99	0.9	0.2
Hit	0.01	0.1	0.8

برای یافتن توزیع احتمال توأم، داده‌های بیشتری مورد نیاز است. برای مثال، فرض کنید P(L = red) = ۰٫۲ و P(L = yellow) = ۰٫۱ و P(L = green) = ۰٫۷. ضرب هر ستون در توزیع شرطی در احتمال وقوع آن ستون منجر به توزیع احتمال توأم H و L می‌شود که در مستطیل ۲×۳ وسط داده شده‌است.

Joint distribution: $P(H,L)$
L H	Red	Yellow	Green	Marginal probability P(H)
Not Hit	0.198	0.09	0.14	0.428
Hit	0.002	0.01	0.56	0.572
Total	0.2	0.1	0.7	1

احتمال حاشیه‌ای P(H = Hit) مجموع ۰٫۵۷۲ در امتداد ردیف H = Hit این جدول توزیع مشترک است، زیرا این احتمال برخورد زمانی است که چراغ‌ها قرمز یا زرد یا سبز هستند. به‌طور مشابه، احتمال حاشیه‌ای که P(H = Not Hit) مجموع در امتداد ردیف H = Not Hit است.

توزیع احتمال‌های چند متغیره

تعدادی نمونه از یک توزیع احتمال نرمال دو متغیره. توزیع احتمال‌های حاشیه‌ای قرمز و آبی به نمایش درآمده‌اند. توزیع احتمال حاشیه‌ای X بوسیله یک هیستوگرام از مختصات X بدون در نظر گرفتن مختصات Y به نمایش درآمده است.

برای توزیع احتمال‌های چند متغیره، همان فرمولی را به کار می‌گیریم که بالاتر از آن استفاده کردیم با این تفاوت که در این‌جا نمادهای X و/یا Y به عنوان بردار شناخته می‌شوند. به‌طور خاص می‌توان گفت که هر جمع یا انتگرال بر روی تمام متغیرها، بجز متغیرهایی که در X قرار دارند، اعمال می‌شود.^[۶] یعنی، اگر X₁,X₂,…,X_n متغیرهای تصادفی گسسته باشند، آنگاه تابع جرم احتمال حاشیه‌ای باید به شکل زیر تعریف شود:

$p_{X_{i}}(k)=\sum p(x_{1},x_{2},\dots ,x_{i-1},k,x_{i+1},\dots ,x_{n});$

اگر X₁,X₂,…,X_n متغیرهای تصادفی پیوسته باشند، آنگاه تابع چگالی احتمال حاشیه‌ای باید به شکل زیر تعریف شود:

$f_{X_{i}}(x_{i})=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f(x_{1},x_{2},\dots ,x_{n})dx_{1}dx_{2}\cdots dx_{i-1}dx_{i+1}\cdots dx_{n}.$

جستارهای وابسته

پانویس

↑ Trumpler, Robert J. & Harold F. Weaver (1962). Statistical Astronomy. Dover Publications. pp. 32–33.
↑ «توزیع توأم» [آمار] هم‌ارزِ «joint distribution» مترادفِ: «توزیع چندمتغیره» هم‌ارزِ واژهٔ بیگانه‌ای دیگر (multivariate distribution)؛ منبع: گروه واژه‌گزینی. جواد میرشکاری، ویراستار. دفتر یازدهم. فرهنگ واژه‌های مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۶۰۰-۶۱۴۳-۴۵-۳ (ذیل سرواژهٔ توزیع توأم)
↑ "Marginal & Conditional Probability Distributions: Definition & Examples". Study.com (به انگلیسی). Retrieved 2019-11-16.
↑ "Exam P [FSU Math]". www.math.fsu.edu. Retrieved 2019-11-16.
↑ Marginal and conditional distributions (به انگلیسی), retrieved 2019-11-16
↑ A modern introduction to probability and statistics: understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: نگهداری CS1: سایر موارد (link)

منابع

Sheldon Ross ,Introduction to Probability, joint distribution pages 279 to 350
https://www.khanacademy.org/math/ap-statistics/analyzing-categorical-ap/distributions-two-way-tables/v/marginal-distribution-and-conditional-distribution
Trumpler, Robert J. ; Harold F. Weaver (1962). Statistical Astronomy. Dover Publications. pp. 32–33
Marginal & Conditional Probability Distributions: Definition & Examples". Study.com. Retrieved 2019-11-16
Marginal and conditional distributions, retrieved 2019-11-16
Exam P [FSU Math]". www.math.fsu.edu. Retrieved 2019-11-16

[1] Trumpler, Robert J. & Harold F. Weaver (1962). Statistical Astronomy. Dover Publications. pp. 32–33.

[2] «توزیع توأم» [آمار] هم‌ارزِ «joint distribution» مترادفِ: «توزیع چندمتغیره» هم‌ارزِ واژهٔ بیگانه‌ای دیگر (multivariate distribution)؛ منبع: گروه واژه‌گزینی. جواد میرشکاری، ویراستار. دفتر یازدهم. فرهنگ واژه‌های مصوب فرهنگستان. تهران: انتشارات فرهنگستان زبان و ادب فارسی. شابک ۹۷۸-۶۰۰-۶۱۴۳-۴۵-۳ (ذیل سرواژهٔ توزیع توأم)

[3] "Marginal & Conditional Probability Distributions: Definition & Examples". Study.com (به انگلیسی). Retrieved 2019-11-16.

[4] "Exam P [FSU Math]". www.math.fsu.edu. Retrieved 2019-11-16.

[5] Marginal and conditional distributions (به انگلیسی), retrieved 2019-11-16

[:1-6] A modern introduction to probability and statistics: understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: نگهداری CS1: سایر موارد (link)

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]