آمار بعدبالا
در نظریه آماری، شاخهٔ آمار بُعدبالا، دادههایی را مطالعه میکند که بُعد آنها از بُعدهای مطرح شده در تحلیل چندمتغیرهٔ کلاسیک بزرگتر باشد. آمار بُعدبالا متکی بر نظریهٔ بردارهای تصادفی است. در بسیاری کاربردها، بُعد بردارهای داده ممکن است بزرگتر از حجم نمونهٔ آنها باشد.[۱]
تاریخچه
[ویرایش]بهطور سنتی، آمار استنباطی یک مدل احتمال برای یک جمعیت را در نظر میگیرد و دادههایی را که به عنوان نمونه از یک جمعیت گرفته میشوند را در نظر میگیرد. برای بسیاری از مسائل، برآوردهای مشخههای جامعه (پارامترها) میتواند با افزایش حجم نمونه به سمت بینهایت بهبود یابد (بهطور نظری). نیازمندهای سنتی سازگاری است، که به همگرایی برآوردگر به مقدار واقعی پارامتر گفته میشود.
در سال ۱۹۶۸، آندری کولوموگروف شرایط دیگری را از مسائل آماری و شرایط دیگری برای مسائل مجانبی، که در آنها بُعد متغیرها () در راستای اندازهٔ نمونه () افزایش مییابد و بنابراین به مقداری ثابت میل میکند، مطرح کرد. این شرایط «مسائل مجانبی افزایش بُعد» یا «مسائل مجانبی کولوموگروف»[۲] نامیده شد. رویکرد کولوموگروف ایزولهکردن بسیاری از عبارتهای احتمال خطا و اندازههای استانداردِ کیفیت برآوردگرها (توابع کیفیت) را برای شرایط « بزرگ و کوچک» ممکن ساخت. اخیراً، محققان به ابعاد حتی بزرگتر از قبل علاقهمند شدهاند، برای نمونه ، که در آن است. این موارد، از نیاز به استخراج اطلاعات معنیدار از نواحی مختلف بروز میکند. در این موارد بعضی نتایج جالب یافت شدهاند. برای مثال آزمون تی-استیودنت، هنگامی که ممکن است غلط باشد.[۳] برای اطلاعات بیشتر en:Šidák_correction_for_t-test را ببینید.
نظریهٔ ریاضی
[ویرایش]بررسیهای ریاضی گستردهای انجام شدهاست که منجر بهوجود آمدن نظریهٔ سیستماتیک برای بهبود نسخههای غیرقابل بهبود فرایندهای آماری چندمتغیره شدند. (مرجع[۴] را ببینید).کشف شد که که پارامتر ویژهٔ که یک تابع از گشتاور چهارم متغیرهاست، این ویژگی را داراست که مقادیر پایین تعدادی از پدیدههای چندپارامتری را تولید میکند. برای و در حال افزایش، بهطوری که به یک مقدار ثابت میل کند و ، جملات اساسی چرخش توابع ناوردا در اثبات آماری رخ میهد تا تنها از دو گشتاور اول متغیر مستقل باشد. تحت شرایطی که و به بینهایت میل میکنند، و ، این توابع واریانس و کوواریانس محوشونده در یک مقدار ثابت را دارند که نشاندهندهٔ مقدار حدی میانگین و واریانس تجربی است. بهعنوان نتیجه، برخی روابط انتگرالی پایدار بین توابع و پارامترها و توابع متغیرهای قابل مشاهده تولید شدهاند. آنها «معادلات متعارف تصادفی» یا «معادلات پراکندگی» نامیده میشوند.[۵] با استفاده از آنها، میتوان قسمتهای اصولی توابع کیفی استاندارد آمار چندمتغیره منظم را بهعنوان توابعی از متغیرهایی که تنها مشاهده شدهاند، بیان کرد. این مسئله قابلیت انتخاب فرایندهای بهتر و پیدا کردن راهحلهای بهطور مجانبی غیرقابل بهبود را فراهم میسازد.
تحولات جاری
[ویرایش]آمار بُعدبالا موضوع تمرکز بسیاری از سمینارها و همایشهاست.[۶][۷][۸][۹]
یادداشت
[ویرایش]- ↑ Marozzi, Marco (2015). "Multivariate multidistance tests for high-dimensional low sample size case-control studies". Statistics in Medicine. 34: 1511–1526. doi:10.1002/sim.6418.
- ↑ S. A. Aivasian, V. M. Buchstaber, I. S. Yenyukov, L. D. Meshalkin. Applied Statistics. Classification and Reduction of Dimensionality. Moscow, 1989 (in Russian).
- ↑ Fan, Jianqing; Hall, Peter; Yao, Qiwei (2007). "To How Many Simultaneous Hypothesis Tests Can Normal, Student's t or Bootstrap Calibration Be Applied". Journal of the American Statistical Association. 102 (480): 1282–1288. arXiv:math/0701003. doi:10.1198/016214507000000969.
- ↑ http://hd-stat.narod.ru 'HIGH-DIMENSIONAL (HD-) STATISTICS'.
- ↑ V.L.Girko. Canonical Stochastic Equations, vol. 1,2, Kluwer Academic Publishers, Dordrecht, 2000.
- ↑ Program on High-Dimensional Inference for 2006-2007. SAMSI, USA.
- ↑ Workshop in High-Dimensional Data Analysis, National University of Singapore. February, 2008.
- ↑ Workshops HD-statistics in biology, Isaac Newton Inst. for Math. Sci. , Cambridge. 31.03-27.06 2008.
- ↑ Young European Statistics Workshop (YES-2), Eindhoven, Netherland. June, 2008.
منابع
[ویرایش]- Christophe Giraud (2015). Introduction to High-Dimensional Statistics. Philadelphia: Chapman and Hall/CRC.
- T. Tony Cai, Xiaotong Shen, ed. (2011). High-dimensional data analysis. Frontiers of Statistics. Singapore: World Scientific.
- Peter Bühlmann and Sara van de Geer (2011). Statistics for high-dimensional data: methods, theory and applications. Heidelberg; New York: Springer.