مجموعه داده گل زنبق

مجموعه داده گل زنبق (به انگلیسی: Iris flower data set) یا مجموعه داده زنبق فیشر یک مجموعه داده چند متغیره است که توسط رانلد فیشر، آماردان و زیست‌شناس بریتانیایی در سال 1936 معرفی شد. این مجموعه داده همچنین مجموعه داده زنبق اندرسون نیز نامیده می‌شود.

این مجموعه شامل 150 نمونه‌ی جمع‌آوری شده از گل‌های زنبق است که این نمونه‌ها 50 نمونه از هر یک از سه نوع گل زنبق را شامل می‌شوند. برای هر یک از نمونه‌ها 4 ویژگی گل زنبق اندازه‌گیری شده‌است. این ویژگی‌ها شامل طول و عرض کاسبرگ و گلبرگ، بر حسب سانتی متر است. بر اساس ترکیبی از این چهار ویژگی، فیشر یک مدل تشخیص خطی برای تفکیک کردن گونه‌های این گل از یک‌دیگر ایجاد کرد.

این مجموعه داده به عنوان یک مثال پرکاربرد در زمینه‌های آماری و یادگیری ماشین مورد استفاده قرار گرفته‌است.

موارد استفاده

از این مجموعه داده به عنوان یک مثال برای روش آنالیز افتراقی خطی فیشر استفاده می‌شود. همچنین این داده‌ها برای اعمال روش‌های طبقه‌بندی آماری در یادگیری ماشین، همچون ماشین‌ بردار پشتیبان مورد استفاده قرار می‌گیرند.

با این‌ حال، این مجموعه داده در روش‌های خوشه‌بندی معمولاً مورد استفاده قرار نمی‌گیرد. دلیل این مسئله آن است که داده‌های موجود در این مجموعه هنگام نمایش در فضا فقط دو خوشه‌ی مشخص از سه خوشه را نمایش می‌دهند و داده‌های مربوط به دو کلاس در یک دسته خوشه‌بندی می‌شوند.

مجموعه داده گل زنبق، اطلاعات مربوط به سه نوع از گل‌های زنبق از جمله زنبق نوک‌زبر، زنبق رنگارنگ و زنبق ویرجینیا را شامل می‌شوند که با اعمال خوشه‌بندی بر روی این مجموعه داده، یکی از خوشه‌ها حاوی نمونه‌های مربوط به زنبق نوک‌زبر و خوشه‌ی دیگر حاوی نمونه‌های مربوط به هر دو گونه زنبق رنگارنگ و زنبق ویرجینیا خواهد بود.

با این وجود هر سه گونه‌ی این مجموعه داده با استفاده از نگاشت غیرخطی به فضایی دیگر، قابل تفکیک هستند.

پیاده‌سازی (پایتون)

مجموعه داده گل زنبق را با استفاده از کتابخانۀ Sickit-Learn در زبان برنامه‌نویسی پایتون می‌توان به سادگی، بارگذاری و استفاده نمود.

from sklearn.datasets import load_iris
dataset = load_iris()

خروجی این قطعه کد به صورت زیر است که مقادیر موجود در مجموعه داده به ازای هر یک از نمونه‌ها و اطلاعاتی راجع به مجموعه داده از جمله نام گونه‌های زنبق مورد استفاده، اسامی ویژگی‌ها و ... است.

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4], ... ]),
 'target': array([0, 0, 0, ... , 1, 1, 1, ... , 2, 2, 2, ... ]),
 'frame': None,
 'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'), ... ,
 'feature_names': ['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)'], ... }

منابع

R. A. Fisher (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x
Ines Färber, Stephan Günnemann, Hans-Peter Kriegel, Peer Kröger, Emmanuel Müller, Erich Schubert, Thomas Seidl, Arthur Zimek (2010). "On Using Class-Labels in Evaluation of Clusterings" (PDF). In Xiaoli Z. Fern; Ian Davidson; Jennifer Dy (eds.). MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD.
A.N. Gorban, N.R. Sumner, and A.Y. Zinovyev, Topological grammars for data approximation, Applied Mathematics Letters Volume 20, Issue 4 (2007),382-386.
https://en.wikipedia.org/wiki/Iris_flower_data_set

مشارکت‌کنندگان ویکی‌پدیا. «Iris flower data set». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۹ سپتامبر ۲۰۱۷.