مجموعه داده گل زنبق
مجموعه داده گل زنبق (به انگلیسی: Iris flower data set) یا مجموعه داده زنبق فیشر یک مجموعه داده چند متغیره است که توسط رانلد فیشر، آماردان و زیستشناس بریتانیایی در سال 1936 معرفی شد. این مجموعه داده همچنین مجموعه داده زنبق اندرسون نیز نامیده میشود.
این مجموعه شامل 150 نمونهی جمعآوری شده از گلهای زنبق است که این نمونهها 50 نمونه از هر یک از سه نوع گل زنبق را شامل میشوند. برای هر یک از نمونهها 4 ویژگی گل زنبق اندازهگیری شدهاست. این ویژگیها شامل طول و عرض کاسبرگ و گلبرگ، بر حسب سانتی متر است. بر اساس ترکیبی از این چهار ویژگی، فیشر یک مدل تشخیص خطی برای تفکیک کردن گونههای این گل از یکدیگر ایجاد کرد.
این مجموعه داده به عنوان یک مثال پرکاربرد در زمینههای آماری و یادگیری ماشین مورد استفاده قرار گرفتهاست.
موارد استفاده
[ویرایش]از این مجموعه داده به عنوان یک مثال برای روش آنالیز افتراقی خطی فیشر استفاده میشود. همچنین این دادهها برای اعمال روشهای طبقهبندی آماری در یادگیری ماشین، همچون ماشین بردار پشتیبان مورد استفاده قرار میگیرند.
با این حال، این مجموعه داده در روشهای خوشهبندی معمولاً مورد استفاده قرار نمیگیرد. دلیل این مسئله آن است که دادههای موجود در این مجموعه هنگام نمایش در فضا فقط دو خوشهی مشخص از سه خوشه را نمایش میدهند و دادههای مربوط به دو کلاس در یک دسته خوشهبندی میشوند.
مجموعه داده گل زنبق، اطلاعات مربوط به سه نوع از گلهای زنبق از جمله زنبق نوکزبر، زنبق رنگارنگ و زنبق ویرجینیا را شامل میشوند که با اعمال خوشهبندی بر روی این مجموعه داده، یکی از خوشهها حاوی نمونههای مربوط به زنبق نوکزبر و خوشهی دیگر حاوی نمونههای مربوط به هر دو گونه زنبق رنگارنگ و زنبق ویرجینیا خواهد بود.
با این وجود هر سه گونهی این مجموعه داده با استفاده از نگاشت غیرخطی به فضایی دیگر، قابل تفکیک هستند.
پیادهسازی (پایتون)
[ویرایش]مجموعه داده گل زنبق را با استفاده از کتابخانۀ Sickit-Learn در زبان برنامهنویسی پایتون میتوان به سادگی، بارگذاری و استفاده نمود.
from sklearn.datasets import load_iris
dataset = load_iris()
خروجی این قطعه کد به صورت زیر است که مقادیر موجود در مجموعه داده به ازای هر یک از نمونهها و اطلاعاتی راجع به مجموعه داده از جمله نام گونههای زنبق مورد استفاده، اسامی ویژگیها و ... است.
{'data': array([[5.1, 3.5, 1.4, 0.2],
[4.9, 3. , 1.4, 0.2],
[4.7, 3.2, 1.3, 0.2],
[4.6, 3.1, 1.5, 0.2],
[5. , 3.6, 1.4, 0.2],
[5.4, 3.9, 1.7, 0.4], ... ]),
'target': array([0, 0, 0, ... , 1, 1, 1, ... , 2, 2, 2, ... ]),
'frame': None,
'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'), ... ,
'feature_names': ['sepal length (cm)',
'sepal width (cm)',
'petal length (cm)',
'petal width (cm)'], ... }
منابع
[ویرایش]- R. A. Fisher (1936). "The use of multiple measurements in taxonomic problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x
- Ines Färber, Stephan Günnemann, Hans-Peter Kriegel, Peer Kröger, Emmanuel Müller, Erich Schubert, Thomas Seidl, Arthur Zimek (2010). "On Using Class-Labels in Evaluation of Clusterings" (PDF). In Xiaoli Z. Fern; Ian Davidson; Jennifer Dy (eds.). MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD.
- A.N. Gorban, N.R. Sumner, and A.Y. Zinovyev, Topological grammars for data approximation, Applied Mathematics Letters Volume 20, Issue 4 (2007),382-386.
- https://en.wikipedia.org/wiki/Iris_flower_data_set
- مشارکتکنندگان ویکیپدیا. «Iris flower data set». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۹ سپتامبر ۲۰۱۷.