アヤメの花データセット

From Wikipedia, the free encyclopedia

データセットの散布図

アヤメの花データセット(アヤメのはなデータセット、英語: Iris flower data set)あるいはフィッシャーのアヤメデータセット英語: Fisher's Iris data set)は1936年にイギリスの統計学者生物学者ロナルド・フィッシャーが1936年の論文『The use of multiple measurements in taxonomic problems』で線形判別分析英語版の例として用いた多変数英語版データセットである[1]エドガー・アンダーソン英語版が3種の近縁なアヤメ形態変異を定量化するために記録したものであることから、アンダーソンのアヤメデータセット英語: Anderson's Iris data set)とも呼ばれる[2]。3種のうち2つはガスペ半島の「同じ牧場で、同じ日に、同一人物によって同じ測定器で同時に」記録された[3]

データセットはアヤメ3種(ヒオウギアヤメバージニアアヤメ英語版ヘンショクアヤメ英語版)それぞれ50花ずつの標本からなる。各標本ごとに4つの特徴量花弁英語版それぞれの長さと幅)がセンチメートル単位で測定されている。これら4つの特徴量の組み合わせから、フィッシャーはそれぞれの種を区別するための線形判別分析モデルを発達させた。フィッシャーの論文は『優生学会誌』(英語: Annals of Eugenics, 今日の『人間遺伝学会誌英語版』)に掲載された[1]

ELKI英語版によって可視化された不満足なkクラスタ化(データは既存のクラスにクラスタできない)と実際の種構成
アヤメデータセットの所謂「地下鉄路線図」の一例[4]。バージニアアヤメの一部のみがヘンショクアヤメと混ざっている。それ以外のサンプルはそれぞれ種ごとに対応するノードへと振り分けられている。

元々はフィッシャーの線形判別分析英語版に用いられたが、その後サポートベクターマシンなどのような機械学習分類のテストに用いられるようになった[5]

しかしながら2つの明瞭に異なるクラスタのみが含まれることから、クラスタ解析ではあまり使用されない。ひとつのクラスタにはヒオウギアヤメが含まれ、もう片方のクラスタにはバージニアアヤメとヘンショクアヤメ両方が含まれており、両種はフィッシャーの用いた種情報なしでは判別不可能である。そのため、データマイニング教師あり学習教師なし学習の違いを説明する良い例となっている。すなわち、フィッシャーの線形判別モデルは対象種が明らかな場合のみ得られる。分類とクラスタは必ずしも一致しない[6]

それにもかかわらず、3種のアヤメはどれも非線形で枝分かれする主成分分析によって判別できる[7]。データセットはノードの数が多すぎたり、曲げたり伸ばしたりすることに対して何らかのペナルティを課すことで、最も近いツリーによって近似され、いわゆる「地下鉄路線図」が構築される[4]。各ノードについて、投影された点の円グラフが作成される。円グラフの面積は投影点の数に比例する。左図から明らかなように、異なる種のアヤメのサンプルの絶対多数は、異なるノードに属している。バージニアアヤメのごく一部がヘンショクアヤメと混在しているだけである(図中の青緑色の混在ノード)。したがって、3種のアヤメ(ヒオウギアヤメ、バージニアアヤメ、ヘンショクアヤ)は、主成分ツリーの対応するノードを選ぶことで、非線形主成分分析の教師なし手順によって判別できる。

データセット

ヒオウギアヤメ

データセットには150の記録が5指標下(萼と花弁それぞれの長さと幅、および種情報)で含まれる。

ヘンショクアヤメ英語版
バージニアアヤメ英語版
フィッシャーのアヤメデータセットの双標図
フィッシャーのアヤメデータ
番号萼幅萼長花弁幅花弁長
15.13.51.40.2ヒオウギアヤメ
24.93.01.40.2ヒオウギアヤメ
34.73.21.30.2ヒオウギアヤメ
44.63.11.50.2ヒオウギアヤメ
55.03.61.40.3ヒオウギアヤメ
65.43.91.70.4ヒオウギアヤメ
74.63.41.40.3ヒオウギアヤメ
85.03.41.50.2ヒオウギアヤメ
94.42.91.40.2ヒオウギアヤメ
104.93.11.50.1ヒオウギアヤメ
115.43.71.50.2ヒオウギアヤメ
124.83.41.60.2ヒオウギアヤメ
134.83.01.40.1ヒオウギアヤメ
144.33.01.10.1ヒオウギアヤメ
155.84.01.20.2ヒオウギアヤメ
165.74.41.50.4ヒオウギアヤメ
175.43.91.30.4ヒオウギアヤメ
185.13.51.40.3ヒオウギアヤメ
195.73.81.70.3ヒオウギアヤメ
205.13.81.50.3ヒオウギアヤメ
215.43.41.70.2ヒオウギアヤメ
225.13.71.50.4ヒオウギアヤメ
234.63.61.00.2ヒオウギアヤメ
245.13.31.70.5ヒオウギアヤメ
254.83.41.90.2ヒオウギアヤメ
265.03.01.60.2ヒオウギアヤメ
275.03.41.60.4ヒオウギアヤメ
285.23.51.50.2ヒオウギアヤメ
295.23.41.40.2ヒオウギアヤメ
304.73.21.60.2ヒオウギアヤメ
314.83.11.60.2ヒオウギアヤメ
325.43.41.50.4ヒオウギアヤメ
335.24.11.50.1ヒオウギアヤメ
345.54.21.40.2ヒオウギアヤメ
354.93.11.50.2ヒオウギアヤメ
365.03.21.20.2ヒオウギアヤメ
375.53.51.30.2ヒオウギアヤメ
384.93.61.40.1ヒオウギアヤメ
394.43.01.30.2ヒオウギアヤメ
405.13.41.50.2ヒオウギアヤメ
415.03.51.30.3ヒオウギアヤメ
424.52.31.30.3ヒオウギアヤメ
434.43.21.30.2ヒオウギアヤメ
445.03.51.60.6ヒオウギアヤメ
455.13.81.90.4ヒオウギアヤメ
464.83.01.40.3ヒオウギアヤメ
475.13.81.60.2ヒオウギアヤメ
484.63.21.40.2ヒオウギアヤメ
495.33.71.50.2ヒオウギアヤメ
505.03.31.40.2ヒオウギアヤメ
517.03.24.71.4ヘンショクアヤメ
526.43.24.51.5ヘンショクアヤメ
536.93.14.91.5ヘンショクアヤメ
545.52.34.01.3ヘンショクアヤメ
556.52.84.61.5ヘンショクアヤメ
565.72.84.51.3ヘンショクアヤメ
576.33.34.71.6ヘンショクアヤメ
584.92.43.31.0ヘンショクアヤメ
596.62.94.61.3ヘンショクアヤメ
605.22.73.91.4ヘンショクアヤメ
615.02.03.51.0ヘンショクアヤメ
625.93.04.21.5ヘンショクアヤメ
636.02.24.01.0ヘンショクアヤメ
646.12.94.71.4ヘンショクアヤメ
655.62.93.61.3ヘンショクアヤメ
666.73.14.41.4ヘンショクアヤメ
675.63.04.51.5ヘンショクアヤメ
685.82.74.11.0ヘンショクアヤメ
696.22.24.51.5ヘンショクアヤメ
705.62.53.91.1ヘンショクアヤメ
715.93.24.81.8ヘンショクアヤメ
726.12.84.01.3ヘンショクアヤメ
736.32.54.91.5ヘンショクアヤメ
746.12.84.71.2ヘンショクアヤメ
756.42.94.31.3ヘンショクアヤメ
766.63.04.41.4ヘンショクアヤメ
776.82.84.81.4ヘンショクアヤメ
786.73.05.01.7ヘンショクアヤメ
796.02.94.51.5ヘンショクアヤメ
805.72.63.51.0ヘンショクアヤメ
815.52.43.81.1ヘンショクアヤメ
825.52.43.71.0ヘンショクアヤメ
835.82.73.91.2ヘンショクアヤメ
846.02.75.11.6ヘンショクアヤメ
855.43.04.51.5ヘンショクアヤメ
866.03.44.51.6ヘンショクアヤメ
876.73.14.71.5ヘンショクアヤメ
886.32.34.41.3ヘンショクアヤメ
895.63.04.11.3ヘンショクアヤメ
905.52.54.01.3ヘンショクアヤメ
915.52.64.41.2ヘンショクアヤメ
926.13.04.61.4ヘンショクアヤメ
935.82.64.01.2ヘンショクアヤメ
945.02.33.31.0ヘンショクアヤメ
955.62.74.21.3ヘンショクアヤメ
965.73.04.21.2ヘンショクアヤメ
975.72.94.21.3ヘンショクアヤメ
986.22.94.31.3ヘンショクアヤメ
995.12.53.01.1ヘンショクアヤメ
1005.72.84.11.3ヘンショクアヤメ
1016.33.36.02.5バージニアアヤメ
1025.82.75.11.9バージニアアヤメ
1037.13.05.92.1バージニアアヤメ
1046.32.95.61.8バージニアアヤメ
1056.53.05.82.2バージニアアヤメ
1067.63.06.62.1バージニアアヤメ
1074.92.54.51.7バージニアアヤメ
1087.32.96.31.8バージニアアヤメ
1096.72.55.81.8バージニアアヤメ
1107.23.66.12.5バージニアアヤメ
1116.53.25.12.0バージニアアヤメ
1126.42.75.31.9バージニアアヤメ
1136.83.05.52.1バージニアアヤメ
1145.72.55.02.0バージニアアヤメ
1155.82.85.12.4バージニアアヤメ
1166.43.25.32.3バージニアアヤメ
1176.53.05.51.8バージニアアヤメ
1187.73.86.72.2バージニアアヤメ
1197.72.66.92.3バージニアアヤメ
1206.02.25.01.5バージニアアヤメ
1216.93.25.72.3バージニアアヤメ
1225.62.84.92.0バージニアアヤメ
1237.72.86.72.0バージニアアヤメ
1246.32.74.91.8バージニアアヤメ
1256.73.35.72.1バージニアアヤメ
1267.23.26.01.8バージニアアヤメ
1276.22.84.81.8バージニアアヤメ
1286.13.04.91.8バージニアアヤメ
1296.42.85.62.1バージニアアヤメ
1307.23.05.81.6バージニアアヤメ
1317.42.86.11.9バージニアアヤメ
1327.93.86.42.0バージニアアヤメ
1336.42.85.62.2バージニアアヤメ
1346.32.85.11.5バージニアアヤメ
1356.12.65.61.4バージニアアヤメ
1367.73.06.12.3バージニアアヤメ
1376.33.45.62.4バージニアアヤメ
1386.43.15.51.8バージニアアヤメ
1396.03.04.81.8バージニアアヤメ
1406.93.15.42.1バージニアアヤメ
1416.73.15.62.4バージニアアヤメ
1426.93.15.12.3バージニアアヤメ
1435.82.75.11.9バージニアアヤメ
1446.83.25.92.3バージニアアヤメ
1456.73.35.72.5バージニアアヤメ
1466.73.05.22.3バージニアアヤメ
1476.32.55.01.9バージニアアヤメ
1486.53.05.22.0バージニアアヤメ
1496.23.45.42.3バージニアアヤメ
1505.93.05.11.8バージニアアヤメ

アヤメデータセットは機械学習の初心者向けデータセットとして広く利用されている。R言語の基本パッケージやPythonのscikit-learnに含まれており、利用者が情報源を見つけることなく利用できる。

いくつかのバージョンが公表されている。

Rコード

下に示すRコードによって当記事冒頭に示した散布図を再現できる。

# Show the dataset
iris
# Show the help page, with information about the dataset
?iris

# Create scatterplots of all pairwise combination of the 4 variables in the dataset
pairs(iris[1:4], main="Iris Data (red=setosa,green=versicolor,blue=virginica)",
      pch=21, bg=c("red","green3","blue")[unclass(iris$Species)])

Pythonコード

from sklearn.datasets import load_iris

iris = load_iris()
iris

次の結果が得られる。

{'data': array([[5.1, 3.5, 1.4, 0.2],
                [4.9, 3., 1.4, 0.2],
                [4.7, 3.2, 1.3, 0.2],
                [4.6, 3.1, 1.5, 0.2],...
'target': array([0, 0, 0, ... 1, 1, 1, ... 2, 2, 2, ...
'target_names': array(['setosa', 'versicolor', 'virginica'], dtype='<U10'),
...}

関連項目

出典

外部リンク

Related Articles

Wikiwand AI