データ拡張
From Wikipedia, the free encyclopedia
データ拡張(データかくちょう、英: data augmentation)は、量が不十分な訓練データからの最尤推定を可能にする統計的手法[1][2]。データ拡張はベイズ解析において重要な応用があり[3]、また、この手法は、既存のデータをわずかに変更した複数のコピーでモデルを訓練することにより、機械学習モデルの訓練時における過学習を減らし汎化能力を高めるために、機械学習の分野で広く使用されている[4]。
例えば、手書き文字の画像認識において「データ拡張として画像に-15~15度の回転をかける」というのは「手書き文字は-15~15度の回転をかけても文字の種類が変わらない」という事前知識をモデルの学習に使用することを意味している。数字の6を180度回転すると9になるが「データ拡張に180度の回転を含めない」というのは「手書き文字は180度の回転をかけると文字の種類が変わる」という事前知識を使用している。
幾何学的変換
1990年代半ばに畳み込みニューラルネットワーク(CNN)が大規模化すると、利用できるデータが不足していた。特に、データセット全体の一部は後のテスト用に残しておく必要があった。そこで、既存の訓練データにアフィン変換で摂動を加え、同じラベルを持つ新しい訓練データを作成することが提案された[5]。2003年にマイクロソフトの研究者等がMNISTデータセットに対する弾性歪み(elastic distortion)を提案し[6]、この技術は2010年代には広く利用されるようになった[7]。データ拡張は畳み込みニューラルネットワークの性能を向上させ、畳み込みニューラルネットワークに対するプロファイリング攻撃に対する対抗策としても機能する[8]。
データ拡張は画像分類において基本となっており、訓練データセットの多様性を豊かにして、モデルの汎化能力と性能を向上させる。この手法の進化により、幾何学的変換、色空間変換、ノイズ注入など、広範な技術が導入されてきた。[9]
幾何学的変換は、画像の空間的特性を変化させることで、異なる視点、向き、スケールをシミュレートするものである。主な手法として、以下のものが挙げられる。
- アフィン変換
- 切り抜き:特定の特徴に焦点を当てたり、より近い視点をシミュレートしたりするために、画像の一部を切り取る。
- 弾性歪み[6]
- 同一クラス内モーフィング:同じクラスに属する2つの画像間でモーフィング技術を適用して新しいサンプルを生成し、それによってクラス内の多様性を高める。[10]
色空間変換
色空間変換は、照明、色の彩度、コントラストの変動に対応し、画像の色特性を変化させる。その手法には以下のようなものがある。
- 明るさの調整: さまざまな照明条件をシミュレートするために、画像の明るさを変更する。
- コントラストの調整: さまざまな鮮明度の下でモデルが物体を認識しやすくなるよう、コントラストを変更する。
- 彩度の調整: モデルが多様な色強度の画像に対応できるよう、彩度を変更する。
- カラージッター: 明るさ、コントラスト、彩度、色相をランダムに調整することで、色の多様性を導入する。
ノイズ注入
画像にノイズを注入することは、現実世界の不完全性をシミュレートし、モデルが無関係な変動を無視するよう学習させるものである。その手法は以下の通りである。
- ガウスノイズ:ガウスノイズを追加することは、センサーノイズや画像の粒状性を模倣する。
- ゴマ塩ノイズ:黒または白のピクセルをランダムに導入することで、センサーダストやデッドピクセルをシミュレートする。
参照
- ↑ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). “Maximum Likelihood from Incomplete Data Via the EM Algorithm”. Journal of the Royal Statistical Society. Series B (Methodological) 39 (1): 1–22. doi:10.1111/j.2517-6161.1977.tb01600.x. オリジナルの2022-10-10時点におけるアーカイブ。. https://web.archive.org/web/20221010051829/https://rss.onlinelibrary.wiley.com/doi/abs/10.1111/j.2517-6161.1977.tb01600.x 2024年8月28日閲覧。.
- ↑ Rubin, Donald (1987). “Comment: The Calculation of Posterior Distributions by Data Augmentation”. Journal of the American Statistical Association 82 (398). doi:10.2307/2289460. JSTOR 2289460. オリジナルの2024-08-07時点におけるアーカイブ。. https://web.archive.org/web/20240807015222/https://www.jstor.org/stable/2289460 2024年8月28日閲覧。.
- ↑ Jackman, Simon (2009). Bayesian Analysis for the Social Sciences. John Wiley & Sons. pp. 236. ISBN 978-0-470-01154-6. https://www.wiley.com/en-au/Bayesian+Analysis+for+the+Social+Sciences-p-9780470011546
- ↑ Shorten, Connor; Khoshgoftaar, Taghi M. (2019). “A survey on Image Data Augmentation for Deep Learning”. Mathematics and Computers in Simulation (springer) 6. doi:10.1186/s40537-019-0197-0.
- ↑ Yann Lecun (1995) (Conference paper). Learning algorithms for classification: A comparison on handwritten digit recognition. World Scientific. pp. 261–276. https://nyuscholars.nyu.edu/en/publications/learning-algorithms-for-classification-a-comparison-on-handwritte 2023年5月14日閲覧。
- 1 2 Simard, P.Y.; Steinkraus, D.; Platt, J.C. (2003). “Best practices for convolutional neural networks applied to visual document analysis”. Seventh International Conference on Document Analysis and Recognition, 2003. Proceedings.. 1. pp. 958–963. doi:10.1109/ICDAR.2003.1227801. ISBN 0-7695-1960-1
- ↑ Hinton, Geoffrey E.; Srivastava, Nitish; Krizhevsky, Alex; Sutskever, Ilya; Salakhutdinov, Ruslan R. (2012). “Improving neural networks by preventing co-adaptation of feature detectors”. arXiv:1207.0580 [cs.NE].
- ↑ Cagli, Eleonora; Dumas, Cécile; Prouff, Emmanuel (2017). “Convolutional Neural Networks with Data Augmentation Against Jitter-Based Countermeasures: Profiling Attacks Without Pre-processing”. In Fischer, Wieland; Homma, Naofumi (英語). Cryptographic Hardware and Embedded Systems – CHES 2017. Lecture Notes in Computer Science. 10529. Cham: Springer International Publishing. pp. 45–68. doi:10.1007/978-3-319-66787-4_3. ISBN 978-3-319-66787-4. https://zenodo.org/record/1404232
- ↑ Shorten, Connor; Khoshgoftaar, Taghi M. (2019-07-06). “A survey on Image Data Augmentation for Deep Learning”. Journal of Big Data 6 (1): 60. doi:10.1186/s40537-019-0197-0. ISSN 2196-1115.
- ↑ Ghorbel, Emna; Ghorbel, Faouzi (2024-06-01). “Data augmentation based on shape space exploration for low-size datasets: application to 2D shape classification” (英語). Neural Computing and Applications 36 (17): 10031–10054. doi:10.1007/s00521-024-09798-5. ISSN 1433-3058. https://doi.org/10.1007/s00521-024-09798-5.