※ 저는 AI 기본 거의 모르고 정말 졸프를 위해 생존형으로 읽는 것이기 때문에 너무 신뢰하지 마세요...
(밑줄은 모르겠어서 나중에 찾아보려고 한것이니 신경쓰지 않아도 됩니다...!)
우리가 진행하려고 하는 프로젝트와 유사한 논문이 있어 읽어보기로 했다!
Abstract, Conclusion (놀랍게 Abstract와 Conclusion이 한 단어빼고 똑같다!)
PIRS(privacy incident response system)에 SVM(support vector machine)을 이용하여 image classification을 하는 방법을 소개하고 있다. 이 경우 PIRS에서 개인 정보가 포함된 image를 탐지한다.
개인정보를 포함하는 image에서 optimal features를 추출하기 위해 이 논문에서 training set에서 common features를 select하는 것을 제안하고 있다.
→ 개인정보가 포함된 image를 optimal image features와 SVM classification을 이용하여 탐지하는 방법을 제안한다.
Ⅰ. Introduction
- 개인정보 종류 : 주민등록증, 여권, report cards on one's family, academic career certificates, medical history certificates 등
- input data를 higher dimensional feature space로 mapping하기 위해 SVM의 wavelet kernels를 사용한다. [3]
→ 결과 : non-linear separable problem이 linear separable problem으로 facilitate되고, translation invariant property는 유지되면서 input data의 redundant variables가 제거된다.
- 그 후 SVM classifier는 wavelet kernels에 의해 spanned된 data space에서 optimal approximation을 찾기 위해 이용된다. [4]
* 개인정보가 포함된 이미지의 경우 variant information를 가지고 있기 때문에 이를 분류하기 위해서 invariant features(translations, changes in scale, and rotations of the images 등)에 대응할 수 있어야 한다.
→ invariant features를 얻기 위해 object image의 global, local features가 분석되어야 함. [5]
- 이 논문의 경우 local analysis method를 달성하기 위해 wavelet transformation를 이용하며, 성능 향상을 위해 wavelet invariant moments를 채택하였다.
1.1 Definition of Personal Information
※
1. image files은 file format(ex. image file의 size나 color bits)에 의해 정렬된다.
2. image file 크기는 image에서 사람의 character information을 분석하기 위해 predefined value 이상이어야 한다.
→ 논문의 경우, 이미지 작으면 읽기 힘드니까 150x150 pixels는 되어야 한다고 주장함.
3. color image files를 분석하기 위해 color bits의 수를 24로 제한함. 이 조건을 만족하는 image만 논문에서 제안하는 방법으로 분석이 진행됨. → 흑백 이미지는 분석 대상이 아님.
Ⅱ. Proposed Method
- SVM classifier를 이용한 image analyzer이며 input imaeg가 personal ID를 포함하고 있을 확률을 결과로 도출한다.
① File format verification step : file format, file size, image 해상도 확인
- 이 논문의 경우 BMP, JPGE image file format, 최소 50×50의 image 크기, 24bit color plane 이 분류에 이용됨
② Pre-processing : noise 제거 및 size normalization
③ Color histogram analysis : color bins 개수 계산. threshold value(T=24)보다 작으면 first step으로 return.
Ⅲ. SVM Based Image Classification
(SVM 공부가 따로 필요할 듯 싶다...)
The optimum discrimination has the possible and global feature that SVM can map the pattern with alternative learning methods based on the polynomial or radial basis functions, multi-layer perceptron classifiers with high dimensional feature space [6] (이게 뭐람,,,,)
① Pre-procssing : system learning을 위해 image files이 해당 단계에서 사용되며, feature information을 추출하여 Support Vector parameters를 저장한다.
② input image의 feature information에서 얻은 Support Vector parameter와 training process에서 얻은 parameters를 비교하며 분류 진행
Ⅳ. Experimental Results
- test image의 크기는 100x160으로 normalize
- number of bins for SVM learning : 30
- offset size was 4 if the relationship with the pixel field from one pixel was calculated.
Therefore, the size of the feature information vector extracted from the image file for the learning of the SVM classifier was selected as 1×418.
This was identical to the adjustment of the input image file size to the size of 100×160, consequently reducing 16,000 pixel information to the feature vector dimension.
Hence, 418 input nodes of SVM learning device were given and the SVM parameters used for learning were chosen as the haar wavelet kernel.
(대혼란... 너무 급전개... 더 공부해서 채우겠습니다..^^)
- learning data(총 830개. 197 : 개인정보 포함 이미지 / 633 : general image)로 SVM learning process 진행
References
3. Pradhan, A.: Support vector machine-a survey. Int. Journal of Emerging Technology and Advanced Engineering 2(8), 82–85 (2012)
4. Zhou, J.G., Tian, J.M.: Predicting corporate financial distress based on rough sets and wavelet SVM. In: Proc. Int. Conf. Wavelet Analysis and Pattern Recognition, pp. 602–607 (2007)
5. Gonzalez, R.C., Woods, R.E.: Digital image processing. Prentice Hall (2002)
6. Byun, H.-R., Lee, S.-W.: Applications of support vector machines for pattern recognition: a survey. In: Lee, S.-W., Verri, A. (eds.) SVM 2002. LNCS, vol. 2388, pp. 213–236. Springer, Heidelberg (2002)