한 회사가 회사의 3TB 데이터 웨어하우스에 호스팅된 기존 온프레미스 데이터의 하위 집합으로 Amazon SageMaker를 사용하여 머신 러닝(ML) 프로젝트의 개념 증명을 수행할 계획입니다. 프로젝트의 일부로 AWS 다이렉트 커넥트를 설정하고 테스트했습니다. ML을 위한 데이터를 준비하기 위해 데이터 분석가들은 데이터 큐레이션을 수행하고 있습니다. 데이터 분석가들은 매핑, null 필드 삭제, 선택 항목 해결, 필드 분할 등 여러 단계를 수행하고자 합니다. 이 회사에는 가장 빠른 데이터 큐레이션 솔루션이 필요합니다
A. AWS DataSync를 사용하여 Amazon S3로 데이터를 수집하고 Apache Spark 스크립트를 사용하여 Amazon EMR 클러스터에서 데이터를 큐레이팅합니다
B. ML 처리를 위해 선별된 데이터를 Amazon S3에 저장합니다
C. 온프레미스에서 사용자 지정 ETL 작업을 생성하여 데이터를 큐레이션합니다
D. AWS DMS를 사용하여 ML 처리를 위해 Amazon S3로 데이터를 수집합니다
E. AWS DM을 사용하여 Amazon S3로 데이터 수집
F. AWS Glue를 사용하여 데이터 큐레이션을 수행하고 ML 처리를 위해 Amazon S3에 데이터를 저장합니다