Una empresa planea realizar una prueba de concepto para un proyecto de aprendizaje automático (ML) mediante Amazon SageMaker con un subconjunto de datos on-premise existentes alojados en el almacén de datos de 3 TB de la empresa. Para parte del proyecto, se ha establecido y probado AWS Direct Connect. Para preparar los datos para ML, los analistas de datos están realizando la curación de datos. Los analistas de datos desean realizar varios pasos, incluida la asignación, la eliminación de campos nulos, la resolución de opciones y la división de campos. La empresa necesita la solución más rápida para
A. Ingesta de datos en Amazon S3 mediante AWS DataSync y uso de Apache Spark scrips para curar los datos en un clúster de Amazon EMR
B. Almacenar los datos curados en Amazon S3 para el procesamiento de ML
C. Crear trabajos ETL personalizados en las instalaciones para curar los datos
D. Utilizar AWS DMS para ingestar datos en Amazon S3 para el procesamiento de ML
E. Ingesta de datos en Amazon S3 mediante AWS DM
F. Utilice AWS Glue para realizar la curación de datos y almacenarlos en Amazon S3 para el procesamiento de ML