Uma empresa está a planear fazer uma prova de conceito para um projeto de aprendizagem automática (ML) utilizando o Amazon SageMaker com um subconjunto de dados existentes no local alojados no armazém de dados de 3 TB da empresa. Para parte do projeto, o AWS Direct Connect é estabelecido e testado. Para preparar os dados para o ML, os analistas de dados estão a efetuar a curadoria de dados. Os analistas de dados pretendem executar vários passos, incluindo mapeamento, eliminação de campos nulos, resolução de escolhas e divisão de campos. A empresa precisa da solução mais rápida para curar
A. Ingerir dados no Amazon S3 usando o AWS DataSync e usar scrips do Apache Spark para curar os dados em um cluster do Amazon EMR
B. Armazenar os dados seleccionados no Amazon S3 para processamento de ML
C. Criar tarefas ETL personalizadas no local para selecionar os dados
D. Utilizar o AWS DMS para ingerir dados no Amazon S3 para processamento de ML
E. Ingerir dados no Amazon S3 usando o AWS DM
F. Utilize o AWS Glue para efetuar a curadoria de dados e armazenar os dados no Amazon S3 para processamento de ML