使用最新的 MLS-C01 練習題輕鬆通過 AWS 考試

問題 #1

一家汽車發動機製造商在汽車行駛過程中收集數據。收集的數據包括時間戳、發動機溫度、每分鐘轉速（RPM）和其他傳感器讀數。該公司希望預測發動機何時會出現問題，以便提前通知司機進行發動機維護。哪種預測模型最適合部署到生產中？

A. 添加時間標籤，標明發動機故障在未來什麼時間發生，將其轉化爲監督學習問題。使用遞歸神經網絡 (RNN) 訓練模型，以識別發動機何時可能因某種故障而需要維護。

B. 該數據需要使用無監督學習算法。使用 Amazon SageMaker k-means 對數據進行聚類。

C. 加時間標籤，指出發動機在未來什麼時間會出現哪些故障，將其轉化爲監督學習問題。使用卷積神經網絡 (CNN) 訓練模型，以識別發動機何時可能因某種故障而需要維護。

D. 數據已編制爲時間序列。使用 Amazon SageMaker seq2seq 建立時間序列模型。

查看答案

正確答案: A

問題 #2

一位數據科學家需要爲一家公司的電子商務平臺識別欺詐用戶賬戶。該公司希望能夠確定新創建的賬戶是否與之前已知的欺詐用戶相關聯。數據科學家正在使用 AWS Glue 在攝取過程中清理公司的應用程序日誌。哪種策略可以讓數據科學家識別欺詐賬戶？

A. 執行內置的 FindDuplicates Amazon Athena 查詢。

B. 在 AWS Glue 中創建 FindMatches 機器學習轉換。

C. 建一個 AWS Glue 爬蟲，以推斷源數據中的重複賬戶。

D. 在 AWS Glue 數據目錄中搜索重複賬戶。

查看答案

正確答案: B

問題 #3

一家零售公司打算使用機器學習對新產品進行分類。數據科學團隊獲得了一個當前產品的標籤數據集。該數據集包括 1,200 種產品。每個產品的標籤數據集都有 15 個特徵，如標題尺寸、重量和價格。每個產品都被標記爲屬於書籍、遊戲、電子產品和電影等六個類別之一。使用所提供的數據集進行訓練，應該使用哪種模型對新產品進行分類？

A. 目標參數設置爲 multi:softmax 的 XGBoost 模型

B. 最後一層使用軟最大激活函數的深度卷積神經網絡（CNN）

C. 歸森林，樹的數量等於產品類別的數量

D. 於遞歸神經網絡（RNN）的 DeepAR 預測模型

查看答案

正確答案: A

問題 #4

數據科學家使用 Amazon SageMaker 筆記本實例進行數據探索和分析。這需要在筆記本實例上安裝某些 Amazon SageMaker 本機不可用的 Python 軟件包。機器學習專家如何確保筆記本實例上自動提供所需的軟件包供數據科學家使用？

A. 在底層 Amazon EC2 實例上安裝 AWS 系統管理器代理，並使用系統管理器自動化執行軟件包安裝命令。

B. 創建一個 Jupyter 筆記本文件（

C. Jupyter 筆記本控制臺中使用 conda 軟件包管理器，將必要的 conda 軟件包應用到筆記本的默認內核。

D. 使用軟件包安裝命令創建 Amazon SageMaker 生命周期配置，並將生命周期配置分配給筆記本實例。

查看答案

正確答案: D

問題 #5

一位機器學習專家爲一家水果加工公司工作，需要建立一個能將蘋果分爲三種類型的系統。該專家收集了一個數據集，其中包含每種類型蘋果的 150 張圖像，並在一個神經網絡上應用了遷移學習，該網絡已在 ImageNet 上使用該數據集進行了預訓練。

A. 將圖像轉換爲灰度圖像並重新訓練模型

B. 將不同項目的數量從 10 個減少到 2 個，建立模型并迭代

C. 每個物品貼上不同顏色的標籤，再次拍攝圖像，並建立模型

D. 使用圖像變體（如反轉和平移）來增加每個項目的訓練數據，建立模型並進行迭代。

查看答案

正確答案: B

問題 #6

一位機器學習專家使用少量數據樣本爲一家公司完成了概念驗證，現在該專家準備使用 Amazon SageMaker 在 AWS 中實施端到端解決方案。歷史訓練數據存儲在 Amazon RDS 中。專家應該使用哪種方法來使用這些數據訓練模型？

A. 在筆記本中編寫與 SQL 數據庫的直接連接，並將數據導入

B. 使用 AWS 數據管道將數據從 Microsoft SQL Server 推送到 Amazon S3，並在筆記本中提供 S3 位置。

C. ove the data to Amazon DynamoDB and set up a connection to DynamoDB within the notebook to pull data in

D. 使用 AWS DMS 將數據移至 Amazon ElastiCache，並在筆記本中設置一個連接，以便快速訪問數據。

查看答案

正確答案: B

問題 #7

某公司正在構建一個基於機器學習 (ML) 的預測性維護模型。數據存儲在一個完全私有的亞馬遜 S3 存儲桶中，該存儲桶在靜態時使用 AWS 密鑰管理服務（AWS KMS）CMK 進行加密。ML 專家必須使用 Amazon SageMaker 處理作業運行數據預處理，該作業由 Amazon SageMaker 筆記本中的代碼觸發。該作業應從亞馬遜 S3 中讀取數據，對其進行處理，然後上傳回同一 S3 存儲桶。預處理代碼存儲在容器映像中

A. 創建一個 IAM 角色，該角色具有創建 Amazon SageMaker 處理作業的權限、對相關 S3 存儲桶的 S3 讀寫訪問權限以及適當的 KMS 和 ECR 權限。將該角色附加到 SageMaker 筆記本實例。從筆記本創建 Amazon SageMaker 處理作業。

B. 創建具有創建 Amazon SageMaker 處理作業權限的 IAM 角色。將該角色附加到 SageMaker 筆記本實例。創建一個 Amazon SageMaker 處理作業，其 IAM 角色具有相關 S3 存儲桶的讀寫權限以及適當的 KMS 和 ECR 權限。

C. 創建一個 IAM 角色，該角色具有創建 Amazon SageMaker 處理作業和訪問 Amazon ECR 的權限。將該角色附加到 SageMaker 筆記本實例。在默認 VP 中設置 S3 端點和 KMS 端點從筆記本創建 Amazon SageMaker 處理作業。

D. 創建具有創建 Amazon SageMaker 處理作業權限的 IAM 角色。將該角色附加到 SageMaker 筆記本實例。在默認 VPC 中設置 S3 端點。使用具有適當 KMS 和 ECR 權限的 IAM 用戶的訪問密鑰和祕鑰創建 Amazon SageMaker 處理作業。

查看答案

正確答案: D

問題 #8

一位機器學習專家正在與一家大公司合作，在其產品中利用機器學習。該公司希望根據哪些客戶會在未來 6 個月內流失，哪些不會流失，將客戶分爲不同類別。專家應該使用哪種機器學習模型類型來完成這項任務？

A. 性回歸

B. 分類

C. 集羣

D. 化學習

查看答案

正確答案: B

問題 #9

一名機器學習 (ML) 專家正在管理一個已配置模型監控的生產型 Amazon SageMaker 端點。Amazon SageMaker 模型監控器在 SageMaker 端點上檢測到違規行爲，因此 ML 專家使用最新數據集重新訓練模型。該數據集在統計上代表了當前的生產流量。人工智能專家注意到，即使部署了新的 SageMaker 模型並運行了第一個監控作業，SageMaker 端點仍然存在違規行爲。

A. 動觸發監控任務，重新評估 SageMaker 端點流量樣本。

B. 在新的訓練集上再次運行模型監控器基線作業。配置模型監控器以使用新基線。

C. 刪除端點，然後使用原始配置重新創建。

D. 結合使用原始訓練集和新的訓練集，再次重新訓練模型。

查看答案

正確答案: B

問題 #10

一家公司利用商店貨架上陳列的商品頂部的攝像頭圖像來確定哪些商品已被移走，哪些還在。經過幾個小時的數據標註，該公司總共獲得了 1000 張手工標註的圖像，涵蓋 10 種不同的商品。哪種機器學習方法能滿足該公司的長期需求？

A. k=5 的 k 倍交叉驗證策略

B. k=5 的分層 k 倍交叉驗證策略

C. k=5 和 3 次重複的 k 倍交叉驗證策略

D. 練和驗證的分層比例爲 80/20

查看答案

正確答案: D

問題 #11

機器學習專家需要建立一個有監督的圖像識別模型來識別一隻貓。機器學習專家進行了一些測試，並爲基於神經網絡的圖像分類器記錄了以下結果：可用圖像總數 = 1,000 測試集圖像 = 100（恆定測試集）機器學習專家注意到，在超過 75% 的錯誤分類圖像中，貓被主人倒抱着。

A. 通過增加訓練圖像的旋轉變化來增加訓練數據。

B. 加模型訓練的曆元數

C. 增加神經網絡的層數。

D. 提高倒數第二層的輟學率。

查看答案

正確答案: A

問題 #12

使用內置算法之一提交 Amazon SageMaker 培訓作業時，必須指定哪些常用參數？(選擇三個）。

A. 二值化

B. 一熱編碼

C. 牌化

D. 歸一化轉換

查看答案

正確答案: AEF

問題 #13

一位機器學習專家正在爲一家公司設計一個提高銷售額的系統。目標是利用公司掌握的大量有關用戶行爲和產品偏好的信息，根據用戶與其他用戶的相似性來預測用戶會喜歡哪些產品。

A. 在亞馬遜 EMR 上使用 Apache Spark ML 構建基於內容的過濾推薦引擎

B. 在亞馬遜 EMR 上使用 Apache Spark ML 構建協同過濾推薦引擎。

C. 亞馬遜 EMR 上使用 Apache Spark ML 構建基於模型的過濾推薦引擎

D. 亞馬遜 EMR 上使用 Apache Spark ML 構建組合過濾推薦引擎

查看答案

正確答案: B

問題 #14

一家公司正在將大量非結構化紙質收據轉換成圖像。該公司希望創建一個基於自然語言處理（NLP）的模型，以查找日期、地點和備註等相關實體，以及收據編號等一些自定義實體。然而，文檔的結構和格式各不相同，該公司在爲每個文檔設置手動工作流方面面臨挑戰。

A. 使用 Amazon Textract 從收據圖像中提取文本。使用 Amazon SageMaker BlazingText 算法對文本進行實體和自定義實體訓練。

B. 使用 AWS Marketplace 上的深度學習 OCR 模型從收據圖像中提取文本。使用 NER 深度學習模型提取實體。

C. 使用 Amazon Textract 從收據圖像中提取文本。使用 Amazon Comprehend 進行實體檢測，並使用 Amazon Comprehend 自定義實體識別進行自定義實體檢測。

D. 用 AWS Marketplace 上的深度學習 OCR 模型從收據圖像中提取文本。使用 Amazon Comprehend 進行實體檢測，並使用 Amazon Comprehend 自定義實體識別進行自定義實體檢測。

查看答案

正確答案: C

問題 #15

一位機器學習專家正在將線性最小二乘回歸模型應用於一個有 1000 條記錄和 50 個特徵的數據集。在訓練之前，機器學習專家注意到兩個特徵完全線性相關。爲什麼這對線性最小二乘回歸模型來說是個問題？

A. 可能導致反向傳播算法在訓練過程中失敗

B. 優化過程中可能會產生奇異矩陣，從而無法確定唯一的解決方案

C. 可能在優化過程中修改損失函數，導致訓練失敗

D. 能會在數據中引入非線性依賴關係，從而使模型的線性假設失效

查看答案

正確答案: C

問題 #16

一家電子商務公司希望爲其網絡應用程序推出基於雲的新產品推薦功能。由於數據本地化規定，任何敏感數據都不得離開其內部數據中心，產品推薦模型必須僅使用非敏感數據進行訓練和測試。向雲端傳輸數據必須使用 IPsec。網絡應用程序託管在公司內部，其中的 PostgreSQL 數據庫包含所有數據。公司希望將數據安全上傳到 Amazon S3 e

A. 創建一個 AWS Glue 作業來連接 PostgreSQL DB 實例。通過 AWS 站點到站點 VPN 連接將不含敏感數據的表直接攝取到 Amazon S3。

B. 創建一個 AWS Glue 作業來連接 PostgreSQL DB 實例。通過 AWS 站點到站點 VPN 連接將所有數據攝入亞馬遜 S3，同時使用 PySpark 作業刪除敏感數據。

C. 使用 AWS 數據庫遷移服務（AWS DMS）和表映射，通過 SSL 連接選擇不含敏感數據的 PostgreSQL 表。將數據直接複製到亞馬遜 S3。

D. 用 PostgreSQL 邏輯複製，通過 AWS Direct Connect 和 VPN 連接將所有數據複製到 Amazon EC2 中的 PostgreSQL。使用 AWS Glue 將數據從 Amazon EC2 移至 Amazon S3。

查看答案

正確答案: C

問題 #17

一家製造公司在亞馬遜 S3 存儲桶中存儲了結構化和非結構化數據。機器學習專家希望使用 SQL 對這些數據進行查詢。要查詢這些數據，哪種解決方案所需的工作量最少？

A. 使用 AWS Data Pipeline 轉換數據，使用 Amazon RDS 運行查詢。

B. 使用 AWS Glue 對數據進行編目，並使用 Amazon Athena 運行查詢。

C. 用 AWS Batch 對數據運行 ETL，使用 Amazon Aurora 運行查詢。

D. 用 AWS Lambda 轉換數據，使用 Amazon Kinesis Data Analytics 運行查詢。

查看答案

正確答案: B

問題 #18

一家對安全非常敏感的公司的機器學習專家正在爲模型訓練準備一個數據集。該數據集存儲在亞馬遜 S3 中，包含個人身份信息 (PII)。該數據集：-必須只能從 VPC 訪問。

A. 建一個 VPC 端點，並應用限制訪問給定 VPC 端點和 VPC 的桶訪問策略。

B. 創建一個 VPC 端點，並應用允許從給定的 VPC 端點和 Amazon EC2 實例進行訪問的桶訪問策略。

C. 建一個 VPC 端點，並使用網絡訪問控制列表 (NACL) 僅允許給定的 VPC 端點和 Amazon EC2 實例之間的流量。

D. 建 VPC 端點，使用安全組限制對給定 VPC 端點和 Amazon EC2 實例的訪問

查看答案

正確答案: A

問題 #19

一位機器學習專家正在亞馬遜 SageMaker 上準備用於訓練的數據。該專家正在使用 SageMaker 的一種內置算法進行訓練。數據集以 .CSV 格式存儲，並轉換爲 numpy.array 格式，這似乎對訓練速度產生了負面影響。專家應該如何優化數據，以便在 SageMaker 上進行訓練？

A. 使用 SageMaker 批量轉換功能將訓練數據轉換爲 DataFrame。

B. 使用 AWS Glue 將數據壓縮爲 Apache Parquet 格式。

C. 數據集轉換爲 RecordIO protobuf 格式。

D. 用 SageMaker 超參數優化功能自動優化數據。

查看答案

正確答案: C

問題 #20

數據科學家正在使用 Amazon SageMaker 筆記本實例，需要安全地訪問存儲在特定 Amazon S3 存儲桶中的數據。

A. 添加一個 S3 桶策略，允許將 GetObject、PutObject 和 ListBucket 權限作爲 Principal 添加到 Amazon SageMaker 筆記本 ARN。

B. 使用只有筆記本所有者才能訪問的自定義 AWS 密鑰管理服務 (AWS KMS) 密鑰加密 S3 存儲桶中的對象。

C. 將策略附加到與筆記本關聯的 IAM 角色，允許對特定 S3 桶進行 GetObject、PutObject 和 ListBucket 操作。

D. 生命周期配置中使用腳本，在實例上配置 AWS CLI 的訪問密鑰 ID 和密文。

查看答案

正確答案: C

問題 #21

一位機器學習專家將物聯網土壤傳感器數據存儲在亞馬遜 DynamoDB 表中，並將天氣事件數據以 JSON 文件格式存儲在亞馬遜 S3 中。DynamoDB 中的數據集大小爲 10 GB，Amazon S3 中的數據集大小爲 5 GB。專家希望使用 Amazon SageMaker 在這些數據上訓練一個模型，以幫助預測土壤溼度水平作爲天氣事件的函數。

A. 啓動亞馬遜 EMR 集羣。爲 DynamoDB 表和 S3 數據創建 Apache Hive 外部表。連接 Hive 表並將結果寫入 Amazon S3。

B. 使用 AWS Glue 爬蟲抓取數據。編寫一個 AWS Glue ETL 作業，合併兩個表並將輸出寫入 Amazon Redshift 集羣。

C. 在傳感器表上啓用 Amazon DynamoDB 流。編寫一個 AWS Lambda 函數，消耗流並將結果追加到亞馬遜 S3 中的現有天氣文件。

D. 使用 AWS Glue 爬蟲抓取數據。編寫一個 AWS Glue ETL 作業，合併兩個表並將 CSV 格式的輸出寫入 Amazon S3。

查看答案

正確答案: D

問題 #22

一位機器學習專家需要分析一個用戶遍布全球的新聞網站上的評論。該專家必須找出評論中討論最多的英語或西班牙語話題。(選擇兩個）。

A. 使用 Amazon SageMaker BlazingText 算法獨立於語言查找主題。繼續分析。

B. 如有必要，使用 Amazon SageMaker seq2seq 算法將西班牙語翻譯成英語。使用 SageMaker Latent Dirichlet Allocation (LDA) 算法查找主題。

C. 有必要，使用 Amazon Translate 將西班牙語翻譯成英語。使用 Amazon Comprehend 主題建模查找主題。

D. 如有必要，使用 Amazon Translate 將西班牙語翻譯成英語。使用 Amazon Lex 從內容中提取主題。

E. 如有必要，使用 Amazon Translate 將西班牙語翻譯成英語。使用 Amazon SageMaker 神經主題模型 (NTM) 查找主題。

查看答案

正確答案: B

問題 #23

一位數據科學家正在開發一款進行情感分析的應用程序。驗證準確率很低，數據科學家認爲原因可能是數據集中的詞彙豐富，平均詞頻較低。

A. mazon Comprehend 語法分析和實體檢測

B. mazon SageMaker BlazingText cbow 模式

C. 然語言工具包（NLTK）的詞幹和停頓詞去除

D. cikit-leam詞頻-反向文檔頻率（TF-IDF）向量器

查看答案

正確答案: D

問題 #24

一家零售連鎖店一直在使用 Amazon Kinesis Data Firehose 將其 20,000 家門店網絡中的採購記錄導入 Amazon S3。爲了支持改進後的機器學習模型的訓練，訓練記錄需要進行新的但簡單的轉換，某些屬性需要合併。考慮到商店數量衆多和傳統的數據攝取方式，哪種變化所需的開發工作量最少？

A. 學

B. 平滑 L1 損失

C. oftmax

D. 整流線性單元（ReLU）

查看答案

正確答案: D

問題 #25

一位機器學習專家希望將自定義算法引入 Amazon SageMaker。專家應該如何打包 Docker 容器，以便 Amazon SageMaker 可以正確啓動訓練？

A. 改容器中的 bash_profile 文件，添加一條 bash 命令來啓動訓練程序

B. 在 Dockerfile 中使用 CMD 配置，將培訓程序添加爲映像的 CMD

C. 培訓程序配置爲名爲 train 的 ENTRYPOINT

D. 培訓程序複製到 /opt/ml/train 目錄中

查看答案

正確答案: B

問題 #26

一家電信公司正在爲其客戶開發一款移動應用程序。該公司正在使用 Amazon SageMaker 託管端點進行機器學習模型推斷。開發人員希望爲訂閱應用程序預覽功能的少數用戶推出新版本的模型。新版模型作爲預覽版進行測試後，開發人員將評估其準確性。如果新版本的模型具有更好的準確性，開發人員需要能夠逐步發布新版本的模型。

A. 使用初始變量權重參數設置爲 0 的 CreateEndpointConfig 操作，用新版本的模型更新 ProductionVariant 數據類型。爲訂閱預覽功能的用戶指定 InvokeEndpoint 調用的 TargetVariant 參數。當模型的新版本準備好發布時，逐步增加 InitialVariantWeight，直到所有用戶都擁有更新的版本。

B. 配置兩個 SageMaker 託管端點，爲不同版本的模型提供服務。創建應用程序負載平衡器 (ALB)，根據 TargetVariant 查詢字符串參數將流量路由到這兩個端點。重新配置應用程序，爲訂閱預覽功能的用戶發送 TargetVariant 查詢字符串參數。當模型的新版本準備發布時，將 ALB 的路由算法改爲加權算法，直到所有用戶都擁有更新的版本。

C. 通過使用更新端點權重和容量操作，將 DesiredWeight 參數設置爲 0，用新版本的模型更新 DesiredWeightsAndCapacity 數據類型。爲訂閱預覽功能的用戶指定 InvokeEndpoint 調用的 TargetVariant 參數。當模型的新版本可以發布時，逐步增加 DesiredWeight，直到所有用戶都擁有更新的版本。

D. 置兩個 SageMaker 託管端點，爲不同版本的模型提供服務。創建一個 Amazon Route 53 記錄，該記錄使用簡單路由策略進行配置，並指向當前版本的模型。配置移動應用程序，使訂閱預覽功能的用戶使用端點 URL，其他用戶使用 Route 53 記錄。當模型的新版本準備發布時，在 Route 53 中添加一個新的模型版本端點，並將策略切換爲加權，直到所有用戶都擁有更新的版本。

查看答案

正確答案: D

問題 #27

某公司爲其數據科學團隊提供 Amazon SageMaker 筆記本實例，並創建 Amazon VPC 接口端點，以確保 VPC 與筆記本實例之間的通信。與 Amazon SageMaker API 的所有連接都完全通過 AWS 網絡安全地進行。但是，數據科學團隊意識到，VPC 外部的個人仍然可以通過互聯網連接到筆記本實例。數據科學團隊應該採取哪套措施來解決這個問題？

A. 修改筆記本實例的安全組，使其只允許來自 VPC CIDR 範圍的流量。將此安全組應用到筆記本實例的所有 VPC 接口。

B. 建一個 IAM 策略，只允許從 VPC 端點執行 sagemaker:CreatePresignedNotebooklnstanceUrl 和 sagemaker:DescribeNotebooklnstance 操作。將此策略應用到用於訪問筆記本實例的所有 IAM 用戶、組和角色。

C. 向 VP 添加 NAT 網關將託管 Amazon SageMaker 筆記本電腦實例的所有子網轉換爲私有子網。停止並啓動所有筆記本實例，只重新分配私有 IP 地址。

D. 更改筆記本所在子網的網絡 ACL，限制 VPC 外部任何人的訪問。

查看答案

正確答案: B

問題 #28

一家技術初創公司正在使用複雜的深度神經網絡和 GPU 計算，根據每位客戶的習慣和互動情況向其現有客戶推薦公司的產品。該解決方案目前從亞馬遜 S3 存儲桶中提取每個數據集，然後將數據加載到從公司 Git 存儲庫中提取的 TensorFlow 模型中，該模型在本地運行。然後，這項工作會運行幾個小時，同時不斷將其進度輸出到同一個 S3 存儲桶中。作業可以暫停、重啓和繼續

A. 使用 AWS 深度學習容器實施解決方案，並在 GPU 兼容的 Spot Instance 上使用 AWS Batch 將容器作爲作業運行

B. 用與 GPU 兼容的低成本 Amazon EC2 實例實施解決方案，並使用 AWS Instance Scheduler 調度任務

C. 用 AWS 深度學習容器實施解決方案，使用在 Spot Instances 上運行的 AWS Fargate 運行工作負載，然後使用內置任務調度器調度任務

D. 用在 Spot Instances 上運行的 Amazon ECS 實施解決方案，並使用 ECS 服務調度程序調度任務

查看答案

正確答案: C

問題 #29

一位機器學習專家正在與一家大型網絡安全公司合作，該公司爲世界各地的公司實時管理安全事件。該網絡安全公司希望設計一種解決方案，使其能夠使用機器學習將惡意事件作爲異常數據進行評分。該公司還希望能夠將結果保存在數據湖中，以便日後進行處理和分析。完成這些任務的最有效方法是什麼？

A. 使用 Amazon Kinesis Data Firehose 接收數據，並使用 Amazon Kinesis Data Analytics Random Cut Forest (RCF) 進行異常檢測。然後使用 Kinesis Data Firehose 將結果流式傳輸到 Amazon S3。

B. 使用 Amazon EMR 將數據輸入 Apache Spark Streaming，並使用 Spark MLlib 和 k-means 執行異常檢測。然後使用亞馬遜 EMR 將結果存儲到 Apache Hadoop 分布式文件系統（HDFS）中，數據湖的複製因子爲 3。

C. ngest the data and store it in Amazon S3

D. 接收數據並將其存儲在亞馬遜 S3 中。讓按需觸發的 AWS Glue 作業轉換新數據。然後使用 Amazon SageMaker 內置的隨機剪切森林 (RCF) 模型來檢測數據中的異常。

查看答案

正確答案: A

問題 #30

機器學習專家之前在本地機器上使用 scikit-learn 訓練了一個邏輯回歸模型，現在該專家希望將其部署到生產中，僅用於推理。應採取哪些步驟確保 Amazon SageMaker 可以託管在本地訓練的模型？

A. 使用數據庫（如 Amazon DynamoDB）來存儲映像，並設置 IAM 策略以限制只有所需的 IAM 用戶才能訪問。

B. 使用 Amazon S3 支持的數據湖來存儲原始圖像，並使用桶策略設置權限。

C. 使用 Hadoop Distributed File System (HDFS) 設置 Amazon EMR 以存儲文件，並使用 IAM 策略限制對 EMR 實例的訪問。

D. 用 IAM 策略配置 Amazon EFS，以便將數據提供給 IAM 用戶擁有的 Amazon EC2 實例。

查看答案

正確答案: A

問題 #31

僅從圖表來看，機器學習專家應該對模型的行爲做出哪種結論？

A. 型對趨勢和季節性的預測都很好

B. 型能很好地預測趨勢，但不能預測季節性。

C. 型能很好地預測季節性，但不能預測趨勢。

D. 型不能很好地預測趨勢或季節性。

查看答案

正確答案: A

問題 #32

機器學習專家正在使用線性模型（如線性回歸和邏輯回歸）爲大量特徵建立預測模型。在探索性數據分析過程中，專家發現許多特徵之間存在高度相關性。該如何減少大量特徵帶來的影響？

A. 對高度相關的特徵進行單次編碼

B. 對高度相關的特徵使用矩陣乘法。

C. 用主成分分析（PCA）創建新的特徵空間

D. 應用皮爾遜相關係數。

查看答案

正確答案: C

問題 #33

一家金融服務公司正在亞馬遜 S3 上構建一個強大的無服務器數據湖。該數據湖應具有靈活性並滿足以下要求：-支持通過 Amazon Athena 和 Amazon Redshift Spectrum 查詢亞馬遜 S3 上的新舊數據-支持事件驅動的 ETL 管道-提供一種快速、簡單的方法來理解元數據哪種方法能滿足這些要求？

A. 使用 AWS Glue 爬蟲抓取 S3 數據，使用 AWS Lambda 函數觸發 AWS Glue ETL 作業，使用 AWS Glue 數據目錄搜索和發現元數據。

B. 使用 AWS Glue 爬蟲抓取 S3 數據，使用 AWS Lambda 函數觸發 AWS 批處理作業，使用外部 Apache Hive 元存儲搜索和發現元數據。

C. 使用 AWS Glue 爬蟲抓取 S3 數據，使用 Amazon CloudWatch 警報觸發 AWS 批次作業，使用 AWS Glue 數據目錄搜索和發現元數據。

D. 用 AWS Glue 爬蟲抓取 S3 數據，使用 Amazon CloudWatch 警報觸發 AWS Glue ETL 作業，使用外部 Apache Hive 元存儲搜索和發現元數據。

查看答案

正確答案: A

問題 #34

一位機器學習專家正在爲一個應用程序開發一個自定義視頻推薦模型。用於訓練該模型的數據集非常龐大，包含數百萬個數據點，並託管在 Amazon S3 存儲桶中。該專家希望避免將所有這些數據加載到 Amazon SageMaker 筆記本實例上，因爲移動這些數據需要花費數小時，而且會超出筆記本實例上所附的 5 GB Amazon EBS 卷。

A. 在 SageMaker 筆記本中加載一個較小的數據子集，並在本地進行訓練。確認訓練代碼正在執行，模型參數似乎合理。使用管道輸入模式，使用 S3 數據桶中的完整數據集啓動 SageMaker 訓練作業。

B. 使用 AWS 深度學習 AMI 啓動 Amazon EC2 實例，並將 S3 存儲桶附加到該實例。在少量數據上進行訓練，以驗證訓練代碼和超參數。返回 Amazon SageMaker，使用完整數據集進行訓練

C. 用 AWS Glue 使用一小部分數據集訓練模型，以確認數據與 Amazon SageMaker 兼容。使用管道輸入模式，使用 S3 數據桶中的完整數據集啓動 SageMaker 訓練作業。

D. 在 SageMaker 筆記本中加載一個較小的數據子集，並在本地進行訓練。確認訓練代碼正在執行，模型參數似乎合理。使用 AWS 深度學習 AMI 啓動亞馬遜 EC2 實例，並附加 S3 存儲桶以訓練完整數據集。

查看答案

正確答案: A

問題 #35

某公司希望根據現有的歷史銷售數據預測房屋的銷售價格。該公司數據集中的目標變量是銷售價格。其特徵包括地塊大小、居住面積測量值、非居住面積測量值、臥室數量、浴室數量、建造年份和郵政編碼等參數。該公司希望使用多變量線性回歸來預測房屋銷售價格。

A. 繪製特徵直方圖並計算其標準偏差。刪除方差較大的特徵。

B. 繪製特徵直方圖並計算其標準偏差。刪除方差小的特徵。

C. 繪製熱圖，顯示數據集與自身的相關性。刪除相互相關性得分較低的特徵。

D. 對所有特徵與目標變量進行相關性檢查。刪除目標變量相關性得分較低的特徵。

查看答案

正確答案: D

問題 #36

一家卡車運輸公司正在從其遍布全球的車隊收集實時圖像數據。數據增長迅速，每天產生約 100 GB 的新數據。該公司希望探索機器學習用例，同時確保只有特定的 IAM 用戶才能訪問這些數據。哪種存儲方案能提供最大的處理靈活性，並允許通過 IAM 進行訪問控制？

A. 對所有特徵運行自相關性，並移除高度相關的特徵

B. 將所有數值歸一化，使其介於 0 和 1 之間

C. 用自動編碼器或主成分分析 (PCA) 用新特徵替換原有特徵

D. 使用 k-means 對原始數據進行聚類，並使用每個聚類的樣本數據建立新的數據集

查看答案

正確答案: C

問題 #37

一家零售公司希望將客戶訂單與產品目錄中的產品描述數據結合起來。每個數據集中的記錄結構和格式都不同。一位數據分析師嘗試使用電子表格來合併數據集，但結果是出現重複記錄和未正確合併的記錄。該公司需要一個解決方案，用於合併兩個數據集中的相似記錄並刪除任何重複記錄。

A. 使用 AWS Lambda 函數處理數據。使用兩個數組比較兩個數據集中字段中相等的字符串，並刪除任何重複的字符串。

B. 創建 AWS Glue 爬蟲，用於讀取和填充 AWS Glue 數據目錄。調用 AWS Glue SearchTables API 操作對兩個數據集執行模糊匹配搜索，並相應地清理數據。

C. 建 AWS Glue 爬蟲，用於讀取和填充 AWS Glue 數據目錄。使用 FindMatches 轉換清理數據。

D. 創建 AWS Lake Formation 自定義轉換。從 Lake Formation 控制臺運行匹配產品的轉換，以自動清理數據。

查看答案

正確答案: C

問題 #38

一家媒體公司擁有大量未標記的圖像、文本、音頻和視頻片段，希望爲其資產建立索引，以便研究團隊快速識別相關內容。該公司希望使用機器學習來加速內部研究人員的工作，因爲他們的機器學習專業知識有限。

A. 使用 Amazon Rekognition、Amazon Comprehend 和 Amazon Transcribe 將數據標記爲不同的類別/類。

B. 創建一組 Amazon Mechanical Turk 人類智能任務，爲所有鏡頭貼上標籤。

C. 使用 Amazon Transcribe 將語音轉換爲文本。使用 Amazon SageMaker 神經主題模型 (NTM) 和對象檢測算法將數據標記爲不同的類別/類。

D. 使用 AWS 深度學習 AMI 和 Amazon EC2 GPU 實例創建用於音頻轉錄和主題建模的自定義模型，並使用對象檢測將數據標記爲不同的類別/類。

查看答案

正確答案: A

問題 #39

機器學習 (ML) 專家必須爲一家金融服務公司開發一個分類模型。一位領域專家提供了數據集，該數據集爲表格形式，包含 10,000 行和 1,020 個特徵。在探索性數據分析過程中，專家發現沒有缺失值，重複行的比例也很小。200 個特徵對的相關性得分大於 0.9。每個特徵的平均值與其 50 百分位數相似。

A. 使用主成分分析 (PCA) 算法進行降維處理。

B. 使用 Jupyter 筆記本刪除相關性得分低的特徵。

C. 使用隨機剪切森林（RCF）算法進行異常檢測。

D. 用 Jupyter 筆記本對相關性得分高的特徵進行合併。

查看答案

正確答案: A

問題 #40

一家金融公司正在嘗試檢測信用卡欺詐行爲。據該公司觀察，平均有 2% 的信用卡交易是欺詐性的。一位數據科學家根據一年的信用卡交易數據訓練了一個分類器。該模型需要從正常交易（陰性）中識別出欺詐交易（陽性）。公司的目標是準確捕獲儘可能多的正面交易。該數據科學家應使用哪些指標來優化模型？(選擇兩個）。

A. 從 SageMaker 執行角色中刪除 Amazon S3 訪問權限。

B. 加密 CNN 模型的權重

C. 訓練和驗證數據集進行加密。

D. 爲培訓工作啓用網絡隔離。

查看答案

正確答案: AB

問題 #41

一位數據科學家正試圖提高神經網絡分類模型的準確性。該數據科學家希望在 Amazon SageMaker 中運行一個大型超參數調整作業。然而，以前針對同一模型的小型調整作業往往要運行數周時間。哪些操作最能減少超參數調整作業的計算時間？(請選擇兩項）。

A. 用超帶調整策略。

B. 加超參數的數量

C. MaxNumberOfTrainingJobs（最大培訓職位數）參數設置一個較低的值。

D. 使用網格搜索調整策略

E. MaxParallelTrainingJobs 參數設置一個較低的值。

查看答案

正確答案: AC

問題 #42

數據科學家需要爲高速、實時的流數據創建一個無服務器攝取和分析解決方案。攝取流程必須在不丟失數據的情況下將傳入記錄從 JSON 緩衝並轉換爲查詢優化的列格式。輸出數據存儲必須高度可用，分析師必須能夠針對數據運行 SQL 查詢並連接到現有的商業智能儀錶板。

A. 在 AWS Glue 數據目錄中創建傳入數據格式的模式。使用 Amazon Kinesis Data Firehose 交付流來流式傳輸數據，並在交付到 Amazon S3 之前使用 AWS Glue 數據目錄將數據轉換爲 Apache Parquet 或 ORC 格式。讓分析師使用 Amazon Athena 直接從 Amazon S3 查詢數據，並使用 Athena Java Database Connectivity (JDBC) 連接器連接到 BI 工具。

B. 將每條 JSON 記錄寫入 Amazon S3 中的暫存位置。使用 S3 Put 事件觸發 AWS Lambda 函數，將數據轉換爲 Apache Parquet 或 ORC 格式，並將數據寫入 Amazon S3 中的處理數據位置。讓分析師使用 Amazon Athena 直接從 Amazon S3 查詢數據，並使用 Athena Java Database Connectivity (JDBC) 連接器連接到 BI 工具。

C. 每條 JSON 記錄寫入亞馬遜 S3 中的暫存位置。使用 S3 Put 事件觸發 AWS Lambda 函數，將數據轉換爲 Apache Parquet 或 ORC 格式，並將其插入 Amazon RDS PostgreSQL 數據庫。讓分析師從 RDS 數據庫中查詢和運行儀錶盤。

D. 用 Amazon Kinesis Data Analytics 來攝取流數據，並執行實時 SQL 查詢將記錄轉換爲 Apache Parquet，然後再傳輸到 Amazon S3。讓分析師使用 Amazon Athena 直接從 Amazon S3 查詢數據，並使用 Athena Java Database Connectivity (JDBC) 連接器連接到 BI 工具。

查看答案

正確答案: A

問題 #43

一家金融服務公司希望採用 Amazon SageMaker 作爲其默認的數據科學環境。該公司的數據科學家在機密的金融數據上運行機器學習 (ML) 模型。ML 工程師可以使用哪些機制來控制 SageMaker 的數據輸出？(選擇三個）。

A. 亞馬遜 EMR，用於數據發現、豐富和轉換-亞馬遜 Athena，用於使用標準 SQL 在亞馬遜 S3 中查詢和分析結果-亞馬遜 QuickSight，用於報告和獲取見解

B. -亞馬遜 Kinesis 數據分析用於數據攝取 -亞馬遜 EMR 用於數據發現、豐富和轉換 -亞馬遜 Redshift 用於查詢和分析亞馬遜 S3 中的結果

C. AWS Glue（用於數據發現、豐富和轉換）-Amazon Athena（用於使用標準 SQL 查詢和分析 Amazon S3 中的結果）-Amazon QuickSight（用於報告和獲取見解

D. 用於數據傳輸的 AWS 數據管道-用於協調 AWS Lambda 作業以進行數據發現、豐富和轉換的 AWS Step Functions-用於使用標準 SQL 在 Amazon S3 中查詢和分析結果的 Amazon Athena-用於報告和洞察的 Amazon QuickSight

查看答案

正確答案: BDF

問題 #44

一個數據科學團隊正在設計一個數據集存儲庫，用於存儲機器學習模型中常用的大量訓練數據。由於數據科學家每天都可能創建任意數量的新數據集，因此該解決方案必須能夠自動擴展並具有成本效益。此外，還必須能夠使用 SQL 瀏覽數據。哪種存儲方案最適合這種情況？

A. 模型需要完全重新設計，因爲它無法處理產品庫存變化。

B. 型的超參數應定期更新，以防止漂移。

C. 定期使用原始數據從頭開始重新訓練模型，同時添加正則化項以處理產品庫存變化

D. 着產品庫存的變化，應定期使用原始訓練數據和新數據對模型進行再訓練。

查看答案

正確答案: A

問題 #45

一家公司正在爲一家快餐店開發一個排隊計數應用程序。該公司希望使用攝像機對準特定收銀臺前的顧客隊伍，以測量排隊人數，並在隊伍過長時向經理髮出通知。餐廳地點與外部服務連接的帶寬有限，無法在不影響其他操作的情況下容納多個視頻流。

A. 安裝與 Amazon Kinesis Video Streams 兼容的攝像頭，通過餐廳現有的互聯網連接將數據流傳輸到 AWS。編寫一個 AWS Lambda 函數，獲取圖像並將其發送到亞馬遜 Rekognition，以計算圖像中的人臉數量。如果排隊時間過長，則發送亞馬遜簡單通知服務（Amazon SNS）通知。

B. 在餐廳部署 AWS DeepLens 攝像頭以捕獲視頻。在 AWS DeepLens 設備上啓用 Amazon Rekognition，並使用它在有人出現時觸發本地 AWS Lambda 函數。

C. ecognized

D. 在 Amazon SageMaker 中建立自定義模型，以識別圖像中的人數。在餐廳安裝與 Amazon Kinesis Video Streams 兼容的攝像頭。編寫一個 AWS Lambda 函數來拍攝圖像。使用 SageMaker 端點調用模型來計算人數。如果隊伍太長，發送亞馬遜簡單通知服務（Amazon SNS）通知。

E. 在 Amazon SageMaker 中建立一個自定義模型，以識別圖像中的人數。在餐廳部署 AWS DeepLens 攝像頭。將模型部署到攝像頭。向攝像頭部署一個 AWS Lambda 函數，以使用該模型來計算人數，並在隊伍過長時發送 Amazon Simple Notification Service (Amazon SNS) 通知。

查看答案

正確答案: A

問題 #46

一家全球性銀行需要一種解決方案來預測客戶是否會離開該銀行並選擇另一家銀行。該銀行正在使用一個數據集來訓練一個預測客戶流失的模型。訓練數據集有 1,000 行。機器學習 (ML) 專家正在使用 Amazon SageMaker Data Wrangler，通過 SageMaker 訓練作業來訓練客戶流失預測模型。訓練結束後，ML 專家注意到，該模型只返回了虛假的客戶流失預測結果。

A. 應用異常檢測，在訓練前清除訓練數據集中的異常值。

B. 在訓練前對訓練數據集採用合成少數羣體過度取樣技術（SMOTE）。

C. 訓練前對訓練數據集的特徵進行歸一化處理。

D. 訓練前對訓練數據集進行欠採樣。

查看答案

正確答案: B

問題 #47

一位機器學習專家建立了一個圖像分類深度學習模型。專家應該如何解決這個問題，其背後的原因是什麼？

A. mplement an AWS Lambda function to log Amazon SageMaker API calls to Amazon S3

B. 使用 AWS CloudTrail 將 Amazon SageMaker API 調用記錄到 Amazon S3。添加代碼，將自定義指標推送到 Amazon CloudWatch。使用 Amazon SNS 在 CloudWatch 中創建警報，以便在模型過度擬合時接收通知。

C. mplement an AWS Lambda function to log Amazon SageMaker API calls to AWS CloudTrail

D. 用 AWS CloudTrail 將 Amazon SageMaker API 調用記錄到 Amazon S3。設置亞馬遜 SNS，以便在模型過度擬合時接收通知

查看答案

正確答案: B

問題 #48

一家零售公司在營銷活動中使用 Amazon Personalize 爲客戶提供個性化產品推薦。在部署新版解決方案後，該公司發現向現有客戶推薦的商品銷售額立即大幅增加，但在部署後不久這些銷售額就下降了。數據科學家應該如何調整解決方案？

A. 用 Amazon Personalize 中的事件跟蹤器納入實時用戶互動。

B. 添加用戶元數據，並在 Amazon Personalize 中使用 HRNN-Metadata 配方。

C. 用 Amazon SageMaker 內置的因式分解機 (FM) 算法實施新的解決方案。

D. 在 Amazon Personalize 的交互數據集中添加事件類型和事件值字段。

查看答案

正確答案: A

問題 #49

一位機器學習專家分配了一個使用 Amazon SageMaker 進行培訓的 TensorFlow 項目，需要在沒有 Wi-Fi 的情況下繼續工作很長時間。

A. 在筆記本電腦上安裝 Python 3 和 boto3，並使用該環境繼續代碼開發。

B. 將 Amazon SageMaker 中使用的 TensorFlow Docker 容器從 GitHub 下載到本地環境，並使用 Amazon SageMaker Python SDK 測試代碼。

C. 從 tensorflow

D. 將 SageMaker 筆記本下載到本地環境，然後在筆記本電腦上安裝 Jupyter 筆記本，並在本地筆記本中繼續開發。

查看答案

正確答案: B

問題 #50

一家大公司的數據科學團隊使用 Amazon SageMaker 筆記本訪問存儲在 Amazon S3 存儲桶中的數據。IT 安全團隊擔心，支持互聯網的筆記本實例會產生安全漏洞，在實例上運行的惡意代碼可能會泄露數據隱私。公司規定，所有實例都必須位於安全的 VPC 內，不能訪問互聯網，數據通信流量必須位於 AWS 網絡內。

A. 將 Amazon SageMaker 筆記本與 VPC 中的私有子網關聯。將 Amazon SageMaker 端點和 S3 存儲桶置於同一 VPC 中。

B. 將 Amazon SageMaker 筆記本與 VPC 中的私有子網關聯。使用 IAM 策略授予 Amazon S3 和 Amazon SageMaker 的訪問權限。

C. Amazon SageMaker 筆記本與 VP 中的私有子網關聯確保 VPC 中連接有 S3 VPC 端點和 Amazon SageMaker VPC 端點。

D. Amazon SageMaker 筆記本與 VPC 中的私有子網關聯。確保 VPC 有一個 NAT 網關和一個相關的安全組，只允許向外連接 Amazon S3 和 Amazon SageMaker。

查看答案

正確答案: C

問題 #51

某城市希望監測其空氣質量，以應對空氣污染造成的後果。一位機器學習專家需要預測該市未來 2 天的空氣質量（以污染物的百萬分之一爲單位）。在亞馬遜 SageMaker 中，哪個模型最有可能提供最佳結果？

A. 在由全年數據組成的單一時間序列上使用亞馬遜 SageMaker k-Nearest-Neighbors (kNN) 算法，並使用預測因子類型作爲回歸因子。

B. 在包含全年數據的單一時間序列上使用亞馬遜 SageMaker 隨機剪切森林（RCF）。

C. 由全年數據組成的單一時間序列上使用 Amazon SageMaker 線性學習器算法，預測因子類型爲回歸因子。

D. 在由全年數據組成的單一時間序列上使用 Amazon SageMaker 線性學習算法，並使用預測器類型的分類器。

查看答案

正確答案: C

問題 #52

一家飛機發動機製造公司正在測量 200 項時間序列性能指標。工程師希望在測試過程中近乎實時地檢測關鍵的製造缺陷。要進行近實時缺陷檢測，哪種方法最有效？

A. 使用 AWS IoT Analytics 進行攝取、存儲和進一步分析。在 AWS IoT Analytics 中使用 Jupyter 筆記本對異常情況進行分析。

B. 使用 Amazon S3 進行攝取、存儲和進一步分析。使用 Amazon EMR 集羣執行 Apache Spark ML k-means 聚類，以確定異常情況。

C. 使用 Amazon S3 進行攝取、存儲和進一步分析。使用 Amazon SageMaker 隨機剪切森林 (RCF) 算法確定異常。

D. 用 Amazon Kinesis Data Firehose 進行攝取，並使用 Amazon Kinesis Data Analytics Random Cut Forest (RCF) 執行異常檢測。使用 Kinesis Data Firehose 將數據存儲在 Amazon S3 中，以便進一步分析。

查看答案

正確答案: B

問題 #53

一位機器學習專家正在創建一個新的自然語言處理應用程序，用於處理由 100 萬個句子組成的數據集。下面是數據集中的一個示例："The quck BROWN FOX jumps over the lazy dog. "爲了以可重複的方式正確消毒和準備數據，專家需要執行以下哪些操作？

A. 將當前文件轉換爲帶有發音標記的 SSML。

B. 建適當的發音詞典。

C. 出語音標記，指導發音。

D. 用 Amazon Lex 對文本文件進行發音預處理

查看答案

正確答案: BCF

問題 #54

一位數據科學家需要將現有的內部部署 ETL 流程遷移到雲中。當前流程按固定時間間隔運行，並使用 PySpark 將多個大型數據源合併和格式化爲單一的合併輸出，以便進行下遊處理。數據科學家對雲解決方案提出了以下要求：-合併多個數據源。

A. 原始數據寫入亞馬遜 S3。根據現有日程安排 AWS Lambda 函數，向持久的亞馬遜 EMR 集羣提交 Spark 步驟。使用現有的 PySpark 邏輯在 EMR 集羣上運行 ETL 作業。將結果輸出到亞馬遜 S3 中的 "已處理 "位置，供下遊使用。

B. 將原始數據寫入亞馬遜 S3。創建 AWS Glue ETL 作業，對輸入數據執行 ETL 處理。用 PySpark 編寫 ETL 作業，以利用現有邏輯。創建一個新的 AWS Glue 觸發器，以便根據現有計劃觸發 ETL 作業。配置 ETL 作業的輸出目標，將其寫入亞馬遜 S3 中的 "已處理 "位置，供下遊使用。

C. 原始數據寫入 Amazon S3。安排一個 AWS Lambda 函數在現有計劃上運行，並處理來自亞馬遜 S3 的輸入數據。用 Python 編寫 Lambda 邏輯，並實施現有的 PySpark 邏輯來執行 ETL 流程。讓 Lambda 函數將結果輸出到亞馬遜 S3 中的 "已處理 "位置，供下遊使用。

D. 使用 Amazon Kinesis Data Analytics 對輸入數據進行流式處理，並針對流執行實時 SQL 查詢，以便在流內執行所需的轉換。將輸出結果發送到 Amazon S3 中的 "已處理 "位置，供下遊使用。

查看答案

正確答案: D

問題 #55

某公司的機器學習專家需要提高使用 TensorFlow 的時間序列預測模型的訓練速度。目前的訓練是在單 GPU 機器上執行的，大約需要 23 個小時才能完成。模型的準確性尚可接受，但公司預計訓練數據的規模會不斷增加，需要每小時而不是每天更新模型。該公司還希望最大限度地減少編碼工作。

A. 要更改 TensorFlow 代碼。將機器換成具有更強大 GPU 的機器，以加快訓練速度。

B. 更改 TensorFlow 代碼，實施亞馬遜 SageMaker 支持的 Horovod 分布式框架。將訓練並行到所需數量的機器上，以實現業務目標。

C. 用內置的 AWS SageMaker DeepAR 模型。根據實現業務目標的需要，將訓練並行到儘可能多的機器上。

D. 培訓轉移到 Amazon EMR，並根據需要將工作負載分配到儘可能多的機器上，以實現業務目標。

查看答案

正確答案: B

問題 #56

下面是一個電影分級模型的混淆矩陣，請問 "浪漫 "的真實類別頻率和 "冒險 "的預測類別頻率分別是多少？

A. "浪漫 "的真實類別頻率爲 77

B. "浪漫 "的真實類別頻率爲 57

C. "浪漫 "的真實類別頻率爲 0

D. "浪漫 "的真實類別頻率爲 77

查看答案

正確答案: B

問題 #57

一位機器學習專家正在開發一個包含多個 ETL 作業的日常 ETL 工作流。工作流包括以下流程：-一旦數據上傳到 Amazon S3，立即啓動工作流。-當所有數據集在 Amazon S3 中可用時，啓動 ETL 作業，將上傳的數據集與已存儲在 Amazon S3 中的多個 TB 大小的數據集連接起來。

A. 使用 AWS Lambda 觸發 AWS Step Functions 工作流，等待亞馬遜 S3 中的數據集上傳完成。使用 AWS Glue 連接數據集。使用 Amazon CloudWatch 警報在出現故障時向管理員發送 SNS 通知。

B. 使用 AWS Lambda 開發 ETL 工作流程，以啓動 Amazon SageMaker 筆記本實例。使用生命周期配置腳本連接數據集，並在 Amazon S3 中持久化結果。使用 Amazon CloudWatch 警報在發生故障時向管理員發送 SNS 通知。

C. 使用 AWS Batch 開發 ETL 工作流，以便在數據上傳到 Amazon S3 時觸發 ETL 作業的啓動。使用 AWS Glue 將數據集連接到 Amazon S3。使用 Amazon CloudWatch 警報在發生故障時向管理員發送 SNS 通知。

D. 使用 AWS Lambda 鏈接其他 Lambda 函數，以便在數據上傳到 Amazon S3 後立即讀取並加入 Amazon S3 中的數據集。使用 Amazon CloudWatch 警報在發生故障時向管理員發送 SNS 通知。

查看答案

正確答案: A

問題 #58

一位數據科學家正在一個包含多個類別的數據集上訓練多層感知 (MLP)。與數據集中的其他類別相比，感興趣的目標類別是唯一的，但它無法達到可接受的召回指標。數據科學家已經嘗試過改變 MLP 隱藏層的數量和大小，但結果並沒有明顯改善。必須儘快實施提高召回率的解決方案。應使用哪些技術來滿足這些要求？

A. 使用 Amazon Mechanical Turk 收集更多數據，然後重新訓練

B. 訓練異常檢測模型，而不是 MLP

C. 練 XGBoost 模型，而不是 MLP

D. 在 MLP 的損失函數中添加類別權重，然後重新訓練

查看答案

正確答案: D

問題 #59

機器學習專家得到一個結構化數據集，內容是一家公司客戶羣的購物習慣。數據集包含數千列數據，每個客戶有數百個數字列。該專家希望識別所有客戶的這些列是否存在自然分組，並儘快將結果可視化。

A. 使用 t 分布隨機鄰域嵌入（t-SNE）算法嵌入數值特徵，並繪製散點圖。

B. 針對不同的 k 值，使用歐氏距離測量法運行 k-means，並繪製彎頭圖。

C. 使用 t 分布隨機鄰域嵌入（t-SNE）算法嵌入數字特徵，並創建線形圖。

D. 針對不同的 k 值，使用歐氏距離測量法運行 k-means，並爲每個聚類中的每個數字列繪製箱形圖。

查看答案

正確答案: A

問題 #60

一家大型移動網絡運營公司正在建立一個機器學習模型，以預測哪些客戶有可能退訂服務。該模型在對 100 個客戶的測試數據集進行評估後，產生了以下混淆矩陣：根據模型評估結果，爲什麼這是一個可行的生產模型？

A.

B. 模型的精確度爲 86%，低於模型的準確度。

C. 型的準確率爲 86%，公司因誤報而產生的成本低於誤報。

D. 型的精確度爲 86%，高於模型的準確度。

查看答案

正確答案: A

問題 #61

一位機器學習專家在一家信用卡處理公司工作，需要近乎實時地預測哪些交易可能是欺詐交易。具體來說，該專家必須訓練一個模型，返回給定交易可能是欺詐交易的概率。

A. 流媒體分類

B. 二進制分類

C. 多類別分類

D. 回歸分類

查看答案

正確答案: C

問題 #62

機器學習專家正在建立一個模型，根據各種經濟因素預測未來的就業率。在探索數據時，專家注意到輸入特徵的大小差異很大。專家不希望幅度較大的變量在模型中佔主導地位。專家應該如何準備模型訓練所需的數據？

A. 應用量化分檔法將數據分爲不同的類別，以分布代替大小，從而保留數據中的任何關係。

B. 應用笛卡爾積變換，創建與大小無關的新場組合。

C. 進行歸一化處理，確保每個字段的均值爲 0，方差爲 1，以消除任何顯著的幅度。

D. 應用正交稀疏大字符串（OSB）變換，應用固定大小的滑動窗口生成大小相似的新特徵。

查看答案

正確答案: C

問題 #63

一名員工在公司的社交媒體上發現了一段帶音頻的視頻。視頻中使用的語言是西班牙語。該員工的母語是英語，但不懂西班牙語。該員工想進行情感分析。要完成這項任務，哪種服務組合最有效？

A. mazon Transcribe、Amazon Translate 和 Amazon Comprehend

B. 馬遜 Transcribe、亞馬遜 Comprehend 和亞馬遜 SageMaker seq2seq

C. mazon Transcribe、Amazon Translate 和 Amazon SageMaker 神經主題模型 (NTM)

D. 馬遜翻譯、亞馬遜翻譯和亞馬遜 SageMaker BlazingText

查看答案

正確答案: A

問題 #64

在針對分類問題對神經網絡進行迷你批量訓練期間，數據科學家注意到訓練精度出現了波動。

A. 數據集中的類別分布不平衡。

B. 據集洗牌被禁用。

C. 量太大。

D. 習率非常高。

查看答案

正確答案: D

問題 #65

一家農業公司希望利用機器學習來檢測 100 英畝草地上的特定類型雜草。目前，該公司使用安裝在拖拉機上的相機，以 10 × 10 的網格捕捉田間的多幅圖像。該公司還擁有一個大型訓練數據集，該數據集包含闊葉和非闊葉塢等常用雜草類別的注釋圖像。

A. 準備 RecordIO 格式的圖像並將其上傳到 Amazon S3。使用 Amazon SageMaker 使用圖像分類算法訓練、測試和驗證模型，將圖像歸類爲各種雜草類別。

B. 以 Apache Parquet 格式準備圖像並將其上傳到亞馬遜 S3。使用 Amazon SageMaker，使用對象檢測單槍多箱檢測器 (SSD) 算法對模型進行訓練、測試和驗證。

C. 以 RecordIO 格式準備圖像並將其上傳到亞馬遜 S3。使用 Amazon SageMaker，使用對象檢測單槍多箱檢測器 (SSD) 算法對模型進行訓練、測試和驗證。

D. 以 Apache Parquet 格式準備圖像並將其上傳到 Amazon S3。使用 Amazon SageMaker 使用圖像分類算法訓練、測試和驗證模型，將圖像歸類爲各種雜草類別。

查看答案

正確答案: C

問題 #66

一位數據科學家運行亞馬遜 SageMaker 筆記本實例已有幾周時間。在此期間，發布了新版 Jupyter Notebook 以及其他軟件更新。安全團隊要求所有正在運行的 SageMaker 筆記本實例使用 SageMaker 提供的最新安全和軟件更新。

A. 調用 CreateNotebookInstanceLifecycleConfig API 操作

B. 建新的 SageMaker 筆記本實例，並掛載原始實例中的 Amazon Elastic Block Store (Amazon EBS) 卷

C. 止並重新啓動 SageMaker 筆記本實例

D. 用 UpdateNotebookInstanceLifecycleConfig（更新筆記本實例生命周期配置）API 操作

查看答案

正確答案: C

問題 #67

一家電子商務公司正在根據圖像對產品進行自動分類。一位數據科學家使用亞馬遜 SageMaker 圖像分類算法訓練了一個計算機視覺模型。每個產品的圖像都根據特定的產品線進行分類。在對新產品進行分類時，模型的準確率太低。所有產品圖片的尺寸都相同，並存儲在亞馬遜 S3 存儲桶中。公司希望改進該模型，以便用於新產品的分類。

A. 類和D類過於相似。

B. 據集太小，無法進行保留交叉驗證。

C. 據分布偏斜。

D. 型對 B 類和 E 類過度擬合。

查看答案

正確答案: BCE

不想錯過任何事？

100%通過的Cisco、PMP、CISA、CISM、AWS模擬測試現已發售！
立即獲取

使用最新的 MLS-C01 練習題輕鬆通過 AWS 考試

View The Updated MLS C01 Exam Questions

View The Updated Microsoft Exam Questions

提交後看答案

不想錯過任何事？

100%通過的Cisco、PMP、CISA、CISM、AWS模擬測試現已發售！ 立即獲取

使用最新的 MLS-C01 練習題輕鬆通過 AWS 考試

View The Updated MLS C01 Exam Questions

View The Updated Microsoft Exam Questions

提交後看答案

100%通過的Cisco、PMP、CISA、CISM、AWS模擬測試現已發售！
立即獲取