DP-203 Korean 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203 Korean Version)」

온도라는 Apache Spark DataFrame이 있습니다. 데이터 샘플은 다음 표에 나와 있습니다.

Spark SQL 쿼리를 사용하여 다음 테이블을 생성해야 합니다.

쿼리를 어떻게 완료해야 합니까? 응답하려면 적절한 값을 올바른 대상으로 드래그하십시오. 각 값은 한 번, 두 번 이상 사용되거나 전혀 사용되지 않을 수 있습니다. 콘텐츠를 보려면 창 사이의 분할 막대를 끌거나 스크롤해야 할 수 있습니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
正解:

Explanation:

Box 1: PIVOT
PIVOT rotates a table-valued expression by turning the unique values from one column in the expression into multiple columns in the output. And PIVOT runs aggregations where they're required on any remaining column values that are wanted in the final output.
Reference:
https://learnsql.com/cookbook/how-to-convert-an-integer-to-a-decimal-in-sql-server/
https://docs.microsoft.com/en-us/sql/t-sql/queries/from-using-pivot-and-unpivot
다음 전시에 표시된 Git 리포지토리 설정이 있는 Azure 데이터 팩터리가 있습니다.

드롭다운 메뉴를 사용하여 그래픽에 제시된 정보를 기반으로 각 문장을 완성하는 답을 선택하십시오.
참고: 각 정답은 1점의 가치가 있습니다.
正解:

Explanation:
한 회사는 제조 기계를 모니터링하기 위해 IoT 장치를 구입합니다. 회사는 Azure IoTHub를 사용하여 IoT 장치와 통신합니다.
회사는 실시간으로 장치를 모니터링할 수 있어야 합니다.
솔루션을 설계해야 합니다.
무엇을 추천해야 할까요?

Azure Databricks에서 PySpark를 사용하여 다음 JSON 입력을 구문 분석합니다.

다음 표 형식으로 데이터를 출력해야 합니다.

PySpark 코드를 어떻게 완성해야 합니까? 응답하려면 적절한 값을 올바른 대상으로 드래그하십시오. 각 값은 한 번, 두 번 이상 사용되거나 전혀 사용되지 않을 수 있습니다. 콘텐츠를 보려면 창 사이의 분할 막대를 끌거나 스크롤해야 할 수 있습니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
正解:

Explanation:

Box 1: select
Box 2: explode
Bop 3: alias
pyspark.sql.Column.alias returns this column aliased with a new name or names (in the case of expressions that return more than one column, such as explode).
Reference:
https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.Column.alias.html
https://docs.microsoft.com/en-us/azure/databricks/sql/language-manual/functions/explode
Azure Synapse Analytics 전용 SQL 풀에서 분할된 테이블을 만들어야 합니다.
Transact-SQL 문을 어떻게 완성해야 합니까? 응답하려면 적절한 값을 올바른 대상으로 드래그하십시오. 각 값은 한 번, 두 번 이상 사용되거나 전혀 사용되지 않을 수 있습니다. 콘텐츠를 보려면 창 사이의 분할 막대를 끌거나 스크롤해야 할 수 있습니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
正解:

Explanation:

Box 1: DISTRIBUTION
Table distribution options include DISTRIBUTION = HASH ( distribution_column_name ), assigns each row to one distribution by hashing the value stored in distribution_column_name.
Box 2: PARTITION
Table partition options. Syntax:
PARTITION ( partition_column_name RANGE [ LEFT | RIGHT ] FOR VALUES ( [ boundary_value [,...n] ] )) Reference:
https://docs.microsoft.com/en-us/sql/t-sql/statements/create-table-azure-sql-data-warehouse?
Azure Stream Analytics를 사용하여 Azure Event Hubs에서 Twitter 데이터를 수신하고 Azure Blob 저장소 계정에 데이터를 출력합니다. 5분마다 지난 5분 동안의 트윗 수를 출력해야 합니다. 각 트윗은 한 번만 계산해야 합니다.
어떤 윈도잉 함수를 사용해야 합니까?

解説: (JPNTest メンバーにのみ表示されます)
Twitter 피드에 대한 데이터 수집 및 저장 솔루션을 설계해야 합니다. 솔루션은 고객 감정 분석 요구 사항을 충족해야 합니다.
솔루션에 무엇을 포함해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오. 참고: 각 정답은 1점의 가치가 있습니다.
正解:

Explanation:

Box 1: Configure Evegent Hubs partitions
Scenario: Maximize the throughput of ingesting Twitter feeds from Event Hubs to Azure Storage without purchasing additional throughput or capacity units.
Event Hubs is designed to help with processing of large volumes of events. Event Hubs throughput is scaled by using partitions and throughput-unit allocations.
Event Hubs traffic is controlled by TUs (standard tier). Auto-inflate enables you to start small with the minimum required TUs you choose. The feature then scales automatically to the maximum limit of TUs you need, depending on the increase in your traffic.
Box 2: An Azure Data Lake Storage Gen2 account
Scenario: Ensure that the data store supports Azure AD-based access control down to the object level.
Azure Data Lake Storage Gen2 implements an access control model that supports both Azure role-based access control (Azure RBAC) and POSIX-like access control lists (ACLs).
Reference:
https://docs.microsoft.com/en-us/azure/event-hubs/event-hubs-features
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-access-control
ADFdev 및 ADFprod라는 두 개의 Azure Data Factory 인스턴스가 있습니다. ADFdev는 Azure DevOps Git 리포지토리에 연결합니다.
Git 리포지토리의 기본 분기에서 ADFdev로 변경 사항을 게시합니다.
ADFdev에서 ADFprod로 아티팩트를 배포해야 합니다.
먼저 무엇을 해야 합니까?

解説: (JPNTest メンバーにのみ表示されます)
실시간 데이터 처리 솔루션의 고가용성을 높이려면 어떻게 해야 할까요?

解説: (JPNTest メンバーにのみ表示されます)
Azure Synapse Analytics 전용 SQL 풀의 팩트 테이블에 증분식으로 데이터를 로드하고 있습니다.
들어오는 데이터의 각 배치는 팩트 테이블에 로드되기 전에 준비됩니다. | 수신 데이터가 가능한 한 빨리 준비되었는지 확인해야 합니다. | 준비 테이블을 어떻게 구성해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
正解:

Explanation:

Round-robin distribution is recommended for staging tables because it distributes data evenly across all the distributions without requiring a hash column. This can improve the speed of data loading and avoid data skew. Heap tables are recommended for staging tables because they do not have any indexes or partitions that can slow down the data loading process. Heap tables are also easier to truncate and reload than clustered index or columnstore index tables.
온라인 주문 레코드가 포함된 데이터 세트에 대한 스타 스키마를 디자인하고 있습니다. 각 레코드에는 주문 날짜, 주문 기한 및 주문 배송 날짜가 포함됩니다.
임의의 날짜 범위를 쿼리하고 회계 달력 속성별로 집계할 때 디자인이 레코드의 가장 빠른 쿼리 시간을 제공하는지 확인해야 합니다.
어떤 두 가지 작업을 수행해야 합니까? 각 정답은 솔루션의 일부를 나타냅니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.

正解:A、D 解答を投票する
Azure Synapse Analytics 전용 SQL 풀 매트에는 dbo.Users라는 테이블이 포함되어 있습니다.
사용자 그룹이 dbo.Users에서 사용자 이메일 주소를 읽지 못하도록 해야 합니다. 무엇을 사용해야 합니까?

2020년 상반기의 트랜잭션에 대한 팩트 테이블을 포함할 Azure Synapse Analytics 전용 SQL 풀을 빌드하고 있습니다.
테이블이 다음 요구 사항을 충족하는지 확인해야 합니다.
10년 이상 된 데이터를 삭제하기 위한 처리 시간 최소화 연간 누계 값을 사용하는 쿼리에 대한 I/O 최소화 Transact-SQL 문을 어떻게 완성해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
正解:

Explanation:

Box 1: PARTITION
RANGE RIGHT FOR VALUES is used with PARTITION.
Part 2: [TransactionDateID]
Partition on the date column.
Example: Creating a RANGE RIGHT partition function on a datetime column The following partition function partitions a table or index into 12 partitions, one for each month of a year's worth of values in a datetime column.
CREATE PARTITION FUNCTION [myDateRangePF1] (datetime)
AS RANGE RIGHT FOR VALUES ('20030201', '20030301', '20030401',
'20030501', '20030601', '20030701', '20030801',
'20030901', '20031001', '20031101', '20031201');
Reference:
https://docs.microsoft.com/en-us/sql/t-sql/statements/create-partition-function-transact-sql
Azure Synapse Analytics 계정과 Microsoft Purview 계정이 포함된 Azure 구독이 있습니다.
전용 SQL 풀로 데이터를 수집하기 위해 Pipeline1이라는 파이프라인을 만듭니다.
Pipeline1에서 Microsoft Purview로 데이터 계보를 생성해야 합니다.
어떤 두 가지 활동이 데이터 계보를 생성합니까? 각 정답은 완전한 솔루션을 제시합니다.
참고사항: 정답 하나당 1점입니다.

正解:A、E 解答を投票する
참고: 이 질문은 동일한 시나리오를 제시하는 일련의 질문 중 일부입니다. 시리즈의 각 질문에는 명시된 목표를 충족할 수 있는 고유한 솔루션이 포함되어 있습니다. 일부 질문 세트에는 하나 이상의 올바른 솔루션이 있을 수 있지만 다른 질문 세트에는 올바른 솔루션이 없을 수 있습니다.
이 섹션의 질문에 답한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 나타나지 않습니다.
Twitter 데이터를 분석할 Azure Stream Analytics 솔루션을 설계하고 있습니다.
각 10초 창에서 트윗 수를 계산해야 합니다. 솔루션은 각 트윗이 한 번만 계산되도록 해야 합니다.
해결 방법: 텀블링 창을 사용하고 창 크기를 10초로 설정합니다.
이것이 목표를 달성합니까?

解説: (JPNTest メンバーにのみ表示されます)
Azure Stream Analytics 작업을 모니터링하고 있습니다.
백로그된 입력 이벤트 수는 지난 1시간 동안 20개였습니다.
백로그된 입력 이벤트 수를 줄여야 합니다.
어떻게 해야 합니까?

解説: (JPNTest メンバーにのみ表示されます)
인터넷에 연결된 원격 센서의 스트리밍 데이터를 시각화하는 실시간 대시보드 솔루션을 설계하고 있습니다. 스트리밍 데이터는 각 10초 간격의 평균 값을 표시하도록 집계되어야 합니다. 데이터는 대시보드에 표시된 후 삭제됩니다.
솔루션은 Azure Stream Analytics를 사용하며 다음 요구 사항을 충족해야 합니다.
Azure 이벤트 허브에서 대시보드까지 대기 시간을 최소화합니다.
필요한 스토리지를 최소화하십시오.
개발 노력을 최소화하십시오.
솔루션에 무엇을 포함해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
正解:

Explanation:

Reference:
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-power-bi-dashboard
회사의 데이터 엔지니어링 솔루션을 개발합니다.
프로젝트에는 Azure Data Lake Storage에 데이터를 배포해야 합니다.
프로젝트 구성원이 Azure Data Lake Storage 리소스를 관리할 수 있도록 RBAC(역할 기반 액세스 제어)를 구현해야 합니다.
어떤 세 가지 작업을 수행해야 합니까? 각 정답은 솔루션의 일부를 나타냅니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.

正解:B、C、E 解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
폴더가 포함된 Azure Blob 저장소 계정이 있습니다. 폴더에는 120,000개의 파일이 있습니다. 각 파일에는 62개의 열이 있습니다.
매일 1,500개의 새 파일이 폴더에 추가됩니다.
각각의 새 파일에서 Azure Synapse Analytics 작업 영역으로 5개의 데이터 열을 증분식으로 로드할 계획입니다.
증분 로드를 수행하는 데 걸리는 시간을 최소화해야 합니다.
파일과 형식을 저장하기 위해 무엇을 사용해야 합니까?
正解:

Explanation:
Box 1 = timeslice partitioning in the foldersThis means that you should organize your files into folders based on a time attribute, such as year, month, day, or hour. For example, you can have a folder structure like /yyyy
/mm/dd/file.csv. This way, you can easily identify and load only the new files that are added each day by using a time filter in your Azure Synapse pipeline12. Timeslice partitioning can also improve the performance of data loading and querying by reducing the number of files that need to be scanned Box = 2 Apache Parquet This is because Parquet is a columnar file format that can efficiently store and compress data with many columns. Parquet files can also be partitioned by a time attribute, which can improve the performance of incremental loading and querying by reducing the number of files that need to be scanned123. Parquet files are supported by both dedicated SQL pool and serverless SQL pool in Azure Synapse Analytics2.

弊社を連絡する

我々は12時間以内ですべてのお問い合わせを答えます。

オンラインサポート時間:( UTC+9 ) 9:00-24:00
月曜日から土曜日まで

サポート:現在連絡