메뉴 건너뛰기

[Summarize Command 간략 설명 및 예시]

Summarize command(요약 명령)는 하나 이상의 character(문자), numeric(숫자) 또는 datetime(날짜/시간) 필드에 대한 데이터를 그룹화(groups data)합니다.

 

결과(Result)는 자동으로 다음을 제공합니다.

  • Key field 그룹화(grouping) 당 하나의 레코드(record)
  • 각 group 의 레코드 수(count of records)
  • 추가 정보를 위해 Fields to process(처리할 필드)를 선택할 수 있습니다.(옵션)

Summarize 활용 예시:

동일한 카드로 동일한 가맹점, 동일한 날짜에 이루어진 신용카드 거래를 그룹화(grouping)하고, 그 결과를 활용하여 분할(split) 구매 가능성을 식별하는 것입니다. 

 

Summarize command 는 분석에서 가장 많이 사용되는 명령으로 아래의 설명을 참조하시면, 유용하게 업무에 활용하실 수 있습니다.

 

Summarize command 진행 시에 옵션으로 추가 정보를 위해 Fields to process(처리할 필드)를 선택할 수 있습니다. 이때 각 필드별 속성에 따른 다양한 Type 을 선택하여 원하는 결과를 output(출력)해 볼 수 있습니다.

 
1) Numeric(숫자) 필드 선택 시
 
2) Character(문자) 및 Datetime(날짜/시간) 필드 선택 시
 

Fields to process(처리할 필드)에서,

 

Numeric(숫자) 필드 선택 시:

기본(Default) Type 은 그룹별 합계(totals)인 SUM 입니다. Choose... 를 클릭하여 사용 가능(available)한 다른 Type 을 선택합니다. Numeric(숫자) 필드를 사용하면 동일한 필드를 여러 번 선택하여 다음 Type 중 하나 이상을 선택할 수 있습니다: First, Last, Min, Max, Sum, Avg, StdDev, Median, Mode, Q1, Q3

 

Character(문자) 및 Datetime(날짜/시간) 필드 선택 시:

기본(Default) Type 은 key field 에서 정렬(sort)되는 데이터를 기반으로 각 group 에서 마주하는 첫 번째 값(first value)을 선택하는 FIRST 입니다. 

Character(문자) 및 Date(날짜) 필드를 사용하면 동일한 필드를 여러 번 선택하여 다음 Type 중 하나 이상을 선택할 수 있습니다: First, Last, Min, Max

 

아래 표에서는 각 Type 에 대한 결과(result)를 설명합니다. 업무에 참고하시면 좋겠습니다.

Type

설명

First

Key field 에서 정렬(sort)되는 데이터를 기반으로 마주하는 첫 번째 값(first value)

Last

Key field 에서 정렬(sort)되는 데이터를 기반으로 마주하는 마지막 값(last value)

Min

가장 작은(Smallest) 또는 가장 이른(earliest) (value)

Max

가장 큰(Largest) 또는 최신(latest) (value)

Sum

합계(Total)

Avg

평균(average/mean)

StdDev

Numeric value(숫자 값목록에서 변동(variation) 또는 분산(dispersion)의 양을

정량화(quantify)하는데 사용되는 측정값

Median

중간(Middle) (value)

Mode

가장 자주(Most often) 발생하는 값(value). 값이 반복(repeat)되지 않으면 no mode 입니다.

Q1

첫 번째 사분위수(First quartile)는 데이터 세트의 하위 절반의 중앙값(median)입니다.

이는 데이터 세트에 있는 number(숫자)의 약 25%  Q1 아래에 있고 약 75%  Q1 위에

있음을 의미합니다.

Q3

세 번째 사분위수(Third quartile)는 데이터 세트의 상위 절반의 중앙값(median)입니다.

이는 데이터 세트에 있는 number(숫자)의 약 75%  Q3 아래에 있고 약 25%  Q3 위에

있음을 의미합니다.

고유한 그룹화(Unique grouping)가 많으므로, Summarize command(요약 명령)의 output(출력)을 Command Log/명령 로그(SCREEN)에 출력하는 대신 default output(기본 출력)인 새 테이블에 저장하는 것이 가장 좋습니다. 

이후 새 테이블을 추가로 분석할 수 있습니다.

 

절차

2. Choose 를 클릭하고 Summarize key fields 를 선택합니다. OK 클릭.

3. Fields to process(처리할 필드)를 하나 이상 선택(옵션)

4. Output table 텍스트 상자에 이름을 입력

5. OK 클릭

 

분석 대상 및 시나리오 예시:

대상 table: AR_Invoices

각 customer(고객)에 대해 다음을 식별해 봅니다.

◦ Total amount(합계 금액)

◦ Average amount(평균 금액)

◦ Earliest invoice date(가장 이른 송장 날짜)

◦ Latest invoice date(최신 인보이스 날짜)

 

1. Analyze > Summarize 를 클릭합니다.

 

2. Choose 를 클릭하고, Summarize key fields (Customer_No)를 선택합니다. 

 

3. Fields to process(처리할 필드)에서 Choose 를 클릭한 후

선택한 TotalAmount 필드 Type 를 버튼 클릭 > SUM(합계)을 선택함니다.

 

TotalAmount 필드를 다시 선택한 후 Type 를 버튼 클릭 > AVG(평균)을 선택함니다.

 

InvoiceDate 필드를 선택한 후 Type 를 버튼 클릭 > MIN(가장 이른)을 선택함니다.

 

InvoiceDate 필드를 다시 선택한 후 Type 를 버튼 클릭 > LAST(최신)을 선택함니다.

 

Output Table(출력 테이블)의 이름을 AR_InvoicesByCustomer 로 지정 > OK 클릭

 

4. View(보기) 화면에서 결과를 확인합니다.

Costomer_No 056016 클릭!

 

** View 탭에 아래 방향 화살표(파란색)가 표시되는 경우에는, 

드릴 가능한(Drillable) 테이블을 표시하기 때문에 해당 셀(cell)을 더블 클릭하면, 상세 리스트를 확인할 수 있습니다.