메뉴 건너뛰기

[기술적 해법(Technical Insights)]

 

※ 아래 각각의 제목을 클릭!하시면, 주제별 상세한 내용을 보실 수 있습니다.

  • 간단할 필요가 있다고 해서, 지나친 단순화를 의미하지는 않음(Simple Need Not Imply Simplistic)
    데이터 환경이 복잡할 수 있지만, 진정으로 정교한 솔루션(sophisticated solution)은 세부 사항에 대한 부담을 사용자에게 지우지 않습니다.

    이것이 바로 Arbutus 가 추구하는 모든 것입니다.

    Arbutus Analytics 플랫폼이 복잡한 데이터 문제에 대한 간단한 솔루션을 제공하는 방법에 대해 알아보십시오. 
     
  • 쓸데없는 것을 줄이기(Reducing Clutter)
    Arbutus Analyzer 는 작업을 효율적으로 구성하고, 쓸데없는 것(clutter - 쓸데없이 공간만 차지하는 쓰레기)을 줄일 수 있는 다양한 방법을 제공합니다.

    File, script, log 및 folder 에 적용할 수 있습니다.
     
  • 분석(Analytics)은 골치 아픈 업무가 될 수 있음...
    초보자는 입력 데이터(input data)와 결과(result)만 있으면 된다고 생각할 수도 있습니다: 멋지고 깔끔.

    현실은 일반적으로 훨씬 다릅니다. 유용한 결과(useful result)로 바뀌지 않은 막다른 길도 많을 뿐만 아니라 최종 결과(final result)에 기여한 것으로 보이는 table, field,  script 도 셀 수 없이 많습니다.
     
  • 주소 정규화(Address Normalization)란 무엇일까요?
    데이터 정규화(Data normalization)는 익숙하지 않은 용어이지만 거의 모든 매칭(matching) 연습의 성공을 위한 열쇠이며, 사실 일반적으로 데이터베이스 이론의 기초가 됩니다.

    본질적으로 "당신은 pot-tay-to라고 말하고 나는 po-tah-to라고 말합니다(영어권에서 감자를 이렇게 부르나 저렇게 부르나 마찬가지, 즉 매 한가지 라는 표현)"는 과학입니다.

    우리는 같은 것의 다른 표현(expression)이 일치(match)하기를 원합니다.
     
  • Script 보호(Protect Your Scripts)
    다른 사용자를 위해 script 를 작성하는 사람은 script 를 "bulletproof(방탄 - 있을지 모를 문제나 손상에 보호되도록 디자인된)"으로 만들려고 최선을 다했음에도 불구하고, 사용자와 script 를 공유한 후에 문제가 발생할 수 있다는 것을 알고 있습니다.

    Bulletproof(방탄 - 있을지 모를 문제나 손상에 보호되도록 디자인된) script 작성은 우리 모두가 열망하는 일이며, Arbutus 는 이를 현실화하는데 도움이 되는 다양한 도구를 제공합니다.
     
  • 데이터 품질 문제(Data Quality Matters)
    모든 사람들이 "Garbage in, Garbage out"(GIGO)이라는 개념에 대해 들어보았지만, 우리 대부분에게 이것은 받아들여지기는 하지만 추상적인 개념입니다.

    오늘 우리는 데이터 품질(Data Quality - DQ)을 더 자세히 살펴보고 GIGO 를 최소화하는 방법을 보여줄 것입니다.
    ** Garbage in, Garbage out"(GIGO): ‘쓸데없는 것이 입력되면, 출력되는 것도 쓸데없는 것뿐’이라는 뜻으로, 컴퓨터에 불완전한 데이터를 입력하면 불완전한 결과 값이 나올 수밖에 없다는 말.
     
  • 데이터 품질 관리(Data Quality Management)
    데이터 품질(data's quality)을 테스트하기 위해, 수행할 수 있는 몇 가지 간단한 단계가 있습니다.

    이상적으로는, Arbutus Analyzer 에서 파일을 정의(defining a file)한 직후와 분석을 시작하기 전에 이 작업을 수행해야 합니다.

    여기에 설명된 테스트를 실행하면 Command Log 에 결과(result)가 기록됩니다.
     
  • 주소 정규화 및 중복 탐지(Normalize Addresses & Detect Duplicates)
    Arbutus Analyzer 의 function(함수)을 사용하여 주소를 정규화(normalize address)하고 숨겨진 중복(duplicate)을 탐지하는 방법을 배우게 됩니다.

    또한 Analyzer 에서 직접 실행할 수 있는 file, script 및 지침도 포함되어 있습니다.