ElasticSearch의 분산 검색과 인덱싱 전략

8월 30, 2024

ElasticSearch는 대규모 데이터 세트에서 빠르고 효율적인 검색을 제공하는 오픈 소스 분산 검색 엔진입니다. ElasticSearch는 JSON 형식의 문서를 저장하고, 검색할 수 있는 구조화된 데이터를 인덱싱하여 분산 시스템에서 실시간 검색과 분석을 가능하게 합니다. 이 글에서는 ElasticSearch의 분산 검색 메커니즘과 최적의 인덱싱 전략을 살펴보겠습니다.

ElasticSearch의 분산 아키텍처

ElasticSearch는 기본적으로 분산 아키텍처를 채택하고 있으며, 데이터를 여러 개의 샤드(shard)로 분할하여 저장하고 검색 성능을 최적화합니다. 클러스터(cluster)라고 불리는 여러 노드(node)로 구성되며, 각 노드는 데이터를 저장하고 검색 요청을 처리하는 데 기여합니다.

주요 구성 요소

클러스터(Cluster): 하나 이상의 노드로 구성되며, 데이터를 저장하고 분산 검색 요청을 처리합니다. 클러스터는 단일 논리적 인덱스를 형성하며, 모든 데이터가 이 안에서 관리됩니다.
노드(Node): ElasticSearch 클러스터를 구성하는 단위 서버입니다. 각 노드는 데이터를 저장하고, 클러스터 내에서 역할을 수행합니다. 노드는 마스터 노드, 데이터 노드, 클라이언트 노드 등 다양한 역할을 할 수 있습니다.
샤드(Shard): 인덱스를 여러 부분으로 나눈 것입니다. 각 샤드는 독립적인 인덱스로서 저장되며, 여러 노드에 분산되어 저장됩니다. ElasticSearch는 기본적으로 인덱스를 여러 샤드로 나누어 데이터 저장과 검색 성능을 향상시킵니다.
레플리카(Replica): 샤드의 복사본으로, 데이터 가용성과 장애 복구를 위해 사용됩니다. 레플리카는 원본 샤드가 손실될 경우를 대비해 데이터를 보호하며, 검색 성능을 개선하는 데 기여할 수 있습니다.

ElasticSearch의 분산 검색

ElasticSearch의 분산 검색 메커니즘은 인덱싱된 데이터를 여러 샤드에 분산 저장하고, 검색 요청 시 이들 샤드에 동시에 쿼리를 실행하여 결과를 통합합니다.

검색 과정

검색 요청 처리: 클라이언트로부터 검색 요청이 들어오면, 마스터 노드가 이를 분석하여 어떤 샤드에서 검색을 수행할지 결정합니다.
쿼리 분산: 검색 요청이 분산되어 있는 각 샤드로 전달됩니다. 모든 관련 샤드는 병렬로 쿼리를 처리하고, 결과를 반환합니다.
결과 통합: 샤드에서 반환된 검색 결과를 마스터 노드가 통합하여, 최종적으로 클라이언트에 반환합니다. 이 과정에서 결과의 정렬, 페이징 등의 작업이 이루어질 수 있습니다.

장점

확장성: 데이터와 검색 요청이 여러 노드에 분산되어 처리되므로, 대규모 데이터 세트에서도 빠른 검색 속도를 유지할 수 있습니다.
가용성: 레플리카 샤드 덕분에 특정 노드의 장애가 발생해도 데이터 손실 없이 검색 기능을 유지할 수 있습니다.

ElasticSearch의 인덱싱 전략

ElasticSearch에서 인덱싱은 데이터를 저장하고 검색할 수 있도록 구조화하는 과정입니다. 올바른 인덱싱 전략을 세우는 것은 성능과 효율성에 큰 영향을 미칩니다.

1. 샤드와 레플리카 구성

샤드 수 결정: 샤드 수는 인덱스의 크기와 검색 성능에 영향을 미칩니다. 너무 많은 샤드를 생성하면 오버헤드가 발생할 수 있으며, 너무 적은 샤드는 데이터가 비효율적으로 분산될 수 있습니다. 일반적으로 초기에는 샤드 수를 낮게 설정하고, 필요에 따라 확장할 수 있도록 구성합니다.
레플리카 구성: 레플리카는 기본적으로 1개 이상 설정하는 것이 좋습니다. 이를 통해 데이터 가용성을 높이고, 읽기 성능을 향상시킬 수 있습니다.

2. 인덱스 템플릿 사용

인덱스 템플릿: 여러 인덱스에 공통적으로 적용되는 설정을 미리 정의할 수 있습니다. 인덱스 템플릿을 통해 샤드 수, 매핑, 설정 등을 표준화할 수 있습니다.

예시:

{
  "index_patterns": ["log-*"],
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  },
  "mappings": {
    "properties": {
      "timestamp": { "type": "date" },
      "message": { "type": "text" }
    }
  }
}

3. 문서 구조와 매핑 설계

문서 매핑(Mapping): 각 필드의 데이터 타입을 정의하는 과정으로, 문자열, 숫자, 날짜 등의 타입을 지정할 수 있습니다. 잘못된 매핑은 성능 저하와 검색 정확도에 영향을 미칠 수 있으므로, 적절한 데이터 타입을 사용하는 것이 중요합니다.

최적화된 매핑: 불필요한 필드를 제거하고, 필요한 필드만 인덱싱하여 리소스 사용을 최소화합니다. 예를 들어, keyword 타입은 정확한 매칭을 위해, text 타입은 풀 텍스트 검색을 위해 사용됩니다.

4. 인덱스 롤오버(Rollover) 전략

롤오버: 일정한 데이터 양이나 기간이 지나면 새로운 인덱스를 생성하여, 기존 인덱스를 닫고 읽기 전용으로 전환하는 방법입니다. 이는 인덱스 크기를 적절히 관리하고, 성능 저하를 방지하는 데 유용합니다.

예시:

{
  "conditions": {
    "max_age": "7d",
    "max_size": "50gb"
  }
}

5. 일괄 인덱싱(Bulk Indexing)

일괄 처리: 대량의 데이터를 인덱싱할 때는 일괄 처리(bulk)를 사용하여 성능을 최적화할 수 있습니다. 한 번에 많은 문서를 인덱싱할 수 있어, 개별 요청에 비해 효율적입니다.

일괄 요청 예시:

POST /_bulk
{ "index" : { "_index" : "my_index", "_id" : "1" } }
{ "field1" : "value1" }
{ "index" : { "_index" : "my_index", "_id" : "2" } }
{ "field1" : "value2" }

6. TTL(Time to Live) 설정

데이터 수명 관리: 오래된 데이터를 자동으로 삭제하여 인덱스 크기를 관리하고, 성능을 유지할 수 있습니다. TTL을 설정하면 특정 시간이 지난 문서는 자동으로 제거됩니다.

7. 분할 인덱스 전략

인덱스 분할: 특정 조건에 따라 데이터를 여러 인덱스로 나누어 관리할 수 있습니다. 이는 인덱스 크기를 관리하고, 검색 성능을 최적화하는 데 도움이 됩니다. 예를 들어, 날짜 기반으로 인덱스를 분할하여, 최근 데이터에 더 빠르게 접근할 수 있도록 할 수 있습니다.

결론

ElasticSearch는 대규모 데이터를 효율적으로 검색하고 분석할 수 있는 강력한 분산 검색 엔진입니다. 분산 아키텍처를 통해 대규모 데이터 세트에서도 빠르고 안정적인 검색을 제공하며, 적절한 인덱싱 전략을 통해 성능을 최적화할 수 있습니다. 샤드 구성, 매핑 설계, 인덱스 롤오버 등의 전략을 신중하게 적용하여, ElasticSearch의 성능과 효율성을 극대화하는 것이 중요합니다. ElasticSearch를 적절히 활용하면, 다양한 데이터 분석과 검색 요구 사항을 충족시킬 수 있는 유연하고 확장 가능한 시스템을 구축할 수 있습니다.

인포아카이브

Python의 GIL(Global Interpreter Lock)과 멀티스레딩의 한계