Keyword Search

키워드 검색

키워드 검색은 사용자가 문자열을 문서에서 찾아 관려도가 높은 순서로 반환하는 검색.

문서 전체를 매번 훒지 않고
미리 만들어준 역색인(Inverted Index)를 통해
"이 단어(토큰)이 들어간 문서 ID 목록"을 빠르게 찾고
여러 단어의 조합(AND/OR), 필드(제목/본문) 가중치, 랭킹(BM25 등)을 적용하여
최종 결과를 정렬하여 반환

이 기술을 “어떻게 적용”하는가

여기서는 “키워드 검색을 제품에 붙인다”를 기준으로 가장 흔한 접근을 정리합니다.

적용 Step 1) 검색 대상 정의

문서 타입: 상품 / 게시글 / 장소 / 코드 / 사용자 등
각 문서의 필드 정의
- title, description, tags, category, price, location, createdAt …

적용 Step 2) 매핑/분석기 설계 (정확도 80%가 여기서 결정)

텍스트 필드에 어떤 analyzer를 쓸지
정렬/집계를 위해 어떤 필드를 keyword/doc_values로 둘지
검색 품질 위해 multi-field 구성
- 예: title은 text + keyword 둘 다 (검색 + 정렬/정확매칭)

적용 Step 3) 색인 파이프라인 구축

데이터 원천: DB
동기화 전략:
1. 배치 전체 색인(초기 구축)
2. CDC/Outbox/이벤트로 증분 업데이트(운영)
일관성 전략:
- “DB가 진실(SOT)” + 검색은 “조회 최적화 캐시/인덱스”로 두는 경우가 많음

적용 Step 4) 검색 API 설계

query string 지원
필터(카테고리/가격) 지원
정렬(최신/인기) 지원
pagination (search_after 권장)
응답에는 score + highlight + facets 포함 가능

적용 Step 5) 튜닝 & 운영

샤드 개수, 레플리카 개수
refresh interval
merge 정책
query cache / request cache
slowlog / profile로 병목 추적

예시 코드

Lucene 예시 (Java) — 인덱싱 + 검색

의존성: lucene-core, lucene-analyzers-common 등

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.*;
import org.apache.lucene.index.*;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.*;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;

public class LuceneKeywordSearchDemo {

    public static void main(String[] args) throws Exception {
        Directory dir = new RAMDirectory();
        Analyzer analyzer = new StandardAnalyzer();

        // 1) IndexWriter: 색인 생성
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        IndexWriter writer = new IndexWriter(dir, config);

        addDoc(writer, "1", "아이폰 13 케이스", "정품 실리콘 케이스", 29000);
        addDoc(writer, "2", "갤럭시 S23 케이스", "투명 TPU 케이스", 9900);
        addDoc(writer, "3", "아이폰 충전기", "20W 고속 충전기", 19000);

        writer.close();

        // 2) Searcher: 검색 실행
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher searcher = new IndexSearcher(reader);

        // 3) QueryParser: 키워드 검색(기본은 OR 성향이지만 설정 가능)
        QueryParser parser = new QueryParser("title", analyzer);
        Query query = parser.parse("아이폰 케이스");

        TopDocs topDocs = searcher.search(query, 10);

        System.out.println("총 hits: " + topDocs.totalHits.value());
        for (ScoreDoc sd : topDocs.scoreDocs) {
            Document d = searcher.doc(sd.doc);
            System.out.printf("docId=%s, title=%s, score=%.4f%n",
                    d.get("id"), d.get("title"), sd.score);
        }

        reader.close();
        dir.close();
    }

    private static void addDoc(IndexWriter writer, String id, String title, String body, int price) throws Exception {
        Document doc = new Document();

        // 검색 대상(text): 토큰화되어 postings에 들어감
        doc.add(new TextField("title", title, Field.Store.YES));
        doc.add(new TextField("body", body, Field.Store.YES));

        // 필터/정렬용 숫자: postings가 아니라 doc values / point로 관리
        doc.add(new IntPoint("price", price));
        doc.add(new StoredField("price_store", price));

        // 식별자
        doc.add(new StringField("id", id, Field.Store.YES));

        writer.addDocument(doc);
    }
}

이 코드에서 “키워드 검색”이 일어나는 지점

TextField("title"... 가 analyzer로 토큰화되어 **역색인(postings)**에 들어감
QueryParser("title", analyzer) 가 "아이폰 케이스"를 토큰화하여 postings 조회 → 매칭 문서 후보 생성 → BM25 점수 계산 → TopK 추출

Elasticsearch/OpenSearch 예시 (REST) — 매핑/색인/검색

(1) 인덱스 생성 + 매핑

curl -X PUT "http://localhost:9200/products" -H "Content-Type: application/json" -d '
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_ko_analyzer": {
          "type": "standard"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": { "type": "text", "analyzer": "my_ko_analyzer" },
      "body":  { "type": "text", "analyzer": "my_ko_analyzer" },
      "price": { "type": "integer" },
      "createdAt": { "type": "date" }
    }
  }
}'

(2) 문서 색인

curl -X POST "http://localhost:9200/products/_doc/1" -H "Content-Type: application/json" -d '
{
  "title": "아이폰 13 케이스",
  "body": "정품 실리콘 케이스",
  "price": 29000,
  "createdAt": "2026-01-10T10:00:00+09:00"
}'

(3) 키워드 검색 (multi_match + 필드 가중치)

curl -X GET "http://localhost:9200/products/_search" -H "Content-Type: application/json" -d '
{
  "query": {
    "multi_match": {
      "query": "아이폰 케이스",
      "fields": ["title^3", "body"]
    }
  },
  "size": 10
}'

title^3 : 제목 매칭을 더 중요하게
내부적으로:
- query analyzer로 “아이폰”, “케이스” 토큰화
- postings 기반으로 후보 문서 찾기
- BM25 등으로 점수 계산
- Top 10 반환

PreviousSearch Engine NextVibeCoding

Last updated 16 days ago

Keyword Search

키워드 검색

관련 기술과 원리 (Lucene / ElasticSearch / OpenSearch)

전체 파이프라인

A. 색인 파이프라인

B. 질의(Query) 파이프라인

역색인이 왜 빠른가?

정방향 색인(Forward) vs 역색인(Inverted)

역색인의 내부 구조(postings와 dictionary)

1. Term Dictionary(용어 사전)

2. Posting List(문서 목록)

3. Stored fields / Doc values

Analyzer가 검색 품질 결정

1) Analyzer 구성요소

2) Search-time vs Index-time

3) 한국어가 어려운 이유

랭킹(Score)은 어떻게 계산되나? (BM25 중심)

1) TF-IDF 직관

2) BM25가 TF-IDF를 개선한 지점

3) 필드 가중치(Field boost)

Depth 6. Lucene(라이브러리) vs Elasticsearch/OpenSearch(서버)

1) Lucene

2) Elasticsearch / OpenSearch

이 기술을 “어떻게 적용”하는가

적용 Step 1) 검색 대상 정의

적용 Step 2) 매핑/분석기 설계 (정확도 80%가 여기서 결정)

적용 Step 3) 색인 파이프라인 구축

적용 Step 4) 검색 API 설계

적용 Step 5) 튜닝 & 운영

예시 코드

Lucene 예시 (Java) — 인덱싱 + 검색

이 코드에서 “키워드 검색”이 일어나는 지점

Elasticsearch/OpenSearch 예시 (REST) — 매핑/색인/검색

(1) 인덱스 생성 + 매핑

(2) 문서 색인

(3) 키워드 검색 (multi_match + 필드 가중치)

hashtag키워드 검색

hashtag관련 기술과 원리 (Lucene / ElasticSearch / OpenSearch)

hashtag전체 파이프라인

hashtagA. 색인 파이프라인

hashtagB. 질의(Query) 파이프라인

hashtag역색인이 왜 빠른가?

hashtag정방향 색인(Forward) vs 역색인(Inverted)

hashtag역색인의 내부 구조(postings와 dictionary)

hashtag1. Term Dictionary(용어 사전)

hashtag2. Posting List(문서 목록)

hashtag3. Stored fields / Doc values

hashtagAnalyzer가 검색 품질 결정

hashtag1) Analyzer 구성요소

hashtag2) Search-time vs Index-time

hashtag3) 한국어가 어려운 이유

hashtag랭킹(Score)은 어떻게 계산되나? (BM25 중심)

hashtag1) TF-IDF 직관

hashtag2) BM25가 TF-IDF를 개선한 지점

hashtag3) 필드 가중치(Field boost)

hashtagDepth 6. Lucene(라이브러리) vs Elasticsearch/OpenSearch(서버)

hashtag1) Lucene

hashtag2) Elasticsearch / OpenSearch

hashtag이 기술을 “어떻게 적용”하는가

hashtag적용 Step 1) 검색 대상 정의

hashtag적용 Step 2) 매핑/분석기 설계 (정확도 80%가 여기서 결정)

hashtag적용 Step 3) 색인 파이프라인 구축

hashtag적용 Step 4) 검색 API 설계

hashtag적용 Step 5) 튜닝 & 운영

hashtag예시 코드

hashtagLucene 예시 (Java) — 인덱싱 + 검색

hashtag이 코드에서 “키워드 검색”이 일어나는 지점

hashtagElasticsearch/OpenSearch 예시 (REST) — 매핑/색인/검색

hashtag(1) 인덱스 생성 + 매핑

hashtag(2) 문서 색인

hashtag(3) 키워드 검색 (multi_match + 필드 가중치)

키워드 검색

관련 기술과 원리 (Lucene / ElasticSearch / OpenSearch)

전체 파이프라인

A. 색인 파이프라인

B. 질의(Query) 파이프라인

역색인이 왜 빠른가?

정방향 색인(Forward) vs 역색인(Inverted)

역색인의 내부 구조(postings와 dictionary)

1. Term Dictionary(용어 사전)

2. Posting List(문서 목록)

3. Stored fields / Doc values

Analyzer가 검색 품질 결정

1) Analyzer 구성요소

2) Search-time vs Index-time

3) 한국어가 어려운 이유

랭킹(Score)은 어떻게 계산되나? (BM25 중심)

1) TF-IDF 직관

2) BM25가 TF-IDF를 개선한 지점

3) 필드 가중치(Field boost)

Depth 6. Lucene(라이브러리) vs Elasticsearch/OpenSearch(서버)

1) Lucene

2) Elasticsearch / OpenSearch

이 기술을 “어떻게 적용”하는가

적용 Step 1) 검색 대상 정의

적용 Step 2) 매핑/분석기 설계 (정확도 80%가 여기서 결정)

적용 Step 3) 색인 파이프라인 구축

적용 Step 4) 검색 API 설계

적용 Step 5) 튜닝 & 운영

예시 코드

Lucene 예시 (Java) — 인덱싱 + 검색

이 코드에서 “키워드 검색”이 일어나는 지점

Elasticsearch/OpenSearch 예시 (REST) — 매핑/색인/검색

(1) 인덱스 생성 + 매핑

(2) 문서 색인

(3) 키워드 검색 (multi_match + 필드 가중치)