한글 토큰화

Elasticsearch의 기본 Analyzer는 영어를 토큰화하기에 최적화 되어있음.

예시

I'm John, Nice to meet you.를 토큰화하면

1. i'm
2. john
3. nice
4. to
5. meet
6. you
로 토큰화가 진행됨

기본 Analyzer가 토큰화를 진행하는 순서는 이러하다.

토큰화 과정에서 쉼표, 마침표같은 구두점은 단어 구분자로 사용되어, 토큰 목록에서 제외함.