XETOWN

자유광장

조회 수 101 추천 수 1 댓글 6
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 댓글로 가기
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기

언어 분석기라는게 있습니다.

 

예를들어 "아버지가 방에 들어가신다" 라는걸 "아버지, 방, 들어가-" 로 쪼개주는 것이죠.

 

이걸 사용하면 검색결과가 더 좋지 않을까 적용해 보았습니다.

 

그 후기입니다.

 

1. 검색결과가 오히려 더 나빠졌다는 것.

"임을 위한 행진곡" 이라는 키워드였는데, 기존은 (임을 or 위한 or 행진곡)으로 단어빈도 가중치를 줘서 결과를 가져오는데,

분석기를 설치하니 (임 or 위하- or 행진곡)으로 검색키워드가 바뀌게 되어서 매칭되는 결과도 늘어나도 결과에 잡음(?)도 많이 생겨버리더군요.

 

 

2. 사용자는 이미 명사 검색에 익숙하다는 것. 

요즘 사용자는 "xe를 라이믹스로 업그레이드하는 방법" 이 정보를 얻고 싶으면

"라이믹스 업그레이드" 이렇게 검색을 합니다.

 

 

3. 맞춤법과 띄어쓰기도 맞춰서 검색한다는 것.

보통 2단어 이내로 검색하지만 길어져도 맞춰서 검색하더라구요.

"업그레이드방법" 이라고 검색하지 않고 "업그레이드 방법" 이라고 검색합니다.

굳이 언어 분석기를 사용해서 "업그레이드방법" 키워드를 쪼갤 필요가 없더라구요.

 

결론은 특이하게도 "언어분석기를 사용하지 않는게 더 낫다" 가 되었습니다.

당연히 나아질거라 기대했던 저로써는 당황스럽네요. 

 

 

일반적인 띄어쓰기로 단어를 분리해서 검색하는 방식이 더 낫다는 결론입니다.

 

 

 

  • profile
    기진곰 2017.05.28 23:45:55

    네, 저도 Elasticsearch 연동 모듈을 판매하고 있습니다만

    사이트 주제에 따라서는 한글 형태소 분석기를 사용하지 않는 편이 나을 때도 있더라구요.

    형태소 분석이 되지 않는 검색 방식에 모두들 길들여져서 그런지는 모르겠지만,

    그냥 ngram 방식의 인덱스를 선호하는 사이트가 많습니다.

  • profile
    GG 2017.05.29 01:25:04
    '가 나 다' 를 'ㄱㅏㄴㅏㄷㅏ' 로 저장해 놓고 검색어를 받을때 '가나 다' 라고 받더라도 'ㄱㅏㄴㅏㄷㅏ'로 변형해서 검색에 들어가면 검색 품질이 영어 알파벳 급이 되지 않을까요?
  • profile
    라엘 2017.05.29 08:45:18
    내용이 잘 이해가 안되지만 굳이 자모음을 분리할 필요가 없을것 같습니다.
  • ?
    날아라 2017.05.29 09:13:48
    검색결과만 놓고보면 가나다나 ㄱㅏㄴㅏㄷㅏ 나 다를게 없는듯합니다.
    저는 해당시스템이 도입이 되어있는데 이건 검색어 자동완성 시에만 유효합니다.
    ㄱ만쳐도 ㄱ으로 시작되는 검색어들이 자동완성되는것입니다.
  • profile
    기진곰 2017.05.29 09:56:33
    띄어쓰기 무시하고 자모음 배열만 저장한다면 "어를바"라고 검색해도 GG님 글이 나올 거예요 ㅎㅎ
    자동완성에는 쓸모가 있겠지만 본문검색은 그닥....

    관련된 문서가 검색되는 것도 중요하지만
    관련이 없는 문서는 검색되지 않도록 하는 것도 마찬가지로 중요합니다.
    이게 가장 어려운 부분인 것 같네요 ㅜㅜ
  • profile
    GG 2017.05.30 02:02:29
    어를바 같이 특이한 단어로 보통 검색을 하지는 않겠죠.
    가장 좋은거야 한글 형태소 분석 과정을 통해서 검색을 하는것 이겠지만 그것이 여의치 않고 단순한 단어 검색 수준을 생각하면 가성비 최고가 아닌가 싶습니다.
    분수 광장 은 검색되고 분수광장 은 검색 안되고 그러면 마음이 아플것 같네요.

서버에 요청 중입니다. 잠시만 기다려 주십시오...