Groongan導入事例

author

佐藤 博之

content-source

Groonga Meatup 2015

date

2015-11-29

theme

.

自己紹介

最近の営業活動

目次

構築したサービスの要件

構築したサービスの要件

relative_height=“100”}

全文検索ソフトウェア

日本語全文検索 -> Groonga

なぜGroonga

サーバ構成

構成

relative_height=“100”}

embulk(エンバルク)

embulkの構成

relative_height=“80”}

{::note}出典:www.slideshare.net/frsyuki/embuk-making-data-integration-works-relaxed{:/note}

groongaプラグイン

プラグイン利用例

relative_height=“100”}

サンプルデータ

relative_height=“80”}

設定例(入力部)

in:
  type: file
  path_prefix: hoge/csv/sample_
  decoders:
  - {type: gzip}
  parser:
    charset: UTF-8
    newline: CRLF
    type: csv
    columns:
    - {name: id, type: long}
    - {name: title, type: string}
    - {name: date, type: timestamp, format: '%Y/%m/%d'}
    - {name: comment, type: string}

{: lang=“yaml”}

設定例(出力部)

out:
  type: groonga
  table: Data # 投入先のテーブル名
  host: localhost
  protocol: http
  key_column: title # キーにするカラム

{: lang=“yaml”}

Embulkの情報サイト

導入結果

なんか遅い

疑似コード

select \
  --table Data \
  --match_columns article \
  --output_columns "_key,highlight_html(article),line_no" \
  --query "( Groonga OR ぐるんが ) OR (line_no:>1 + line_no:<500)" \
  --command_version 2 \
  --limit -1

Groongaなどのキーワードは40個ぐらい

遅い原因

relative_height=“100”}

遅い原因

highlight_htmlがとても遅い

highlight_html

不具合報告

須藤さん助けて

不具合報告

relative_height=“100”}

改修結果(5.0.8~)

relative_height=“100”}

Thanks

ありがとうございました。