跳到内容

所支持

reresearch支持词干提取,即将单词的基本形式添加到索引中。例如,这允许查询“going”也返回“go”和“gone”的结果。

当前的词干支持是基于斯诺鲍stemmer库,它支持大多数欧洲语言,以及阿拉伯语和其他。我们希望在不久的将来包含更多的语言(如果你需要特定的语言支持,请打开一个问题)。

有关详细信息,请参阅雪球抽梗机网站

支持的语言

下面的语言是支持的,可以在索引或查询时传递给引擎,以小写字母:

  • 阿拉伯语
  • 亚美尼亚
  • 丹麦
  • 荷兰
  • 英语
  • 芬兰
  • 法国
  • 德国
  • 匈牙利
  • 意大利
  • 挪威
  • 葡萄牙语
  • 罗马尼亚
  • 俄罗斯
  • 塞尔维亚
  • 西班牙语
  • 瑞典
  • 泰米尔
  • 土耳其
  • 意第绪语
  • 中国(见下文)

中国的支持

对中文文档进行索引不同于对大多数其他语言的文档进行索引,这是因为标记提取的方式不同。虽然大多数语言都可以通过分隔字符和空格来区分标记,但这在中文中并不常见。

中文标记化是通过扫描输入文本,根据预定义术语字典检查每个字符或字符序列,并根据周围的术语和字符确定最有可能的匹配来完成的。

reresearch利用了Friso为此目的的中文标记化库。这在很大程度上对用户是透明的,通常不需要额外的配置。

使用自定义词典

如果您希望使用自定义字典,可以在加载模块时在模块级别上这样做。的FRISOINI设置可以指向a的位置friso.ini文件,该文件包含字典文件的相关设置和路径。

注意,没有“默认”frio .ini文件位置。RedisSearch也有自己的产品friso.ini以及在构建时被编译到模块二进制文件中的字典文件。

Baidu