所支持¶
reresearch支持词干提取,即将单词的基本形式添加到索引中。例如,这允许查询“going”也返回“go”和“gone”的结果。
当前的词干支持是基于斯诺鲍stemmer库,它支持大多数欧洲语言,以及阿拉伯语和其他。我们希望在不久的将来包含更多的语言(如果你需要特定的语言支持,请打开一个问题)。
有关详细信息,请参阅雪球抽梗机网站.
支持的语言¶
下面的语言是支持的,可以在索引或查询时传递给引擎,以小写字母:
- 阿拉伯语
- 亚美尼亚
- 丹麦
- 荷兰
- 英语
- 芬兰
- 法国
- 德国
- 匈牙利
- 意大利
- 挪威
- 葡萄牙语
- 罗马尼亚
- 俄罗斯
- 塞尔维亚
- 西班牙语
- 瑞典
- 泰米尔
- 土耳其
- 意第绪语
- 中国(见下文)
中国的支持¶
对中文文档进行索引不同于对大多数其他语言的文档进行索引,这是因为标记提取的方式不同。虽然大多数语言都可以通过分隔字符和空格来区分标记,但这在中文中并不常见。
中文标记化是通过扫描输入文本,根据预定义术语字典检查每个字符或字符序列,并根据周围的术语和字符确定最有可能的匹配来完成的。
reresearch利用了Friso为此目的的中文标记化库。这在很大程度上对用户是透明的,通常不需要额外的配置。
使用自定义词典¶
如果您希望使用自定义字典,可以在加载模块时在模块级别上这样做。的FRISOINI
设置可以指向a的位置friso.ini
文件,该文件包含字典文件的相关设置和路径。
注意,没有“默认”frio .ini文件位置。RedisSearch也有自己的产品friso.ini
以及在构建时被编译到模块二进制文件中的字典文件。