中国对reresearch的支持¶
从0.99.0版本开始,支持添加中文文档。
中文支持允许中文文档添加和标记使用分段而不是使用空格和/或标点符号的简单标记。
对中文文档进行索引不同于对大多数其他语言的文档进行索引,这是因为标记提取的方式不同。虽然大多数语言都可以通过分隔字符和空格来区分标记,但这在中文中并不常见。
中文标记化是通过扫描输入文本,根据预定义术语字典检查每个字符或字符序列,并根据周围的术语和字符确定最有可能的匹配来完成的。
reresearch利用了Friso为此目的的中文标记化库。这在很大程度上对用户是透明的,通常不需要额外的配置。
例如:在reresearch中使用中文¶
在伪代码:
FT.CREATE idx模式txt文本FT.ADD idx docCn 1.0语言中国领域txt”复述,支持主从同步。数据可以从主服务器向任意数量的从服务器上同步,从服务器可以是关联其他从服务器的主服务器。这使得复述,可执行单层树复制。从盘可以有意无意的对数据进行写操作。由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录。同步对读取操作的可扩展性和数据冗余很有帮助。[8]" FT.SEARCH idx "数据" LANGUAGE chinese HIGHLIGHT SUMMARIZE # Outputs: #< b >数据< / b >?…< b >数据< / b >进行写操作。由于完全实现了发布...< b >数据< / b >冗余很有帮助。[8...
使用Python客户端:
# -*-编码:utf-8 -*-从redisearch.client进口客户端,查询从redisearch进口文本框客户端=客户端(“idx”)试一试:客户端.drop_index()除了:通过客户端.create_index([文本框(“三”)))#添加文档客户端.add_document(“docCn1”,三种=的复述,支持主从同步。数据可以从主服务器向任意数量的从服务器上同步从服务器可以是关联其他从服务器的主服务器。这使得Redis可执行单层树复制。从盘可以有意无意的对数据进行写操作。由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录。同步对读取操作的可扩展性和数据冗余很有帮助。[8]',语言=“中国”)打印客户端.搜索(查询('数据').总结().突出().语言(“中国”)).文档[0].三种
打印:
< b >数据< / b >?…< b >数据< / b >进行写操作。由于完全实现了发布...< b >数据< / b >冗余很有帮助。[8...
使用自定义词典¶
如果您希望使用自定义字典,可以在加载模块时在模块级别上这样做。的FRISOINI
设置可以指向a的位置friso.ini
文件,该文件包含字典文件的相关设置和路径。
注意,没有“默认”frio .ini文件位置。reresearch也有自己的产品friso.ini
以及在构建时被编译到模块二进制文件中的字典文件。