加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

同义词挖掘

发布时间:2021-02-23 16:12:07 所属栏目:大数据 来源:网络整理
导读:词典百科词条 1:规则提取数据,对于一些别名,或者关键词括弧类的数据,或者简称等. 2.提取简要关键词,计算夹角余弦. 上下文相关性挖掘(需要人工审核) 在所有的文档中,如果两个term经常在相同的上下文下出现,那么这两个词是同义词的可能性较大。基于这个假设

词典&百科词条
1:规则提取数据,对于一些别名,或者关键词括弧类的数据,或者简称等.
2.提取简要关键词,计算夹角余弦.

上下文相关性挖掘(需要人工审核)
在所有的文档中,如果两个term经常在相同的上下文下出现,那么这两个词是同义词的可能性较大。基于这个假设,
1. 对文档进行分词,统计每个term的上下文,根据一定的策略对上下文进行剪枝。
2. 把剪枝之后的上下文作为每个term的特征向量,求term之间两两的夹角余弦。
3. 提取余弦值比较高的作为候选同义词。
语料对齐
在一个完备的检索系统中,会记录点击日志和用户的session日志。此外,还有不同的anchor指向同一个url。通过这些数据进行语料对齐,可以挖掘出来很多同义词:
1.Query<>Query对齐:点击了相同URL的Query
2.Query<>Title对齐:某个Query点击了某个URL
3.Query<>Query对齐:同一个session内的Query,可能是用户的自纠错或者自修改
4.Title<>Title对齐:被同一个Query点击的URL
5.Anchor<>Title对齐:指向了某个URL的Anchor
6.Anchor<>Anchor:指向了同一个URL的Anchor

query session挖掘 在同一次会话过程中,用户搜索第一个query,没有出现结果,同时搜索第二个query,那么此时这两个query肯定存在某种关联性.如果这样的query-query pair对出现的次数很多.可能是同义词,或者纠错的数据.同上文预料对齐.但是一些特别的需要人工分析,从而可以挖掘出来其中隐含的同义词 例如:月经–>大姨妈

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!