本文共 2001 字,大约阅读时间需要 6 分钟。
好久没更新了,期末那段时间在突击期末考试,然后寒假又懒惰了一些,疏于学习。这篇算是新年开篇了,在这里笔者先来个迟到的新年祝福,祝大家2021一帆风顺、学业有成、事业有成!
开篇就不整技术性太强的文章了,寒假开始接触一些自然语言处理(NLP)的技术了,所以简单了解了一下相关概念,今天就给大家介绍。搜索结果的排序是搜索引擎最核心的部分,极大程度上决定了搜索引擎的质量好坏以及用户接受与否。搜索引擎最关键的两个因素是用户查询与网页内容的相关性、网页链接情况。这节来探讨一下——给定用户查询,如何从内容相关性角度对网页进行排序。判断网页内容是否与用户查询相关,依赖于搜索引擎所采用的检索模型,我也会在后面的博客中介绍几个常用的检索模型: 布尔模型、向量空间模型、概率模型、语言模型以及机器学习排序模型。
当用户发起查询后,搜索引擎会根据用户查询判断哪些网页文档与用户需求相关,并按照相关程度将网页排序输出,所以相关度计算是将用户查询和文档内容进行匹配的过程,而检索模型就是用来计算内容相关度的理论基础即检索模型就是为网页排序提供依据的!
什么样的检索模型是个Good model呢?当用户发出查询后,我们首先把要搜索的文档分为两个维度和四个象限:两个维度——“是否相关”、“是否包含关键词”,四个象限——“包含关键词且相关”、“不包含关键词但相关”、“包含关键词但不相关”、“不包含关键词且不相关”。一个好的检索模型应该尽量提升一二象限文档的排名,抑制三四象限文档的排名。
目前大多数检索模型考虑的对象大多集中于出现关键词的文档,并且检索模型理论研究都存在理想化的隐含假设,即假设用户的需求可以通过查询被非常清晰明确地表达,但这往往与真实场景相差甚远,在真实场景中,很有可能出现语义分歧的现象,即同一个词,用户们想表达的意思也不同。但是对于这种情况,检索模型也无能为力。所以我们在使用检索模型的时候,往往是假设在理想状态下的即:用户查询能够清晰明确地表达用于需求的情况下,如何找出内容相关的文档。但是如果用户查询无法精确地表达用户需求,那么现阶段再优秀的检索模型也无济于事,所以后期研究重点会转向填补用户真实需求与查询词之间的鸿沟。接下来,本文将较为详细地介绍几个常用的检索模型!
信息检索可以按照其所处理数据的规模进行区分:
级别 | 规模大小 | 例子 |
---|---|---|
第一级别 | 大规模 | Web搜索(web search) |
第二级别 | 小规模 | 苹果的MacOS X操作系统中的Spotlight搜索 |
第三级别 | 介于第一种大规模和第二种小规模之间 | 公司内部文档、专利库、生物医学文献的搜索 |
信息检索就介绍到这里,再聊聊题外话吧。
因为种种因素,我开始创业了。其实,我之前没有想过创业这件事,国为我知道自己有几斤几两,我总结自己是“守成有余,创新不足”,我清楚自己不能当个优秀的leader ,但如果给我个伍务或者带几个人做做事,我自认为还是有能力的。但是,机会来了,就不能让它溜走,年轻不就得拼一拼,所心我也把自己赶鸭子上架,大胆尝试了一下,无论最后结果如何,我觉得至少拼过一把(可能听起来有点中二)。转载地址:http://ddiwi.baihongyu.com/