专利名称:用于搜索多个数据记录的方法和搜索引擎专利类型:发明专利
发明人:埃明·卡拉耶尔,卡斯滕·海因茨,马蒂亚斯·克林斯申请号:CN201180040712.0申请日:20110817公开号:CN103098052A公开日:20130508
摘要:本发明涉及一种由计算机实施的、用于在多个(D)数据集(d)中进行搜索的方法,其中接收具有至少一个搜索词语(q)的一个搜索查询(Q),根据一个参考量(T)推导出具有与该搜索词语(q)相似或相同的多个词语(t)的一个部分量(V),针对该部分量(V)的每个词语(t)确定与该搜索词语(q)的一个相似性量度(A),确定该词语(t)的出现概率(p),将取决于该词语(t)的一个加权分布(X)应用到该部分量(V)的这些词语(t)上,其中具有一个较大相似性量度的这些词语(t)与具有一个较小相似性量度的多个词语(t)相比被更重地加权,并且根据该部分量(V)的这些词语(t)的这些加权概率来确定该词语(t)的一个修改的概率(p’,P”)。另外对这些数据集(d)就其与该搜索查询(Q)的相关性(R)来进行评估,其中做出关于该部分量的这些词语(t)是否出现在该数据集(d)中的一个检查,并且如果该部分量(Q)的一个词语(t)出现在该数据集(d)中,则该词语(t)的一个较小修改的概率(p’,P”)导致该数据集(d)的一个较大相关性值,并且至少一个部分数据集量作为其相关性值(R)的一个函数被输出。本发明进一步涉及一种用于执行所述方法的搜索引擎。
申请人:欧米克数据质量有限公司
地址:德国普福尔茨海姆
国籍:DE
代理机构:北京柏杉松知识产权代理事务所(普通合伙)
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容