1 3 7 - 1 4 4 1 - 9 7 9 7
首页 > 新闻资讯 > 新闻资讯详细内容

企业建网站藏文网页倒排索引(上)

来源:品牌做网站 | 作者:品牌做网站 | 时间:2022-02-10 | 浏览:818
字体大小:

品牌做网站


藏文网页倒排索引。



第一步:抽取网页注释。网页注释是相对网页噪声而言。当今的互联网网页上, 页面的良多篇幅用在告白、搜刮保举和其他链接上。网页搜刮器材存眷的是网页本身要表达的信息, 以是在颠末爬虫猎取到页面源码当前, 要去除那些与本文有关的噪声, 抽取到网页注释。



第二步:分字。藏文笔墨差别于华文, 华文是一个字使用一个编码, 而藏文是对组成字的基字编码, 一个完整的藏笔墨大要存在多个编码, 这些编码按组成藏笔墨的设施按次布列。

第三步:对全文以字建索引。以字建索引, 固然检索过程的婚配盘算量会更大, 但思量到目下当今藏文网页整体数目不大, 应当是一种可行的进步查全率的设施。根据上一步获得的字, 记载每个字在文中出现的地位, 盘算每个字出现的次数, 创立链表。地位用于检索时的精确定位, 次数用于盘算字对文档的重要性, 也用于相干性排序盘算。



免责声明:本文内容由互联网用户自发贡献自行上传,本网站也不承担相关的法律责任。如果您发现本文章中有涉嫌抄袭的内容,请发送邮件至:sales@sznetsoft.com或者至电给本网站进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权的内容。
相关信息
  • QQ好友
  • QQ空间
  • 腾讯微博
  • 新浪微博
  • 人人网
  • 豆瓣网
  • Facebook
  • Twitter
  • linkedin
  • 谷歌Buzz


线

网软通在线


在线客服: 点击这里给我发消息                        

1231.jpg

留言内容