1 3 7 - 1 4 4 1 - 9 7 9 7
首页 > 新闻资讯 > 新闻资讯详细内容

企业建网站藏文网页倒排索引(上)

来源:品牌做网站 | 作者:品牌做网站 | 时间:2022-02-10 | 浏览:771
字体大小:

品牌做网站


藏文网页倒排索引。



第一步:抽取网页注释。网页注释是相对网页噪声而言。当今的互联网网页上, 页面的很多篇幅用在告白、搜刮保举和其他链接上。网页搜刮工具存眷的是网页本身要表达的信息, 以是在经过历程爬虫获得到页面源码当前, 要去除那些与本文有关的噪声, 抽取到网页注释。



第二步:分字。藏文笔墨差别于汉文, 汉文是一个字运用一个编码, 而藏文是对组成字的基字编码, 一个完全的藏笔墨约莫存在多个编码, 这些编码按组成藏笔墨的体例按次布列。

第三步:对全文以字建索引。以字建索引, 固然检索历程的婚配计较量会更大, 但思索到今朝藏文网页整体数目不大, 应当是一种可行的进步查全率的办法。根据上一步获得的字, 记实每个字在文中泛起的地位, 计较每个字泛起的次数, 创设链表。地位用于检索时的正必定位, 次数用于计较字对文档的重要性, 也用于相干性排序计较。



免责声明:本文内容由互联网用户自发贡献自行上传,本网站也不承担相关的法律责任。如果您发现本文章中有涉嫌抄袭的内容,请发送邮件至:sales@sznetsoft.com或者至电给本网站进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权的内容。
相关信息
  • QQ好友
  • QQ空间
  • 腾讯微博
  • 新浪微博
  • 人人网
  • 豆瓣网
  • Facebook
  • Twitter
  • linkedin
  • 谷歌Buzz


线

网软通在线


在线客服: 点击这里给我发消息                        

1231.jpg

留言内容