您的当前位置:首页正文

一种网站判别方法及系统[发明专利]

来源:画鸵萌宠网
专利内容由知识产权出版社提供

专利名称:一种网站判别方法及系统专利类型:发明专利发明人:李虹颖

申请号:CN201911155249.9申请日:20191122公开号:CN111222031A公开日:20200602

摘要:本发明公开了一种网站判别方法及系统,方法包括url地址获取步骤、文本内容获取步骤、网站类型划分步骤、特征向量生成步骤、网站特征标记步骤、类型识别模型训练步骤以及识别步骤,其中,类型识别模型训练步骤:根据随机森林RandomForestClassifier算法,使用随机阀值及网站特征标记步骤获得的训练样本,构建大量决策树组成的决策树“森林”,建立一个网站正常与否的类型识别模型;识别步骤:利用类型识别模型判断未知网站是否正常的状态值,根据状态值识别出未知网站为正常网站还是非正常网站。本发明提高了关键词查询的效率,便于找出需要的高品质网站,优化了搜索引擎的查询网站的性能,使得用户更加容易的找出满足其需求并且与关键词紧紧相关联的高质量网站。

申请人:成都市映潮科技股份有限公司

地址:610041 四川省成都市高新区天府二街138号1栋1单元2201号

国籍:CN

代理机构:成都创新引擎知识产权代理有限公司

代理人:向群

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Top