IR system 基于基本向量空间模型,先用爬虫爬取新闻组成语料库,使用Hanlp分词库进行分词,再使用TF-IDF算法,目前已完成query和document相似度矩阵的计算。 目前效果 to-do python爬虫爬取新闻网站 文档分词,分词清理; TF-IDF(term frequency–inverse document frequency) 实现倒排索引算法 在网页前端展示 信息抽取