乡村研究数据库 >
“三农”概念簇表示研究
“三农”概念簇表示研究
报告字数:12465字
报告页数:26页
摘要:本文研究了从网络获取到“三农”概念簇生成的整个过程。文中应用基于DOM的网页抽取的方法从网络版的《农业大词典》中抽取“三农”词条、释义;应用基于正则表达式抽取信息的方法抽取“三农”概念的口语名称;依据《农业大词典》中词条的释义部分的内容,提出了一个“三农”词表的构建结构和“三农”概念簇的概念,并通过利用KNN分类方法形成“三农”概念簇,为以后的“三农”知识研究提供了基础;通过实验的方法验证了本书人工选择特征的方式和利用布尔权重和KL变换作为特征权重的有效性。但是,“三农”概念簇的分类是一个平面结构,“三农”概念簇的树型结构分类还需要进一步研究。
文章目录
- 3.1 引言
- 3.2 文本分类相关研究
- 3.3 基于规则的“三农”词表的构建
- 3.3.1 “三农”词表数据结构设计
- 3.3.2 基于DOM树的网页抽取
- 3.3.3 基于正则表达式的信息抽取
- 3.4 基于KNN的“三农”概念簇表示
- 3.4.1 特征抽取
- 3.4.2 基于KNN的“三农”概念簇形成
- 3.5 实验及结果分析
- 3.5.1 实验设计
- 3.5.2 评价标准
- 3.5.3 实验结果分析
- 3.6 本章小结