本文针对互联网论坛用户识别问题,根据网上数据内容,进行合理化的简化假设,运用数据挖掘技术, 针对话题用户、活跃用户、言论领袖的不同特点,分别建立相应的模型,运用多种算法。其中最核心的是数据挖掘和处理算法。本文所提出的数据挖掘处理的方法和思想也适用于解决其他类似问题,如应用在搜索引擎中的信息检索、电子商务中的获取潜在客户信息、网站设计中优化管理等方面。
本文针对互联网论坛用户识别问题,根据网上数据内容,进行合理化的简化假设,运用数据挖掘技术,分别建立相应的模型。
首先,对言论领袖识别问题,我们以论坛的页面访问量、会员积分、会员威望、精华数四个因子进行两两比较,运用层次分析法建立成对比较矩阵,利用MATLAB软件解出结果。
其次,在话题用户识别问题上,我们采用基于聚类的话题识别算法, 基于平均值的K-Means算法, 基于相似度矩阵的K-Medoids算法等。
然后,对于活跃用户识别,经过活跃函数的分析,结果并采用BP神经网络模型进行了评判和改进。
最后,对于关系圈识别,我们建立共点圆系模型,将用户关联关系描述出来。另外还针对要求提出实例说明和说明数据获取途
第十二届“挑战杯”省赛作品 省赛三等奖
荣获第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛二等奖。
韶关学院第九届大学生课外学术科技作品竞赛三等奖。
第十一届“挑战杯”广东大学生课外学术科技作品竞赛三等奖