上市公司新闻文本分析与分类预测
1. 简介
上市公司新闻文本分析与分类预测的基本步骤如下:
- 从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据(包括时间、网址、标题、正文)
- 从Tushare上获取沪深股票日线数据(开、高、低、收、成交量和持仓量)和基本信息(包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等)
- 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理
- 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该条新闻相关的股票代码列表,并在历史数据表中增加一列相关股票代码数据
- 从历史新闻数据库中抽取与某支股票相关的所有新闻文本,利用该支股票的日线数据(比如某一天发布的消息,在设定N天后如果价格上涨则认为是利好消息,反之则是利空消息)给每条新闻贴上“利好”和“利空”的标签,并存储到新的数据库中(或导出到CSV文件)
- 实时抓取新闻数据,判断与该新闻相关的股票有哪些,利用上一步的结果,对与某支股票相关的所有历史新闻文本(已贴标签)进行文本分析(构建新的特征集),然后利用SVM(或随机森林)分类器对文本分析结果进行训练(如果已保存训练模型,可选择重新训练或直接加载模型),最后利用训练模型对实时抓取的新闻数据进行分类预测
开发环境
Python-v3(3.6)
:
- gensim==3.2.0
- jieba==0.39
- scikit-learn==0.19.1
- pandas==0.20.0
- numpy==1.13.3+mkl
- scipy==0.19.0
- pymongo==3.6.0
- beautifulsoup4==4.6.0
- tushare==1.1.1
- requests==2.18.4
- gevent==1.2.1
2.文本处理(
text_processing.py
)
- 文本处理包括去停用词处理、加载新词、中文分词、去掉出现次数少的分词
- 生成字典和Bow向量,并基于Gensim转化模型(LSI、LDA、TF-IDF)转化Bow向量
- 计算文本相似度
- 打印词云
3. 文本挖掘(
text_mining.py
)
- 从新闻文本中抽取特定信息,并贴上新的文本标签方便往后训练模型
- 从数据库中抽取与某支股票相关的所有新闻文本
- 将贴好标签的历史新闻进行分类训练,利用训练好的模型对实时抓取的新闻文本进行分类预测
4. 新闻爬取
(
crawler_cnstock.py
,
crawler_jrj.py
,
crawler_nbd.py
,
crawler_sina.py
,
crawler_stcn.py
)
- 分析网站结构,多线程(或协程)爬取上市公司历史新闻数据
5. Tushare数据提取(
crawler_tushare.py
)
- 获取沪深所有股票的基本信息,包括股票代码、股票名称、所属行业、所属地区等
6. 用法
- 配好运行环境以及安装MongoDB,最好再安装一个MongoDB的可视化管理工具Studio 3T
-
先运行
run_crawler_cnstock.py
,run_crawler_jrj.py
,run_crawler_nbd.py
,run_crawler_sina.py
,run_crawler_stcn.py
这5个py文件,而且可能因为对方服务器没有响应而重复多次运行这几个文件才能抓取大量的历史数据 -
接着运行
run_crawler_tushare.py
从Tushare获取基本信息和股票价格 -
最后运行
run_main.py
文件,其中有4个步骤,除了第1步初始化外,其他几步最好单独运行 - 注意:所有程序都必须在文件所在目录下运行
参考文献
- 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
- 基于深度学习的新闻文本分类方法研究与应用(北京建筑大学·刘开峰)
- 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
- 基于股票数据流和投资者情绪的股价预测系统的设计与实现(华南理工大学·陈泽铭)
- 结合财经文本情感分析的股票价格预测研究(国防科技大学·白欣怡)
- 新闻事件识别系统的研究与实现(北京邮电大学·李昕)
- 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
- 金融信息实时发布系统的设计与实现(东北大学·伦健)
- 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
- 基于移动平台股票资讯搜索与预测系统研究(哈尔滨理工大学·滕文达)
- 基于深度学习的新闻事件分析系统的研究与实现(北京邮电大学·俞书琪)
- 基于爬虫的网络新闻订阅和跟踪系统的设计与实现(华中科技大学·严园)
- 与股票关联的财经新闻文本分类分级研究(武汉大学·石静)
- 基于情感分析和注意力机制的虚假新闻检测算法研究与应用(南昌大学·李思敏)
- 文本综合处理平台的研究与实现(济南大学·王孟孟)
本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://m.bishedaima.com/yuanma/35707.html