基于python实现的上市公司新闻文本分析与分类预测

上市公司新闻文本分析与分类预测 1, 简介 上市公司新闻文本分析与分类预测的基本步骤如下: 从新浪财经,每经网,金融界,中国证券网,证券时报网上

本文包含相关资料包-----> 点击直达获取<-------

上市公司新闻文本分析与分类预测


1. 简介

上市公司新闻文本分析与分类预测的基本步骤如下:

  • 从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据(包括时间、网址、标题、正文)
  • 从Tushare上获取沪深股票日线数据(开、高、低、收、成交量和持仓量)和基本信息(包括股票代码、股票名称、所属行业、所属地区、PE值、总资产、流动资产、固定资产、留存资产等)
  • 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理
  • 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该条新闻相关的股票代码列表,并在历史数据表中增加一列相关股票代码数据
  • 从历史新闻数据库中抽取与某支股票相关的所有新闻文本,利用该支股票的日线数据(比如某一天发布的消息,在设定N天后如果价格上涨则认为是利好消息,反之则是利空消息)给每条新闻贴上“利好”和“利空”的标签,并存储到新的数据库中(或导出到CSV文件)
  • 实时抓取新闻数据,判断与该新闻相关的股票有哪些,利用上一步的结果,对与某支股票相关的所有历史新闻文本(已贴标签)进行文本分析(构建新的特征集),然后利用SVM(或随机森林)分类器对文本分析结果进行训练(如果已保存训练模型,可选择重新训练或直接加载模型),最后利用训练模型对实时抓取的新闻数据进行分类预测

开发环境 Python-v3(3.6)

  • gensim==3.2.0
  • jieba==0.39
  • scikit-learn==0.19.1
  • pandas==0.20.0
  • numpy==1.13.3+mkl
  • scipy==0.19.0
  • pymongo==3.6.0
  • beautifulsoup4==4.6.0
  • tushare==1.1.1
  • requests==2.18.4
  • gevent==1.2.1

2.文本处理( text_processing.py )

  • 文本处理包括去停用词处理、加载新词、中文分词、去掉出现次数少的分词
  • 生成字典和Bow向量,并基于Gensim转化模型(LSI、LDA、TF-IDF)转化Bow向量
  • 计算文本相似度
  • 打印词云

3. 文本挖掘( text_mining.py

  • 从新闻文本中抽取特定信息,并贴上新的文本标签方便往后训练模型
  • 从数据库中抽取与某支股票相关的所有新闻文本
  • 将贴好标签的历史新闻进行分类训练,利用训练好的模型对实时抓取的新闻文本进行分类预测

4. 新闻爬取

crawler_cnstock.py crawler_jrj.py crawler_nbd.py crawler_sina.py crawler_stcn.py

  • 分析网站结构,多线程(或协程)爬取上市公司历史新闻数据

5. Tushare数据提取( crawler_tushare.py

  • 获取沪深所有股票的基本信息,包括股票代码、股票名称、所属行业、所属地区等

6. 用法

  • 配好运行环境以及安装MongoDB,最好再安装一个MongoDB的可视化管理工具Studio 3T
  • 先运行 run_crawler_cnstock.py run_crawler_jrj.py run_crawler_nbd.py run_crawler_sina.py run_crawler_stcn.py 这5个py文件,而且可能因为对方服务器没有响应而重复多次运行这几个文件才能抓取大量的历史数据
  • 接着运行 run_crawler_tushare.py 从Tushare获取基本信息和股票价格
  • 最后运行 run_main.py 文件,其中有4个步骤,除了第1步初始化外,其他几步最好单独运行
  • 注意:所有程序都必须在文件所在目录下运行

参考文献

  • 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
  • 基于深度学习的新闻文本分类方法研究与应用(北京建筑大学·刘开峰)
  • 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
  • 基于股票数据流和投资者情绪的股价预测系统的设计与实现(华南理工大学·陈泽铭)
  • 结合财经文本情感分析的股票价格预测研究(国防科技大学·白欣怡)
  • 新闻事件识别系统的研究与实现(北京邮电大学·李昕)
  • 基于增量型聚类的新闻话题检测系统设计与实现(山东师范大学·郑茹月)
  • 金融信息实时发布系统的设计与实现(东北大学·伦健)
  • 基于微服务的新闻类网站爬虫与分类检索平台设计及实现(中国科学院大学(中国科学院大学人工智能学院)·陈本康)
  • 基于移动平台股票资讯搜索与预测系统研究(哈尔滨理工大学·滕文达)
  • 基于深度学习的新闻事件分析系统的研究与实现(北京邮电大学·俞书琪)
  • 基于爬虫的网络新闻订阅和跟踪系统的设计与实现(华中科技大学·严园)
  • 与股票关联的财经新闻文本分类分级研究(武汉大学·石静)
  • 基于情感分析和注意力机制的虚假新闻检测算法研究与应用(南昌大学·李思敏)
  • 文本综合处理平台的研究与实现(济南大学·王孟孟)

本文内容包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主题。发布者:毕设助手 ,原文地址:https://m.bishedaima.com/yuanma/35707.html

相关推荐

  • 新手python简单的飞机游戏

    game 一个新手做的python简单的飞机游戏 参考文献 基于Java EE的个人博客管理系统的设计和实现(内蒙古大学·闫伟光) 深度可定制的工具化爬虫系统的设计与实现(北京邮电大学·李笑语) 航空订票服务器爬虫检测技术研究(杭州电子科技大学·陈万烤) 主题爬虫关键技术研究(哈尔滨工程大学·黄正德) 机票票价预测系统设计与实现(大连理工大学·陈岩松) 深度可定制的工具化爬虫系统的设计与实现(北京邮电大学·李笑语) 基于SSH架构的个人空间交友网站的设计与实现(北京邮电大学·隋昕航) 基于B/S架构的酷跑社区系统的设计与实现(内蒙古大学·张晓乐) 基于SSH架构的个人空间交友网站的设计与实现(北京邮电大学·隋昕航) 机票票价预测系统设计与实现(大连理工大学·陈岩松) 山东航空货运业务管理系统的设计与实现(山东大学·高辉) 飞行情报资料管理信息系统设计与实现(中国地质大学(北京)·张晓琴) 山东航空货运业务管理系统的设计与实现(山东大学·高辉) 豆玩手机游戏平台的设计与实现(吉林大学·李天明) 面向高职信息技术教育的严肃游戏设计与实施(大连理工大学·王晓姝)
    2024年05月14日
    1 1 1
  • 基于python制作一个打砖块小游戏

    基于 python 制作一个打砖块小游戏 导语 想起来好久没更这个系列的文章了,周末过来补一波好了,本期我们将利用 python 制作一个打砖块小游戏
    2024年05月14日
    1 1 1
  • 基于python实现的电梯调度

    基于python实现的电梯调度 1 项目说明 1,1 项目目的 通过实现电梯调度,体会操作系统调度过程 学习特定环境下多线程编程方法 学习调度算法 1
    2024年05月14日
    5 1 3
  • 基于JSP的校园论坛BBS网站的设计与实现

    基于JSP的校园论坛BBS网站的设计与实现 1 概述 开发校园论坛系统的目的是提供一个供我校学生交流的平台,为我校学生提供交流经验,探讨问题的社区,因此
    2024年05月14日
    21 1 1
  • 基于SSM框架实现的员工信息管理系统

    1,项目简介 这是完整使用SSM框架开发的第一个项目,项目来源于北京动力节点的SSM框架整合教程,其中加入了一些自己的理解,增加了一个搜索功能的页面,这个项目总体来说对于新手是很友好的
    2024年05月14日
    2 1 1
  • 基于JSP的聊天器

    基于JSP的聊天器 1 可行性研究 1,1 技术条件方面的可行性 系统:Windows 8,1 Update 服务器环境:nodejs 0
    2024年05月14日
    7 1 1
  • 基于SpringBoot框架的在线互动学习网站

    这是一套采用Java语言,基于SpringBoot框架构建的在线教育互动平台的源代码,项目采用了SpringBoot和Vue技术栈,开发工具为Idea或Eclipse
    2024年05月23日
    5 1 3
  • 解谜类游戏之Python

    解谜类游戏 一,摘要 作者:霍禹佳,高铭星,朱子仪,梁鞍華 [摘要] 本作融合了企鹅,史诗英雄故事,解谜和游戏这四种元素,创造出一款全新的解谜类游戏,通过对故事
    2024年05月14日
    1 1 1
  • 基于Python制作愤怒的小鸟小游戏

    基于 Python 制作愤怒的小鸟小游戏 导语 小伙伴们周末愉快呀~楼主又好久没更新公众号的样子,为了避免继续被某些小伙伴吐槽,还是上来更新一波吧,既然是周末
    2024年05月14日
    6 1 2
  • 基于SpringBoot框架的网页时装购物系统

    这是一套采用Java语言开发的🔥🔥SpringBoot为核心的电商时装网站项目源代码🔥🔥,该项目运用了SpringBoot框架和Vue技术,支持在Idea或Eclipse开发环境中运行
    2024年05月23日
    10 1 2

发表回复

登录后才能评论