cnn lstm的关系识别

Neural Relation Extraction (NRE) with wechat API 中文采用自主的一些数据集，英文采用 SemEval2010_task8 数据采用keras TensorFlow Backend

1. 关系中文

中文识别直接采用tw_word2vec/output_zh.py脚本执行采用BiLSTM,LSTM模型和CNN模型两个版本代码中直接修改
中文启动见 trainer.py： shell cd tw_word2vec localhost:tw_word2vec tw$ python trainer.py python config = Configuration( position_matrix_file_path="../data/posi_matrix.npy", word2vec_file_path="../data/needed_zh_word2vec.pkl", POS_list_file_path=relation_military, types_file_path=relation_military, corpus_file_path=relation_military, model_file_path="../data/model/re_military_zh_model.bilstm.hdf5", ) inputer = Inputer(config) trainer = Trainer(inputer, BiLstmTrainer()) outputer = Outputer(trainer) predict_texts = ["<loc>美国</loc>目前共有2级11艘航空母舰，包括企业级核动力航母1艘，尼米兹级核动力航母10<loc>艘，</loc>全部采用核动力发动机", "<loc>美国</loc>经过多年航空母舰的发<loc>展，</loc>一直以来都是全球拥有最多、排水量和体积最大、舰载机搭载数量最多、作战效率最强大、而且全部使用核动力航空母舰的国家"] import json print(json.dumps(outputer.getDescription(predict_texts), ensure_ascii=False)) 英文启动见：tw_word2vec/sem_eval_08.py： shell cd tw_word2vec localhost:tw_word2vec tw$ python sem_eval_08.py ```python config = Configuration( word_segmentor=EnSegmentor(), EMBEDDING_DIM=300, position_matrix_file_path="../data/posi_matrix.npy", word2vec_file_path="../data/needed_word2vec.pkl", POS_list_file_path="../data/pos_list.txt", types_file_path="../data/relations_en.txt", corpus_file_path="../data/train_en.txt", model_file_path="../data/model/re_sem_eval_en_model.cnn.hdf5", ) inputer = Inputer(config) trainer = Trainer(inputer, CnnTrainerEn()) outputer = Outputer(trainer) predict_texts = [" level of experience has already been mentioned in the previous chapter .", " level of experience has already been mentioned in the previous chapter ."] import json

print(json.dumps(outputer.getDescription(predict_texts), ensure_ascii=False))

```

修改具体的分类模型如果模型不存在会先训练

关系类型：

部分-整体(e1,e2)
部分-整体(e2,e1)
内容-容器(e1,e2)
内容-容器(e2,e1)
产品-生产者(e1,e2)
产品-生产者(e2,e1)
成员-组织(e1,e2)
成员-组织(e2,e1)
实体-地区(e1,e2)
实体-地区(e2,e1)
人物-人物(e1,e2)
人物-人物(e2,e1)
工具-代理(e1,e2)
工具-代理(e2,e1)
起因-影响(e1,e2)
起因-影响(e2,e1)
消息-话题(e1,e2)
消息-话题(e2,e1)
同级
其他相关
无

训练数据样例：

工具-代理(e2,e1)|\ 你\ 这\ 招\ 打得很不错
部分-整体(e2,e1)|\ 微软公司\ 的\ 财务科\
部分-整体(e1,e2)|\ 钓鱼岛\ 是\ 中国\ 的领土
内容-容器(e2,e1)|\ 导弹\ 携带的\ 炸药\
工具-代理(e2,e1)|\ 阿拉法特\ 乘\ 飞机\ 抵达巴黎
工具-代理(e2,e1)|\ 雷军\ 乘\ 出租车\ 回家
工具-代理(e2,e1)|\ 牙医\ 使用\ 电钻\ 对牙齿进行修复
起因-影响(e2,e1)|最近\ 流感\ \ 病毒\ 爆发
起因-影响(e1,e2)|吸\ 冰毒\ 可能导致\ 死亡\

通过标签将实体区分出来。通过|分割关系类型和训练语料
标签说明：人物：\ 组织：\ 地理位置：\ 等等
测试集为右侧数据，如：

\ 你\ 准备坐\ 船\ 去那边
结果为左侧分类数据
工具-代理(e2,e1)

接着通过关系词词典筛选具体的关系类型： 1. 对句子进行句法分析，选择包含两个实体的最小的句法树，统计句法树中的名词，动词词频，若仅仅包含一个词则采用，否则进入下一步 2. 针对关系词典，选取句中出现的关系词典中出现的词作为关系词

关系词词典构建： 1. 选取所有仅仅包含2个实体的句子 2. 统计句子中的除实体外的词频（）这里可以采用某种聚类 3. 对句子进行句法分析，选择包含两个实体的最小的句法树，统计句法树中的名词，动词词频 4. 对前两步的结果进行综合，获取关系词词典

百科采集

通过对百科数据采集获取部分可靠语料： 1. 通过针对制造业专有名词从百度百科爬取数据 2. 通过类似远监督的方法，从百科的固定格式中抽取出已有的关系 3. 通过对固定关系对文本中的数据进行反标注，形成该实体语料 4. 同时对名词的百科文本进行分析，抽取其中其他制造业名词，进行网状扩展 5. 扩展词重复上面步骤，数据深度目前设置为2，即仅扩展两次 6. 针对反标注的语料，进行人工筛选并完善标注，形成可用语料

其他支持 1. 实体分类

WebService

直接调用tw_webservice/ws.py 启动
端口默认为8005 调用地址为localhost:8005/re
参数 { "sentences":[ "<per>你</per>准备坐<instrument>船</instrument>去那边", "<food>粉丝</food>由<food>马铃薯</food>加工" ] }

返回结果 { "result": [ { "e1": "你", "e1_type": "per", "e2": "船", "e2_type": "instrument", "predict_type": "工具-代理(e2,e1)", "relation_detail": "准备坐" }, { "e1": "粉丝", "e1_type": "food", "e2": "马铃薯", "e2_type": "food", "predict_type": "起因-影响(e2,e1)", "relation_detail": "加工" } ], "is_ok": true }

参考文献

基于Att-BiLSTM的政府职能知识图谱研究与应用（湖南大学·杨鑫科）
基于机器学习的目标行为认知技术研究（西安电子科技大学·周君会）
基于多粒度语义匹配的知识图谱问答关键技术研究（华中科技大学·许芳芳）
社交网络中基于深度学习的个性化推荐系统研究（江苏大学·孙强）
融合多跳关系路径与实体信息的关系推理方法研究（河北工业大学·刘超）
软件知识领域知识图谱构建关键技术研究与应用（电子科技大学·邹洋）
基于多粒度语义匹配的知识图谱问答关键技术研究（华中科技大学·许芳芳）
面向新闻站点的关系挖掘系统研究与开发（西安电子科技大学·苏赛争）
面向新闻站点的关系挖掘系统研究与开发（西安电子科技大学·苏赛争）
Semi-supervised Node Classification Based on Graph Markov Convolution Neural Network（华中师范大学·Yuanming Gu）
基于序列标注的端到端联合知识抽取研究（西南财经大学·张慧）
软件知识领域知识图谱构建关键技术研究与应用（电子科技大学·邹洋）
Semi-supervised Node Classification Based on Graph Markov Convolution Neural Network（华中师范大学·Yuanming Gu）
基于机器学习的目标行为认知技术研究（西安电子科技大学·周君会）
基于改进Bi-LSTM模型的实体关系抽取研究（河北地质大学·陈泽峰）