×

只需一步,快速开始

扫描二维码登录本站

知识图谱构建流程早知道!!!

标签: 暂无标签

  

活动详情请点击链接:

1月18-20日北京||NLP与KG实训


知识图谱(Knowledge Graph)源于语义网、图数据库等相关学术研究领域,不同领域对知识图谱研究的侧重有所不同,如自然语言处理、知识工程、机器学习、数据库和数据管理等领域都有不同的研究与应用。

自然语言处理领域:“信息抽取”是其核心,如何从非结构文本数据中抽取知识图谱所需要的三元组数据是一项极富挑战性的工作。 “语义解析”也是一个热点,如何将用户输入的自然语言问题转化面向知识图谱的结构化查询,就需要语义解析,这也是智能问答中的重要环节。

知识工程领域:百科知识的“大规模本体和知识库构建”是一个主题,如基于百科知识构建大规模知识图谱数据集DBpeida和Yago。近年来,面向特定领域的知识图谱构建也在行业应用中得到推广,如医疗知识图谱、制造业知识图谱、电商图谱等。

此外,知识图谱上的推理理论基础与应用也是一个前沿研究方向。

知识图谱构建的学习技术

知识图谱构建首先需要确定可用数据源,如结构化数据、机器可读的开放本体或辞典、开放链接数据和开放知识库、行业知识库和行业垂直网站、在线百科(维基、互动、百度)和文本等数据。然后,有效地采集数据,如开放链接数据采集、百科采集、文本信息采集(网络爬虫与主题爬虫)等。

知识表示层次

逻辑层:RDF,WIDETABLE,Property Graph 逻辑存储方案,互相映射;

存储层:JSON-LD,N-TRIPLE,EXCEL/CSV 序列化文件交换格式;

计算层:显式(实体关系网络)与隐式(分布式表征)的知识关联与推理。

要了解知识图谱的几种常见知识表示方法,选取合适的数据表示形式,确定知识图谱核心数据结构。如,数据实体、本体、陈述;元数据版本管理、信息溯源。

在知识图谱构建过程,知识抽取、知识融合和知识计算是关键的工作。特别是针对文本数据,需要结合NLP技术从文本中抽取知识,也可以基于知识反向标注文本;利用RDF图模型,融合不同领域、不同结构、不同格式的知识;领域知识与业务计算相组合,在知识图谱上进行推理、机器学习、网络分析等知识计算。

实体抽取也称为命名实体识别(Named Entity Recognition,NER),是指从文本数据集中自动识别命名实体(包括:人名、地名、机构名、专有名词)。

基本方法包括:

1.基于规则和词典方法构造规则模板(特征:统计信息、标点符号、位置词等);

2.基于机器学习方法K-最近邻算法、HMM模型、CRF模型、BI-LSTM-CRF;

3.有监督学习与先验知识相结合方法词典辅助下的最大熵算法、远程监督学习。

例:医疗知识图谱知识库的症状自动识别

同义关系抽取是指从文本数据集中自动识别那些代表同一概念、实体或属性的术语对,即把描述同一概念或实体的指代抽取出来。

基本方法包括:

 1.词典方法WordNet、哈工大同义词词林扩展版

2.基于词法模式方法手工编写模式、规则模式自学习方法;

3.浅层语义分析方法采用“词汇-文档”矩阵描述词汇与文档关系。

实体属性抽取是指从文本数据集中自动识别实体、属性、属性值三者组成的信息对关系。

基本方法有:

1.基于规则模板方法针对特定领域制定领域抽取模板、规则学习;

2.基于机器学习方法为不同属性训练不同的模型:时间模型、货币模型、组织机构、CRF、LSTM;

3.基于远程监督学习方法使用现有知识自动生成语料、Bootstrapping

例:中标数据抽取

(1)抽取中使用机器学习算法SVM和规则模型相结合的多分类模型,对中标数据进行业务需求划分;

(2)表格型抽取包括:表格定位、表头识别、表格数据抽取、表格属性数据对齐等;

(3)文本型抽取包括:正文抽取模型、命名实体识别模型、CRF序列模型抽取功能、句式模板自学习功能等;

(4)列表项抽取包括:列表划分、属性值对齐等。

关系抽取文本语料经过实体抽取,得到一系列离散的命名实体。为得到语义信息,需要从相关语料中提取出实体之间的关联关系。

基本方法包括:

1.监督学习方法需要大量语料进行模型训练、基于统计学方法(基于多特征的分类问题、关系分类)、基于神经网络、深度学习的方法;

2.半监督学习方法基于Bootstrap的方法;

3.非监督学习基于聚类的方法、远程监督学习。

例:多策略学习算法的竞争关系抽取

句子收集 Pattern学习 Pattern打分 竞争关系抽取

实体链接是指将数字资源或其片段与其知识本体相关联,指出资源在语义层面上的特征。其主要目的就是赋予各种类型的数字资源以本体语义,辅助搜索。

基本方法:

1.基于规则标注方法预定义文档集合规则;

2.基于概率标注方法基于文本分类、基于统计分析文本中的词与词、句与句上下文关系的模型方法、基于统计主题文档分类器模型的方法;

3.基于语义相似度标注方法语义相似度模型。

北京大学邹磊教授开源了RDF知识图谱数据的存储和查询系统gStore

gStore系统可支持SPARQL 1.1标准,提供了集中式和分布式两种部署方式,在十亿规模的Benchmark数据集测试上,平均性能优于Virtuoso和Apache Jena等国外同类产品。

gStore系统架构

在导入RDF知识图谱数据和构建索引阶段,将用户输入RDF三元组文件表示成一张图G,通过链接列表方式直接存储图G本身。为加快子图匹配查询速度,通过编码方法,将RDF图G的每个实体节点和它邻居属性以及属性值编码成一个Bitstring节点,得到一张标签图G*。

gStore系统给出一种建立在面向G*图的VS-tree索引结构,有效地支持在线查询阶段的搜索空间过滤,将用户SPARQL查询转换为子图匹配查询。

知识图谱(KG)是人工智能时代实现概念识别、实体发现、属性预测、协同推理、知识演化和关系挖掘等功能的底层关键技术,也是大知识与数据融合、数据认知与推理的核心技术。

知识图谱构建过程是一个人机结合的不断迭代过程,以机器自动学习为主、专家定义与修正结合。需要人工介入的工作包括Schema定义、部分结构化知识准备、机器学习结果校验,依据用户的反馈、语料的增加与更新,不断进行模型的更新与迭代。


END


1月18日-20日

名企牵手品牌高校

NLP+KG实训 

打通人工智能进阶实战之路

四大名师:

北京大学邹磊老师 清华大学黄民烈老师

阿里巴巴张老师  云知声刘升平老师

报名方式 

 1)识别下图二维码  

 2)点击文末阅读原文 

3)填写下方链接的电子版报名回执发送邮箱送邮箱1319050263@qq.com

 实训提纲

1. NLP基础知识及背景介绍

2. 人机对话中的挑战性问题:语义性、一致性、交互性

3. 语义性问题

a) 生成多样性(基本概率框架)

b) 后处理策略

c) 知识导引、知识嵌入

4. 一致性问题:个性化、人格嵌入、风格迁移

5. 交互性:对话行为、对话策略

6. 总结与展望:话题导引的社交机器人

7.知识图谱的数据标准RDF

8.SPARQL的语法

9.语义知识图谱的基本概念

10.面向海量RDF知识图片的存储方法:基于关系数据库方法和基于图数据库的方法

11.开源的知识图谱数据库系统gStore使用

12.针对几种案例加强学习知识图谱查询语言SPARQL的使用

13.RDF知识图谱的实战练习

14.医疗知识图谱介绍和概述

15.由认知医疗应用需求到完整知识图谱构建与应用的实践方法

a)根据需求创建一个知识图谱的Benchmark

b)借鉴敏捷开发方法来构建知识图谱

c)有效应用知识图谱

16.自然语言处理的基础知识

17.介绍语言模型的基本问题

18.常用模型以及模型的参数估计方法

a)最经典的HMM模型

b)Noisy Channel模型

c)Log-linear模型

d)最大熵模型以及CRF模型等

19.各种语言模型在基础问题上的应用

20.介绍自然语言处理技术在互联网场景下的各种应用方法

21.推荐系统中的相关性计算、用户画像、排序模型以及行为序列建模等问题

22.自然语言处理中的词袋模型、向量空间模型、文本主题模型、词向量模型、RNN模型等

23.自然语言处理技术和推荐系统算法的核心关键技术及应用方法

收费标准

非学生2900元/人、学生1800元/人,含电子版资料费、发票费、场地费、会议注册费等。

银行转账信息:

开户名:  北京上善如水商业管理顾问有限公司   

开户银行:  工行北京市六里桥支行

账号:  0200281009021400308

说明:委托会务公司“北京上善如水商业管理顾问有限公司”代收会务费并负责开具会务费发票,支持转账、公务卡、银联卡、微信、支付宝的缴费方式。

早鸟报名优惠将在今天(111截止,之后报名只能享受团报优惠!!

 凡报名实训的朋友,在3月份的深度学习理论与应用培训课程将优惠500元!!

报名的朋友还可以获得额外的自然语言处理和知识图谱资料大礼包一份哦!!(部分资料展示)

讲课老师资料都会以电子版发放给报名学员!!

团报与早报优惠方案:

1月11号24:00之前转账缴费优惠(仅限享受其中一项优惠)

1.缴费成功者可享受课程减免100元。

2.团报缴费:3人团体缴费成功者每人减免150元;6人及以上团体缴费成功者每人减免300元。(仅限选一种团体方式)

3.推荐优惠:凡推荐朋友报名缴费成功者,推荐者与被推荐者各奖励50元。(此优惠可与第1款、第2款累加)

1月11号24:00以后缴费(含会场缴费)

1.团报缴费:3人团体缴费成功者每人减免80元;6人及以上团体缴费成功者每人减免150元。(仅限选一种团体方式)

2.推荐优惠:凡推荐朋友报名缴费成功者,推荐者与被推荐者各奖励30元。(此优惠可与第1款团报缴费优惠累加)


会务联系

刘老师(会务组)手机:15699709143  微信号: bit13269915971


NlP+KG实训电子版报名回执及邀请函获取链接:

https://pan.baidu.com/s/1EAgMUJnbX0URLY0Z6SrJKA




78106.jpg
YOUKU3D

写了 2496 篇文章,拥有财富 0,被 10 人关注

www.XinBIM.com
转播转播 分享淘帖 踩!踩!
回复

使用道具

评论

使用高级模式,上传图片!
您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

返回顶部