×

只需一步,快速开始

扫描二维码登录本站

标签: 暂无标签

探索性数据分析(Exploratory Data Analysis,简称EDA)对深刻理解数据有重要作用。在过去的20年里,研究人员提出了多种可视化的数据探索工具,可以介入到分析过程的每一步。然而,近年来,数据分析的需求发生了显著变化。随着数据的规模和类型不断增加,可扩展性和分析的持续时间成为研究人员主要关注的问题。此外,为了最大限度地降低分析成本,企业需要在分析知识有限的情况下可供使用的数据分析工具。为了应对这些挑战,传统的数据探索工具在过去几年中不断发展。

A comprehensive review of tools for exploratory analysis of tabular industrial datasets

Aindrila Ghosh, Mona Nashaat, James Miller, Shaikh Quader, Chad Marston

Link:

https://www.sciencedirect.com/science/article/pii/S2468502X18300561



加拿大阿尔伯塔大学的Aindrila Ghosh
和他同事通过对工业表格数据集进行深入分析,确定了对大型数据集进行探索性分析的一组额外需求。随后对新兴的探索性数据分析领域的最新进展进行了全面的综述,研究了50种学术和非学术的可视数据探索工具,考察它们在探索性数据分析过程的六个基本步骤中的实用性,检验这些探索工具能够在多大程度上满足分析大型数据集的额外需求。最后,给出了可视化探索性数据分析领域的若干研究方向。


图1:50种学术和非学术的EDA工具选择的流程

EDA的额外需求

本文强调了数据集的挑战性方面(7点),然后提出了大规模EDA工具的额外探索性需求(4点)。

数据集遇到的挑战:
高维、分类属性、缺失或存在异常值和离群值、数据完整性、多变量关系、匿名、大规模的数据点
EDA的额外需求:
可伸缩性、无需很多的分析知识、可解释性、用户可参与

图2:引发大规模EDA工具的额外探索性需求


EDA的六个基本步骤


  • 判别属性:EDA从识别数据集的属性入手。这是EDA开始处理时一个必须的步骤,它不仅有助于数据分析的“冷启动”,而且还有助于用户形成明确的分析目标。

  • 单变量数据分析:一旦识别出数据集中的属性,就必须进行单变量分析以获得对每个属性的更深入的理解单变量分析还允许对属性进行组合以开展后续分析。它有助于检测细节,可用于识别数据集中的缺失值或异常值,并对连续变量进行离散化。

  • 检测属性之间的交互关联在对每个属性进行单变量分析之后,下一步是判别数据集中不同属性之间的关系。这不仅有助于检测属性值之间的不兼容性,而且还使分析人员能够生成最佳特征组合,以便进行后续分析。

  • 检测异常和缺失值异常值和缺失值可能导致数据分析的偏差。对异常值和缺失值的检测通常紧随在多变量分析之后,在大数据集的情况下,当单变量、双变量或多变量可视化发现任何异常时,就会开始搜索缺失值和异常值。

  • 检测离群值离群值的检测通常发生在单变量,双变量或多变量分析期间或之后。像异常值一样,离群值也会给分析增加偏差,导致对属性的误解。

  • 特征工程是探索性数据可视化的核心步骤。它主要分为两部分:变量创建和转换。


图3:EDA6个基本步骤

全文信息

A comprehensive review of tools for exploratory analysis of tabular industrial datasets

Aindrila Ghosh, Mona Nashaat, James Miller, Shaikh Quader, Chad Marston

Abstract:Exploratory data analysis plays a major role in obtaining insights from data. Over the last two decades, researchers have proposed several visual data exploration tools that can assist with each step of the analysis process. Nevertheless, in recent years, data analysis requirements have changed significantly. With constantly increasing size and types of data to be analyzed, scalability and analysis duration are now among the primary concerns of researchers. Moreover, in order to minimize the analysis cost, businesses are in need of data analysis tools that can be used with limited analytical knowledge. To address these challenges, traditional data exploration tools have evolved within the last few years. In this paper, with an in-depth analysis of an industrial tabular dataset, we identify a set of additional exploratory requirements for large datasets. Later, we present a comprehensive survey of the recent advancements in the emerging field of exploratory data analysis. We investigate 50 academic and non-academic visual data exploration tools with respect to their utility in the six fundamental steps of the exploratory data analysis process. We also examine the extent to which these modern data exploration tools fulfill the additional requirements for analyzing large datasets. Finally, we identify and present a set of research opportunities in the field of visual exploratory data analysis.

Keywords: Exploratory data analysis, Industrial tabular data, Interactive visualization, Systematic literature review, Research opportunities

Link: https://www.sciencedirect.com/science/article/pii/S2468502X18300561


  • 多变量数据协同可视探索框架

  • 使用可视分析控制数据质量:复杂性挑战

  • 交互式网络分析过程的简明概括

  • 采用可视化分析来检测欺诈事件

  • 多属性可视嵌入的组合优化

  • 人机分析过程导引

  • 采用堆叠条形图进行单个属性和整体属性比较的有效性


点击阅读原文,一起玩耍


77969.jpg
VI可视信息学

写了 3 篇文章,拥有财富 0,被 1 人关注

www.XinBIM.com
转播转播 分享淘帖 踩!踩!
回复

使用道具

评论

使用高级模式,上传图片!
您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies

成为第一个吐槽的人

返回顶部