The Beginning
数据的表现形式是常量和变量。一般的数据可用表格、图形、文字来表示。表格和文字比较简单,图形则又分为直方图、条形图、饼状图、走势图、箱型图等。在计算机中,数据可以以常见的数字表示,更高深一点的包括数据挖掘、统计分析、自然语言处理和极端SQL等等。
数字数据,如各种统计或量测数据。数字数据在某个区间内是离散的值。模拟数据,由连续函数组成,是指在某个区间连续变化的物理量,又可以分为图形数据(如点、线、面)、符号数据、文字数据和图像数据等,如声音的大小和温度的变化等。数据的表现形式还不能完全表达其内容,需要经过解释,数据和关于数据的解释是不可分的。数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
数据可以是连续的值,比如声音、图像,称为模拟数据,也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0、1的形式表示。目前,数据仓库一词尚没有一个统一的定义,着名的数据仓库专家w.h.inmon在其着作《building the data warehouse》一书中给予如下描述:数据仓库(data warehouse)是一个面向主题的(subject oriented)、集成的(integrate)、相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
THE END