博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[统计学笔记](二)收集数据
阅读量:4041 次
发布时间:2019-05-24

本文共 2422 字,大约阅读时间需要 8 分钟。

[统计学笔记] (二)收集数据


数据是什么?

数据、信息和知识被广泛的用于计算机科学领域。

数据是信息的载体,信息是数据的语义解释。数据是得出结论的前提。信息是处理后的数据,为实际问题提供答案。

当我们增加一种关系或者一个关联时,数据就成为信息。这种关联通过提供数据背景来完成。这各背景有助于我们回答数据相关的问题。

数据有很多种表现形式,例如:

  • CSV文件
  • 数据库
  • 文件格式(Excel、PDF、Word等)
  • HTML文件、XML文件
  • JSON文件
  • 文本文件
  • ……

知识是数据、信息通过经验获得的技能。知识包括做出适当决策的能力和执行时所需的技能。

收集数据的目的是为了进一步分析数据中隐藏的特征、规律、关联关系等,从而揭示数据背后隐藏的真相。为了基于已有数据信息得到最佳或者现实的决策,数据分析就尤为重要。

数据需要通过收集、处理和组织,才能够用于数据分析。


原始数据的收集

数据收集的分类
按数据收集的组织方式不同,分为统计报表和专门调查。

  •  统计报表:按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。
  •  专门调查:为了某一特定目的或专门问题而专门组织的调查。

按数据收集对象包括范围的大小不同,分为全面调查和非全面调查。

  • 全面调查:对构成调查对象中的所有党委进行一一不漏的调查。
  • 非全面调查:是在统计调查过程中,仅对调查中的一部分单位进行调查。 包括:抽样调查、重点调查、典型调查和非全面统计报表。

按数据收集的登记时间是否连续,分为经常性调查和一次性调查。

  • 经常性调查:又称连续性调查,它是为了观察社会经济现象在一定时期内的数量变化所进行的调查登记或数据收集
  • 一次性调查:又称不连续性调查,它是对所研究的社会经济现象间隔一段时间所进行的调查登记或数据收集

按数据收集实施主体的不同,分为政府统计调查和民间统计调查。

数据收集的调查方式
数据收集的调查方式,按照组织方式主要有:普查、抽样调查、典型调查、重点调查和统计报表制度。
普查:专门组织的一次性全面调查。

普查的特点:

  •  通常是一次性调查,周期性强
  •  全面性调查,收集的资料全面、系统、准确
  •  普查的点多面广,工作量大,投入多

普查应遵循以下原则:

  • 时间统一性原则
  • 登记工作的规范性原则
  • 普查项目统一规定原则
  • 同类普查同周期性原则

抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本数据推断总体数量特征的一种非全面调查。

  • 概率抽样:根据随机原则从总体中抽选样本,并根据样本信息对总体的某些特征做出估计推断,对推断可能出现的误差可以从概率意义上加以控制。
  • 非概率抽样:调查组根据自己的方便或主观判断抽取样本的方法

抽样调查优势:经济性、时效性、准确性

几种具体的抽样方式:

  • 简单随机抽样——是指从总体N个单位中随机抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
  • 分层抽样——主要特征分层按比例抽样,主要使用于总体中的个体有明显差异。共同点:每个个体被抽到的概率都相等N/M。
  • 整群抽样——是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。【应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小】
  • 等距抽样——首先将总体各单位按一定顺序排列,更具样本容量大小确定抽选间隔,然后随机抽取一个进入样本,直到满足要求为止的一种抽样方式
  • 多阶段抽样——是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用,其在大型流行病学调查中常用。

第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;

第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样……,依此类推,直到获得最终样本

典型调查

    从调查对象的全部单位中选择少数典型单位进行调查。

    目的是描述和揭示事物的本质特征和规律。

     调查结果不能用于推断总体。

重点调查

   从调查对象的全部单位中选择少数重点单位进行调查。

   调查结果不能用于推断总体。

统计报表制度

    按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级填报的一种调查组织方式。

    统计报表内容:报表目录、报表表式、填表说明
    统计报表的资料来源:原始记录、统计台账、企业内部报表
 

数据收集的方法

  • 问卷法: 邮寄调查、电话调查、电脑辅助电话调查、网络调查
  • 访谈法

    优点:广泛地认识客观现象、深入地研究问题、资料收集可靠和应用面很广

    缺点:必须依赖具有较高素质的访问员、直接交谈会对获取资料的客观性产生负面影响、在不便询问时访谈无法实施、调查费用大、时间长,可能会碰到意料不到的困难

集体访谈:将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料

   常用的有:头脑风暴法、德尔非法(专家意见法)、深度访谈法

个别访谈:调查者对每一名受访者进行一对一单独访谈。

  •  观察法:

      就调查对象的行动和意识,调查人员边观察边记录以收集所需信息

      调查人员不是强行介入

      能够在被调查者不察觉的情况下获得资料

  • 实验方法

      在实验中控制一个或者多个变量,在有控制条件下得到观测结果。

      实验不仅是收集数据的一种方式,而且是一种研究方法。

      在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料。有室内实验法和市场实验法。


数据的误差

数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。

数据的误差有两类:抽样误差和非抽样误差。

抽样误差是由抽样的随机性引起的样本结果与总体真值之间的差异。

非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由其它原因引起的样本观察结果与总体真值之间的差异。

抽样误差是一种随机性误差,只存在于概率抽样中;非抽样误差则不同,无论是概率抽样、非概率抽样,还是在全面调查中,都有可能产生非抽样误差。

转载地址:http://qsvdi.baihongyu.com/

你可能感兴趣的文章
解决国内NPM安装依赖速度慢问题
查看>>
Brackets安装及常用插件安装
查看>>
Centos 7(Linux)环境下安装PHP(编译添加)相应动态扩展模块so(以openssl.so为例)
查看>>
fastcgi_param 详解
查看>>
Nginx配置文件(nginx.conf)配置详解
查看>>
标记一下
查看>>
IP报文格式学习笔记
查看>>
autohotkey快捷键显示隐藏文件和文件扩展名
查看>>
Linux中的进程
查看>>
学习python(1)——环境与常识
查看>>
学习设计模式(3)——单例模式和类的成员函数中的静态变量的作用域
查看>>
自然计算时间复杂度杂谈
查看>>
当前主要目标和工作
查看>>
Intellij IDEA启动优化,让开发的感觉飞起来
查看>>
使用 Springboot 对 Kettle 进行调度开发
查看>>
如何优雅的编程,lombok你怎么这么好用
查看>>
一文看清HBase的使用场景
查看>>
除了负载均衡,Nginx还可以做很多,限流、缓存、黑白名单
查看>>
解析zookeeper的工作流程
查看>>
搞定Java面试中的数据结构问题
查看>>