每天学点网络传播020:数据新闻
对数据新闻的定义是:数据新闻是一个工作流程,它意味着深入数据之中,对数据进行清洗、结构化,为特定目标进行数据过滤,以及通过可视化来完成报道。这个定义不仅说明了数据新闻的特点,也概括了数据新闻的基本流程。
2.数据的清洗:通常包括两个方面,即去除人为的错误,以及对数据格式进行转换以便进行相应处理。
3.了解数据的背景:就像对待其他信息一样,对于数据,我们需要了解数据是由什么人在什么时间什么样的情况下采集的,数据收集的方法是什么。
来源于新闻或媒体的数据;来源于政府机构、组织或企业的数据;来源于数据库的数据;来源于用户的数据;物联网数据;其他来源数据
获取网页表格中数据的工具;抓取PDF中数据的工具;批量下载网页文件的工具;抓取网页中数据的工具。
数据新闻的数据还需要更多地利用网民的力量来进行收集。“众包化”的方式,也就是当我们需要的数据无法从一个来源中获得时,可以建立一个平台,通过刺激网民参与,使他们成为数据的生产者或贡献者。
对数据进行鉴别,首先需要对数据的来源进行分析。来自权威部门的数据相对可靠,收集数据时应该尽可能以权威部门的数据为准。当然,即使是这些部门提供的数据,也需要进一步 加以分析。对于来自商业化机构的数据,需要格外小心,因为商业利益的干扰,常常可能导致数据出现偏差或者“不公正”。
对数据的可用性的鉴别,还需要了解数据产生的背景。数据是在什么时候、什么情况下生成的?它们是否还适用于现在的情况,是否适合我们所要表达的主题?这些分析,一是有助于 我们了解数据的时效性,判断它们是否仍然有效,二是有助于我们了解数据的价值及适用 范围。
数据也有质量的好坏。数据的完整性,是判断其质量的一个基本标准。例如,一次调查问卷中,如果多数问卷中的回答都不完整,那就意味着多数人的数据都不完整,这样的数据,其 质量显然是较差的。数据的一致性,也是判断质量的一个重要指标。如果一组数据存在相互矛盾的地方,那么 就应该对数据的质量存疑。此时,需要进一步判断这种矛盾产生的原因,决定数据是否可用。
一是数据对特定主题或观点的支持能力。二是在此主题下数据的完备性。某些数据的确可以为某些主题服务,但仅有这些数据还不充分,需要有更多的数据作为它的背景或者比较对象,才能揭示主题。
即使数据来源可靠,也很难避免收集到的数据中存在一些“脏数据”。“脏数据”通常包括以下几种。滲重复的数据:有些数据在数据表中会多次出现。滲错误的数据:例如数据出现逻辑上的错误或不合理,数据值超出正常范围或录入过程中发生了错误。滲不完整的数据:一个数据记录可能存在若干字段,例如个人信息包括姓名、性别、年龄、学历等字段,如果缺失其中的一个或几个字段,那么数据就是不完整的。相互冲突的数据:有些数据之间可能会存在一些相互矛盾之处。
尽管大数据时代一种代表性观点认为因果关系不再重要,相关性的挖掘才是重点,但是在数据新闻里,因果关系的挖掘不仅存在,而且仍然是很重要的。新闻报道不仅要告诉人们发生了什么,还要告诉人们这些事为什么发生。
数据分析可以帮助我们认识事物的特征,或将分散的个体、孤立的现象之间的共性或共同规律挖掘与呈现岀来。
带话题#浙传考研#+文字(文字内容为每日的学习心得)并@浙传考研盒子。(在浙传考研超话直接打卡亦可)
*每次打卡,必须带有文字与图片,累计打卡20天,即可免费获取浙传考研盒子出品的网络传播笔记一本。
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186