随着数据分析在越来越多的行业中广泛应用,数据分析的热度也逐渐高涨。其中陆文博是一位专业的数据分析师,在多个大型企业、政府机构和学校开展了多个数据分析项目,并得到客户的认可。
一、数据采集
1. 网络爬虫
LWBCrawler是陆文博研究开发的一款多线程轻量级网络爬虫,主要用于定向爬取互联网数据。针对项目需要,陆文博通过LWBCrawler自行编写了相关代码,爬取了持续1个月的数据,并在此基础上进行后续的数据分析。
通过网络爬虫采集的数据主要包括以下信息:用户ID、用户微博、发布时间、点赞数、评论数、转发数、来源、图片、视频等。其中,微博数据总计约10万,包含“新冠病毒”关键词的微博量占比逐日攀升,最高值达到59%。
2. 调查问卷
为进一步了解公众对于疫苗的态度和看法,陆文博通过在线问卷平台发布了一份调查问卷,该问卷主要涉及四个方面的内容:个人基本信息、对新冠疫苗的认知、接种意愿和原因、对疫苗来源渠道的评估。
截至调查结束,已有3000余人填写问卷,有效问卷数为2877份。
二、数据清洗
1. 数据筛选
通过Python语言编写程序,对微博进行数据筛选,筛选标准为:微博发布时间大于等于2021年1月1日00:00:00,微博类型为原创,用户评论数与转发数均大于等于10,并在筛选结束后对所得数据进行去重操作,最终得到合法的16,564条微博。
2. 数据清洗
在数据清洗时,陆文博主要针对重复的微博进行清理,包括内容完全相同或者部分相同但发布时间不同的微博,最终得到不重复的微博有11,619条。
对于调查问卷的数据,陆文博主要对部分问题的错误数据进行清理,例如:门诊次数超过总次数、年龄不合理等。经过数据清洗,共清理出108份错误数据。
三、数据分析
1. 微博内容分析
由于微博中包含了大量的情感色彩和主观因素,陆文博在进行微博内容分析时,主要从以下两个方面进行:
(1)词频分析
对于微博中出现频率较高的关键词进行筛选,并进行词云图制作,使分析结果更形象直观。从结果可以看出,最高频的词汇之一为“新冠疫苗”,其次是“疫苗接种”、“疫苗效果”等相关词汇。
(2)情感分析
情感分析是在自然语言处理中应用最多的技术之一,主要是通过计算文本中词语的情感得分,来确定文本的情感分类。陆文博基于情感倾向性,对微博进行了积极、消极、中性情感分析,其中中性微博的占比最大,达到68.5%。
2. 调查问卷结果分析
陆文博对调查问卷得出的结果进行了横向对比和纵向分析,主要得出以下结论:
(1)不同性别间的疫苗接种意愿差异不大,男性接种意愿略高于女性。
(2)年龄中,18岁以下的受访者的接种意愿较低,30岁至50岁的受访者接种意愿最高。
(3)职业类型方面,公务员的接种意愿最高,学生的接种意愿最低。
(4)接种疫苗的主要原因是“保护自己”和“保护家人”,各占比73%和61%;不接种的主要原因是“担心疫苗风险”,占比为68%。
四、结论与建议
综合微博内容分析和调查问卷的结果,陆文博得出以下结论:
(1)疫苗接种的态度是主流的,预期在未来的一个季度中将会接种疫苗。
(2)社会媒体上,对新冠疫苗的讨论集中在关注有效性和副作用等问题,同时会有部分人对疫苗安全性表示担忧。
(3)疫苗接种必须扎牢质量和安全基础,另外也应加强对疫苗事实的宣传和教育。此外,那些因疫苗风险拒绝接种的消费者也应得到相关权威部门的解答和支持。
小编说:陆文博本次数据分析充分展现了数据分析在疫情期间的应用价值,分析结论和建议具有一定的参考意义和实用性,为疫苗接种及新冠疫情防控工作提供了一定的参考依据。
暂无评论
发表评论