LOFTER for ipad —— 让兴趣,更有趣

点击下载 关闭
Python为何能成为数据分析的主流工具?

昨天,微信的Python交流群出现了这样的对话:

看到这部分代码交流,让我不禁感受到Python的强大、函数算法的多用以及一个人思维的提升。想想,Python在1991年首次发布,Python2.0于2000年发布,8年后Python3.0发布。根据Stack Overflow在2017年的调查显示,近45%的数据科学家使用Python作为主要的编程语言,Python每一次的进步都是它成为数据分析主流工具的重要因素。

近年来,Python的被使用性越来越高,尤其是Jupyter Notebook备受大家喜爱。根据Ben Frederickson进行的一项调查显示,Jupyter Notebook在Github上的月活跃用户(MAU)的占比在2015年后大幅上升。随着近年Python的使用者越来越多,R的月活跃用户在2015年之后不可避免有了大幅下降。

可以看到,在CDA对数据分析人才等级的划分中,基本上对Python软件的应用都有一定的要求。


既然Python这么受欢迎,那我们就有一个问题了,Python一个开源的软件,到底可以做什么呢?

首先,我们知道,Python具有丰富和强大的库,其语言简洁、优雅,有时候可以用几句话就能表达出C语言几千行、Java几百行的代码。Python可以做的事情有很多:开发、数据分析、数据挖掘、机器学习、爬虫等等,包括它的可视化功能也是和R可以媲美的。在我看来,Python近几年受追捧的一部分原因和数据分析行业的爆发有着密不可分的关系,随着各大中小型企业对数据的重视程度的增加,数据分析师需求的大幅上涨,而Python作为数据分析界最容易入门上手并且做数据分析首选的的分析工具,需求也相应有了暴增。

Python中有两个最基础的包:Pandas和Numpy,Pandas是Python中一种数据分析的包,而Numpy是一个可以借助Python实现科学计算的包,可以计算和储存大型矩阵。所以,用Python来做数据分析基本需求都可以被实现,这也是Python可以广泛运用到数据分析中的原因。

接下来我要提到的就是Python第一次引起我兴趣的一个点——爬虫,我是通过感到这个名词有趣然后去了解学习Python从而感到Python的有趣之处。爬虫就是爬取网页上我们看到的信息,通过编写语句、整理得到我们想要的数据,进而去做一些其他的数据分析,当然,这一切都要建立在合法合理的基础上。下面我给大家分析一个我自己爬虫的小练习。

这是一个爬取豆瓣tap250电影排行的程序代码:

爬取到结果整理之后如下(输出评分排名前十的电影):

使用上面的代码,我爬取了豆瓣top250电影的影名、类型、国家、时间、简介、评论等相关信息并最终输出为excel表格,这将有助于你剧荒的时候更好的选择高质量的电影。以上代码仅仅是个人练习所操作,有更简洁的语言欢迎大家一起交流。Python真的是一个神奇的工具,建议大家千万不要轻易入坑,因为很难出来。

CDA数据分析师原创作品,转载需授权哟!


推荐文章
评论(0)
联系我们|招贤纳士|移动客户端|风格模板|官方博客|侵权投诉 Reporting Infringements|未成年人有害信息举报 0571-89852053|涉企举报专区
网易公司版权所有 ©1997-2024  浙公网安备 33010802010186号 浙ICP备16011220号-11 增值电信业务经营许可证:浙B2-20160599
网络文化经营许可证: 浙网文[2022]1208-054号 自营经营者信息 工业和信息化部备案管理系统网站 12318全国文化市场举报网站
网信算备330108093980202220015号 网信算备330108093980204230011号
分享到
转载我的主页