写这个系列,是希望在当初知乎某一个回答的基础上,单独完善出针对互联网产品和运营们的教程。不论对数据分析或数据运营,我都希望它是一篇足够好的教材。更准确地说,这是一份七周的互联网数据分析能力养成提纲。
我会按照提纲针对性的增加互联网侧的内容,比如网站分析,用户行为序列等。我也不想留于表面,而是系统性讲述。比如什么是产品埋点?在获得埋点数据后,怎么利用Python / Pandas的shift ( )函数将其清洗为用户行为session,进而计算出用户在各页面的停留时间,后续如何转换成统计宽表,如何以此建立用户标签等。
下面是各周的学习概述。
第一周:Excel学习掌握
如果Excel玩的顺溜,你可以略过这一周。不过介于我入行时也不会vlookup,所以有必要讲下。
重点是了解各种函数,包括但不限于sum,count,sumif,countif,find,if,left/right,时间转换等。
Excel函数不需要学全,重要的是学会搜索。即如何将遇到的问题在搜索引擎上描述清楚。
我认为掌握 vlookup和 数据透视表足够,是最具性价比的两个技巧。
学会vlookup,SQL中的join,Python中的merge很容易理解。
学会数据透视表,SQL中的group,Python中的pivot_table也是同理。
这两个搞定,基本10万条以内的数据统计没啥难度,80%的办公室白领都能秒杀。
Excel是熟能生巧,多找练习题。还有需要养成好习惯,不要合并单元格,不要过于花哨。表格按照原始数据(sheet1)、加工数据(sheet2),图表(sheet3)的类型管理。
下面是为了以后更好的基础而附加的学习任务:
了解单元格格式,后期的数据类型包括各类timestamp,date,string,int,bigint,char,factor,float等。
了解数组,以及怎么用(excel的数组挺难用),Python和R也会涉及到 list。
了解函数和参数,当进阶为编程型的数据分析师时,会让你更快的掌握。
了解中文编码,UTF8和ASCII,包括CSV的delimiter等,以后你会回来感谢我的。
这一周的内容我会拆分成两部分:函数篇和技巧篇。
这是一道练习题,我给你1000个身份证号码,告诉我里面有多少男女,各省市人口的分布,这些人的年龄和星座。如果能完成上述过程,那么这一周就直接略过吧。(身份证号码规律可以网上搜索)
获取链接: https://pan.baidu.com/s/1NBtdu-SW67t-Fu3NlXpjhA
提取码: rwps