学习就是自己改造自己!数据科学发展迅速,传统的高校课程和师资队伍已经远远落后于业界的发展,青年学生只有充分利用高校既有课程和互联网开放资源进行自我教育和学习才能取得快速成长,教师也只有不断学习才能与时俱进。自学的过程是曲折的,痛苦的,孤独的,需要严格自律,需要看到希望,得到适时的反馈与肯定。
为了提高大家自学效率和计划性,在人民大学李丁老师的带领下,北大清华人大中国社科院的几位青年教师准备联合起来,筹备成立一个自学社团,与大家一起通过翻转课堂(flipped classroom)的形式共同学习、提高。特针对有志于数据科学和社会研究的青年开发一门《数据科学与社会研究》的互助自修课程。课程暂时没有学分,不要学费,但有比较严格的课程学习进度要求与线下参与要求。会员平时灵活分头在线自学,周四下午和晚上集中集体活动,骨干会员通过担任入门课教员以教带学,特邀导师对骨干会员加以进阶培训和备课指导。
课程目标:
课程采用在线自学、课堂讨论、重点讲解、团队实训的方式进行。面向首都高校社会科学和管理学研究生、教师的。课程横跨社会科学和信息技术两个领域,涵盖政治学、社会学、管理学、统计学、数据科学等多个学科的理论知识和实用技术。旨在提高大家的数据应用意识、建立数据思维、了解前沿方法,掌握有关数据采集、处理、分析和解释的基本原理和方法,提升大数据方法自学能力和应用能力。
课程骨干:
邀请清华大学龙瀛、孟天广、闫飞,中国社科院陈华珊,中国人民大学窦志成、刘涛、巫锡炜等多位老师为指导老师。中国人民大学李丁负责组织学员讨论、引导自学、联系资源。课程得到了北京大学卢云峰教授,中国人民大学冯仕政教授的赞助和支持。
课程时间:
分头自学时间:自己安排。
集中研讨时间:每周四下午三点到六点,地点:中国调查与数据中心0110会议室。
实战训练时间:小组安排。
招新目标:
招募20位具有一定基础的三年制硕士、四年制博士学生、教师。要求参与者有强烈的数据爱好,较好的自学能力,充分的时间保证,高度的团结合作精神。
招新方式:
由各校青年教师推荐或自荐。报名者请提供自己掌握的方法和软件情况、相关课程的成绩、做过的量化研究、未来的研究计划。优先录入基础较好、兴趣较强烈、未来科研时间长的学员。
准备好社会调查研究方法、编程、数据管理、基础统计学基础
课程1:社会研究方法
邱泽奇 上http://www.chinesemooc.org/mooc/4411;
邱泽奇 下http://www.chinesemooc.org/mooc/4484
课程2:基础统计学与统计软件(基于R语言、Python)
基础统计学 阿姆斯特丹 https://www.coursera.org/learn/basic-statistics/lecture/
R语言免费入门课程 中文https://edu.hellobi.com/course/68/lessons
系列课程:https://edu.hellobi.com/classroom/1/courses
课程3:回归分析(基于R语言)
coursera 回归分析 杜克大学 https://www.coursera.org/learn/linear-regression-model
杜克大学系列课程 https://www.coursera.org/specializations/statistics
课程4:数据管理(基于R语言)
R语言 霍普金斯 https://www.coursera.org/learn/r-programming
R数据分析 系列课程 https://www.coursera.org/specializations/jhu-data-science
课程5:高级统计与数据挖掘(基于R语言或Python)
课程6:编程语言
密歇根大学python系列课程
https://www.coursera.org/specializations/data-science-python
https://www.coursera.org/learn/python-data-analysis
中文 南京大学张莉 https://www.coursera.org/learn/python-data-processing
课程7:互联网与数据库
Python 获取网络数据 https://www.coursera.org/learn/python-network-data
Python使用数据库 https://www.coursera.org/learn/python-databases
R语言系列课程 https://www.hellobi.com/u/xiejiabiao/courses
Python爬虫 http://www.chinahadoop.cn/classroom/37/introduction
Python数据分析 http://www.chinahadoop.cn/classroom/39/introduction
王星. 《大数据分析:方法与应用》. 清华大学出版社. 2013.
李舰、 肖凯. 《数据科学中的R语言》. 西安交通大学出版社.2015.
J. Fox and S. Weisberg, An R Companion to Applied Regression, Second Edition, Sage (2011. Additional materials are available on the web site for the book, including several appendices (on structural-equation models, mixed models, survival analysis, etc.). The book is associated with the car and effects packages for R. I am a member of the R Foundation.
Gareth James et al. An Introduction to Statistical Learning: with Applications in R. Springer. 2013.
次序 | 日期 | R1班 | R2班 | P班 |
第1讲 | 3月2日 | R入门1(Y) | R入门1(L) | Python入门1(C) |
第2讲 | 3月9日 | R入门2(Y) | R入门2(L) | Python入门2(C) |
第3讲 | 3月16日 | R数据处理(Y) | R数据处理(L) | 爬虫原理(C) |
第4讲 | 3月23日 | R数据呈现(Y) | R数据呈现(L) | Python爬虫(C) |
第5讲 | 3月30日 | R数据实例(y) | R数据实例(L) | Python数分(C) |
第6讲 | 4月6日 | 爬虫原理(Y) | 爬虫原理(L) | R入门1(zzx) |
第7讲 | 4月13日 | Python入门(J) | Python入门(ZCW) | R入门2(Zl) |
第8讲 | 4月20日 | Python入门2(J) | Python入门2(L) | R数据处理(ZSQ) |
第9讲 | 4月27日 | Python爬虫(J) | Python爬虫(L) | R数据呈现(WHN) |
第10讲 | 5月11日 | Python数分(J) | Python数分(L) | R小数据实例(C) |
第11讲 | 5月18日 | 社会网入门(Y) | 社会网入门(L) | 社会网入门(C) |
第12讲 | 5月25日 | 社会网模型(Y) | 社会网模型(L) | 社会网模型(C) |
第13讲 | 6月1日 | 文本入门(F) | 文本入门(L) | 文本入门(C) |
第14讲 | 6月8日 | 文本模型(Y) | 文本模型(L) | 文本模型(C) |
第15讲 | 6月15日 | 空间分析(Y) | 空间分析(L) | 空间分析(C) |
第五讲:课堂演示(王茂林主讲,暂时没有)
第1-2课:课后作业
第3-4讲:课后作业
第一讲:陈华珊:网络爬虫的原理与入门(PDF附件)
第二讲:陈华珊:社会网络分析原理与入门(PDF附件)
第三讲:陈华珊:R中文乱码与Stata、SPSS中文数据读入与分析(PDF附件)
第四讲:李佳龙:如何利用Python登录网站和翻页(示例代码)
第五讲:李丁:基于R语言的网络爬虫综合实例(爬取个人人人好友网络,并作图)
第六讲:李丁:空间分析的概念与入门(孙秀林:社会科学中的空间分析:概念、技术和应用实例)
第七讲:龙瀛:大数据与城市规划概论(上)
第八讲:龙瀛:大数据与城市规划概论(下)