《数据科学与社会研究》自学课程

学习就是自己改造自己!数据科学发展迅速,传统的高校课程和师资队伍已经远远落后于业界的发展,青年学生只有充分利用高校既有课程和互联网开放资源进行自我教育和学习才能取得快速成长,教师也只有不断学习才能与时俱进。自学的过程是曲折的,痛苦的,孤独的,需要严格自律,需要看到希望,得到适时的反馈与肯定。

为了提高大家自学效率和计划性,在人民大学李丁老师的带领下,北大清华人大中国社科院的几位青年教师准备联合起来,筹备成立一个自学社团,与大家一起通过翻转课堂(flipped classroom)的形式共同学习、提高。特针对有志于数据科学和社会研究的青年开发一门《数据科学与社会研究》的互助自修课程。课程暂时没有学分,不要学费,但有比较严格的课程学习进度要求与线下参与要求。会员平时灵活分头在线自学,周四下午和晚上集中集体活动,骨干会员通过担任入门课教员以教带学,特邀导师对骨干会员加以进阶培训和备课指导。

2017年9月11日最后更新

一、课程总体设计

课程设计

课程目标:

课程采用在线自学、课堂讨论、重点讲解、团队实训的方式进行。面向首都高校社会科学和管理学研究生、教师的。课程横跨社会科学和信息技术两个领域,涵盖政治学、社会学、管理学、统计学、数据科学等多个学科的理论知识和实用技术。旨在提高大家的数据应用意识、建立数据思维、了解前沿方法,掌握有关数据采集、处理、分析和解释的基本原理和方法,提升大数据方法自学能力和应用能力。

课程骨干

邀请清华大学龙瀛、孟天广、闫飞,中国社科院陈华珊,中国人民大学窦志成、刘涛、巫锡炜等多位老师为指导老师。中国人民大学李丁负责组织学员讨论、引导自学、联系资源。课程得到了北京大学卢云峰教授,中国人民大学冯仕政教授的赞助和支持。

课程时间:

分头自学时间:自己安排。

集中研讨时间:每周四下午三点到六点,地点:中国调查与数据中心0110会议室。

实战训练时间:小组安排。

招新目标:

招募20位具有一定基础的三年制硕士、四年制博士学生、教师。要求参与者有强烈的数据爱好,较好的自学能力,充分的时间保证,高度的团结合作精神。

招新方式

由各校青年教师推荐或自荐。报名者请提供自己掌握的方法和软件情况、相关课程的成绩、做过的量化研究、未来的研究计划。优先录入基础较好、兴趣较强烈、未来科研时间长的学员。

基础先修/自修课程

准备好社会调查研究方法、编程、数据管理、基础统计学基础

课程1:社会研究方法

邱泽奇 上http://www.chinesemooc.org/mooc/4411

邱泽奇 http://www.chinesemooc.org/mooc/4484

课程2:基础统计学与统计软件(基于R语言、Python

基础统计学 阿姆斯特丹 https://www.coursera.org/learn/basic-statistics/lecture/

R语言免费入门课程 中文https://edu.hellobi.com/course/68/lessons

系列课程:https://edu.hellobi.com/classroom/1/courses

课程3:回归分析(基于R语言)

coursera 回归分析 杜克大学 https://www.coursera.org/learn/linear-regression-model

杜克大学系列课程 https://www.coursera.org/specializations/statistics

课程4:数据管理(基于R语言)

R语言 霍普金斯 https://www.coursera.org/learn/r-programming

R数据分析 系列课程 https://www.coursera.org/specializations/jhu-data-science

课程5:高级统计与数据挖掘(基于R语言或Python

课程6:编程语言

密歇根大学python系列课程

https://www.coursera.org/specializations/data-science-python

https://www.coursera.org/learn/python-data-analysis

中文 南京大学张莉 https://www.coursera.org/learn/python-data-processing

课程7:互联网与数据库

Python 获取网络数据 https://www.coursera.org/learn/python-network-data

Python使用数据库 https://www.coursera.org/learn/python-databases

高级自修课程

参考书籍

王星. 《大数据分析:方法与应用》. 清华大学出版社. 2013.

李舰、 肖凯. 《数据科学中的R语言》. 西安交通大学出版社.2015.

J. Fox and S. Weisberg, An R Companion to Applied Regression, Second Edition, Sage (2011. Additional materials are available on the web site for the book, including several appendices (on structural-equation models, mixed models, survival analysis, etc.). The book is associated with the car and effects packages for R. I am a member of the R Foundation.

Gareth James et al. An Introduction to Statistical Learning: with Applications in R. Springer. 2013.

2017年入门学员课程安排

次序 日期 R1班 R2班 P班
第1讲 3月2日 R入门1(Y) R入门1(L) Python入门1(C)
第2讲 3月9日 R入门2(Y) R入门2(L) Python入门2(C)
第3讲 3月16日 R数据处理(Y) R数据处理(L) 爬虫原理(C)
第4讲 3月23日 R数据呈现(Y) R数据呈现(L) Python爬虫(C)
第5讲 3月30日 R数据实例(y) R数据实例(L) Python数分(C)
第6讲 4月6日 爬虫原理(Y) 爬虫原理(L) R入门1(zzx)
第7讲 4月13日 Python入门(J) Python入门(ZCW) R入门2(Zl)
第8讲 4月20日 Python入门2(J) Python入门2(L) R数据处理(ZSQ)
第9讲 4月27日 Python爬虫(J) Python爬虫(L) R数据呈现(WHN)
第10讲 5月11日 Python数分(J) Python数分(L) R小数据实例(C)
第11讲 5月18日 社会网入门(Y) 社会网入门(L) 社会网入门(C)
第12讲 5月25日 社会网模型(Y) 社会网模型(L) 社会网模型(C)
第13讲 6月1日 文本入门(F) 文本入门(L) 文本入门(C)
第14讲 6月8日 文本模型(Y) 文本模型(L) 文本模型(C)
第15讲 6月15日 空间分析(Y) 空间分析(L) 空间分析(C)

二、R语言与Python课程

三、骨干培训课程资料

第一讲:陈华珊:网络爬虫的原理与入门(PDF附件)

第二讲:陈华珊:社会网络分析原理与入门(PDF附件)

第三讲:陈华珊:R中文乱码与Stata、SPSS中文数据读入与分析(PDF附件)

第四讲:李佳龙:如何利用Python登录网站和翻页(示例代码

第五讲:李丁:基于R语言的网络爬虫综合实例(爬取个人人人好友网络,并作图)

第六讲:李丁:空间分析的概念与入门(孙秀林:社会科学中的空间分析:概念、技术和应用实例

第七讲:龙瀛:大数据与城市规划概论(上)

第八讲:龙瀛:大数据与城市规划概论(下)

Download
第一讲:陈华珊:网络爬虫的原理与入门.pdf
Adobe Acrobat Document 357.6 KB
Download
第二讲:陈华珊:社会网络分析原理与入门.pdf
Adobe Acrobat Document 4.0 MB
Download
第三讲:陈华珊:R中文乱码与Stata、SPSS中文数据读入与分析.pdf
Adobe Acrobat Document 124.8 KB
Download
第四讲:李佳龙:如何利用Python登录网站和翻页.zip
Compressed Archive in ZIP Format 4.3 MB
Download
第七、八讲龙瀛的课件
大数据与城市规划(概论) 人大.pdf
Adobe Acrobat Document 11.0 MB
Download
第七、八讲龙瀛的课堂实验数据
DT32_Yichun.zip
Compressed Archive in ZIP Format 10.2 MB