...

课程设计

  • 2-3⼈⼩组合作。
  • 主题尽量有趣,⽣动。
  • 包含数据收集,数据分析,设计⽅案,效果演示,展示海报,现场报告等部分。
  • 初步数据分析与设计报告提交要求

  • 关于课程设计的初步数据分析报告,该报告主要写对选题的初步设计与探索,可以包括:
  • 数据:介绍数据、数据类型、数据包含的维度、各个维度之间的关系等等。数据的初步的探索,介绍通过统计方法从中获得的见解。
  • 任务:阐述针对选择的数据,要做什么分析,有什么任务。
  • 设计:如何设计可视化解决任务。
  • 以及其他相关内容
  • 文件命名为[可视化看中国]Final_Project-初步分析报告-组号.pdf
  • 在2023年5月10日23:59前提交 xiaoru.yuan[at]pku.edu.cn,并将邮件抄送luoyuchu[at]pku.edu.cn、yuhan.guo[at]pku.edu.cn、tanshaocong[at]stu.pku.edu.cn、lisihang[at]pku.edu.cn。
  • 更新!关于期末项目的通知

    期末展示要求

  • 本课程的课程汇报将会在2023年6月7日18:40(最后一周的上课时间)在二教402教室进行。以下是事项说明:
  • 课程设计输出可以是交互网页,或者通过工具或者其他方式制作的内容的集合。
  • 将课程设计输出内容制作一个2分钟以内的视频(需要有配音),避免解说使用说明的形式。以一个叙述内容故事的形式。视频可以用任意视频编辑工具制作,或者用powerpoint准备好脚本,一边讲解一边录屏也可以。
  • 准备8分钟(包括视频时长)以内的ppt。 ppt第一页是小组信息,视频嵌入在ppt的开始,之后介绍数据,设计和效果。
  • 每个小组需要所有成员一同参与ppt讲解。
  • 视频注重讲可视化结果的故事,ppt中讲设计过程、处理工作、效果等。
  • 报告顺序按照分组表中组号从小到大的顺序进行:https://docs.qq.com/sheet/DQXJyeGFmV2VaYUx5?tab=BB08J2
  • 期末报告时ppt将统一在助教电脑上播放,请各组于下2023年6月7日(周三)中午12:00之前将 ppt 和视频材料(为防止 ppt 中视频无法播放)发送到助教邮箱 luoyuchu[at]pku.edu.cn 和 yuhan.guo[at]pku.edu.cn。请将所有材料打包为压缩文件,压缩文件命名为第x组-项目名称,邮件命名为[可视化看中国] 期末报告材料-第x组
  • 更新!关于期末项目的通知

    期末项目总结提交要求

  • 在各位同学在期末展示后的十天内,即2023年6月17日23:59分,提交最终的期末项目总结。
  • 期末项目总结应当包含以下内容:
  • 一页海报总结课程设计,推荐使用pdf文件格式,命名为[可视化看中国]_s23_group组号_final_poster,可参考示例海报。
  • 一份课程设计文档说明,推荐使用pdf文件格式,篇幅不作要求,命名为[可视化看中国]_s23_group组号_final_report,可参考示例报告。
  • 一张比例为1:1的图片,用作课程网站上作业展示的封面,命名为[可视化看中国]_s23_group组号_final_cover,可参考示例封面
  • 期末汇报视频,命名为[可视化看中国]_s23_group组号_final_video
  • 期末汇报ppt,命名为[可视化看中国]_s23_group组号_final_slide
  • 请将以上文件打包为压缩包,压缩包命名为[可视化看中国]_s23_group组号_final_materials,2023年6月17日23:59前提交 xiaoru.yuan[at]pku.edu.cn,并将邮件抄送luoyuchu[at]pku.edu.cn、yuhan.guo[at]pku.edu.cn、tanshaocong[at]stu.pku.edu.cn、lisihang[at]pku.edu.cn。

  • 候选主题

    1、中国历代人物传记资料库(CBDB)
  • 数据来源:中国历代人物传记资料库(CBDB)
  • 数据链接:
  • CBDB 公开数据集
  • CBDB 逐表逐栏位介绍(CBDB Codebook)
  • CBDB 中文用户手册2021
  • 查询系统:在线界面,通过人物ID或人名(汉字或拼音),查询结构化人物传记资料(生卒、别名、地理信息,任官、亲属关系、社会关系等)。
  • 数据描述:本数据集为Access结构化数据,​​截至2021年3月,CBDB数据集共包含约四十七万个人物的传记、著作资料,有90%以上来自唐代至20世纪早期,其中以唐、宋、明、清的人物传记资料最为充实。数据库包括人物实体与其亲属和社会团体、其工作和居住的地址、其生存和活跃的时段、被给予和习用的姓名、撰写的著作、进入政府及其他机构的方式等。
  • 数据属性:
  • 人物(People):基本信息
  • 亲属(Kinship):9种基本类别及更多变化
  • 非亲属关系(Non-kinship Associations):包括直接、间接,参加丧事、馈赠礼物等关系
  • 社会区分(Status):身份
  • 入仕途径(Modes of Entry into Government)
  • 官历(Offices / Postings):序列、年份、地址
  • 地址(Places):名称、地理坐标、政区等级(从属关系)
  • 著述(Writings):人物有关的著述,包括碑刻等、手稿、印刷品
  • 研究成果(Research result)
  • 人物参与的重大事件:比如谋反、皇后废立、党争等,以及相关的人物、时间、地点
  • 财产情况
  • 可选课程设计方向(可选某朝代、年代或人物,最好能支持不同数据切换):
  • 人物生平经历可视化(可选某几位历史人物),包括生平居住地及身份变迁、著述和研究成果随年龄的分布、入仕途径,经历的重大事件,与其关联的人物关系(社交网络、亲属网络)等。
  • 社会关系网络可视化,可能包括的细节如某一朝代或年代的社会群体的亲属与非亲属关系,突出网络关键节点的人物特征。
  • 宋代学术传承关系可视化,可能包括的细节如宋代教育家、学术大师、政治家之间的师徒关系、官职大小,考虑如何通过著述和研究成果等信息量化人物的影响力。
  • 唐宋政治精英转型可视化,可能包括的细节如唐宋士大夫的出身、行为方式,生活圈分布,迁徙模式、婚姻对象社会地位和家族等。
  • 唐代至清代社会精英的地域分布和历史演变,可能包括的细节如科举进士的地理分布,社会转变下精英家族的迁徙。
  • 各代人物迁徙可视化,如唐上下跨度三百年,历史上有过多次迁都,其中以长安和洛阳为首的两大都市吸引力最大,可能包括的细节如历史人物的出生地、居住地、死亡地以及迁徙轨迹等。
  • 关于数据处理的建议:选择本数据集的小组,可以相互讨论如何使用Access数据进行查询和导出,并合作进行一些基本的数据处理,如历史地名和现今地名的对应字典、官名的分类、不同朝代的年份划分等。

  • 2、明进士登科(CBDB衍生数据)
  • 数据来源:中国历代人物传记资料库(CBDB)
  • 数据链接:Ming Jinshi List
  • 数据描述:本文件为一个Excel表格,其中的资料为《明代登科录汇编》及《天一阁藏明代科举录选刊.登科录》中的原始资料,包含明朝52科的进士登科录,共收录14,116名进士信息。
  • 数据属性:表1为明进士列表,包括14,116名进士出处、进士年份、姓名、甲次、名次、籍贯、户籍、科目、年龄、曾祖、曾祖任官、祖、祖任官、父、父任官、母、双亲状态、妻、继妻、乡试名次、会试名次、授任官等维度;表3是对表1各数据属性的说明;表2为明代登科录汇编,包括明朝52科的进士登科年份及其出处。
  • 可选课程设计方向:
  • 进士籍贯分布可视化,展示明代进士整体的籍贯分布、各科进士的籍贯分布及其随年份的变化、考取第一甲的进士的籍贯分布等。
  • 明代进士社会关系网络可视化,如展示明朝进士的亲属关系、同学同道关系、同乡关系、师生关系、政治关系等,突出网络关键节点的人物特征。
  • 关于数据处理的建议:选择本数据集的小组,可以结合明代行政区划情况将进士籍贯划分为层次数据。如果想探究进士社会关系,可以在CBDB数据集中查询各进士的完整数据,获取其社会关系。

  • 3、明代书信社交网络(CBDB衍生数据)
  • 数据来源:中国历代人物传记资料库(CBDB)
  • 数据链接:
  • Ming Letters
  • Writer List
  • 官方文档
  • 数据描述:数据集为CSV格式,目前系统公开的有52名明代文人的10591封书信的信息,主要集中在明代中叶。
  • 数据属性:文件1包括作者、作品标题(书信的题目)、通信关系(社会关系的类别)、文集、出处、卷、通信次数、书信的时间等字段;文件2包括针对文件1的行号定位、作者的生年和卒年等内容。

  • 4、中国行政区划数据
  • 数据来源:民政部中国行政区划代码
  • 数据描述:数据集为HTML表格,包括两个部分,1)从1980年至2021年每年县级以上行政区划列表和行政区划代码;2)每年的县级以上行政区划变更情况。
  • 数据属性:行政区划表包括约三千条数据,每条包括行政区划代码和行政区划名称,县级行政区划代码为6位;行政区划变更表包括文字描述的行政区划变更情况,包括合并、拆分、新设、撤销、改变隶属关系等类型。
  • 可选课程设计方向:行政区划网络(树)的可视化,不同级别行政区划数量的历史变化和地区差异;行政区划网络的时间变化过程。
  • 关于数据处理的建议:行政区划代码的不同位数体现了行政区划的层级对应关系,例如前两位相同的位于同一省,三四位代表同一地级行政区,而具体编码规则也代表行政区划类型,例如区、县、县级市的第五位分别为0、1、8等。可以利用这些规则建立行政区划单元之间的关联关系和分类。

  • 5、GeoLife: 北京人群轨迹数据
  • 数据来源:微软亚洲研究院公开数据
  • 数据描述:182个用户在2007-2012年间的空间轨迹数据
  • 数据属性:文件包括一系列轨迹记录,每条包括如下信息:用户ID、时间戳(timestamp)、经纬度坐标,因为为志愿者提供数据,所以每个用户的轨迹数量不等,稀疏程度和时间跨度也不同。
  • 可选课程设计方向:从人的空间移动看北京市的活动热力,从人的活动看北京市城市空间的交互关系
  • 关于数据处理的建议:建议先对北京市的城市空间进行离散化,例如1km * 1km的小方格,然后将轨迹坐标对应到小方格里,可以极大减小后续处理难度。

  • 6、北京市出租车数据
  • 数据来源:微软公开的北京市出租车GPS数据
  • 数据描述:数据包含2008年2月2日到2月8日北京10357辆出租车的轨迹。
  • 数据属性:数据由若干条记录组成,每条记录包括taxi id, datetime,longitutde,latitude,分别表出租车编号,时间戳,经度,纬度。
  • 可选课程设计方向:分析北京市出租车在时间/空间上的活动模式,分析异常活动事件等。
  • 关于数据处理的建议:可以考虑对出行记录进行区域性汇总,也可以直接以地图上点的形式呈现。可以参考 http://senseable.mit.edu/hubcab/ 中的样例。

  • 7、中国家庭追踪调查(CFPS)
  • 数据来源:北京大学中国社会科学调查中心
  • 数据描述:覆盖2010年-2020年全国25个省直辖市自治区,一万多家户包括经济活动、教育成果、家庭关系与家庭动态、人口迁移、健康等在内的诸多微观数据。
  • 数据属性:个人层面的人口学信息(性别、年龄、受教育程度等)、家庭信息、工作信息、健康信息等。
  • 可选课程设计方向:农村居民互联网使用对收入的影响;农村养老保险与农村居民储蓄率;收入差距与健康水平;教育代际传递与城乡差异等等。
  • 关于数据处理的建议:选择本数据的小组,如果想增加时间维度,可以将样本限制在四期调查中都有的家户。

  • 8、中国统计年鉴
  • 数据来源:国家统计局
  • 数据描述:对全国经济、人口等全方面的统计数据。
  • 数据属性:每年各省市国民生产总值(GDP)、产业分布情况、人口数量、性别比、受教育情况、平均预期寿命、就业人数、可支配收入、消费价格指数、生产价格指数、能源消费情况、污染排放情况等。
  • 可选课程设计方向:经济发展与人口寿命;受教育水平与产业升级;经济发展与人口增长;空气污染与人口寿命;产业发展与居民可支配收入等。
  • 关于数据处理的建议:选择本数据的小组可以利用年份跨度较广的特点,制作出时间随时间演变的可视化案例。另外可以搜集相关的政策法规出台的时间,观察政策实行后的变化。

  • 9、企业社会责任报告
  • 数据来源:Global Report Initiative
  • 数据描述:全球企业社会责任报告自主披露规范及发布平台,包括中国在内的各国企业按照GRI披露规范和框架编写的企业社会责任报告

  • 10、环境信息披露报告
  • 数据来源:CDP
  • 数据描述:区域、城市和企业自主报告环境目标和行动的规范及发布平台,包括中国企业在内的各国企业按照标准披露信息,并评估其环境表现
  • 数据属性:上述两个平台是企业自主信息披露的代表性数据平台,其数据库可获得企业层面的社会责任履责信息(环境、社会公正、劳工保护等)、地理分布、行业类别等。
  • 可选课程设计方向:企业履责水平对企业盈利、投融资等经济表现的影响;不同地区企业披露信息水平的差异;碳排放的范围、排放水平、承诺力度等。
  • 关于数据处理的建议:选择本数据的小组,建议从企业网站直接获取企业社会责任或可持续发展报告的原始文档,通过文本分析,建立数据集,并设计可视化方案。

  • 11、中国历史地理信息数据(CHGIS)
  • 数据来源:哈佛大学-复旦大学历史地理研究中心
  • 数据描述:公元前221-公元1911年,中国行政区划数据。
  • 数据属性:历代省、州、县等行政区划面状数据,历代城市和聚落点数据,以及交通和河湖水系线数据,包括时间、名称、位置、撤销和建置情况等。
  • 可选课程设计方向:行政区划变迁、城市与区域发展。
  • 关于数据处理的建议:选取全国或区域,配以其他历史数据,设计历代空间可视化或特定时期空间可视化。

  • 12、数位方舆
  • 数据来源:台湾中央研究院
  • 数据描述:中国历史舆图数据。
  • 数据属性:各种历史舆图,包括全国舆图、城市地图、河湖舆图、军事交通图等
  • 可选课程设计方向:历史舆图数字化、历史地图信息提取分析,地理环境变迁等
  • 关于数据处理的建议:选取特定历史舆图,提取相关地理信息,结合历史文献记载,进行地理问题可视化。

  • 13、全国重点文物保护单位
  • 数据来源:国家文物局
  • 数据描述:中国八批重点文物保护单位名单
  • 数据属性:数据内容包括文保单位名称、类型、年代、地址等信息。
  • 可选课程设计方向:文化遗产保护、文化遗产空间分布特征等
  • 关于数据处理的建议:增加数据地理坐标信息,运用地理信息系统平台,结合其他数据,进行空间可视化分析。

  • 14、世界遗产名录
  • 数据来源:联合国教科文组织世界遗产中心
  • 数据描述:世界各国和地区的世界遗产名录
  • 数据属性:世界遗产主要是世界自然遗产、世界文化遗产、世界自然文化混合遗产、文化景观等,包括名称、国别、位置、入选时间、类型、历史信息等。
  • 可选课程设计方向:世界遗产空间分布特征、世界遗产保护与发展、世界遗产申报与评选等。
  • 关于数据处理的建议:增加数据地理坐标信息,运用地理信息系统平台,进行世界遗产空间可视化分析,结合其他数据,可视化分析世界遗产保护与应用情况等。

  • 15、古登堡计划电子书
  • 数据来源:Project Gutenberg
  • 数据描述:文学作品的数字化归档