【论文数据|爬取与清洗】文本分析|数据清洗| Selenium 模拟登录与自动化下载|北大法宝网 Pkulaw 爬虫|天眼查爬虫| Charles抓包
问题描述 今年笔者参与了一个法律与市场相关的科研项目,在团队中,笔者主要负责数据抓取、处理和分析。在上一篇文章「【Python爬虫——批量爬取北大法宝网(pkulaw)的法律判决书】看似简单的任务为何如此麻烦?Selenium破解滑块验证|Xpath解析HTML|Re正则表达式文本分析」中,笔者写到…
|
1
|
6640 字
|
52 分钟
【论文修改|审稿意见回复】数据分析:中国气候变化慈善基金中各主体的分布现状如何?公共部门|私有部门|第三方部门|天眼查爬虫
本文是笔者前两天修改论文数据过程中的思路记录,行文没有太多写作及引用文献的规范性,更多是笔者对于数据处理的一个思路备份,其中涉及的天眼查爬虫代码将在下一次进行分享。 问题描述 最近关于climate change的文章又来了一个RP,其中一个Reviewer给了这样的修改意见: Instead, t…
|
1
|
3350 字
|
21 分钟
【Python爬虫——批量爬取北大法宝网(pkulaw)的法律判决书】看似简单的任务为何如此麻烦?Selenium破解滑块验证|Xpath解析HTML|Re正则表达式文本分析
需求 本项目是法律相关的科研项目,需要通过深圳市律师协会官方网站 (szlawyers.com)进入北大法宝的案例库下载商标法相关的判决书,并提取相关的结构化数据,以供进一步学术研究。 所以,主要包括两个数据需求: 一、判决书文本:2019年和2013年商标法 1、搜索最新版本的商标法的相关判决书,…
|
1
|
3559 字
|
1.7 小时