注意事项要安装各种数据库
比如,下面的代码用pycharm运行的话先安装数据库。
1.先打开朋友charm->
2.按terminal按键以后就会发现一个这样的窗口
在这里要输入开始安装数据库。
pip install pandas
pip install requests
安装完两个数据库以后可以用下面的d
(.*?)
', introduce_page.text)[0]with open("./院士/%s/%s.txt" % (name, name), 'w', encoding='utf-8') as f:f.write(introduce)print(name, sex, nation, college, year)print("%s院士保存成功!"%name)return [name, sex, nation, college, year]except (FileExistsError, IndexError) as e:print(str(e))if __name__ == "__main__":# 计算耗时end1 = time.time()print("父进程启动:%d" % os.getpid())headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'}results = []for i in range(0, 1):print("第{}轮".format(i))url = "https://ysg.ckcest.cn/ysgList/api/index?pageSize=113&pageNum="+str(i)+"&_=1655211977545"req = requests.get(url, headers)# 原本re正在表达式中'\\'匹配'\',但是python中反斜杠本身就用于转义,故使用'\\\\'匹配'\'url_lists = re.findall('', req.text, re.S)# 去重url_lists = list(set(url_lists))processes = []pool = Pool(10)# 设置最大进程数设置为10for a_url in url_lists:# 创建子进程try:p = pool.apply_async(func=run, args=(a_url, headers))# func进程执行的任务, args传参数(元组)processes.append(p)except:print("进程启动失败!")pool.close()pool.join()for p in processes:if p.get() is not None:results.append(p.get())# 等待一段时间,防止被网站认为认为是攻击而强制关闭连接time.sleep(1)# 写入Exelto_exel(results, ['姓名', '性别', '族别', '本科学校', '入选院士年份'], "院士信息汇总.xlsx")end2 = time.time()print("耗时:%.2f秒" % (end2 - end1))成功运行后:
2.根据院士名单,爬取该院士性别,族别信息;根据院士简介提取该院士就读本科学校,入选院士年份;将院士姓名,性别,族别信息,本科学校,入选院士年份信息写入excel文件。
代码就上面的那个。
做这个作业时遇到了不少的问题,比如exel表格输出每次这样,这让我崩溃了,因此我做了不少的功课。最终还是失败了,但灵机一动用了一下别人代码就成功了哈。
如果你们也遇到了上面的问题找办法解决,能解决的跟我说一声
谢谢大家的浏览。