Shell

推荐列表 站点导航

当前位置:首页 > 脚本编程 > Shell >

python实战:如何用爬虫修改发布的招聘内容

来源:网络整理  作者:网友投稿  发布时间:2020-12-28 23:28
jquery中文网为您提供python实战:如何用爬虫修改发布的招聘内容等资源,欢迎您收藏本站,我们将为您提供最新的p...

python实战:如何用爬虫修改发布的招聘内容

在发布信息后,很多人都觉得这件事做完了。那么有没有细心地小伙伴想过上面的发布时间是否正确呢?相信大多时候我们和求职者都会正价注重岗位内容的本身。殊不知,一些细节可能会导致信息交流的不对等。今天小编就发布招聘中的时间和薪水的问题,用Python爬虫的相关知识教大家修改吧。


1. 校正发布日期

"time" : "发布于03月31日", "time" : "发布于昨天", "time" : "发布于11:31",

这里拿到的都是这种格式的,所以简单处理下

import datetime   from pymongo import MongoClient   db = MongoClient('127.0.0.1', 27017).iApp   def update(data):     return db.jobs_php.update_one({"_id": data['_id']}, {"$set": data})      # 把时间校正过来 def clear_time():     items = db.jobs_php.find({})     for item in items:         if not item['time'].find('布于'):             continue         item['time'] = item['time'].replace("发布于", "2017-")         item['time'] = item['time'].replace("月", "-")         item['time'] = item['time'].replace("日", "")         if item['time'].find("昨天") > 0:             item['time'] = str(datetime.date.today() - datetime.timedelta(days=1))         elif item['time'].find(":") > 0:             item['time'] = str(datetime.date.today())         update(item) print('ok')


2.校正薪水以数字保存

"salary" : "5K-12K",   #处理成下面的格式 "salary" : {     "low" : 5000,     "high" : 12000,     "avg" : 8500.0 }, # 薪水处理成数字,符合 xk-yk 的数据处理,不符合的跳过 def clear_salary():     items = db.jobs_lagou_php.find({})     for item in items:         if type(item['salary']) == type({}):             continue         salary_list = item['salary'].lower().replace("k", "000").split("-")         if len(salary_list) != 2:             print(salary_list)             continue         try:             salary_list = [int(x) for x in salary_list]         except:             print(salary_list)             continue         item['salary'] = {             'low': salary_list[0],             'high': salary_list[1],             'avg': (salary_list[0]   salary_list[1]) / 2         }         update(item) print('ok')

这里在处理 Boss直聘的数据时,比较简单正常,但是后续抓到拉勾网的数据,拉勾网的数据有些不太规范。比如有‘20k以上’这种描述

学会本篇的修改招聘时间和薪水的小伙伴,可以试试修改,当然也可以举一反三用于类似发布信息的改动上,小编相信大家都可以发散思维,用于更多的实际使用中。更多Python学习推荐:JQ教程网Python大全

相关热词:

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供用于网络技术学习参考,学习中请遵循相关法律法规!

本文地址: https://www.juheyunku.com/jiaob/shell/10409.shtml

相关文章
最新文章
Centos下PHP5升级为PHP7的方法 Centos下PHP5升级为PHP7的方法

时间:2021-01-03

在php当中常量和变量的区 在php当中常量和变量的区

时间:2020-12-29

PHP中经典的四大排序算法 PHP中经典的四大排序算法

时间:2020-12-29

dw怎么运行php文件? dw怎么运行php文件?

时间:2020-12-29

PHP PHP_EOL 换行符 PHP PHP_EOL 换行符

时间:2020-12-29

Python3爬虫进阶:MongoDB存储 Python3爬虫进阶:MongoDB存储

时间:2020-12-29

python如何运行一个python程 python如何运行一个python程

时间:2020-12-29

用PHP写一个计算器(附完 用PHP写一个计算器(附完

时间:2020-12-29

Copyright © www.juheyunku.com      关于 | 合作 | 声明 | 联系 | 更新 | 地图 | Tags

python实战:如何用爬虫修改发布的招聘内容

2020-12-28 编辑:网友投稿

python实战:如何用爬虫修改发布的招聘内容

在发布信息后,很多人都觉得这件事做完了。那么有没有细心地小伙伴想过上面的发布时间是否正确呢?相信大多时候我们和求职者都会正价注重岗位内容的本身。殊不知,一些细节可能会导致信息交流的不对等。今天小编就发布招聘中的时间和薪水的问题,用Python爬虫的相关知识教大家修改吧。


1. 校正发布日期

"time" : "发布于03月31日", "time" : "发布于昨天", "time" : "发布于11:31",

这里拿到的都是这种格式的,所以简单处理下

import datetime   from pymongo import MongoClient   db = MongoClient('127.0.0.1', 27017).iApp   def update(data):     return db.jobs_php.update_one({"_id": data['_id']}, {"$set": data})      # 把时间校正过来 def clear_time():     items = db.jobs_php.find({})     for item in items:         if not item['time'].find('布于'):             continue         item['time'] = item['time'].replace("发布于", "2017-")         item['time'] = item['time'].replace("月", "-")         item['time'] = item['time'].replace("日", "")         if item['time'].find("昨天") > 0:             item['time'] = str(datetime.date.today() - datetime.timedelta(days=1))         elif item['time'].find(":") > 0:             item['time'] = str(datetime.date.today())         update(item) print('ok')


2.校正薪水以数字保存

"salary" : "5K-12K",   #处理成下面的格式 "salary" : {     "low" : 5000,     "high" : 12000,     "avg" : 8500.0 }, # 薪水处理成数字,符合 xk-yk 的数据处理,不符合的跳过 def clear_salary():     items = db.jobs_lagou_php.find({})     for item in items:         if type(item['salary']) == type({}):             continue         salary_list = item['salary'].lower().replace("k", "000").split("-")         if len(salary_list) != 2:             print(salary_list)             continue         try:             salary_list = [int(x) for x in salary_list]         except:             print(salary_list)             continue         item['salary'] = {             'low': salary_list[0],             'high': salary_list[1],             'avg': (salary_list[0]   salary_list[1]) / 2         }         update(item) print('ok')

这里在处理 Boss直聘的数据时,比较简单正常,但是后续抓到拉勾网的数据,拉勾网的数据有些不太规范。比如有‘20k以上’这种描述

学会本篇的修改招聘时间和薪水的小伙伴,可以试试修改,当然也可以举一反三用于类似发布信息的改动上,小编相信大家都可以发散思维,用于更多的实际使用中。更多Python学习推荐:JQ教程网Python大全

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供学习参考!
本文地址为 https://www.juheyunku.com/jiaob/shell/10409.shtml

相关文章

风云图片

推荐阅读

返回Shell频道首页