如何通过网络爬虫获取网站相关数据？

栏目：大数据作者： 531科技网时间： 2024-09-16 10:18

一、如何通过网络爬虫获取网站相关数据？

1、在站内寻找API入口；

2、用搜索引擎搜索“某网站API”；

3、抓包，有的网站虽然用到了ajax，但是通过抓包还是能够获取XHR里的json数据的（可用抓包工具抓包，也可以通过浏览器按F12抓包：F12-Network-F5刷新）。二、不开放API的网站1、如果网站是静态页面，那么可以用requests库发送请求，再通过HTML解析库（lxml、parsel等）来解析响应的text；解析库强烈推荐parsel，不仅语法和css选择器类似，而且速度也挺快，Scrapy用的就是它。2、如果网站是动态页面，可以先用selenium来渲染JS，再用HTML解析库来解析driver的page_source。

二、数据分析相关网站

数据分析相关网站

常用网站推荐

1. Kaggle: Kaggle是一个在线数据科学社区，提供了许多数据科学竞赛和数据集下载。在这里，用户可以与其他数据科学家交流、学习、合作，共同探索数据的潜在价值。

2. DataCamp: DataCamp是一个专门针对数据科学的教育平台，提供了许多数据科学课程和资源。通过学习这些课程，用户可以掌握数据科学的基础知识和技能。

3. RStudio: RStudio是一个流行的R语言开发环境，它提供了许多有用的工具和资源，帮助用户更轻松地编写、运行和分享R代码。对于数据分析来说，R语言是一种非常强大的工具。

4. Google Analytics: 这是谷歌提供的一款免费分析工具，可以帮助网站管理员跟踪和分析网站流量、用户行为等数据。对于想要了解网站性能和用户需求的用户来说，这款工具非常有用。

总结

以上就是一些与数据分析相关的常用网站。通过这些网站，用户可以获得各种工具和资源，帮助自己更好地理解和分析数据。当然，除了这些网站，还有很多其他的数据分析工具和资源可供选择。希望这些推荐能够为你的数据分析工作提供一些帮助。

三、了解相关的行业数据，请问有哪些网站，平台或机构？

消费品行业的决策狗大数据平台，主要是行业销售数据、品类数据分析、品牌数据、消费者洞察一些维度的数据分析

四、网站数据抓取是什么意思，跟信息收集相关吗？

专门用来抓去网络中各种信息的软件，也叫网络信息采集。是现在很多网站在使用的，好的采集软件，使用简单，能够自动的采集大量的外部信息，是网络编辑的好帮手。

五、动漫相关的网站有哪些？

新番资讯可以到b站看up主的新番介绍视频，搜2019就行。新闻可以去动漫之家新闻板块

六、为什么用站长工具等相关工具查不到网站数据？

站长工具是抓取某个时间段的网页信息放在他们的数据库里面，并不是即时更新的。等过了一段时间以后（每个站时间不一样），会自动更新一下，这样能减轻他们服务器的压力，等过段时间你再查应该会有的。

七、谷神星的相关数据？

谷神星发现者朱塞普·皮亚齐发现日期1801年1月1日编号　MPC编号谷神星（小行星1）命名依据刻瑞斯其他名称A899 OF; 1943 XB小行星分类矮行星　主带AdjectiveCererian轨道参数　2009年6月18日远日点446,669,320km近日点380,995,855km半长轴413,832,587km离心率0.07934轨道周期1680.5日平均速度17.882km/s平近点角27.448°轨道倾角10.585°（相对于黄道）升交点黄经80.399°近日点参数72.825°物理特征　赤道半径487.3±1.8km极半径454.7±1.6km质量9.43±0.07×10kg平均密度2.077±0.036g/cm表面重力0.27m/s逃逸速度0.51km/s转轴倾角about 3°北极赤经19 h 24 min　291°北极赤纬59°反照率0.090±0.0033（几何）视星等6.7绝对星等(H)3.36±0.02角直径0.84至0.33

八、什么数据存在序列相关？

实际经济问题中的序列相关性

在实际经济问题中，为什么会出现序列相关性？下面仍通过两个例子加以说明。

例如，我们建立一个行业生产函数模型，以产出量为被解释变量，选择资本、劳动、技术等投入要素为解释变量，根据样本与母体一致性的要求，只能选择时间序列数据作为样本观测值。于是有：

t=1,2,…,n

在该模型中，资本、劳动、技术之外的因素，例如政策因素等，没有包括在解释变量中，但它们对产出量是有影响的，该影响则被包含在随机误差项中。如果该项影响构成随机误差项的主要部分，则可能出现序列相关性。

为什么？对于不同的样本点，即对于不同的年份，由于政策等因素的连续性，它们对产出量的影响也是有内在联系的。前一年是正的影响，后一年往往也是正的影响。于是在不同的样本点之间，随机误差项出现了相关性，这就产生了序列相关性。更进一步分析，在这个例子中，随机误差项之间表现为正相关。

九、和数据相关的字？

K&R C定义了7个和数据类型相关的关键字，C90标准增加了2个关键字，C99标准增加了3个关键字

K&R关键字 C90关键字 C99关键字

int signed _Bool

long void _Complex

short _Imaginary

unsigned

char

float

double

十、我想看一下招聘网站的相关数据，有没有较好的数据查询网站推荐？

概要

到一个陌生的城市，要克服租房和找工作的问题，基于此，通过爬去某招聘网站的数据，先看看那个区符合职业方向的职位会相对多些，再在这个区附近租房（我是这么考虑的）。

所在地区招聘数据爬取

按区维度来了解职位招聘分布，比较好把控，因担心网站的反爬机制导致后续IP被禁止访问，本次主要采取离线数据解析方式来爬取数据（把相关html页面保存到本地，在进行解析获取数据）

本次爬取海口数据分析招聘职位分布情况，主要使用python包如下：

import os 
import pandas as pd 
import requests
from lxml import etree

#可视化模块
import matplotlib.pyplot as plt

#可视化包可根据需求使用不同包如下
import seaborn as sns 
from pycharts.charts import *
import plotly.graph_objects as go
import plotly.express as px

暂不展示爬取代码

数据爬取如下：df

数据清洗

1、个别高薪职位不在考虑考虑范围，或者职位不匹配（虽然筛选的是数据分析，但也有部分招聘职位归类到数据分析

2、是否存在重复值，因为解析方式的不同（离线解析，把html保存下来后在解析，可能存在重复

3、薪资范围中可能存在按/h计费，这类职位不考虑，主要筛选的是数据分析的招聘

4、根据各字段剔除不符合的记录

处理address_msg

#从address_msg中获取区-zone
df['zone'] = df['address_msg'].apply(lambda x:str(x)[0:int(str(x).find('区')+1)].replace('海口·',''))
#对zone中为空的补充为海口
df['zone'] = df['zone'].apply(lambda x:'海口' if x == '' else x)
df.head()

获取薪资相关数据

df['low_salary'] = df['salary_range'].apply(
    lambda i: str(i)[0:int(str(i).find('-'))]).astype(int)
df['high_slary'] = df['salary_range'].apply(
    lambda i: str(i)[int(str(i).find('-')+1):int(str(i).find('K'))]).astype(int)
df['mean_salary'] = df[['low_salary','high_slary']].apply('mean',axis = 1).astype(float)
#年薪
df['year_salary'] = df['salary_range'].apply(
    lambda i:str(i)[str(i).find('·')+1:str(i).find('薪')+1])
df['year_salary'] = df['year_salary'].apply(lambda x:'12薪' if x == '' else x)
#添加市辖区平均薪资
df['zone_salary'] = df.groupby('zone')['mean_salary'].transform('mean')
df['zone_salary'] = df['zone_salary'].apply(lambda i:'{:.2f}'.format(round(i,2)))
df.head()

数据处理好后，开始进行可视化呈现

数据可视化

海口市辖区招聘数量分布

zone_df = pd.DataFrame(df['zone'].value_counts()).reset_index().rename(
    columns={'index': 'zone', 'zone': 'counts'})
zone_df.loc[3,'zone'] = '海口'
fig = plt.figure(figsize=(10,8))
ax = fig.add_subplot(1,1,1)
patches,text,autotext = plt.pie(x = zone_df['counts'],#数据
        labels = zone_df['zone'], #标签
       autopct='%.2f%%', #显示百分比
       startangle = -25,
       explode=[0.02,0,0,0,0],
       textprops = {'fontsize':14},
       colors = ['rosybrown','lightblue','tan','orange','darkkhaki'],
       shadow = True
)
text[0].set_color('gray')
text[0].set_fontsize = 20
patches[0].set_hatch('|')
patches[0].set_alpha(0.3)
plt.legend(frameon = False,title = '辖区')
plt.title('海口辖区招聘数据分布')
plt.show()

海口招聘数据分析的职位中，市辖区排名主要为龙华区、美兰区、秀英区、未知（海口）、琼山区

各地区年薪分布

zone_sal_df = df.groupby(['zone','year_salary'],as_index=False)[['job_name']].count()
plt.figure(figsize=(12,6))
sns.barplot(x = 'zone',y ='job_name',hue = 'year_salary',data = zone_sal_df)
#添加每个市辖区总的招聘数量
total_c = pd.DataFrame(zone_sal_df.groupby('zone')['job_name'].sum()).reset_index()
plt.plot(total_c['zone'],total_c['job_name'],color = 'gray',label = 'total_amount')
for i,j in zip(total_c['zone'],total_c['job_name']):
    plt.text(i,j+2,j)
plt.xlabel('市辖区')
plt.ylabel('招聘数量')
plt.title('海口市辖区招聘年薪分布')
plt.legend(loc = 'upper left',frameon = False)
plt.show()

学历薪资分布

fig,axes = plt.subplots(1,2,sharey = True,figsize = (9,8))
sns.violinplot(x = 'zone',y = 'low_salary',data = df,ax = axes[0])
sns.scatterplot(x = 'high_slary',y = 'low_salary',style = 'year_salary',hue = 'education',data = df,ax = axes[1])

招聘行业分布

zone_pro = df.groupby(['zone', 'profession_dir'], as_index=False)[
    ['job_name']].count().sort_values(by='job_name', ascending=False)
#行业招聘前10分布
print('行业前10招聘数量占比达：{:.2f}%'.format(round(zone_pro.groupby('profession_dir', as_index=False)[['job_name']].sum(
).sort_values(by='job_name', ascending=False).head(10)['job_name'].sum()
      /zone_pro['job_name'].sum(), 4)*100))
# zone_pro = df.groupby(['zone', 'profession_dir'], as_index=False)[
#     ['job_name']].count().sort_values(by='job_name', ascending=False)
# 饼图查看每个行业招聘数量占比
fig = plt.figure(figsize=(10, 10))
plt.pie(x=zone_pro.groupby('profession_dir',as_index=False)[['job_name']].sum().sort_values(by = 'job_name',ascending = False).head(10)['job_name'],
        labels=zone_pro.groupby('profession_dir',as_index=False)[['job_name']].sum().sort_values(by = 'job_name',ascending = False).head(10)['profession_dir'],
        autopct='%.2f%%',
        startangle = -80,
        pctdistance= 0.8,
        radius=0.8
       )
plt.legend(title = '行业前10招聘数量占比分布',loc = 'lower right',frameon = False)
plt.title('行业招聘分布')
plt.show()

主要分布在互联网(52.55%),移动互联网(13.4%)，计算机软件(9.49%),通信/网络设备(5.84%)

筛选数据分析职位

#每个职位的招聘人数,查找开头为数据的职位
_data = list(set([i for i in df['job_name'] if str(i).startswith('数据')]))
df_data = df.query("job_name ==@_data")

数据开头的职位中，中位数最低薪资5k，高新8k，主要集中在低薪区区间

#每个去招聘数据量分布
str_df = pd.DataFrame(df_data['zone'].value_counts()).reset_index().sort_values(by = 'zone',ascending = False)
str_df.columns = ['zone','counts']
fig = plt.figure(num = 2,figsize = (10,8))
patches,text,autotext = plt.pie(x = str_df['counts'],labels = str_df['zone'],autopct='%.2f%%',
       shadow = True,startangle = -45,explode = [0.05,0,0,0,0])
#控制扇形图
patches[1].set_hatch('|')
patches[0].set_color('tan')
#控制文本
text[0].set_color('navy')
text[0].set_fontsize('18')
#控制百分比
autotext[0].set_color('forestgreen')
autotext[0].set_fontsize('20')
plt.title('数据分析开头的职位占比')
plt.legend(loc = 'lower right',frameon = False)
plt.show()

import wordcloud
font = r'C:\Windows\Fonts\simhei.ttf'
# font = r'E:\Anaconda3\Lib\site-packages\wordcloud\msyh.ttc'
w = wordcloud.WordCloud(font_path = font,width=400,height=400,background_color='white',
                       stopwords={'海口'})
w.generate(txt1)
plt.imshow(w)
plt.axis('off')
plt.show()
# w.to_file('data2.jpg')