加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 综合聚焦 > 编程要点 > 语言 > 正文

用Python解析大连景点,告诉你哪些景点性价比高

发布时间:2021-11-06 18:09:43 所属栏目:语言 来源:互联网
导读:大家好,我是志斌~ 再过几天,志斌就要去大连开始为期三年的读研生活啦,当然在读书学习的同时,也要去体验一下魅力之都的魅力,所以志斌用Python爬取了去哪儿网上大连景点的相关数据,包括景点名称、城区、热度、价格、月销量等数据,对数据进行可视化并作
大家好,我是志斌~
 
再过几天,志斌就要去大连开始为期三年的读研生活啦,当然在读书学习的同时,也要去体验一下“魅力之都”的魅力,所以志斌用Python爬取了去哪儿网上大连景点的相关数据,包括景点名称、城区、热度、价格、月销量等数据,对数据进行可视化并作简单分析,用以找到性价比较高的景点。
 
一数据采集
去哪儿网的数据存储非常简单,都在源网页中静态存储,我们只需构造好URL之后,用Requests发起请求,然后用Bs4将数据提取出来,存储到Excel中即可。
 
 
 
爬虫的核心代码如下:
 
import requests
from bs4 import BeautifulSoup
import openpyxl
 
for page in range(1,50):
  try:
      params = (
          ('from', 'mps_search_suggest_h'),
          ('keyword', '大连'),
          ('page', str(page)),
      )
      response = requests.get('https://piao.qunar.com/ticket/list_%E8%A5%BF%E5%AE%89.html', headers=headers, params=params)
      soup = BeautifulSoup(response.text,'html.parser')
      zongs = soup.find_all('div',class_='sight_item')
      for i in zongs:
          name = i.find('h3').text
          diqu = i.find(class_='area').find('a').text
          redu = round(float(i.find(class_='product_star_level').text.split()[-1][:4]) * 5, 2)
        dizhi = re.findall('地址:(.*?)地图', i.find(class_='address color999').text)[0]
          jiage = float(i.find(class_='sight_item_price').find('em').text)
          yuexiao = int(i.find(class_='sight_item_sold-num').find('span').text)
          xingji = i.find(class_='level')
          jingweidu = i['data-point']
          ~~~
二数据处理
01导入景点数据
用pandas读取爬取的景点数据并预览。
 
import pandas as pd
df = pd.read_excel('大连景区数据_1.xlsx',names=['景点名称','城区','热度','地址','价格','月销量','星级','经度','纬度'])
print(df.head())
 
 
02删除重复数据
网站中有一定的重复数据,需要将其删除。
 
df = df.drop_duplicates()
03查看数据信息
查看字段类型和缺失值情况,符合分析需要,无需另做处理。
 
df.info()
 
 
三可视化分析
我们来对这164个景点数据进行可视化分析。
 
01景点介绍
通过对大连景点介绍进行词云图绘制,我们很容易看出大连的特点。博物馆、休闲、历史、文化等词的大量提及,说明大连是一座历史悠久的现代化城市。建筑、动物、主题等词也有很多提及,表明大连的旅游环境轻松且多样。
 
 
 
代码如下:
 
with open("推荐语.txt",) as f:
   job_title_1 = f.read()
contents_cut_job_title = jieba.cut(job_title_1)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,
              background_color="white",
              font_path=r"K:msyh.ttc",
              width=400, height=300, random_state=42,
              mask=imread('xin.jpg', pilmode="RGB")
              )
wc.generate(contents_list_job_title)
wc.to_file("推荐语.png")
02景区热度top10
从景点评分来看,金石滩景点评分最高,为4.55分,其次是老虎滩公园和星海广场,分别是4.5分和4.4分。怪不得一搜索大连的旅游攻略,每一个里面都有这几个景点。
 
 
 
03景点价格top10
从景点价格来看,除了潜水中心这个景点略贵,其他景点价格都还可以接受,去大连游玩的朋友,时间充裕的话可以都体验一下,志斌这三年是要都体验一遍了~
 
 
 
04月销量top10景点
从下图可以看出,海昌发现王国的销量最高,为908,其次是天门峡漂流,为786,志斌还没去过漂流,正好趁着这次在大连读书,抽时间去一次。
 
老虎滩海洋公园、大连森林动物园、大连圣亚海洋世界的销量也不少,分别是542,488,458。
 
 
 
05月销额top20景点
从下图可以看出、月销额较大的还是海昌发现王国、老虎滩海洋公园、大连圣亚海洋世界、看来月销额受到月销量的影响较大,受价格的影响较小。
 
 
 
06景点等级分布
从大连景点等级分布来看,3A以上等级的景点为24个,其中3A级景点1个,4A级景点21个,5A级景点2个。
 
 
 
07景点分布
从图中我们可以看出,景点大部分分布在旅顺区、中山区、金州区的东南沿海方位。如果来大连旅游的话,建议去旅顺口区或者中山区去住,因为那里交通较为便利。
 
 
 
四小结
通过上面简单的分析,我们大致可以获得以下几点发现:
 
1. 大连是一座历史悠久的现代化城市,很适合旅游。
 
2. 大连的景点主要集中在旅顺区、中山区、金州区,旅顺区和中山区的景点附近有地铁,所以建议住宿的时候可以尽量选择住在这两个区,这样出行游玩会比较方便。
 
3. 评分最高的景点是金石滩景点。
 
4. 本文仅供学习参考,不做它用。

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读