拨开荷叶行,寻梦已然成。仙女莲花里,翩翩白鹭情。
IMG-LOGO
主页 文章列表 你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

白鹭 - 2022-01-25 2021 0 0
你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

1. 资料采集

参考《用Python爬取文胸资料发现中国女性50%以上罩杯是B,但是A-cup穿衣最高级!》,这里我们也算是取样操作,仅采集在京东销量最高的某莎品牌的某款产品的资料,由于都是均码,区别在于color,所以采集的是各color产品的大致销量分布,这部分资料采集这里不做介绍,和此前推文一致,

不过,这里我们将对评论进行采集,做简单的评价分析,

页面分析

很多人学习蟒蛇,不知道从何学起,

很多人学习寻找python,掌握了基本语法之后,不知道在哪里案例上手,

很多已经可能知道案例的人,却不怎么去学习更多高深的知识,

这三类人,我给大家提供一个好的学习平台,免费获取视频教程,电子书,以及课程的源代码!

QQ群:101677771

欢迎加入,一起讨论学习

 

在开发者模式,我们通过翻页找到了评论资料源地址,

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

找到评论资料源

采集程序

根据对页面分析及所需资料的决议,我们可以构造获取评论信息的函式如下,得到的是某页的评论串列资料

# 获取评论信息
def get_comments(productId, page, proxies=None):
    # time.sleep(0.5)
    url = 'https://club.jd.com/comment/productPageComments.action?'
    params = {
            'callback': 'fetchJSON_comment98',
            'productId': productId,
            'score': 0,
            'sortType': 6,
            'page': page,
            'pageSize': 10,
            'isShadowSku': 0,
            'fold': 1,
            }
    # print(proxies)
    r = requests.get(url, headers=headers, params=params, 
                     # proxies=proxies, 
                     timeout=6)
    comment_data = https://www.cnblogs.com/sn5200/p/re.findall(r'fetchJSON_comment98\((.*)\)', r.text)[0]
    comment_data = https://www.cnblogs.com/sn5200/p/json.loads(comment_data)
    comments = comment_data['comments']
    
    return comments

资料预览

由于请求次数过多可能触发反爬,为了尽可能采集更多资料,实际操作中我会用到代理ip的方法,

对于采集到的资料,我们做了简单的清洗处理

df = pd.DataFrame(commentsList)
df.drop_duplicates(subset='guid',inplace=True)
df = df[~(df['content']=='此用户未填写评价内容')]
df = df[['id', 'content', 'creationTime', 'score', 'plusAvailable',
       'mobileVersion', 'productColor',  'referenceTime', 'nickname']]
你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

资料预览

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

2. 统计展示

本部分我们主要看丝袜的颜色分布,购买丝袜的用户评价词云、用户属性以及丝袜市场份额

2.1. 颜色分布

由于采集到的原始资料中是按组合卖的,我们做简单的处理后拆分出每个颜色的数量,然后进行统计展示,

肤色(也就是肉色)占比最高,达到62.9%,其次是黑色占比23.3%,

原始资料大家可以后台回复 955,在 丝袜资料 档案夹领取,

import pandas as pd

df = pd.read_excel('丝袜资料.xlsx')
df['颜色'] = df.颜色.str.replace('双','').str.split('+')
df = df.explode('颜色')
df[['颜色','单件数']] = df.颜色.str.extract('(?P<颜色>.*?)(?P<单件数>\d)')
df['单件数'] = df['单件数'].astype('int')
df['数量'] = df['单件数']*df['commentCount']
colorNum = df.groupby('颜色')['数量'].sum().to_frame('数量')
colorNum

颜色数量咖啡色34334灰色44372肤色359305黑色133268

# 饼图绘制
import matplotlib.pyplot as plt
from matplotlib import font_manager as fm

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

labels = colorNum.index
sizes = colorNum['数量']
explode = (0, 0, 0, 0.1) 

fig1, ax1 = plt.subplots(figsize=(6,5))
patches, texts, autotexts = ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
                                    shadow=True, startangle=90)
ax1.axis('equal') 

# 重新设定字体大小
proptease = fm.FontProperties()
proptease.set_size('large')
plt.setp(autotexts, fontproperties=proptease)
plt.setp(texts, fontproperties=proptease)
ax1.set_title('【丝袜 颜色】 分布')
plt.show()
你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

2.2. 评价词云

词云绘制参考《140行代码自己动手写一个词云制作小工具(文末附工具下载)》,我们直接将评论资料汇入即可,后台回复 955,在丝袜资料 档案夹领取评论资料,

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

词云

2.3. 用户属性

会员分布

plus会员占比高达72.7%

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

评论时间分布

评论时间集中在上午10-11点和晚上的8-10点,,,

labels = timeNum.index
sizes = timeNum['数量']
plt.style.use('ggplot')
x = labels
plt.figure(figsize=(10,5))
plt.title("评论时间折线图")
plt.xlabel("时间")
plt.xticks(labels)
plt.ylabel("数量")
plt.plot(x,sizes,'-',color='coral',label="评论数")

plt.legend()
plt.show()
你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

2.4. 丝袜市场

购买丝袜较多的主要是集中在南方的城市

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

来源:丝袜消费流行趋势报告

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

丝袜市场规模

fig, ax = plt.subplots(figsize=(10,5))

y_data = https://www.cnblogs.com/sn5200/p/[175.5, 190.2, 203.8, 224.2, 248.9, 266.4]
x_data = ['2014年', '2015年', '2016年', '2017年', '2018年', '2019年']

# 柱状图颜色
color = 'coral'

# 柱状图
bar = plt.bar(x_data, y_data, 0.5, color=color,edgecolor='grey')

# 设定标题
ax.set_title('丝袜市场规模(单位:亿)',fontsize=14,y=1.05)
# 设定坐标轴标题
ax.set_ylabel("",fontsize = 12,color = 'black',alpha = 0.7,rotation=360)
# 设定Y轴区间
ax.set_ylim(0,300)

# 显示资料标签
for a,b in zip(x_data, y_data):
    plt.text(a,b,
             b,
             ha='center', 
             va='bottom',
            )
你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

3. 丝袜起源与发展

虽然现在我们在大街小巷看到穿着丝袜的基本都是女性,并且我们聊到丝袜的时候都会和女性、性感挂钩,但是,其实我们追溯丝袜的起源会发现,最早丝袜是高质量男性的必备,

大家可以回忆在中学时代欧美历史里的知名人物的插图,是不是都是穿着丝袜的!!

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

拿破仑

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

法国国王路易十四

20世纪初,随着两次技术革命的重新,尼龙丝袜一度风靡全球,在欧洲尼龙丝袜一度出现脱销,

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

1950年,尼龙丝袜开始大规模的生存,在外国普通的女人也可以买到一双价格低廉的丝袜!女人们兴高采烈地排长队抢购尼龙丝袜,“求袜若渴”的女人买到了尼龙丝袜后,等不及回家,干脆坐在马路边,露出雪白大腿当众换上,一时肉色撩人,风情万种,鼻血飞溅,

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

1980年,丝袜等一些产品相继从香港向内地流行开来,当时的内地女生只是想买而不敢去试穿!

1990年,丝袜逐渐被人所接受,性感的肉丝成为当时女人的时尚标配性搭配,

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

20世纪80年代穿着时尚丝袜的中国姑娘

21世纪,丝袜出现了材质,颜色,种类的不同,丝袜完全揭开了神秘的面纱,如同冬天我们离不开保暖的打底连裤丝袜一样,可以达到紧致腿部塑性效果的丝袜更是妹子们手中必不可少的神器,

你非说白丝YYDS?利用Python采集丝袜资料,黑丝才是

 

以上就是本次全部内容,我们从京东某品牌丝袜的资料做展开引申,再介绍了丝袜在中国的市场规模发展以及丝袜的起源,

标签:

0 评论

发表评论

您的电子邮件地址不会被公开。 必填的字段已做标记 *