产品战斗民族电子商务平台OZON-美妆类目采集
平台背景
Ozon是俄罗斯最早的电子商务公司之一,有时被称为“俄罗斯的亚马逊”。Ozon成立于1998年,最初是一家在线书店,到2019年已成为该国三大在线零售平台之一。它被《福布斯》评为2020年最有价值的俄罗斯互联网公司第三名。
采集介绍
近年来,美妆行业在全球迎来蓬勃发展,海外美妆市场体量在不断提升,不少国产美妆也在塑造自身品牌的同时寻求出海机遇。
以前科技并不怎么发达,不仅没有这么多形形色色的化妆品,也不知道哪些化妆品卖得好? 化妆品的价格分布是怎样的呢? 什么地方的化妆品销量最高呢? 简直有十万个为什么,希望别人给我们解答。
随着科技的飞速发展,互联网沟通了你我他。我们通过Ozon上美妆的销量,就可以解决我们想要知道的好多问题。基于此,我爬取了平台上3000多条美妆的销售数据,为大家展示了一幅漂亮的可视化大屏,解决大家心目中的问题。
数据采集
该平台采集有个5s盾反爬,我们不做逆向分析,抓不到数据的童鞋们可以通过Selenium自动化脚本抓取数据。
部分代码展示
with sync_playwright() as p:
browser = p.chromium.launch(headless=False, proxy={'server': 'http://127.0.0.1:58889'})
context = browser.new_context()
cookies = []
for p in range(1, 100):
try:
page = context.new_page()
page.route(re.compile(r"(\.png)|(\.jpg)|(\.js)"), cancel_request)
context.add_cookies(cookies)
print(p)
page.goto(f"https://www.ozon.ru/category/makiyazh-6501/?page={p}")
web_html = page.content()
selector = etree.HTML(web_html)
data = selector.xpath('//div[@id="state-searchResultsV2-252189-default-1"]/@data-state')[0]
data = json.loads(data)
元数据展示
采集数据量查看
df.shape
国外站点好多都没有按销量排序,该网站也不例外!
本次共采集了100页彩妆的热门推荐商品,采集商品数量为3211款;
数据清洗
数据清洗很重要,这个对于我们后续做可视化展示,极其重要。因此我们需要根据后面要做的图形,然后进行对应的进行数据清洗。
元数据整个数据看上去算是比较干净,但是还是有几个地方指的我们处理一下。
1、解析返回的元数据,抽出需要的字段;
2、处理价格乱码,替换卢比标志;
3、匹配店铺名称,抽取有用的字符串;
4、将打分人数为空的记录,替换成0人打分;
5、将标题一样的做去重;
数据清洗部分代码如下:
df = df.drop_duplicates('title')
df['current_price'] = df['current_price'].apply(lambda x:int(x.replace('\u2009','').replace('₽','')))
df['original_price'] = df['original_price'].apply(lambda x:int(x.replace('\u2009','').replace('₽','')))
df = df.fillna(0)
现在来看看,清洗后的数据是啥样的?
本次采集是根据平台的受欢迎产品来排序采集的,采集结果重复的占比较高,去重后商品为2085款;
数据可视化展示
可视化是整个文章的亮点所在,所谓“字不如表、表不如图”。整个可视化大屏我们基于以下五个问题开展而来。
- 评价数量Top10的美妆柱形图;
- 评价数量Top10的店铺柱形图;
- 不同价格区间的美妆评价数圆环图;
- 美妆销售关键字的词云图;
1. 评价数量Top10的美妆柱形图;
from cutecharts.charts import Bar
from cutecharts.components import Page
def bar_base() -> Bar:
chart = Bar("评价数量Top10的商品柱形图",width="1000px",height="800px")
chart.set_options(labels=labels, x_label="商品名", y_label="评价人数")
chart.add_series("series-A", value)
return chart
bar_base().render_notebook()
结论:
销量Top10的美妆,其实对于我们做产品还是挺有指导意义的。从图中可以看到这个VivienneSabo,在国外卖的还是极其好的,销量排名前10的产品中,VivienneSabo品牌的产品占据了7个位置。还有一个名字特别熟悉:妮维雅,只知道他家的洗面奶做的好,原来唇膏做的也不错,所以说品牌效应还是很好的。国产美妆也在塑造自身品牌的同时寻求出海机遇!
2. 评价数量Top10的店铺柱形图;
毋庸置疑,ozon自营的产品遥遥领先。可能是因为ozon起初以自营为主,是近几年采开始转向跨境电商和第三方平台的原因。
3. 不同价格区间的美妆圆环图
from cutecharts.charts import Pie
from cutecharts.components import Page
bins=[0,200,300,500,1000,2000,10000000]
# 按分段离散化数据
segments=pd.cut(df['current_price'],bins,right=False)
# 统计各分段人数
counts=pd.value_counts(segments,sort=False)
label = [
"200卢币以下",
"200-300卢币",
"300-500卢币",
"500-1000卢币",
"1000-2000卢币",
"2000卢币以上"
]
def pie_base() -> Pie:
chart = Pie("不同价格区间的美妆圆环图")
chart.set_options(labels=label)
chart.add_series(list(counts.to_dict().values()))
return chart
pie_base().render_notebook()
当然,价格才是大家关注的焦点。观察上面的圆环图可以发现,大多数产品的价格都是处在中间的、能被大家接受的范围(200-500卢币),毕竟日常化妆护肤的一些产品,适中的价格才能被大家接受,薄利多销才是王道。
从词云图中可以简单的看出,睫毛、眉毛、化妆笔、眼线笔相关的产品在ozon平台上比较受欢迎。
EVELINE、Vivienne、LUXVISAGE等品牌名称出现在标题中占比较重,商品、卖家也比较多。
不同评价分数的产品圆环图
百分之九十以上的商品评分都在4.5以上,极少数商品在1-3分之间,看来各位商家对客户维护的都不错!
产品评分不止是个评分,它能给与客户那份安全感和信任在平台直接购买。
如果你也想开店或者做产品,一定要从差评中找到客户抱怨的点从而优化产品,提升服务,做大做强!
总结
产品分析的用处有很多:
- 可以通过分析竞品对象,优化自己的产品或者给新产品提供思路;(产品设计)
- 采集自己店铺的评价,放大好评中的卖点,优化差评中的缺点;(店铺运营)
- 做行业监控,为投资决策做参考;
- 分析跨境产品的产地国、发货地;
- 等等很多…
由于时间精力有限,很多分析都没有做完:
没有抓取评论分析该行业的差评吐槽点
没有分析那个产地的商品卖的好,为什么好
…
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>私人订制</title>
</head>
<body>
<div>V:</div><div>17610352720</div>
</body>
</html>
如果你也有好的想法,欢迎沟通!
感谢观看,下期再见,bye-bye
这篇好文章是转载于:学新通技术网
- 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
- 本站站名: 学新通技术网
- 本文地址: /boutique/detail/tanhfkeahj
-
photoshop保存的图片太大微信发不了怎么办
PHP中文网 06-15 -
《学习通》视频自动暂停处理方法
HelloWorld317 07-05 -
Android 11 保存文件到外部存储,并分享文件
Luke 10-12 -
word里面弄一个表格后上面的标题会跑到下面怎么办
PHP中文网 06-20 -
photoshop扩展功能面板显示灰色怎么办
PHP中文网 06-14 -
微信公众号没有声音提示怎么办
PHP中文网 03-31 -
excel下划线不显示怎么办
PHP中文网 06-23 -
excel打印预览压线压字怎么办
PHP中文网 06-22 -
怎样阻止微信小程序自动打开
PHP中文网 06-13 -
TikTok加速器哪个好免费的TK加速器推荐
TK小达人 10-01