• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

产品战斗民族电子商务平台OZON-美妆类目采集

武飞扬头像
爱python的王三金
帮助1

平台背景

Ozon是俄罗斯最早的电子商务公司之一,有时被称为“俄罗斯的亚马逊”。Ozon成立于1998年,最初是一家在线书店,到2019年已成为该国三大在线零售平台之一。它被《福布斯》评为2020年最有价值的俄罗斯互联网公司第三名。

采集介绍

近年来,美妆行业在全球迎来蓬勃发展,海外美妆市场体量在不断提升,不少国产美妆也在塑造自身品牌的同时寻求出海机遇。

以前科技并不怎么发达,不仅没有这么多形形色色的化妆品,也不知道哪些化妆品卖得好? 化妆品的价格分布是怎样的呢? 什么地方的化妆品销量最高呢? 简直有十万个为什么,希望别人给我们解答。

随着科技的飞速发展,互联网沟通了你我他。我们通过Ozon上美妆的销量,就可以解决我们想要知道的好多问题。基于此,我爬取了平台上3000多条美妆的销售数据,为大家展示了一幅漂亮的可视化大屏,解决大家心目中的问题。

数据采集

该平台采集有个5s盾反爬,我们不做逆向分析,抓不到数据的童鞋们可以通过Selenium自动化脚本抓取数据。

部分代码展示
with sync_playwright() as p:
    browser = p.chromium.launch(headless=False, proxy={'server': 'http://127.0.0.1:58889'})
    context = browser.new_context()
    cookies = []
    for p in range(1, 100):
        try:
            page = context.new_page()
            page.route(re.compile(r"(\.png)|(\.jpg)|(\.js)"), cancel_request)
            context.add_cookies(cookies)
            print(p)
            page.goto(f"https://www.ozon.ru/category/makiyazh-6501/?page={p}")
            web_html = page.content()

            selector = etree.HTML(web_html)
            data = selector.xpath('//div[@id="state-searchResultsV2-252189-default-1"]/@data-state')[0]
            data = json.loads(data)
学新通

元数据展示

学新通
采集数据量查看

df.shape

学新通
国外站点好多都没有按销量排序,该网站也不例外!
本次共采集了100页彩妆的热门推荐商品,采集商品数量为3211款;

数据清洗

数据清洗很重要,这个对于我们后续做可视化展示,极其重要。因此我们需要根据后面要做的图形,然后进行对应的进行数据清洗。

元数据整个数据看上去算是比较干净,但是还是有几个地方指的我们处理一下。
1、解析返回的元数据,抽出需要的字段;
2、处理价格乱码,替换卢比标志;
3、匹配店铺名称,抽取有用的字符串;
4、将打分人数为空的记录,替换成0人打分;
5、将标题一样的做去重;

数据清洗部分代码如下:

df = df.drop_duplicates('title')
df['current_price'] = df['current_price'].apply(lambda x:int(x.replace('\u2009','').replace('₽','')))
df['original_price'] = df['original_price'].apply(lambda x:int(x.replace('\u2009','').replace('₽','')))
df = df.fillna(0)

现在来看看,清洗后的数据是啥样的?
学新通
本次采集是根据平台的受欢迎产品来排序采集的,采集结果重复的占比较高,去重后商品为2085款;

数据可视化展示

可视化是整个文章的亮点所在,所谓“字不如表、表不如图”。整个可视化大屏我们基于以下五个问题开展而来。

  • 评价数量Top10的美妆柱形图;
  • 评价数量Top10的店铺柱形图;
  • 不同价格区间的美妆评价数圆环图;
  • 美妆销售关键字的词云图;
1. 评价数量Top10的美妆柱形图;
from cutecharts.charts import Bar
from cutecharts.components import Page

def bar_base() -> Bar:
    chart = Bar("评价数量Top10的商品柱形图",width="1000px",height="800px")
    chart.set_options(labels=labels, x_label="商品名", y_label="评价人数")
    chart.add_series("series-A", value)
    return chart

bar_base().render_notebook()

学新通
结论:
销量Top10的美妆,其实对于我们做产品还是挺有指导意义的。从图中可以看到这个VivienneSabo,在国外卖的还是极其好的,销量排名前10的产品中,VivienneSabo品牌的产品占据了7个位置。还有一个名字特别熟悉:妮维雅,只知道他家的洗面奶做的好,原来唇膏做的也不错,所以说品牌效应还是很好的。国产美妆也在塑造自身品牌的同时寻求出海机遇!

2. 评价数量Top10的店铺柱形图;

学新通
毋庸置疑,ozon自营的产品遥遥领先。可能是因为ozon起初以自营为主,是近几年采开始转向跨境电商和第三方平台的原因。

3. 不同价格区间的美妆圆环图
from cutecharts.charts import Pie
from cutecharts.components import Page
bins=[0,200,300,500,1000,2000,10000000]
# 按分段离散化数据
segments=pd.cut(df['current_price'],bins,right=False)
# 统计各分段人数
counts=pd.value_counts(segments,sort=False)
label = [
        "200卢币以下",
        "200-300卢币",
        "300-500卢币",
        "500-1000卢币",
        "1000-2000卢币",
        "2000卢币以上"
]

def pie_base() -> Pie:
    chart = Pie("不同价格区间的美妆圆环图")
    chart.set_options(labels=label)
    chart.add_series(list(counts.to_dict().values()))
    return chart

pie_base().render_notebook()
学新通

学新通

当然,价格才是大家关注的焦点。观察上面的圆环图可以发现,大多数产品的价格都是处在中间的、能被大家接受的范围(200-500卢币),毕竟日常化妆护肤的一些产品,适中的价格才能被大家接受,薄利多销才是王道。

学新通
从词云图中可以简单的看出,睫毛、眉毛、化妆笔、眼线笔相关的产品在ozon平台上比较受欢迎。
EVELINE、Vivienne、LUXVISAGE等品牌名称出现在标题中占比较重,商品、卖家也比较多。

不同评价分数的产品圆环图

学新通
百分之九十以上的商品评分都在4.5以上,极少数商品在1-3分之间,看来各位商家对客户维护的都不错!
产品评分不止是个评分,它能给与客户那份安全感和信任在平台直接购买。

如果你也想开店或者做产品,一定要从差评中找到客户抱怨的点从而优化产品,提升服务,做大做强!

总结

产品分析的用处有很多:

  • 可以通过分析竞品对象,优化自己的产品或者给新产品提供思路;(产品设计)
  • 采集自己店铺的评价,放大好评中的卖点,优化差评中的缺点;(店铺运营)
  • 做行业监控,为投资决策做参考;
  • 分析跨境产品的产地国、发货地;
  • 等等很多…

由于时间精力有限,很多分析都没有做完:
没有抓取评论分析该行业的差评吐槽点
没有分析那个产地的商品卖的好,为什么好

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>私人订制</title>
</head>
<body>
    <div>V:</div><div>17610352720</div>
     
</body>
</html>

如果你也有好的想法,欢迎沟通!
感谢观看,下期再见,bye-bye

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfkeahj
系列文章
更多 icon
同类精品
更多 icon
继续加载