Python电商数据分析实战

Python电商数据分析实战

✍️ 作者
周志鹏
📅 出版日期
2023-11-01
📄 页数
248页
🔢 ISBN
9787111737841
⭐ 评分
9.1 ★★★★☆

这既是一本能带领读者零基础快速掌握Python数据分析方法与流程的工具书,又是一份从电商出发指导读者解决各类数据分析问题的实用指南。

首先,本书以Python数据分析中使用率极高的Pandas为切入点,注重对数据分析思维和技能的培养,详细讲解了Pandas的操作以及数据分析的方法,可覆盖80%以上的数据分析应用场景,为数据分析师打下坚实基础。

然后,本书以电商这个广大读者熟知且普适性极强的业务领域为依托,通过大量案列讲解了报表自动化、行业机会挖掘、用户分层、用户分群、用户偏好分析、同期群分析、指标波动归因分析、品牌报告撰写等8大电商场景的数据分析方法,理论与案例深度融合。

本书以实用为本,聚焦重点,Python数据分析常用的高频功能不到Python数据分析能力的20%,本书去繁就简,只专注于能解决大部分问题的重点模块。本书以实战制胜,案例牵引:从表层直观地看,这些案例能解决各种电商业务问题;从深层仔细地分析,作者的本意实则是通过对这些案例抽丝剥茧,手把手教读者在实战中掌握数据分析的通用思维、方法和技能。

所以,如果你是关注电商业务的数据分析师,本书针对常见电商数据分析场景给出了具体的方法和解决方案,可借鉴使用;如果你是一位没有任何数据分析基础的新手,这本书更加适合你,不仅能让你快速掌握数据分析的基本思维和方法,而且能让你在大量案例中获得实战技能和经验。

前言

为什么写这本书

在多年数据分析从业经历和微信公众号创作经历中,我接触过很多对数据分析感兴趣的朋友,他们有的想要入门但还没有行动,有的跟着教程开始自学,有的已经有了一定的经验。我发现,大家在数据分析的学习与实践过程中会遇到一些共性问题。

这些问题,有与数据分析技能和思维相关的,例如:

也有与业务场景相关的,例如指标波动归因分析、市场行业机会分析、用户分层研究、购物篮关联分析等。

这些问题对于我来说可谓既“痛”又“痒”:“痛”在于我也曾受相关问题困扰,深知要解决它们需要投入大量的精力,也可能会走很多弯路;“痒”是因为我基于多年的实战和分享经验,经过许多个日日夜夜,总结了一套技能+思维、理论+实践的数据分析学习方法,不分享出来心痒难耐。

我希望通过本书,把我对于Python数据分析的所知、所思、所感,结合电商实际案例系统地分享给大家。特别要说明的是,之所以选择电商场景,主要有两个原因:

  1. 基于自身多年的电商从业经验,我可以从最熟悉的场景出发,提供最贴近实战的数据,让Pandas更加契合具体业务场景,把案例讲通讲透,解决数据分析技能与分析脱节、分析案例不够深入的问题。

  2. 电商是一个很容易理解且十分常见的商业模式,其中人、货、场分析大框架非常具有代表性,尤其是“人”的维度,追本溯源,就是解决如何选择用户,如何评估拉新、留存效果,如何对用户进行分类等常见问题。可见,电商的本质分析方法论适用的行业和场景广阔。

我相信,Python数据分析与电商相结合一定会闪烁出更为耀眼的光芒,帮助读者在数据分析的道路上走得更远。

本书读者对象

本书适用于每一位想要提升Python数据分析和实战能力的读者,读完本书并跟着案例练习后,读者将能够熟练运用Pandas进行数据分析,大大提升数据处理和分析的效率。本书同样适用于想要了解电商行业和想进一步熟悉电商实战案例的读者,书中详尽的案例和代码可以帮助读者更好地解决实际业务问题。

本书特色

以实用为纲,聚焦重点。实际上,大部分Excel高手使用的高频功能不到Excel全部功能的20%,Python数据分析领域也是如此。本书基于一线实践经验,去繁就简,专注于那些能够解决绝大部分问题的重点模块。

层层递进,实战案例丰富。本书基础内容只有6章,旨在帮助大家快速熟悉Pandas操作。核心内容是8章实战案例,从报表自动化到行业机会分析,再到用户分层分析、用户分群分析、用户偏好分析、指标波动归因分析等,最后到一个完整的品牌分析案例。这些案例由浅入深,都是从实战中萃取的,涵盖Pandas数据处理和分析的大部分场景,跟着操作一遍,你的Pandas技能和分析思维都会大大提升。

本书主要内容

为了实现技能与思维、理论与实践相结合的目标,我选择了以Python数据分析中最常用的Pandas为切入点,围绕电商场景,用一个个详尽的案例把技能和思维抽丝剥茧般地完整呈现出来。

本书共15章,主要内容如下。

第 1~6 章数据分析基础

主要帮助读者快速熟悉Pandas,内容包括Python数据分析基础知识、Pandas入门操作,以及实际分析工作中最常用的增、删、选、改操作和可视化等技巧,覆盖了 80% 以上的应用场景。

第1章 Python 数据分析准备

本章围绕 Python 数据分析相关的基础知识展开,主要回答什么是数据分析、选择 Python 的原因、Pandas 和 Python 的关系、学习 Pandas 需要避免的误区、如何高效学习 Pandas 以及 Python 数据分析环境搭建等入门阶段的重要问题。这些属于“磨刀不误砍柴工”中“磨刀”的关键内容,将为接下来的高效学习做好准备。

第2章 Pandas 快速入门

本章主要围绕 Pandas 入门基础知识展开,包括 Pandas 的两类重要数据结构、外部数据读取和存储、预览数据以及常用的数据类型与操作。本章从实际运用的角度,带大家对 Pandas 进行快速扫描、建立起对 Pandas 的基础认知,为后续学习进阶技巧和实践打好基础。

第3章 玩转索引

在上一章中,我们对Pandas的各方面做了一个全面、简洁的扫描,不过对其中涉及选取数据的部分只讲了最基础的列向索引。而在实际运用时,灵活选取数据是Pandas中非常高频的操作。所以本章我们单独把索引拎出来,结合具体场景详细介绍两种常用的索引方式,实现数据灵活选取。

第4章 数据清洗四大核心操作

数据清洗是数据分析工作中非常重要的一个环节,清洗的效果一定程度上决定了数据分析的质量。

如果用做辣椒炒肉这道菜来类比,原始数据就像我们刚从菜市场买回来的辣椒和肉,在炒之前,需要把辣椒洗净切好,把肉洗净切丝,再备好葱姜蒜等辅料,才算准备完毕。

数据清洗要做的,就是对原始数据进行“清洗、切丝、备料”等处理,为后续高质量的分析做好准备。

Pandas 提供了强大、丰富、高效的数据清洗方法,为了方便大家理解,我把实际数据清洗场景下常用但零散的方法按增、删、选、改四板斧的逻辑进行归类,结合案例精讲 Pandas 数据清洗所用到的核心高频操作。

第5章 Pandas 两大进阶利器

前几章介绍的 Pandas 高频操作已经能够应对大部分使用场景,不过在实际工作中,我们一定会遇到个性化和自定义的需求。为了让大家更好地应对这些灵活的需求,本章给大家带来了数据透视表和 apply 操作这两道硬菜。学好这两大 Pandas 进阶利器,我们就可以“以万变应万变”,处理和分析数据起来将更加游刃有余。

第6章 数据可视化

可视化是数据分析中非常重要的一环,也是数据分析师必备的基础技能之一。我们处理好数据之后,用合适的可视化方式来展示它,可以起到四两拨千斤的作用,帮助我们快速捕捉到数据中所蕴含的信息,发现潜在的趋势和规律。

Python 有很多功能强大的可视化库,如 Matplotlib、seaborn、Plotly、Bokeh 等,它们有各自的特点和应用场景。在本章中,我们从 Matplotlib 库入手,结合“手工画一幅折线图有哪些关键步骤”的实用视角,帮助大家熟悉 Python 可视化中的重点。Matplotlib 细节较多,大家加快阅读速度,只需抓住画图的重点逻辑即可。

第 7~15 章数据分析实战

聚焦于Pandas在电商场景中的应用。第7章讲解电商基础知识,包括电商的商业逻辑、常用指标体系和经典的分析模型。第 8~15 章用8个实战案例详细讲解报表自动化、行业机会分析、用户分层分析、用户分群分析、用户偏好分析、同期群分析、指标波动归因分析以及一份全面的品牌分析报告的产生过程。每一章都既有案例背景,也有脱敏的实战数据源,更有详细的操作代码和分析思路。

第7章 走近电商:商业方法论与分析体系

在正式讲 Pandas 实战案例之前,这一章先来介绍与电商相关的商业知识。

有读者会疑惑,为什么不直接讲案例呢?因为无论是用 Excel、SQL 还是用 Python 做数据分析,最终的目标一定是改变业务或者推动业务发展。而且“磨刀不误砍柴工”,案例是一个个独立的点,各自为战,只有在充分了解业务之后,才能连点为线,点数成金。

本章我会先从电商的基本概念展开,重点剖析商业模式中的三个关键角色;再贴近分析视角,介绍电商常用的指标和经典分析方法论;最后,通过一个反客为主、数据分析师当老板的故事,厘清实际分析中应该关注哪些重点问题。

这一章以电商为例,通过对业务本质的认识,从而了解:

这样能够让我们后续 Pandas 实战之树的根基更加扎实,分析结果的枝叶也更加繁茂。

第8章 Python 报表自动化

这是实战内容的第一章,我们来一起面对那个让人头疼的海量数据表格的处理问题。本章将详细介绍如何用 Python 批量处理多张 Excel 表,从而帮助我们大幅提升做报表的效率,并基于相关数据进行案例分析。

Python 报表自动化的难点在于如何批量处理数据,而批量处理数据的核心在于“单表突破,批量循环”。先按照需求逻辑处理好一张表,再把单张表的处理逻辑用遍历的方式应用到所有的表上,最终整合成我们需要的数据报表,并将代码固化以实现自动化。

本章的两个案例虽然都涉及 Python 批量数据处理,但是各自有很强的代表性。

第一个案例,需求方已经定好了条条框框,需要数据分析师做的是取数和处理的工作,这样的需求,难点往往在于取数和清洗的复杂性。

第二个案例,需求方只想了个模糊的方向,需要数据分析师结合实际数据定逻辑,给建议。

学好这两个案例,之后再面对成百上千张 Excel 表,我们都能用 Python 轻松应对。

第9章 行业机会分析与权重确定

本章以"发现有潜力的行业"这个需求为切入点, 先用传统的方法求解, 接着重点介绍几种常见的权重确定方法, 如级别法、权值因子判表法、变异系数法, 最后用 Pandas 实现具体的案例, 计算出一个综合指标来衡量行业发展趋势, 找到更有机会的行业, 从而一举解决"如何科学地确定指标权重"和"如何找到有机会的行业"两大难题。

第10章 用户分层实战

用户分层是几乎所有品牌都会思考的一个重要命题, 合理的分层能够帮助品牌有效提升用户的忠诚度。通过本章的学习, 我们会了解用户分层的基本概念、价值及分层思路。同时, 还会基于 30 多万行的案例数据, 熟悉实战中数据预处理的方法, 并运用二八法则与拐点法, 结合 Pandas 来实现科学的用户分层。

第11章 用户分群实战与加强版RFM模型

继用户分层之后,我们将开启用户分群学习之旅,这也是用户分析中极其重要的一环。本章先介绍用户分群的基本概念,并对比用户分群和用户分层的差异性;接着重点讲解用户分群中最经典的RFM模型,并结合一个实例剖析RFM建模过程中每一步的作用和操作技巧;最终实现使用Pandas“一键”生成RFM模型。除了介绍RFM模型,我们还会站在RFM模型的肩膀上,用不同的视角进行思考和拓展,以让RFM模型成为更好用的加强版模型。

第12章 用户偏好分析

谈及用户偏好时,专业的数据分析报告经常会用到TGI,例如“基于某某TGI,我们发现某类用户更偏好××”。不熟悉TGI概念的读者看到类似的描述一定会感到云山雾罩。本章我们一起来学习TGI分析。包括指数的具体计算逻辑,以及如何结合案例数据用Pandas实现TGI偏好分析。

第13章 万能的同期群分析

本章将介绍一种广泛应用于各个行业的分析模型——同期群分析, 它可以用来评估用户、商品、渠道, 甚至广告的质量和效果。为了帮助大家更好地理解同期群分析的概念和方法, 我们首先结合一个贴近生活的例子进行讲解, 随后会遵循数据概览、思路剖析、问题解决及最终整合的流程, 用Pandas进行完整的同期群分析。

第14章 指标波动归因分析

“为什么这个月的销售额提升了 30% ?”

“转化率又降了,竟然同比降低了 42% ,是什么原因导致的呢?”

这些都是数据分析师在工作中经常会遇到的问题,甚至有些基础岗的数据分析师要花 80% 以上的精力处理这类问题:指标降低或者提升了多少,以及波动的原因是什么。

这类问题可以概括为指标波动归因分析,很多时候数据分析师会用根据经验探索拆分的办法来处理它们,不仅非常花时间,而且数据分析师获得的价值感也不高。如果能够找到一些高效定位指标波动原因的方法,形成自动化判断机制,就能大大释放数据分析师的精力,使其能够把更多时间用在专题分析和推动业务上。

本章先讲解几种常见的计算指标波动贡献率的方法,量化波动来源,然后介绍一种自动化归因波动的算法。我会用Pandas来实现所有指标波动贡献率的计算,帮助大家摆脱指标波动原因探究的桎梏,向专题分析的方向迈进。

第15章 一份全面的品牌分析报告

面对一份陌生的数据,如何在较短的时间内摸清关键业务信息,做一份全面的数据分析报告?探索性数据分析是条不错的思路。探索性数据分析就像一台加热器,它让冰冷、枯燥的数据变得有温度。帮助我们快速了解数据的结构和内在规律。

本章将详细介绍探索性数据分析的方法,并结合电商实战案例,带大家学习数据预处理、数据总览分析、用户数据分析、商品数据分析和购物篮关联分析等方面的技巧,做一份全面的品牌分析报告。

本书配套资源

关注我的微信公众号“数据不吹牛”并回复“配套资料”即可获取我为本书精心准备的以下配套资源。

书中所有练习和案例的相关数据集。

所有项目的完整案例代码。

拓展学习资源(Python 基础教程、分析方法论等)。

社群学习答疑和勘误信息。