利用网络日志构建定制的谷歌分析

用例和项目,Dataiku产品bob体育开户 杰里米·格雷兹

谷歌分析是如此无缝,用户很少考虑运行分析本身。但是,构建用于分析web日志的定制工具的优势很多,包括能够保持数据的私密性和访问非常特定的指标。

网络日志

什么是网络日志?

在web日志中,如下图所示,每一行(或记录)代表用户的操作(例如打开页面、发生错误或其他),通常包含以下信息:

  • 行动的日期和时间
  • 用户的IP地址
  • 行动详情
  • 关于上下文的各种信息(用户代理等)

根据这些通常存储在扁平压缩文件中的相当原始的数据,目的不是计算描述性统计数据,例如每个国家的游客人数或转换率。如果这是目标,谷歌分析或马托莫都是很好的工具。构建定制模型需要花费一定的时间和复杂性,因此模仿现成的产品可能会浪费精力。最好保存web日志自定义分析,以解决特定于组织业务环境的高级问题,例如客户细分或产品推荐。bob体育开户

然而,这些分析不需要像日志显示的那样复杂——作为Dataiku数据准备功能的一个小演示,我们构建了一个简单的网络日志分析工具它可以以最小的工作量提供定制分析。最棒的是,该项目可以在浏览器上浏览,无需下载。

数据清理

不要在数据清理上浪费时间

web日志项目中显而易见的第一步是数据准备。例如:

  • 过滤并保留某些操作
  • 确定(或分割)日期并加以利用(两个日期之间的差异等)
  • 清除丢失或异常数据
  • 按地理位置定位IP地址
  • 与某些价值观合作,比如用户代理领航员
  • 对某些操作进行分类(例如,从URL)

但是,这些步骤可以通过Dataiku中的可视化准备方法来执行,而不是使用重复的代码来清理数据。

数据清理

注:分析真实的web日志数据会带来法规遵从性限制,以保护用户的信息。对于该模型,使用随机数据集。

其中两个清洁步骤值得强调。第一种是地理定位处理器,它可以从用户的IP地址提取从国家到经纬度的各种地理信息。

第二个是URL拆分处理器,它提取路径以查看用户访问的网站上的特定页面。

分组数据

分析的第二个阶段是减少用户维度。这不是所有用户执行的单个操作的列表,而是让开发人员能够了解每个用户的行为。这对于数据可视化或机器学习模型来说至关重要。

可视化配方或代码可以创建相关用户的“摘要”。为每个用户获得的变量示例如下:

  • 行动次数
  • 第一次和最后一次行动的日期
  • 某些操作的发生次数(更高级:通过滑动时间窗)
  • 行动的统计指标或其相关值(平均值、四分位数、偏差等)

虽然这可以直观地完成,但将计算推到SQL上要快得多,效率也更高;SQL库、Hadoop集群或Spark集群(通过Hive或Impala)都是有效的选项。

总数的

形象化

仪表板有助于促进理解,因为它直观地描述了底层数据。对于这个项目,仪表板包含四个图表,突出显示数据的不同方面。下一步将是自动更新仪表板,以确保展示最相关的见解。

仪表板

其他Web日志用例

希望利用其网络日志为机器学习模型提供支持的组织通常分为以下用例:

  • 优化转换(销售、下载等)
  • 致力于推荐,也就是说建议最有可能适合的产品或内容bob体育开户
  • 计算客户满意度得分或流失风险
  • 行为细分
  • 发现可疑行为

与描述性分析相比,这些用例将产生更高的价值。这些模型的自动化通常会产生一些非常酷的用途,比如个性化的电子邮件或客户关系管理中的最新评分营销团队可用于日常工作等。

你可能也喜欢

人工智能是否涉及编码?

阅读更多

用Dataiku简化地理空间分析:鸟类物种的分布建模

阅读更多

需求预测:优化业务运营的望远镜

阅读更多

MLOP的7个神话

阅读更多