利用Web日志来构建自定义Google Analytics

用例与项目,达太库产品bob体育开户 杰里米格雷泽

谷歌分析是如此无缝,以至于用户很少考虑自己运行分析。但是构建自定义工具来分析web日志的好处是很多的,包括保持数据私密性和访问非常具体的指标的能力。

网络日志

Web日志是什么?

在Web日志中,如下图所示,每行(或记录)表示用户的操作(例如,打开页面,通常发生的错误或其他内容):

  • 行动的日期和时间
  • 用户的IP地址
  • 行动细节
  • 关于上下文的各种信息(用户代理等)

从这个通常存储在扁平压缩文件中的这个相当的原始数据中,目的不是计算描述性统计数据,例如每个国家/地区的访客人数或转换率。如果这是目标,Google Analytics或Matomo是非常好的工具。建立自定义模型有一段时间和复杂性成本,因此可以浪费妥善产品模仿现成的产品。bob体育开户更好地保存Web日志自定义分析以解决特定于组织业务环境的高级问题,例如客户端分段或产品建议。bob体育开户

然而,这些分析不需要像日志建议的日志一样复杂 - 作为Dataiku的数据准备功能的略微演示,我们建造了一个简单的Web日志Analytics工具这可以提供具有最小努力的自定义分析。最重要的是,该项目在浏览器上探索,无需下载。

数据清洁

不要浪费时间在数据清洁上

Web日志项目中的显而易见的第一步是数据准备。例如:

  • 过滤并保留某些操作
  • 识别(或拆分)日期并使用它们(两个日期之间的差异)
  • 干净缺失或异常数据
  • 地理位置地找到IP地址
  • 使用某些值,例如用户代理一个导航器
  • 例如,对某些操作(例如来自URL)

但是除了用重复码清洁数据,可以使用Dataiku中的视觉准备配方进行这些步骤。

数据清洁

注意:分析真实的Web日志数据携带合规性限制以保护用户的信息。对于此模型,使用随机数据集。

这些清洁步骤中的两个值得突出显示。首先是一个地理位置处理器,其中从用户的IP地址提取来自国家的各种地理信息,从国家偏离纬度和经度。

第二个是url分割处理器,它提取路径以查看网站用户正在访问的特定页面。

分组数据

这是分析的第二阶段是用户维度的减少。这不是所有用户所执行的各个操作的列表,这使开发人员能够在每个用户的行为中的可见性。这对数据可视化或机器学习模型来说至关重要。

Visual Recipes或Code可以创建有问题的用户的“摘要”。为每个用户获得的几个变量示例:

  • 数量的行为
  • 第一个和最后一个行动的日期
  • 某些行动的发生计数(更高级:通过a的出现计数滑动时间窗口的)
  • 行动统计指标或其相关价值(手段,四分位数,偏差等)

虽然这可以在视觉上进行,但将计算推向SQL的计算得多更快,更高效;SQL基础,Hadoop集群或Spark群集(通过Hive或Impala)都是有效的选项。

总

可视化

仪表板有助于促进理解,因为它目前描述了底层数据。对于此项目,仪表板包含四个图表突出显示数据的不同方面。下一步将是自动化仪表板更新,以确保显示最相关的见解。

仪表盘

其他Web日志用例

希望利用web日志为机器学习模型提供动力的组织通常可以分为以下几个用例:

  • 优化转换率(销售,下载等)
  • 致力于建议,也就是说,建议产品或内容具有最大的适用能力bob体育开户
  • 计算客户满意度评分或流失的风险
  • 行为分割
  • 检测可疑行为

与描述性分析相比,这些用例将产生增加的值。这些模型的自动化通常会产生一些非常酷的用途,例如CRM中的个性化电子邮件或最新评分营销团队可以在他们的日常工作等中使用。

你可能也喜欢

Dataiku应用:促进协作和重用

阅读更多

随着流程(自2013年以来)

阅读更多

用phData鼓励数据科学领域的下一代女性

阅读更多

使用Dataiku维护和改进预测模型

阅读更多