从大数据中挖掘什么?
事实上,我们很难事先穷尽所有可能的挖掘场景,所以也就很难完全准确地判断应该收集哪些数据,不应该收集哪些数据。作为弥补措施,可以考虑在存储、处理能力允许的条件下,尽量多方面收集数据。这是另一项策略。多收集数据总有可能对数据挖掘产生某些帮助。 回到工具栏的例子。工具栏记录的用户互联网访问的行为数据,能大大帮助搜索引擎提高对用户的理解,提高搜索结果的相关性。研究发现,从用户在浏览器中的简单操作中都可以发现许多有用的信息,帮助推断用户的兴趣、意图等[1]。比如,从用户在浏览器中的鼠标移动轨迹中可以估计出他对网页的关注范围,从用户对网页链接的点击可以猜测出他的信息需求,从用户对窗口的关闭动作可以推测出他的兴趣转移。 尽量将数据整合 让数据发挥更大作用的办法是将相关数据整合在一起,用于挖掘。数据整合有助于帮助了解事物的全貌,发现未知的关系,提升预测的准确率。局部数据只是“罗之一目”,而整体数据才是“弥天大网”。 图1. 用户搜索行为的模型 图1所示为互联网搜索中的用户行为模型。该模型虽简单,但属于基本模型,互联网搜索中用户的行为数据都可以纳入其中,可以对用户的行为进行描述。现实中,该模型的数据需要从多个数据源中获取,并通过整合处理而得到。 互联网搜索中首先有许多用户。每个用户会多次使用搜索引擎,每次使用完成一个查询任务,构成一个会话(session),每个会话又由多个查询组成。每个查询中,用户提交查询语句,搜索引擎返回结果,用户根据其内容判断网页的相关性,点击相关网页的链接,浏览网页。浏览过程中,用户可能按照网页的链接,浏览多个网页,之后返回搜索结果,也可能直接离开。用户在浏览器中的动作,可以通过工具栏记录下来,传送给搜索引擎,但是,基于效率等考虑,搜索引擎返回的结果往往不会被工具栏记录。相反,搜索的结果会被搜索引擎记录下来。所以,将客户端与搜索引擎端的数据进行整合变成互联网搜索数据挖掘工作中的一项重要任务。浏览器记录的用户ID与搜索引擎记录的用户ID往往不一致,将同一用户的不同ID联系起来并非易事。 (编辑:上海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |