忘记密码?

一键登录

草根吧源码论坛

京东首席搜索专家内部分享

查看: 52|回复: 0

京东首席搜索专家内部分享

[复制链接]

247

主题

552

热度

9

贡献

终身赞助ViP

Rank: 7Rank: 7Rank: 7

发表于 2015-10-24 17:57:38 | 显示全部楼层 |阅读模式 | 百度  360  谷歌 
分享到:
京东首席搜索专家内部分享                                                                嘉宾介绍
商倩兰,京东实战派搜索专家,京东商学院特级讲师,四年阿里巴巴平台搜索排序产品设计经验,现任京东搜索资深产品经理,拥有SEO实战运作经验,熟知京东、淘宝、天猫平台搜索引擎规则。在电商搜索领域有过丰富的运营和产品设计经验,擅长将电商平台搜索从一做到十,目前被京东搜索团队定位为京东的“鬼脚七”。
今天只讲搜索引擎的一个小模块,所以上半部分,先说搜索引擎的基础模块。
这个图是我给京东内部员工和我团队产品经理培训时画的,目前网页搜索、电商平台类搜索,或各种名目繁多的垂直搜索,都可以简单描述成这样的结构。 草根吧 京东首席搜索专家内部分享 京东 SEO优化
抽象说,围绕用户搜索产品做四部分内容:
1、辅助用户输入,提升用户表达需求的效率;
2、理解用户意图,对用户输入进行理解,涉及到自然语言、数据挖掘等知识,目前一般的的用户输入方式还是关键词,语音、图片等交互方式还没有兴起,都尝试,尤其app、电视这种关键词交互方式受制的客户端,在积累对用户交互的理解。但总归需要对用户输入的东西进行理解,比如搜“红豆”,在淘宝前面都是红豆男装,在京东都是粮油调味,这是不同平台对大多数用户需求的理解;
3、检索返回内容,依据理解用户意图的模块带来的信息,进行精确的检索和排序;
4、呈现,页面结构、视觉和交互的设计来承载返回的内容。 今天的内容只是第1点中的一个产品。
草根吧 京东首席搜索专家内部分享 京东 SEO优化
在阿里巴巴\淘宝叫smart suggestion,京东叫下拉框推荐,雅虎叫自动补全,起到输入法的作用,提高搜索效率。因为推荐和搜索产品都是策略类产品,所以基本都跟数据挖掘有关,目前下拉框推荐词的数据源有三部分组成。
草根吧 京东首席搜索专家内部分享 京东 SEO优化
淘宝、京东最开始都只采取most popular的数据策略,这样虽然一个词搜索量大,里面需求比较零散(基于消费者表达意思还是短词多的现状),可以最大程度满足大多数人的需求。所以包含当前已经输入在搜索框内容的词列表,按pv从大到小排序,再加上一些反作弊策略即可应用。 我在搭建目前京东海外站搜索产品的时候,尤其英文站的下拉框推荐词数据源,直接抓取亚马逊的,再检验下载京东有商品即可,也是Most popular的策略。
最开始都是most popular,形成平台上的马太效应之后,流量不精准问题,必然想到走向个性化,比如在京东搜索框输入“RY”,下拉框推荐词都是荣耀,但在淘宝确有“R语言”的推荐词。
策略类产品的不同,有时候不是因为两边技术的差异,而是平台不同,消费者行为数据造成的,走向个性化,就是以上三个数据策略中的后两项。
我们今晚小流量上线的设计就是挖掘session下数据,来探索实时个性化的策略。
草根吧 京东首席搜索专家内部分享 京东 SEO优化
如果用户搜索了“nike钱包”,在下一次搜索中会搜 “adidas钱包” 的概率是704/4648 = 15.1%; 如果用户在下一个Query中输入 Adidas 应该提示 “Adidas 钱包”,同时去观察同session下用户的数据,需求是有趋同的意图,类似这种:
草根吧 京东首席搜索专家内部分享 京东 SEO优化
所以,我们挖掘出很多词对组成一份数据源,根据用户上一步的关键词表达实时推荐相关词。举一个例子:
草根吧 京东首席搜索专家内部分享 京东 SEO优化
这就是挖掘出来的词对数据源,有了它之后,当用户在一个session中前面有一个词是“十三香”,当用户在搜索框中输入“五”这个字的时候,可以推荐“五香粉”给它,而没有做实时个性化推荐前,所有京东用户在搜索框输入“五”的时候都看到一样的下拉框推荐词,都是这个:
草根吧 京东首席搜索专家内部分享 京东 SEO优化
产品假设、数据挖掘都是在用户历史行为中得出的猜想,今晚小流量上线了,等看后续数据。
【Q&A环节】
Q:session值是目前所有在线用户同时搜索的这个关键词么?我可以理解SESSION CONTEXT就是找“尿布和啤酒”么?
A:必然不是,京东每天的session量是个很大的数,session是什么意思大家知道,数据挖掘,策略类产品不是特别好懂,就是访问会话。进到www.jd.com,搜了n多词,点击了一堆商品,买或不买了几个商品,然后关掉www.jd.com,session就结束了
Q:session值是目前所有在线用户点击的这个关键词么?
A:不对,session会记录所有用户在你网站的行为,但因为搜索的产品,我们只用其中关键词搜索来做尝试。你们在京东任何地方,点了商品,再回到首页后,有个推荐产品叫“猜你喜欢”都会变化。
Q:那可以理解为,根据一次会话的两个词共同出现次数(有序的),虚拟两个词之间的相关程度,然后根据已输入的Q2的分词,根据相关程度排序,按顺序进行词语推荐么? A:根据所有搜过“十三香”的session中其他搜索词数据,挖掘词的相关关系。
Q:目前是否是用平台上汇总的全部session来做的推荐?有结合当前用户的画像/分类/行为进一步精细化的计划么? A:如是是一两个,那就没有统计意义,但其实策略类产品很好玩,比如去年做过价格模型,加上业务的努力,京东服装部的每日3000W RMB,提到到去年底的8000W。
Q:有搜索推荐入门书籍推荐吗? A:搜索推荐这类产品涉及很多知识,可以先从偏技术类书入门,对以后有好处。
推荐两本:《这就是搜索引擎:核心技术详解》、《解密搜索引擎技术实战:Lucene & Java精华版》。
本文版权属于PMcaff产品经理社区(pmcaff.com),转载请注明出处。
                                                                                注:相关网站建设技巧阅读请移步到建站教程频道。
                              

帖子地址: 

回复

举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆 用百度帐号登录 一键登录:

本版积分规则

收藏帖子 返回列表 搜索
快速回复 返回顶部 返回列表