这篇是周涛提出用标签解决冷启动的问题。
其实目前冷启动的问题,多数是依赖友好交互设计来让用户提供一些关于兴趣的知识
===============================
在社会化标签越来越流行的网站中,用户的喜好往往可以从通过用户所使用的标签来分析和挖掘到。例如,用户在美味书签(Del.icio.us)上使用的标签表示了用户对收藏书签的喜好程度;在电影评分网站(MovieLens.org)上使用的标签表现了用户所看电影的喜好程度;在微博网站(Twitter.com)上的标签体现了博主和网友对博文的评价和偏好……同时不同用户之间所偏好和使用的标签也各不相同。我们利用标签信息在数据挖掘和信息推荐中已经设计出很多算法。然而,研究算法者往往拘泥于复杂性和精确性,对于不同数据集所可能取得的推荐效果却缺少关注;分析标签网络结构者往往并不了解各种结构特征对于信息推荐算法的意义。
我们利用社会标签的两种功能:管理和检索来设计个性化推荐算法。文章首先考虑含权的“用户-标签”二部图网络,来构建个性化使用信息;并利用非含权的“标签-物品”二部图网络来构建标签和物品的联系。这种算法除了直观简单等特点外,还具有计算量极其简单、复杂性极低等特点。计算结果表明:这种算法能较好的提高推荐的精确性,尤其是能提高被收藏次数较少物品的推荐精确性。因此该算法能部分的解决困扰推荐系统很久的“冷启动”问题。进一步的,我们计算该算法对推荐多样性,发现该算法的推荐结果中,用户内多样性有了显著提升,而用户间多样性却在MovieLens数据集上表现不如以前的算法。进一步的,我们分别利用基于汉明距离和熵的方法分析了导致这种差异的原因。解释了系统中标签主题的多样性直接影响了推荐的多样性效果:对于主题比较多样化的系统,该算法能较好的用户间的推荐多样性;对于主题较为单一的系统,使用该算法反而局限用户的视野,使得推荐给用户的东西越来越相似。
文章有望在理论和应用两个层面将标签网络的结构功能研究的最新进展和分析手法与传统的个性化推荐研究结合起来,丰富个性化推荐算法研究的理论基础。文章的结论和分析方法,对于针对具体系统的基于标签的推荐算法选择,具有借鉴意义。