链路预测--负采样

JMcoke    2023-03-07 15:59

链路预测最开始是一个无监督学习任务,即根据已经看到的网络结构(或者其他属性信息)来推断未知连边是否存在,但是这样的话就比较难以验证。只有在动态网络(或称时序网络)中才会有这样的数据以供实验验证,可以用前一段时间的网络结构来预测后一段时间的网络结构。然而,很多网络没有时间信息.

后来,学者提出了用有监督的方式来进行链路预测,也就是将其视为二分类任务,将网络中存在的边都视为正样本(即正边),不存在的连边都当作负样本(即负边)。然后,将这些边分为两部分,一部分为训练集,一部分为测试集。训练集和测试集中都包含正边和负边,目的是在训练集上训练出一个模型能够准确分类这两种边,然后再在测试集上验证效果。

然而,大多数网络都是稀疏的,也就是说存在边的数量差不多是节点数量的几倍左右,而网络中不存在的边的数量差不多是节点数量的平方.这样不存边的数量就远远大于存在边的数量,在有监督学习中就意味着负样本远大于正样本,类别极其不平衡。为了解决这个问题提出了负采样,就是每次训练的时候随机抽取与正样本等比例的负样本,这样就避免了类别不平衡。
Last Modified: 2023-03-07 15:59
Views: 393

[[total]] comments

Post your comment
  1. [[item.time]]
    [[item.user.username]] [[item.floor]]Floor
  2. Click to load more...
  3. Post your comment