【发明授权】202210797298.8 一种基于大数据的短信用户管理方法

申请/专利权人:

安徽创瑞信息技术有限公司;

申请日:2022-07-08

发明/设计人:吴锋;吴宪;

公开(公告)日:2022-09-06

代理机构:安徽思尔六知识产权代理事务所(普通合伙)

公开(公告)号:CN114866966B

代理人:闫啸;

主分类号:H04W4/14

地址:230000 安徽省合肥市高新区创新产业园二期J2楼A座11层

分类号:H04W4/14;H04W12/128;H04L61/4511;G06F40/30

优先权:

专利状态码:查看法律状态

法律状态:

2022.09.06#授权   2022.08.23#实质审查的生效   2022.08.05#公开   

摘要本发明涉及大数据挖掘技术领域,公开了一种基于大数据的短信用户管理方法,包括以下步骤:提取恶意域名和第一域名关联的短信的信息;提取第一域名关联的用户的信息;从第一域名关联的短信中提取短信生成第三短信集合;从恶意域名关联的短信中提取短信生成第四短信集合;计算第三短信集合与第四短信集合的短信的第一内容的语义相似度,计算平均相似度S;提取第三短信集合的短信的第二内容得到第一链接集合;提取第四短信集合的短信的第二内容得到第二链接集合;计算第一链接集合和第二链接集合的相关系数R,计算相关度Q=S+R,基于相关度Q判断第一域名关联的用户是否异常;本发明能够避免用户更换域名逃避相似度的检测。

主权项:1.一种基于大数据的短信用户管理方法,其特征在于,包括以下步骤:/n步骤S101,提取恶意域名关联的短信的信息;/n提取第一域名关联的短信的信息;/n提取第一域名关联的用户的信息;/n短信的信息包括短信的内容,短信的内容包括第一内容和第二内容,第一内容是指短信的内容中除短链接之外的内容,第二内容是指短信的内容中的短链接;/n步骤S102,从第一域名关联的短信中选取其中一个作为第一短信,从第一域名关联的短信中搜索第二短信,第二短信的第二内容与第一短信的第二内容相同,并且第二短信的第一内容与第一短信的第一内容不同;/n选择发送时间最接近第一短信的一个第二短信作为第一标记短信;/n提取发送时间在第一短信和第一标记短信之间的短信构成第一短信集合;/n步骤S103,从恶意域名关联的短信中选取其中一个作为第三短信,第三短信的第一内容与第一短信的第一内容相似度大于设定的第二阈值;/n从恶意域名关联的短信中搜索第四短信,第四短信的第二内容与第三短信的第二内容相同,并且第四短信的第一内容与第三短信的第一内容不同;/n选择发送时间最接近第三短信的一个第四短信作为第二标记短信;/n提取发送时间在第三短信和第二标记短信之间的短信构成第二短信集合;/n步骤S104,整理第一短信集合和第二短信集合,使第一短信集合和第二短信集合包含的短信数量一致;/n步骤S105,将第一短信集合和第二短信集合中的短信按照发送时间的先后时间进行排序分别获得第三短信集合和第四短信集合;/n步骤S106,计算第三短信集合与第四短信集合的短信的第一内容的语义相似度,获得相似度矩阵,相似度矩阵的一个元素以sij表示,sij表示相似度矩阵的第i行第j列的元素,sij表示第i个第三短信集合的短信与第j个第四短信集合的短信的相似度;/n从相似度矩阵中每一行中提取最小的值得到相似度集合,基于相似度集合计算平均相似度S;/n步骤S107,提取第三短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第一进制数,将第一进制数转换为10进制获得第二进制数,集合第三短信集合的短信获得的第二进制数得到第一链接集合;/n步骤S108,提取第四短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第三进制数,将第三进制数转换为10进制获得第四进制数,集合第四短信集合的短信获得的第四进制数得到第二链接集合;/n步骤S109,计算第一链接集合和第二链接集合的相关系数R,计算公式如下:/n  /n其中di为Xi和Yi之间的等级差,Xi表示第一链接集合中第i个项,Yi表示第二链接集合中第i个项;/nXi的等级是将第一链接集合中的项按照从小到大排序后,这个项所在的位置;Yi的等级是将第二链接集合中的项按照从小到大排序后,这个项所在的位置;其中n为第一链接集合包含的项的数量;/n步骤S110,基于平均相似度S和相关系数R计算相关度Q,相关度Q=S+R,如果相关度Q大于设定的相关度阈值则判断第一域名关联的用户异常;如果相关度Q小于或等于设定的相关度阈值则判断第一域名关联的用户不异常。/n