-

若何行使机械学习识别加密项目风险?

来源: 数字货币 时间:2021-01-22 08:10:36
导读: 加密货币是一种存在于数字世界的交易媒介(另一种支付形式),依靠加密技术使交易安全。加密货币背后的技术允许用户直接向他人发送货币,而不需要通过第三方,如银行。


万字长文梳理以太坊结构性

2020年对整个世界都是充满挑战的一年。与此同时,事实证明它对以太坊却给予了比较积极的影响——以太坊的生态系统在许多方面都没有减弱,朝着我们的市值迈进了一大步。

加密钱币和羁系的必要性

加密钱币是一种存在于数字天下的买卖前言(另一种支付形式),依赖加密手艺使买卖平安。加密钱币背后的手艺允许用户直接向他人发送钱币,而不需要通过第三方,如银行。为了举行这些买卖,用户需要设置一个数字钱包,而不需要提供身份证号码或信用评分等小我私家细节,因此可以让用户伪匿名。

对于通俗的加密钱币用户来说,这种匿名性可以让他们放心,由于他们的小我私家信息或买卖数据不会被黑客窃取。然而,这种买卖匿名性的提高,也容易被犯罪分子滥用,举行洗钱、恐怖融资等非法流动。这种非法流动给区块链钱包用户以及加密钱币实体都造成了伟大的损失。虽然金融行动稀奇工作组(FATF)等羁系机构已经在这些实体的羁系中引入了标准化的指导方针,但由于天天都有大量的加密钱币实体和买卖发生,监控加密钱币空间是一项具有挑战性的义务。

解决方案

因此,人们有兴趣行使开源信息,例如新闻网站或社交媒体平台,来识别可能的平安漏洞或非法流动。在与Lynx Analytics的互助中,我们(来自新加坡国立大学的一个学生团队)已经致力于开发一个自动工具,以刮取开源信息,展望每篇新闻文章的风险分数,并标记出风险文章。这个工具将被整合到Cylynx平台(https://www.cylynx.io/)中,这是Lynx Analytics开发的一个工具,用于辅助羁系机构通过使用种种信息源监控区块链流动。

开源信息的数据获取

我们确定了3类开源数据,这些数据可以提供有价值的信息,辅助检测加密钱币领域的可疑流动。这些类别是:

传统的新闻网站,如谷歌新闻,它将讲述重大的黑客事宜。

加密钱币专用新闻网站,如Cryptonews和Cointelegraph,它们更有可能报道小型实体和小型平安事宜的新闻。

社交媒体网站,如Twitter和Reddit,在官方公布黑客新闻之前,加密钱币所有者可能会在那里公布有关黑客的新闻。

检索文章和社交媒体帖子的内容,然后确立情绪剖析模子。该模子为文章中提到的实体分配了一个风险流动的概率。

情绪剖析模子

我们尝试了四种差别的自然语言处置工具举行情绪剖析,即VADER、Word2Vec、fastText和BERT模子。在通过选定的要害指标(召回率、精度和F1)对这些模子举行评估后,RoBERTa模子(BERT的一个变种)显示最佳,被选为最终模子。

RoBERTa模子对新闻文章(题目和摘录)或社交媒体帖子的文本举行处置,并为特定文本分配一个风险分数。由于该文本在数据网络过程中已经被标记为实体,我们现在已经有了加密实体的相关风险指标。在后期,我们将多个文本的风险分数连系起来,给出一个实体的整体风险分数。

RoBERTa原本是一个使用神经网络结构确立的情绪剖析模子,我们将最后一层与我们标注的风险分数举行映射,以顺应风险评分的环境。为了提高模子在未来文本数据上的通用性,我们举行了几种文本处置方式,即替换实体、删除url和替换hash。然后我们使用这个显示最好的模子举行风险评分。

风险评分

现在,每篇文章都有一个相关的泉源(news/reddit/twitter),一个风险概率和一个计数,指的是文章被转发、分享或转发的次数。为了将这些风险概率转换为加密钱币实体的单一风险得分,我们首先将文章的概率值缩放到0到100的范围内,并获得每个泉源的加权平均值,连系文章的风险得分和计数。加权平均数用于对计数较高的文章给予更大的重视,由于份额数目很可能解释文章的相关性或主要性。

在计算出各泉源的风险得分后,我们对各泉源的风险得分举行加权求和,获得综合得分,公式如下:

传统的新闻泉源被赋予了更高的权重,由于这些泉源更有可能报道重大的平安漏洞(相对于单个用户的黑客事宜)。

该解决方案的有效性

我们在2020年1月1日至2020年10月30日的174个加密钱币实体的名单上测试了我们的解决方案,并将结果与该时间段内的已知黑客案例举行了对照。我们发现,我们的风险评分方式显示相当精彩,在37个已知的黑客案例中识别了32个。我们还剖析了我们的解决方案对单个实体的有效性。下图显示了Binance从2020年1月1日至2020年10月30日的风险评分。虚线红线代表已知的黑客案例。从图中我们观察到,我们的解决方案讲述了5个已知黑客中的4个黑客的风险得分增添。也有几个峰值与已知黑客案例不一致。然而,这并不组成一个主要问题,由于对我们的模子来说,更主要的是识别尽可能多的黑客,削减未识别的黑客数目。

有趣的发现

在风险评分过程中,我们注意到,与规模较小的实体相比,规模较大的实体的风险评分往往有较大比例的假阳性纪录。这是由于大型实体被谈论得更多,因此会有更多的负面帖子和虚伪谣言,从而导致更高的不准确率。

另一个值得强调的有趣趋势是,围绕着黑客攻击通常有几个显著的岑岭。这是由于差别数据源的反应时间差别。社交媒体网站Twitter和Reddit通常是第一个看到高风险事宜发生时的岑岭,由于用户会发帖提出他们观察到的异常情况,好比一个实体的网站在没有事先通知用户的情况下宕机。官方新闻一样平常是在官方声明之后,稍后才会公布。

局限性

我们发现,我们的解决方案有两个潜在的局限性,首先是需要不断地维护网络器。网站设计可能会随着时间的推移而改变,这些网站的刮擦器需要更新,以确保相关信息仍能被检索到,从而到达风险评分的目的。

第二个限制是,验证一篇文章是否已被准确地标记为加密钱币实体是具有挑战性的。例如,一篇报道Bancor可疑流动的文章可能也会由于一个不相关的事宜提到Binance。我们的解决方案会错误地将新闻标记为两个实体,并将Binance标记为风险,纵然它不是文本中的要害主题。然而,这并不是一个主要的限制,由于我们只使用新闻文章的题目和摘录来举行风险评分,这通常只包罗文章的要害信息。

结语

我们的项目让羁系机构可以轻松挖掘开源信息,更好地识别加密钱币领域发生的风险事宜。我们提供了一个剖析文章并展望风险分数的语言模子,以及凭据实体和泉源信息汇总这些分数的方式。这些方式都被编织成一个可以端到端运行的自动化流水线。将该项目整合到Cylynx平台中,将对其现有功效举行弥补,并为羁系机构识别高风险加密钱币实体提供伟大的辅助。

加入新手交流群:每天早盘分析、币种行情分析

添加助理微信,一对一专业指导:chengqing930520

加入新手交流群:每天早盘分析、币种行情分析,添加助理微信

一对一专业指导:chengqing930520