ListenHub

5-7

原野: 哎，今天咱来聊聊Stripe那个“Transformer支付模型”，听着挺玄乎的。据说能把欺诈检测率提一大截？我就纳闷了，支付跟那个“变形金刚”有啥关系？难不成是把咱们刷卡支付当一句话来分析了？老王，你给咱说说，这到底是咋回事儿？

晓曼: 哈哈，你这比喻挺逗。其实啊，你可以这么理解，以前搞支付风控，那都是老套路。啥BIN码啊，邮编啊，卡类型啊，搞一堆小表格，做各种特征工程，累死累活。现在Stripe聪明了，直接把每笔交易当成一个“词”来学。

原野: 词？什么意思？

晓曼: 就是说，他们先拿几百亿笔交易喂给Transformer，让它自己学习，然后给每笔支付生成一个“嵌入向量”。

原野: 嵌入向量？这又是个啥？听不懂啊！能再通俗点儿不？

晓曼: 行。你就想想，咱们平时用NLP处理文本，把“苹果”、“橘子”这些词变成向量，模型就能知道它们很相似。Stripe也是这意思，它把卡号、IP地址、邮箱、金额，所有这些支付信息，都当成一个“序列”，然后让Transformer去挖掘它们之间的关系，最后把这些关键信息浓缩成一个高维的向量。这么一来，相似的支付就会自然而然地排在一起，比如说，同一家银行的卡，同一个邮箱的支付，它们生成的向量就很接近。

原野: 哎呦，听着有点儿意思了。那具体到防欺诈上，它到底有多厉害呢？

晓曼: 这么说吧，以前用传统机器学习，大概能拦住80%的信用卡攻击。现在Stripe这个新模型，直接从基础嵌入里提取序列，能发现那些对抗性特别强的，特别微妙的欺诈模式。据说检测率直接从59%蹭蹭蹭涨到了97%！

原野: 97%？我滴个乖乖，这太牛了吧！那这玩意儿是不是只能用来做欺诈检测啊？

晓曼: 这才是它最厉害的地方。同一套嵌入，还能用在授权、争议处理等等其他任务上。就跟咱们学英语一样，语法学明白了，阅读、写作、翻译啥都能用。支付其实也有它的“语义”在里面，交易之间是有顺序的，有些特征之间会互相影响，光靠人脑盯着，或者做一些手工的特征工程，根本不够用。

原野: 我明白了！就是说，Transformer的厉害之处，在于它能把那些错综复杂的支付“语义”给学出来，然后用到各种不同的场景里？

晓曼: 完全正确！Stripe就是把支付场景当成自然语言处理来搞，让模型自己去摸索数据里隐藏的模式。这一招啊，不光能提高欺诈检测率，还能提高授权速度，解决争议的效率也能跟着上去。

原野: 听你这么一说，我都想给咱自家系统也插个Transformer试试了！好，今天就先聊到这儿，感谢老王，也感谢各位听众的收听！

大纲

Stripe 构建了一个基于 Transformer 的支付基础模型，效果显著。
传统机器学习模型（基于 BIN、邮编、支付方式等离散特征）在提升 Stripe 产品方面有局限性：需要选择特征，且每个任务（授权、欺诈、争议等）都需要单独训练。
新模型是自监督网络，为每笔交易学习密集、通用的向量，类似于语言模型的词嵌入。
该模型在数百亿笔交易上训练，将每笔收费的关键信号提炼成一个通用的嵌入向量。
可以将结果视为高维向量空间中支付的大量分布，每个嵌入的位置捕捉了丰富的数据，包括不同元素之间的关系。
相似的支付自然聚类：来自同一发卡行的交易更接近，来自同一银行的交易更近，共享同一电子邮件地址的交易几乎相同。
这些丰富的嵌入使得更容易发现细微的、对抗性的交易模式，并构建更准确的分类器（基于单个支付的特征及其与序列中其他支付的关系）。
在打击信用卡测试攻击方面，传统机器学习方法已经减少了 80% 的攻击。
新模型构建了一个分类器，摄取来自基础模型的嵌入序列，并预测流量切片是否受到攻击。它利用 Transformer 架构来检测交易序列中微妙的模式。
该方法将大型用户信用卡测试攻击的检测率从 59% 提高到 97%。
基础模型的真正力量在于，这些相同的嵌入可以应用于其他任务，如争议或授权。
支付具有语义意义，就像句子中的单词一样，交易具有复杂的顺序依赖关系和潜在的特征交互，这些是手动特征工程无法捕捉的。

脚本