随着网络科技的飞速发展,诈骗手法层出不穷,有时令人防不胜防。记得在1990年代,早期的网络钓鱼攻击是利用伪造的电子邮件,欺骗毫无戒心的受害者。后来,随着手机的普及,网络钓鱼攻击演变成利用伪造短信进行诈骗。在当今人工智能(artificial intelligence,简称AI)技术迅猛发展的时代,这种演变进入了一个新阶段,现在不法分子正在利用语音克隆(voice cloning)技术,更大范围地进行语音网络钓鱼(voice phishing,也称为vishing)攻击。
常见的一种诈骗方法是发送由AI生成的语音邮件信息,听起来好像是惊慌失措的子女或孙辈发过来的一样。信息里面通常有一个虚假的银行链接,催促家庭成员点击进行汇款。
英国网络安全培训平台StationX的首席执行官内森‧豪斯(Nathan House)告诉《大纪元时报》:“语音网络钓鱼攻击的常见脚本是一个让人倍感压力的出现‘紧急问题’电话。”
“来电者伪装成你的银行的电话号码,讹称你的账户被入侵,需要你‘验证’他们刚刚发送的一次性密码,实际上那是你真正的双重验证密码。
“其它的诈骗方式还包括,冒充警察、公用事业公司或惊慌失措的亲戚来电,要求提供紧急资金。
“这类诈骗有以下几个特征:来电显示的是一个值得信赖的名字,使用情感或经济威胁,要求立即采取行动,通常是分享个人保密资讯、转发验证码或者进行汇款等。”
立陶宛一家专注于网络安全的出版物《网络新闻》(Cybernews)的主编尤尔吉塔‧拉皮尼特(Jurgita Lapienyte)透露,如今的语音钓鱼网络诈骗变得日益猖獗。
她警告说,虽然目前而言,人工智能语音克隆技术只能按照预定的脚本进行,无法实时回答问题或对回应作出自动反应,然而,人工智能语音克隆技术最终将真正学会如何表现得更像人类,并变成攻击人类的武器,这只是时间问题。
“如果我感觉真的是在和亲戚说话,我会更愿意借钱给他们,因为我确信和我对话的就是真实的那个人。这样实在是太危险了。”拉皮尼特说道。

美国联邦调查局(FBI)互联网犯罪投诉中心(Internet Crime Complaint Center,简称IC3)于4月23日发布的年度网络犯罪报告显示,2024年该中心共收到193,407宗网络钓鱼或网络诈骗投诉,即骗子通过假冒的电话号码,诱骗受害者以为自己接到真正的电话,这成为最普遍的诈骗类型。相比之下,勒索投诉为86,415宗,恶意软件投诉为441宗。
豪斯认为,联邦调查局的数据显示了网络钓鱼或网络诈骗问题的普遍性。
“网络钓鱼(phishing)、网络诈骗(spoofing)以及它们的分支骗术,如语音网络钓鱼(voice phishing,简称为vishing)、网络短信钓鱼(smishing)、二维码网络钓鱼(QR phishing,简称为Quishing)等,多年来一直是网络犯罪的主要力量,因为它们的运作成本很低,而且几乎不需要任何技术技能,就能接触到数百万个目标受害者。”他说道。
拉皮尼特认为,利用语音克隆进行诈骗的成本已经变得越来越低。
“在2020年,如果你想克隆一个声音,大概需要长度在20分钟左右的录音。”她介绍说。“现在,随着人工智能和自动化以及其它创新技术的发展,你只需要某人几秒钟的声音录音,就可以仿制出……与你试图冒充的人极为相似的录音。”
豪斯说,骗子只需要几秒钟的音频,例如通过“TikTok上的片段或简短的假装打错电话”获得的声音,就能利用人工智能语音克隆工具制作出令人信服的复制语音。
“这大大降低了犯罪成本和技能门槛。”他说道,“犯罪分子不再需要录音室质量的声音样本或冗长的录音文件。因此,他们可以攫取网上发布的片段,将其输入免费的克隆引擎,然后开始拨打电话。”
根据IC3发布的数据,2024年,60岁以上的老年人因网络犯罪而遭受的经济损失接近50亿美元,该机构收到的这类型的投诉也最多。
总部位于英国伦敦的德勤金融服务中心(Deloitte Center for Financial Service)在2024年5月发布的一份报告中预测,到2027年,人工智能诈骗在美国造成的损失可能达到400亿美元。
2023年5月,35岁的泰杰‧弗莱彻(Tejay Fletcher)被伦敦一名法官判处13年零4个月的监禁。弗莱彻参与运营了iSpoof网站,该网站成为众多骗子的“诈骗商店”。使用该网站软件的骗子共骗取英国居民约4,300万英镑(约合5,700万美元),还从美国的受害者那里骗取了数目不详的巨款。
骗子在该网站购买交互式语音应答(Interactive Voice Response)等诈骗软件,弗莱彻及其同伙通过出售这类软件获得了112.6比特币(约合108万美元)。
2019年,据《华尔街日报》报导,一个网络钓鱼骗局骗取了英国一名能源公司高管的信任,让他相信自己是在和德国的老板通话,从而转走了22万欧元(约合24.3万美元)。
“虽然我们很少在头条新闻中看到语音深度伪造诈骗的报导,然而几乎可以肯定的是,这些骗局没有被媒体曝光,是因为公司害怕声誉受损。”豪斯说道。
“只有少数几宗案件被公开报导,然而企业邮箱信息泄露造成的损失,每年已达数十亿美元,而这些针对首席执行官的语音诈骗案正是其中的案例之一。‘假冒语音诈骗’的损失总和可能高达数百万美元。”。
豪斯指出,大多数事件都被当作电汇欺诈来处理。
拉皮尼特也认为,网络钓鱼和其它网络诈骗的报案率很低,尤其是老年人,他们往往羞于承认自己被骗,“因为他们感到孤立无援,不想被人嘲笑”。
联邦调查局(FBI)局长卡什‧帕特尔(Kash Patel)在4月23日的一份声明中说:“举报是打击犯罪的第一步,也是最重要的一步,执法部门可以利用这些信息打击各种欺诈和骗局。”

帕特尔呼吁:“公众必须立即向联邦调查局报告可疑的网络犯罪活动。”
值得注意的是,来自中国的有组织犯罪集团(如三合会组织14K等)近年来在柬埔寨、老挝和缅甸建立了大规模的网络诈骗园区,目标瞄准了美国人。
艾琳‧韦斯特(Erin West)曾经是一名检察官,现在负责非营利组织“三叶草行动”(Operation Shamrock),该行动旨在提高公众对网络诈骗行业带来的威胁的认识。她说,公众惧怕三合会组织的程度,“应该像惧怕任何作恶多端的民族国家(nation state)一样”。
“他们的规模那么大,那么有组织,资金也那么雄厚。”她最近在接受《大纪元时报》采访时说道。
拉皮尼特还透露,东南亚网络诈骗行业现在更倾向于进行大规模的网络钓鱼攻击,而不是只针对“大鱼”。
她说,虽然骗子可能会以盯上老年人和独居人士,然而他们行骗的目标往往是随机选择的。
“(诈骗的目标)可能是任何人。”拉皮尼特介绍说,“骗子也有他们最喜欢的诈骗时间,比如节假日或早晨,因为在这些时间人们比较放松,或者思维还不太清晰。”
她指出,老年人往往是感情骗局的目标。
“在那些感情骗局中,骗子会塑造一个全新的角色。”拉皮尼特说道,“因此,他们绝对可以伪造任何一个声音。但我认为,当他们设法伪造某一个人的声音时,比如某个亲戚,或者公司里的某个同事,或者你认识的某个人,那就更危险了。……这就更私人化了。”

另外,拉皮尼特还指出,语音克隆技术对媒体也构成了威胁。
4月11日,英国《新闻公报》(Press Gazette)行业期刊报导称,包括雅虎新闻(Yahoo News)在内的多家媒体因为担心采访的所谓专家是人工智能生成的机器人,而删除了相关的文章。
“在人工智能出现之前,你需要先验证这个人是否是一个真实的人。”拉皮尼特说道,“所以你会拿起电话打给他们,简单聊上几句,确认一下自己正在和一个真实的人对话。”
她说,但是人工智能现在不仅能伪造视频,还能伪造声音,这使得核实受访者是否是真实变得更加困难。
拉皮尼特认为,虽然人工智能每天都在进步,然而目前的语音克隆软件还不能完美地模仿人类,它们的声音听起来往往像机器人,或者缺乏幽默感。
她举例说,AI生成的语音没有人类说话时常见的停顿、口误或者没有说完的句子。
“但我认为,他们迟早会达到这个水平,到那时就真的很可怕了。”拉皮尼特说道。
总部位于英国的数字挑战者银行(digital challenger bank)斯达林银行(Starling Bank)于2024年9月在油管(YouTube)平台上发布了一部影片。在影片当中,演员詹姆斯‧奈斯比特(James Nesbitt)对语音克隆骗局提出了警告。
“人工智能语音克隆诈骗正在兴起,任何人都可能成为受害者。”内斯比特在视频中说道。
他建议人们使用一个安全短语,如“家庭成员才懂的笑话”,用它来检查自己是否真的在和电话另一端通话的亲戚朋友进行对话。内斯比特的建议得到了斯达林银行的认可。

豪斯说,家庭成员之间的暗语“是一个简单而有效的障碍(speed bump)”。
“如果有人打来电话,声音听起来像你的儿子,他在求你交保释金时,你就说出你们之前商量好的短语,也就是一个外人猜不到的暗语。”他说道,“这样做将会令假冒亲戚的骗子演不下去了,或者挂断电话。”
他说,这种方法并非万无一失,但胜在技术含量不高,确实可以大大防止语音克隆骗局得逞。
但是拉皮尼特也提到了大多数人打电话时的现实情况。她说:“问题是,当你熟悉的人打来电话时,你不会试图核实他们的身份。你不会竖起保护盾问道,‘真的是我妈妈打来的电话吗?’
“说真的,我们不想生活在这样的世界里。”她说道。
除了个人加强防范之外,豪斯指出,银行和其它金融机构在应对网络钓鱼和网络诈骗方面也可以采取很多防范措施。
“银行在进行任何大额转账之前,都应该要求进行频外认证,也就是拨打客户存档的电话号码进行确认,而绝对不能仅仅依靠语音。”他说道。
他指出,美国的电话公司需要完成来电身份验证的推进工作,如联邦通讯委员会(Federal Communications Commission,简称FCC)要求的安全电话身份重现(Secure Telephone Identity Revisited,简称STIR)和签名声明资讯处理(Signature-based Handling of Asserted Information Using toKENs,简称SHAKEN),统称为STIR/SHAKEN。
他认为,电信行业还应该“积极标示或阻止诈骗电话号码”。
“网络安全团队可以对员工进行网络钓鱼演习,采用人工智能检测技术查找人工合成的声音,并在每个客户接触环节给出清晰的提醒,‘我们绝不会通过电话索要密码。’”豪斯补充说道。
“各种措施的组合拳可以增加骗子的犯罪成本,并为民众在做出决定的关键时刻提供更多的保护。”
原文:The Terrifying Way Scammers Clone Your Voice to Defraud Your Family刊登于英文《大纪元时报》。
【大纪元2025年05月08日 记者Chris Summers撰文/张紫珺编译】
责任编辑:高静