恋爱自由,结婚却要靠高数商
涂子沛
我曾经在天河棠下居住,不时有机会陪同家人去天河公园散步。公园深处有一个民间自发的相亲角。
看这个相亲角里的众生百态是件很有意思的事。一群老头老太太举着牌子,相互攀谈打听,牌子上写的正是自己子女的征婚启事:某某,政府公务员,肤白貌美,年薪多少,家里几套房,想找什么样的男士相濡以沫;某某,公司高管,高大英俊,年薪几十万,想与什么样的女孩携手人生。
看条件都挺不错的,他们本该都是职场得志、情场得意的人,想不明白,为什么条件这么好却单身。
走的地方多了,后来我发现每个城市都有自己的相亲胜地。北京有中山公园、玉渊潭、陶然亭,上海有人民公园和虹口公园,杭州也有,最有名的是黄龙公园。每个地方都有说不完的故事。
结婚在全世界都是难题,只是在中国更难一点而已。难!可难在哪?
难就难在信息。结婚是大事,每个人都希望在大量的信息基础之上,做出自己的决定,就是要挑,但一个人在日常生活中所能获得的信息是相当有限的,而且这些信息之中有价值的又寥寥无几。你挑别人,别人也在挑你。可以想象,要找到一个合适结婚的人需要投入大量的信息搜寻成本,当然还有时间成本、金钱成本。如果信息不优质,时间和金钱就会变成沉没成本,一切又要从头来过。所以老头老太太聚在公园,是在为孩子们寻找有效的信息。
因为信息少,很多人无法挑,他们结婚是靠“碰”。在茫茫人海之中碰到一个对眼又对路的人,这无异于大海捞针,真碰上了,再冠之以一个美好的词汇:缘分。如果怎么碰也碰不上,一个理性的人就只能观望、徘徊、等待,越理性就可能等待得越久。
就算这么难,耗费这么多资源,结局还不一定美好。有些人找错了人,只能马马虎虎凑合着过;还有些人过着过着过成了仇人。看看各国居高不下的离婚率,就能发现失败的婚姻占多大比例。
麦金利的故事
我下面要讲的是一个现代故事,男女主角在一起真不靠碰,而靠找,用数据找。
2012年,在加州大学洛杉矶分校(UCLA),有一个男学生正在攻读数学博士,他叫麦金利(Chris McKinlay),已经35岁了。像很多年轻人一样,麦金利在社交平台上很活跃,我说的不仅仅是微信这类平台,而是专门为婚恋交友而存在的平台,例如Match.com、J-Date、Zoosk、e-Harmony、Ashley Madison等。在这些平台上,有很多单身男女,他们来到平台的目的就是寻找另一半。
麦金利选择的平台是OkCupid,OkCupid也是哈佛大学的毕业生创办的。它的运营逻辑是通过问卷调查和个人动态获得大量的个人偏好信息,然后用算法对平台上的人进行两两匹配,这有点像滴滴平台上人和车的速配一样,不同的是,OkCupid匹配的是人和人。
问卷调查是在注册的时候进行的,是一个接一个的选择题,可能是单选,也可能是多选。这些问题五花八门,从个人的基本情况,如年龄、出生地、学历、身高,到美食、运动、读书等爱好习惯,再到对金钱、家庭、宗教、政治、性爱的观点,甚至包括对人类未来的预测、对人工智能的伦理等重大问题的看法。问题一共有几千个,一个人回答的问题越多,找到与自己精准匹配的另一半的可能性也越高。一般来说,很多人会回答300~400个问题。
OkCupid平台的工作,就是用算法不断地计算各个用户的数据,得出任意两个人的匹配度,这个匹配度用百分比来表示,数值越高就表明越匹配,100%就是天生一对,0%的话就是命中克星了。平台会把匹配度较高,例如90%以上的两个人推荐介绍给对方,两个人在成为平台上的朋友之后,开始互动。
OkCupid的平台上有上亿名用户,其中43%是女性,在麦金利居住的洛杉矶,也有8万多名女性是OkCupid的用户。但麦金利注册之后,OkCupid只向他推荐过几十位匹配度较高的女性,他向其中大部分发送过私信和邀约,但只约到过6个人见面,大多数邀请石沉大海。
为什么系统只给他匹配了几十人,而且还不精准呢?麦金利很快悟到了他匹配对象少的原因。
OkCupid算法匹配两个人的根据是两个人都回答过同样的问题。你没回答过对方回答过的那些问题,算法不可能无中生有进行匹配。而麦金利在一开始选择问题的时候,并没有经过深入思考,他选择回答的问题,可能他喜欢的女性完全不会选,因此他们的数据不可能联接,他们永远不会见面。
我没有用过OkCupid,但略加思考,不难发现,一个男人想要在类似的婚恋平台上找到理想的女性,大概需要按顺序完成以下几个任务:
1.清楚描述自己喜欢什么样的女性,越清楚越好,要用标签式的语言总结出来。
2.找出这些女性关注哪些问题,在这些问题上有什么偏好,推测她们在寻找什么样的答案。
3.在平台上回答这些女性关心的问题。
4.通过约会的线下行为来辅助筛选。
其中的关键,是第二步。这也是麦金利分析之后选择的路径。
当时在OkCupid平台上,有5000万名女性,那怎么发现她们最关心哪些问题呢,总不能一个个去看吧?麦金利的专业能力开始派上用场了。他设置了12个OkCupid的爬虫账号,并编写了一个Python(一种计算机程序设计语言)脚本来管理这些爬虫。这些爬虫会搜索麦金利心仪的大目标群体(25~45岁之间的异性恋和双性恋女性),访问她们的网页,搜集可以看到的一切有用信息,例如种族、身高、星座以及是否吸烟等个人信息,并保存下来。
当然,这些爬虫回答所有的问题,是一个自动的甚至随机乱答的过程,它们给出什么答案并不重要,因为它们的目标并不是吸引获得女性的注意力,而仅仅是看到并保存那些女性的数据。
但麦金利很快遇到了一个问题,因为这种爬虫是很多平台,包括OkCupid禁止的,不会有哪个平台可以接受别人把它的数据搬走,所以这些机器人忙碌了几个小时之后,OkCupid发现了它们的行为,麦金利的机器人一个接一个地被禁了。
麦金利的新对策是,找来了他的一些朋友,用交换的方式获得了他们的支持,在他们的电脑上安装爬虫机器人,用机器学习的方法训练它们在OkCupid平台上的活动,让它们像真人一样,OkCupid无法发现它们是机器人。
如此这般,十多个机器人在不同的电脑上每天24小时不间断地活动。三周之后,麦金利就获得了2万多名女性对600多万个问题的回答。
接下来,麦金利一头扎进了这些数据,开始了分析。
他用了一个叫K-Modes的算法,根据2万名女性对不同问题的回答,把她们分成7个在统计学上具有明显区别的类型,例如多元开放型、高端专业型、艺术创造型等。
当完成这个分类的时候,麦金利欣喜若狂。这意味着他接近于完成第一个步骤了,即把所有的女性按数据分好类,然后找出自己喜欢的类型。
记住,分类和聚类,就是大数据分析的核心工作。
分类和聚类,也是我们认识世界的基本方法。
在完成了一系列工作之后,麦金利再登录OkCupid平台,一刷新页面,仅仅几秒种,他骤然发现,他已经和上万名他喜欢的女性有了90%以上的匹配度。
从这一天起,平台上约会的私信就如长江水一般滚滚而来。
当一位女性知道一位男性回答了她所关心的所有问题,而且和她的匹配度很高的时候,她才会去关注这位男性一些其他的特点,才可能展开后续的聊和撩。更多的互动就发生了。现在开始,麦金利有约不完的会了。
随着约会次数的增多,他又慢慢总结出了高效约会的规律,例如不喝酒,不拖拉,只喝咖啡或者用简单的午餐,时间一到就结束,不去看电影或听音乐会,而是把注意力完全放在对方身上,这样一天他就能完成两场约会。
仅仅一个夏天,他就约会了55次。这55个人当中,只有三个人进入了第二次约会,而进入第三次约会的仅仅只有一个。
我们要注意的是,麦金利管理约会的方法,也体现了很强的数据思维。
真爱最终出现了。一位叫王婷(Christine Tien Wang,音译)的中国女孩主动给他发来了私信。她是一位28岁的艺术系女生,就在附近的一所大学就读,她在OkCupid上和麦金利的匹配度是91%。
这是麦金利和第88个女性的约会。他们在大学校园见了第一次面,然后一起散步到了校园里的一家寿司店,吃了一顿快餐,他们很投缘,很快又约了第二次、第三次。
两个星期后,他们不约而同地停止了OkCupid上的账号更新。
麦金利没有再公开他和王婷的具体后续,但据说在他获得博士学位之后,两个人就结婚了。他们在谈到这段往事的时候,认为数据的使用只是拉开了他们了解对方的序幕,给了彼此一个很好的心理预期,真正的恋爱还是开始于两个人见面之后。
麦小嘉的启示
事实上,我见过很多数据高手,例如在阿里巴巴,很多优秀的分析员、程序员都不是科班出身,他们可能受过很好的高等教育,但第一专业是机械、桥梁、光电,甚至是社会学、心理学。为什么?因为今天各种计算机语言、数据科学的课程资源已经无处不在,几乎都是免费的,包括哈佛大学的计算机课程,只要愿学就能学,兴趣才是一个人最好的老师。
那你会说,麦金利还是有几把刷子的,我一下子学不来!确实,用机器学习的方法分析数据,这些技能凸显了学会使用新工具的重要性。我要告诉你,无论你的专业曾经是什么,都应该有信心,因为真实的生活并
不需要那么多高级的工具,一些简单的技巧就可能非常管用。
我有一个朋友,叫麦小嘉,他很早就读过我的作品,也常常来和我一起讨论大数据。有一天一见面,他满脸欣喜,迫不及待地告诉了我一个好消息。
“你知道我和我女朋友前几天定下来了吗?啊,大数据帮了大忙,真的啊!”
没等我回答,他连珠炮似地给我讲了下面这个故事。
“上个月,我女朋友突然跟我说,她母亲要见我,约好的就是这个月初。我一听紧张得要命,要过丈母娘这一关了,听说这一关很难过,怎么才能把她赢过来呢?怎么办?我想起了大数据。我把女朋友的一切行为,我所知道的她父母的背景,用大数据的方法梳理了一遍,当天晚上我得到的结论是:她的母亲多半是爱钱如命的,还可能有点势利眼,这也正常,谁不重视经济基础,况且是嫁自己的女儿呢?这不就是这个时代丈母娘的特点吗?大数据分析表明,要做她家女婿,起码要有房子、车子,月入20000元以上。
“完蛋了,分析到这里,我感觉几乎被判了死刑,怎么办呢?还有得救吗?“在绝望之余,我突然想起女朋友告诉过我,她母亲担任过梨花曲艺社的社长。
“我又一次启动大数据,结果它告诉我这种人有什么特点:凡是喜欢唱戏的票友,大多数都是喜欢出风头的,都是喜欢人家称赞的,喜欢人家拍马屁的,我想也对,她们那么辛苦练一场戏,然后登台演出,就是希望观众拍拍手掌、大声喝彩,对,这就是票友的‘死穴’吧。
“我突然感到有一丝希望把她赢过来。我沉吟了一会儿,拨通女朋友的电话,问她谁是她母亲的偶像,再上网看她母亲的偶像,听她偶像的戏。接下来我找到了5段戏,马上开始学唱。练了三天,前天就见面了,我装作偶然提到她的偶像,她的眼睛忽然一亮,我又叹息说有一段我自己怎么唱都唱不好,哇,她马上打开话匣子,开始教我唱戏,不肯放我走,谈到最后,那表情好像马上要把我当做一家人的样子。
“没想到就这么简单,什么房子车子票子,通通见鬼去了。我和我女朋友的关系就这么定下来了!”
他冲着我大声说,沛公,怎么样,难道这些功劳还不属于大数据?!
怎么样?麦小嘉做的事情你还不会吗?我想告诉你,麦小嘉大学本科学的是艺术。
那什么是数商呢?从麦小嘉的故事来看,一个高数商的人,有能力在不同的时间、不同的地点快速找到对自己最有用的信息,今天的信息就是以数据的形式存在的,这也是数商的一个重要维度。
智商的高低集中表现在对信息的分析和处理上,但信息从何而来?一个人要决策,首先要获得信息,即数据。俗话说,巧妇难为无米之炊,数据就是米。今天的世界,信息无处不在,互联网上什么都有,几乎所有的信息都在那里,但很显然,每个人获得信息和数据的能力是不一样的,有的人能找到,有的人找不到,有人听了梨花曲艺社无感,而麦小嘉听到之后就知道去搜索、去组织、去使用新的信息和数据。这种能力的高低之分决定了人生的格局,很可能,你找不到称心如意的媳妇,过不了丈母娘这一关,并不是因为穷,而是因为数商低。
◎涂子沛,大数据专家、作家。近著有《数商》《给孩子讲人工智能》《给孩子讲大数据》等。
新闻推荐
境外高端紧缺人才在中山工作可享受个税补贴 368名人才获补贴金额逾3800万元
本报讯(记者张倩)记者昨日获悉,对在中山工作的境外(含港澳台)高端人才和紧缺人才给予个人所得税补贴等优惠政策,截至目前,中...