用统计学分析了5108个打工人的人生,我发现了赚钱的秘密|青工所2

过去几个月,我开始了一场关于赚钱的深度研究:学历高赚钱更多吗?长得高赚钱更多吗?健身、读书、学英语能帮你赚更多钱吗?

我研究了88个和收入有关的因素,从父母、学历、家庭人口,到心理状况、发朋友圈频率,涵盖了你能想到的方方面面。在一个包含了1312个变量和28530个观测数的庞大数据库里,我质疑数据、清洗数据;最后,我看到了5108个普通人的人生。

我做的这一切,并不是想提供一套可以照方抓药的「赚钱秘籍」,因为这88个变量加起来,对于「我们怎样才能赚到钱」这件事,也仅仅只有46.7%的解释力。

究竟是什么在影响我们的收入?这其中,有多少是我们可以掌控的?

我过往的许多模模糊糊的感受,在这个研究的过程中一再被凿实;它也让我看清,究竟是什么样的变量牵引着我们走到了今天。

这句来自福尔摩斯的金句被印在了这本统计学经典教材的第一页,读起来很抽象,但统计学主要就干两件事:描述统计和推断统计。

而我们要做的,更接近推断统计,列出方程,找到事物之间的关系,把模糊的关系变成精确的数字。比如:

房价每上升1%,婚龄人口初婚年龄平均增加1.108岁;

认同「男生更擅长数学」的男生,数学分数高4.8%,而认同这一观念的女生,数学分数低5.4%;

紫外线强度每增加1%,劳动活跃度降低1.3%,人均GDP降低1.5%。

而这个过程,被叫做回归——regression。如果用可视化的方式表现出来,回归方程其实就是在图上画一条线。如果图上的数据点离这条线越近,它的模拟和预测效果就越好,意味着我们找到了事物之间的规律。

2021年,DavidCard等人凭借劳动经济学的研究获得了诺贝尔经济学奖,核心就是靠他画出了几条这样的线,证明了移民的增加并不会对本地劳动力的失业率和工资水平造成显著影响。

具体到我们关于赚钱的研究里,其实要做的,也是画线。

在统计学的世界里,线对应着方程,而大家最常用的经典方程,其实只是最符合常识的方程,比如——明瑟收入方程。

1974年,劳动经济学家雅各布·明瑟分析了受教育程度、工作经验和收入之间的关系,提出了这个经典方程:

明瑟方程猜想,教育程度越高、工作经验越丰富,收入就越高。所以,我们的最终收入,就是最低工资加上这两部分的带来的增益。

具体到公式,每多上一年学,工资收入增加ρ,而每多工作一年,工资增加β1,不过工作经验带来的收入增幅是有上限的,所以还需要加上一个x平方项,前面的β2是负数,让增速逐渐减慢。

而这个ln是自然对数,它可以缩小工资的变化范围。

现在,为了计算任意教育程度和工作年限的人的期望收入,我们还差的是这四个固定参数w0、ρ、β1、β2的值。我们需要大量的人的收入、受教育年限、工作经历的数据来确定这四个常数项的值。

但问题是,上哪找那么多人自爆工资呢?

最初,我想到了国家统计局,但他们表示不太方便提供数据。

一番搜索后,我找到了一个数据库,CFPS(ChinaFamilyPanelStudies)——中国家庭追踪调查。这是国内一个大规模、综合性的、以学术为目的的社会追踪调查项目,它的基线样本覆盖25个省、市、自治区,代表了中国95%的人口。

而问卷本身也足够复杂,这里我们可以看到CFPS完整的问卷逻辑流程。一共分成了24个模块,每一个模块里,都是一张这样庞大的流程图。

这些线表示提问流程,根据不同的回答引向不同的分支问题。

比如提问雇主性质,如果属于前三类公务员性质的才继续问「是否有编制」,而如果雇主属于个人家庭,就追问雇主是否是个体工商户。问卷里也有一些非常生活化的内容。比如对于大于16岁的受访者会询问是否相信鬼、相信风水,对于小于16岁的会询问每月有多少零花钱、去不去KTV舞厅网吧。而对于已婚人士,还会关心他们对伴侣的满意程度。

按照类似这样的逻辑,CFPS问卷中针对每一种细分情况都有进一步的追问,确保收集到足够详细具体真实的数据。这样,也就产生了许许多多针对不同情况的变量。

当然,肯定也少不了关于个人收入情况的调查。而我们想要研究的关于赚钱的一切,就隐藏在收入和这些变量之中。

而这么宝贵的数据,我们普通人也是可以免费使用的,只需要注册账户、提交申请,通过审核后就可以下载了。

用数据分析软件STATA打开CFPS2020个人库,我们可以看到一张有着个人ID、年龄、学历、婚姻状况、生活习惯等1312个变量和28530个观测数的巨大表格。

根据明瑟收入方程,我们需要获得人们收入、教育和工作经验的数据。

我找到了名为emp_income的变量,它代表过去12个月所有工作的税后工资性收入,以及代表教育年限变量cfps2020eduy,但并没有工作年限。好在,我们还可以根据定义来计算,用受访者年龄减去他的受教育年限再减去平均入学年龄6岁就是他的工作年数了,写成命令就是这样:

genworkingyear=age-6-cfps2020eduy之后,我们只需要再生成工资的对数项和工作年限的平方项,就有了明瑟方程里的全部变量。

genwk2=workingyear^2genlnw=ln(emp_income)接下来,只要进行回归,我们就可以计算明瑟方程里的全部未知数了。

根据我们设定的回归方程和CFPS数据,如果把收入作为z轴,教育年限作为x轴,工作年限作为y轴,我们还可以在三维空间里完整表示出它们之间的关系,这里的每一个点,都代表了一个具体情况下的人的收入。

0教育0工作经验的人的工资是每年2万3千块,上16年学也就是本科毕业后增加到年薪3万7,再有10年工作经验的话,会到每年4万1千多块,相当于每月3471.6元,税后。

emmmm,是不是有点太低了?

重看我们的数据就会发现,这个结果确实有点问题。小孩、老人,不领工资的农民其实都不在关于工资问题的讨论范围之内,要得到更准确的结果,就得去掉这部分人的数据。

去掉这部分人群后,数据库的观测人数从28530人直接降到了5108人。

重新计算,结果会怎样呢?

最明显的变化是,教育水平的影响变大了,学历越高,差距越大。但相比筛选数据之前,工资提升也挺有限的,本科应届生工资只多了400块。

问题出在哪?

让我们再重新审视一下明瑟方程,一个明显不太自然的地方是,明瑟方程假定了每多一年教育对应的收入增幅都是恒定的,但实际情况显然不是这样。

10年和11年教育经验的差距,会远远小于11年和12年教育经验的差距,因为前者只是从高一到高二,只有初中文凭,而后者则是从高三顺利毕业,拥有高中学历。

或许,我们可以试试去掉教育年限,直接把学历作为变量,让明瑟方程变成这样:

比如一个人是高中毕业后工作,那么就可以用文盲+小学+初中+高中的收入数值加工作年限情况来计算,这样还能更直观的看出来,每多完成一个学历,到底具体能多多少钱。

用这个新方程再计算一次,结果看起来靠谱多了。2020年,本科应届生的月薪已经能有4000,硕士更是到了6000。收入和教育之间的关系不再是沿着曲线稳定提升,而是随着学历阶跃式上升。而提升最大的还得是本科,相比高中学历有着1.7倍的工资涨幅。

看起来,我已经找到了赚钱的秘诀,只要学历高,工资就会变高。

真的是这样吗?

r-squared,r的平方,这个指标的中文可以说成是决定系数或者是拟合优度,顾名思义,就是拟合的优秀程度,专门用来评价回归结果对于数据的解释力有多高。

r方表示的其实就是线和点之间的关系,它们越接近,r方越大,线的预测效果就越好。R方等于1,则完美拟合,意味着这条线可以100%解释每一个数据点。

而在我们刚刚的研究里,r方怎么样呢?

第一版回归结果里,r方只有0.09,筛完数据分好学历,也只上升到了0.16。

0.16的r方大概是什么概念?

如果用一个二维点阵图表现大概就是这样,的确有一些隐隐约约的趋势,但还存在着大量无法被解释的数据。也就是说,我们刚刚辛辛苦苦算出来的,学历和工作年限对收入的影响,只有16%的解释力。

要更进一步接近赚钱的真相,我们唯一能做的,就是加入更多变量,比现在多得多的变量,才有可能在多维空间里足够接近现实世界的数据,让r方尽可能变大。

我们可以试着先加入一个变量,比如——你所在的城市。

不过由于CFPS2020的数据隐私保护,我们暂时只能分出「北京上海」和「其它城市」这两类。北京上海拿到的工资几乎是普通城市的2倍,2020年,本科应届生在北京的月薪已经能有6677元了。

增加城市变量的同时,r方从16%提高到了19%,这意味着我们对工资的解释力又强了一些。

但是这还远远不够,不如来个大的,一次性把CFPS里所有可能和工作有关的变量全部都筛选出来,全部加入到方程中,看看结果如何。

在筛选变量的过程中,我似乎看到了5108个不同的人生,每一个变量,每一次选择,让我们成为了今天的自己。

这里有那些你一出生就已经决定的事情:性别、民族、父母学历、家庭情况;也有很多你自己的重大选择:在什么城市工作、从事什么行业、是否结婚、有几个小孩;然后也有你和这个世界相处的方式:你的人缘、信念、和父母的关系、心理,也有很多看起来无关紧要的生活习惯:是否午休、是否吸烟、你的运动和发朋友圈频率。

在实际筛选的过程中,我选择了回答率比较高的、尽量贴近日常生活的变量,排除了答案有明显耦合的变量。例如,有个变量来自问题「你对伴侣对于家务的贡献满意度如何」,这个问题本身是有价值的,但回答这个问题的前提是当前有伴侣、非单身,那么这个问题就和「当前婚姻状况」的问题耦合了,这会让两个变量的结果都不可靠。

最后,我选出了88个新变量。

接下来要做的,就是体力活了。分析变量、理解变量、清洗变量,把它们一个一个加到修改好的明瑟方程里,现在,我们已经有了一个这样的超级公式。

来看看美丽的统计学究竟会告诉我们什么。

首先,需要说明的是,下面的数据只是来自我们对这些生活在2020年的5000多个打工人的分析结果,无法绝对客观的反映社会现实,但是,如果你把自己代入进这5108个不同的人生,感觉就不一样了:

你们的平均工资是4583元,如果工资超过2万5,已经可以排进前10%,而最差的10%,月薪不到2200元。

对工资影响最大的,是城市、行业和学历。

博士收入是文盲收入的2.4倍,即使是本科毕业,收入也比高中毕业高24.4%,不过看起来,小学初中和高中学历的工资差距倒不大。

最赚钱的行业确实是我们大家都知道的金融、计算机、房地产,他们比收入最低的农林牧渔业要高百分之四五十,不过到了2023年,房地产的收入就不好说了。

而差距最大的因素,还是城市。在北京工作,会在比工资最低的宁夏收入高2.5倍,比大多数内陆省份都要高40%到60%。

但对于外地人来说,在北京这样的城市工作,也要承担巨大的代价。数据告诉我们,88.6%的人都选择在自己出生的省份工作,而在北京上海出生的人里,更是有98.7%都在本地工作,当然,很有可能是那些选择出国的人已经调查不到了。

所以,或许你收入不错,但你要知道,这里有不少其实来自你天生的优势。

除了你的出生地,如果你长的高,会比最矮的人群收入高大约20%(男26.9%,女14.2%)。如果你的惯用手是左手,会比其他人收入高15.6%。如果你性格外向擅长交际,收入会比人际关系最差的高24.4%。

不过,家里有没有钱,对于工资收入的影响倒是没有想象的那么大,家庭资产超过1000万的,比资产不到1万的,工资也仅仅只高了35.9%而已。

但努力始终是有意义的,2010年,这1546个在北京上海工作的人里,来自外地出生的人比本地人的收入要高19.6%,因为能留在大城市,意味着他们已经足够优秀。

另外,我们还发现了很多你可能没有意识到的神秘因素:

最近抽烟的比不抽烟的收入高11.3%。

每天睡10小时以上的人,比睡6–7小时的人,收入高9.3%。

和父亲关系不亲近比和父亲关系亲近的收入还要高8.2%。

至于为什么会这样,我们其实也难以解释,或许你会有自己的答案。

除此以外,其实还有大量无关紧要的变量。我按照对工资的影响程度从大到小做了一个排序,你会发现,最重要的学历、城市、行业、性别、婚姻这几项,已经超过了最不重要的六十多项变量。

所以,在我们做完这一切之后,现在的r方有多大了呢?

——46.7%。

统计学竟然可以解释46.7%,也仅仅只能解释46.7%。

所以,我们所做的这一切究竟有什么意义?

在开始这期关于赚钱的研究之前,我以为我可以通过统计学找到一些变有钱的规律,读大学可以增加24%的收入,人缘好增加24%的收入,偶尔发朋友圈增加8%的收入,诸如此类。

但我们现在知道,这些并不是原因,而是结果。

统计学研究并没有为我们指明未来的方向,但统计学告诉了我们如何看清自己,看清究竟是什么样的变量牵引着我们走到了今天。

从小学开始,当代生活和现代教育就在要求我们理性,要求我们量化一切,要求我们寻找一种确定性的答案和路径。上什么样的辅导班、考什么样的大学、找什么样实习、选什么样的研究生专业、上岸国企、上岸公务员、上岸互联网大厂、然后买房、结婚、生子、再为孩子计算他的人生。

我很难评价这样是否正确,对于我们很多人来说,追逐那46.7%的确定性已经是唯一可以抓住的机会。

但统计学也告诉我们,总有53.3%是无法被计算的,这其中除了运气,也包含了种种后天的选择,交往的朋友、个人的品德、生活的勇气、坚定的信念…只是它们的影响暂时无法用统计学来量化。或许那些无法被计算的部分,才是真正的你。

而无论你选择什么样的叙事,别忘了,虽然总的可能性不变,但个体永远有无限可能——这就是统计学。

THE END
1.我一真在研究赚钱,该怎样去赚钱。研究赚钱其实就是研究人的需求,当有我一真在研究赚钱,该怎样去赚钱。 研究赚钱其实就是研究人的需求,当有需求时,你还要研究需求足不足够大,因为只有需求足够大时,你才能容易赚到钱,并赚到大钱。 美国著名经济学家萨缪尔森曾经说过,学习经济学是再简单不过的事,只需要掌握两件事:一个叫供给,一个叫需要。我认为套在赚钱上面是同一个道理。 https://xueqiu.com/2177182778/310329598
2.网赚研究院网赚研究院是教您怎么网上赚钱兼职项目、手机赚钱软件分享及创业招商加盟赚钱的网赚论坛,国内老牌的网赚论坛之一,致力于分享免费创业网赚项目与干货,为您人生打造第一桶金!https://www.guajiba.com/
3.阿懒赚钱研究所的微博阿懒_赚钱研究所,互联网科技博主。阿懒_赚钱研究所的微博主页、个人资料、相册。新浪微博,随时随地分享身边的新鲜事儿。https://weibo.com/alanzoo
4.我来给大家科普一下偏门赚钱路子《研究发现》手机知乎网VK我来给大家科普一下偏门赚钱路子《研究发现》 偏门赚钱路子【导师QQ:6902842】【罔:678qy.cc】【ac777.vip】牙签万轴裹红绡,王粲书同付火烧。【QIANYIFA】 不于祖龙留面目,遗篇那得到今朝。令节晓澄霁,四郊烟霭空。天清白露洁,菊散黄金丛。 寡德荷天贶,顺时休百工。岂怀歌钟乐,思为君臣同。https://vk.com/topic-224883735_49624832
5.真有人靠研究这玩意赚钱的吗?在运气面前技术狗屁都不是机选5注中奖率吊打一切技术派https://www.17500.cn/arts/sdetail-11064586.html
6.他用一生研制疫苗,免费让出专利,却成了药企赚钱的工具别人冒着生命危险不图回报的研究成果,却变成药企赚钱的工具,真的太可悲了。 04 说完沉重的话题,因为现在曝出的百白破疫苗事关孩子,出事了一度使家长陷入恐慌,我们就一起来看看这些常见的问题吧。 不合格的百白破疫苗流向了哪里? 这次的疫苗事件其实是去年年底的问题,长春长生产的百白破疫苗主要流向了山东,武汉生物生产https://www.jianshu.com/p/e1ee2f434307
7.超五成大学生有脱发困扰,早睡早起能增加“睡后收入”?与其花时间去焦虑,不如去研究怎么赚钱 其实我们都不缺少赚钱的能力,只是需要提升赚钱的思维。 比如有的人每天加班到12点,终于在一年多之后换来了涨薪1000。但是算一下时薪呢,拿薪水除以工作的小时数,居然发现时薪降低了?! 更何况这种方式带来的收入增长太有限,毕竟我们每天就24小时。 https://static.nfapp.southcn.com/content/201905/31/c2280779.html?group_id=1
8.[短视频运营]头条付费专栏的赚钱模式,值得研究一下今天头条上搞流量一直是比较容易的,但是以前的盈利模式,基本上都是靠广告。后来今日头条给作者搞了一个新的盈利方式,叫付费专栏。我观察了一下,这个付费专栏的赚钱模式,值得我们研究一下。 看下面这张图: 他这一个专栏,付费用户是1000多人,收入已经过20万。而且这样的专栏,在他这个号上已经开了11个。他有没有http://www.zhihuichuangye.com/xiangmu/9659.html
9.女研究生为赚钱兼职刷单1小时内被骗1.8万“原本,我也不相信这些所谓的网上刷单。”10月3日,当记者拨通小宋的电话时,她没说几句,声音就哽咽起来。小宋告诉记者,如果不是被骗前一晚,老乡跟她说网上兼职可以赚钱,自己也不会鬼使神差地点击那个链接。 9月27日,小宋去找老乡聊天,得知老乡最近忙着网上兼职,只要完成对方交代的任务,就能轻松赚取佣金。见老乡https://m.dbw.cn/shehui/system/2017/10/04/057800024.shtml