市场转型期的行业分割与收入不平等
上QQ阅读APP看书,第一时间看更新

第三节 研究设计

本书主要遵循“结构主义”的基本研究范式,从制度和结构的维度、采用定量研究的方法探讨不同分割场域下的行业收入不平等问题。

一 研究方法

“结构”视角是社会分层研究中的主要视角之一,通常认为,在社会经济生活中,存在各种对个人社会、经济地位产生重要影响的分割性结构(Segmentation)。[157]“分割逻辑”是结构主义的基本逻辑,我们将遵循这一逻辑展开研究。“结构主义”的研究视角是当前收入分配研究中比较盛行的研究范式。“结构主义”的分析是强调从结构和制度的角度来观察和解释社会现象的一种分析框架。[158]这一研究范式重视社会行为背后的社会规则,认为社会行为是被其所在的正式或非正式制度所刺激、鼓励、指引和限定的,社会事件是各种制度、社会关系(结构)复杂作用的产物,同时也是社会关系(结构)的反映。我们主要从两个维度来进行考察:一是制度的维度,由此观察不同体制性因素对行业收入不平等的作用和影响;二是结构的维度,由此观察不同分割场域下行业收入不平等状况及其影响效应。

基于“结构主义”的基本研究范式,我们主要采用定量研究方法进行研究。众所周知,关于社会科学的研究方法素有“定量研究”(quantitative research)和“定性研究”(qualitative research)之争,二者是基于两种不同研究范式的研究方法,各有优劣。一般而言,定量研究是研究者基于一定的研究假设,采用数量化的方式对社会现象进行考察,计算出相关变量的因果关系或相关关系,强调研究的“科学性”和“客观性”。其优势在于适合对宏观层面的社会现象进行大面积的调查和预测,反映社会现象的平均状态;而数量化的研究方式也决定了量的研究只能对社会现象可量化的部分进行研究,其研究结果亦只能代表抽样总体中的平均情况,难以深入细致地反映社会现象,对一些特殊个案亦不能兼顾,这些是定量研究自身难以克服的缺陷。相对而言,定性研究要求研究者对社会现象进行比较深入细致的描述和分析,强调研究的“情境化”和“主体间性”。其优势在于能对微观层面的社会现象进行深入研究,适合小样本的个案研究,反映社会现象的复杂关系。而其不足在于难以对宏观层面的社会现象进行大规模的研究,其研究结果只能反映个案情况而不能推广到总体,因此也不具备广泛的代表性。

由于行业收入不平等是一个较为宏观的问题,而且行业本身涉及门类广博,某个行业或某几个行业的个案研究也并不能反映总体行业间的复杂关系,因此,当前多数对行业收入不平等进行研究的学者采用的主要是定量研究的方法。当然也有一些学者尝试采用了个案研究的方法来探讨行业收入不平等问题,如潘胜文2009年以某电力企业为个案研究了垄断行业内部收入分配问题,[159]虽然这是一种值得肯定的尝试,但是正如个案研究本身难以逾越的局限一样,其解释力是非常有限的,尤其是对于行业这样一个研究对象而言,在繁多复杂的行业中,选取某一行业中的某一企业作为个案,对总体的反映只能是非常微弱的。基于以上考虑,本书将以定量研究的方法对行业分割与收入不平等问题进行探讨。

二 变量设计

(一)因变量及其测量

本书探究的是不同行业分割场域下的收入不平等问题,因此因变量的操作变量是行业收入。

概而言之,行业分割中的收入不平等是我们的主要研究对象,其主要包括三个层面,一是体制性分割下的行业国有部门与非国有部门、垄断行业与非垄断行业的收入差距的考察,体制性分割问题由来已久,是行业分割中最直观的方面,也是最容易引起广泛注意的方面。二是不同区域的行业间的收入差距。很多学者关注到区域间的收入差距,如城乡间的收入差距、东中西部地区的收入差距等,但这些研究稍显宏观。同样的,很多学者也注意到了行业间的收入差距,但对于区域对行业收入的影响却很少考虑,即行业在不同区域分布上的收入差距有着怎样的特征研究不足,因此,我们将区域间行业收入差距纳入行业分割的范畴加以研究。三是行业主、次劳动力市场的收入差距,主要包括行业主、次劳动力市场中的收入结构、福利待遇、工资晋升机制的考察以及职业阶层(管理位置)、人力资本、政治资本、现职年资等因素对行业主、次劳动力市场收入的影响。

从行业分割的三个层面不难看出,行业分割最根本的方面在于行业在以上三个层面的收入不平等,因此,行业收入不平等是本研究的核心因变量,我们的操作变量是行业收入。对于收入的认识,一般而言,工资收入是收入来源当中最透明的部分,也是最容易调查获取的部分,因此,在当前的调查数据中,收入数据大部分是工资收入,而那些“灰色收入”“黑色收入”等由于其隐蔽性和非法性而难以通过大面积调查获得。由于工资收入是当前大多数劳动者的主要收入来源,因此,尽管工资收入并不能完全反映人们的真实收入水平,在研究中学者们仍然会采用工资收入这一指标来作为考察收入分配的主要指标。

在具体研究操作中,由于收入变量并非正态分布,因此,按照研究惯例,我们对收入变量取自然对数值,以便使其接近正态分布。纵观以往研究,有关行业收入不平等或行业收入差距的测量主要包括以下几种方法:泰尔指数法(Theil index)、行业间平均工资的差距及不平等指数方法、所有行业的工资基尼系数、明瑟收入函数等。这些方法在研究综述中已经有所介绍,这里就不再赘述。

本书所使用的行业收入数据主要是来自《中国统计年鉴》中各年的行业职工平均工资以及CGSS 2006调查中的行业收入数据。在CGSS 2006的数据中,我们首先确定调查对象的所属行业,在CGSS 2006的问卷中测量的问题是:“您单位或公司所属行业(写出行业名或主要产品)?”这是一个开放性问题,变量层次为定类变量,CGSS 2006中调查涉及的行业可明确归类的有90个。在确定行业的基础上再明确相应的个人收入。在CGSS 2006调查问卷中的关于收入的测量指标为上一年(2005年)的全年总收入,即“2005年,您个人的全年总收入是多少元?(个人总收入指个人全年的全部所得,包括工资、各种奖金、补贴、分红、股息、保险金、退休金、经营性纯收入、租金、利息、馈赠等)”

(二)核心自变量及其测量

围绕行业的体制分割、行业的区域分割及行业的主、次劳动力市场分割三个层面及行业收入不平等引发的社会公正问题,本研究关键的自变量主要包括以下方面。

1.人力资本变量

(1)受教育水平

以教育为核心的人力资本是影响居民收入的重要因素。行业中从业者的受教育水平对个人的收入回报有着显著影响。研究指出,知识密集型行业总体上的教育回报率应该更高。[160]同时,研究证实,行业的高学历比例越高,从业人员的收入就越高。[161]行业中从业者的受教育水平是行业收入不平等的一个重要的解释变量,然而教育对收入的影响机制还比较复杂,因此,我们利用“受教育水平”这一变量来分析教育对行业间的收入差距和行业内不同群体收入差距的不同影响。

在CGSS 2006的调查问卷中,关于受教育水平的测量问题是“您目前的最高教育程度是(包括目前在读的):(单选)”,答案设置为14项,分别为“没有受过任何教育”“扫盲班”“小学”“初中”“职业高中”“普通高中”“中专”“技校”“大学专科(成人高等教育)”“大学专科(正规高等教育)”“大学本科(成人高等教育)”“大学本科(正规高等教育)”“研究生及以上”及“其他(请注明)”,编码为1—14。为了便于研究,在实际分析中,对这一变量进行重新归类和编码。具体如下:将“没有受过任何教育”“扫盲班”“小学”“初中”,保留原编码,即1—4;将“普通高中”重新编码为5;“职业高中”“中专”和“技校”合并为一类,重新编码为6;“大学专科(成人高等教育)”“大学专科(正规高等教育)”合并归类为“大专”,重新编码为7;“大学本科(成人高等教育)”“大学本科(正规高等教育)”合并归类为“本科”,重新编码为8;“研究生及以上”,重新编码为9;“其他”作为缺失值处理。因此,新生成的变量为9级受教育程度,即“没有受过任何教育”“扫盲班”“小学”“初中”“普通高中”“职业高中中专和技校”“大专”“本科”和“研究生及以上”,编码分别为1—9。

(2)技术职称

“技术或职称”,选项设置为:务农职业填答:1.农业科学技术;2.手工艺技术;3.养殖畜牧技术;4.医疗卫生技术;5.农村其他技术。非农职业填答:6.低技术职称;7.中级技术职称;8.高级技术职称;9.无技术/无技术职称。选项前面的数字是对应编码。通过频率分析发现,在CGSS 2006的实际调查对象中并未涉及农村职业者,因此,本研究中所涉及的对象都是非农职业者,即后4个选项。为了更明确表明技术或职称等级次序,本研究对后4个选项进行重新编码,具体如下:“无技术/无技术职称”,编码为1;“低技术职称”编码为1;“中级技术职称”,编码为1;“高级技术职称”,编码为4。

2.行业中个体所在职业阶层

行业中个体所在职业阶层是制度化的、由资源占有关系所规定的职业位置,而居于这些位置上的地位群体享受相应的劳动待遇。正如结构主义所强调的个人所得取决于个人所处的位置,因此,行业中个体的收入水平还受到他们在行业中所处职业阶层的影响。本研究将所使用的数据(CGSS 2006)中个人的“管理位置”作为确定行业中个体所在职业阶层的主要操作化变量。在CGSS 2006调查问卷中的测量问题如下。

“管理位置”,选项设置为:农村职业填答:1.生产组长/小队长;2.村/大队一般干部;3.村长/大队支书;4.乡/公社一般干部;5.乡/公社领导干部。非农职业填答:6.班组长/工段长;7.单位基层管理;8.单位中层管理;9.单位主要领导;10.不担任管理职务。选项前面的数字是对应编码。同样通过频率分析发现,在CGSS 2006的实际调查对象中并未涉及农村职业者,因此,本研究中所涉及的对象都是非农职业者,及后5个选项。为了更明确地体现职业等级次序,本研究对后5个选项进行重新编码,具体如下:“不担任管理职务”,编码为1;“班组长/工段长”,编码为2;“单位基础管理”,编码为3;“单位中层管理”,编码为4;“单位主要领导”,编码为5。

3.区域

已有研究已经表明,地区差异是影响收入不平等的主要制度性和结构性因素。区域分割在我国已经由来已久,自改革开放40年来,中国东、中、西部地区分别实施的是具有区域性的发展策略,而城乡二元结构更导致了城乡之间的在社会、政治、经济等各个方面的巨大差异。中国不同区域间的收入差距十分明显,那种将中国视为同质体、以个别地区的情况推论全国的做法显然是不合时宜的。“区域异质性”是分析中国居民收入不平等时必须考虑的重要因素之一。[162]当前一些学者已经注意到区域因素对收入差距的重要影响,并将收入分配置于区域差异的视角下进行了研究。当前中国正处于市场转型时期,再分配权力因为市场的引入而不断削弱,然而市场的发展程度在不同地区并不是同步的。在市场化程度较为发达的地区,再分配权力的削弱更为明显,相反,在市场化程度较低的地区,再分配权力的延续性则更强,[163]因此,在研究收入不平等的过程中需要将市场化在区域上的差异考虑进来。在以往的研究当中将区域要素置于行业收入不平等问题当中进行考察还比较少见,那么,行业收入不平等在区域上表现出怎样的特征?换句话说,区域性分割是否在行业收入分配上表现出同样的分割性特征?这些问题是本研究想要考察的方面。对于区域间行业收入水平的测量指标,本研究主要采用的是“各地区按行业分城镇单位就业人员平均工资”“各地区按行业分职工工资总额”“各地区按行业分职工平均工资”等指标,为了研究方便起见,同时也为了使研究能更直观地反映出区域差异,本书研究通过将全国31个省区按照东、中、西部地区的划分进行处理,研究东、中、西部地区在行业收入分配方面的差异。

4.工作年限

工作年限是反映个人职业资历的重要指标,工作年限与个人收入也存在一定的相关性。本书研究中,利用工作年限与收入的关系来检测行业中是否存在内部劳动力市场的基本指标。

在CGSS 2006的调查问卷中,关于工作年限的调查具体问题是:“您从事这份工作有多少年了?”,这个问题可以有效确定调查对象的现职工作年限。

5.福利待遇

根据内部劳动力市场理论,福利待遇的差异是首要劳动力市场和次要劳动力市场区分的重要指标之一。同时,福利待遇也是个人收入水平的一种反映,本研究将分析高收入行业与低收入行业在福利待遇上的差别。

在CGSS 2006中,关于福利待遇的调查问题是:

“您单位/公司是否为您提供下列保险和补贴呢?”选项涉及“公费医疗”“基本医疗保险”“补充医疗保险”“基本养老保险”“补充养老保险”“失业保险”和“住房或住房补贴”,每个选项的答案按照“提供”“不提供”“[不清楚]”三项分别编码为1—3,在实际应用中,将“[不清楚]”作为缺失值处理。

6.行业内职业晋升机制

行业内职业晋升机制与行业内不同群体可获得的收入密切相关。本研究将行业内职业晋升机制分为“工资等级晋升”和“职位等级晋升”两个方面。

(1)工资等级晋升

在CGSS 2006调查中关于工资等级晋升的问题有三个:

一是“在过去三年内,您是否获得过工资等级上的晋升?”,答案分为“是”和“否”两项,编码分别为1和2。

二是“与三年前相比,您本人在下列方面有什么变化?”,其中子问题1是关于“收入状况”的询问,答案分为“上升了”“差不多”“下降了”“[不好说]”,编码为1—4。

三是“在您看来,三年后您本人下列方面的状况会发生什么变化?”,其中子问题1也是关于“收入状况”的询问,答案设置和前面的问题基本相同,即“将会上升”“差不多”“将会下降”“[不好说]”,编码为1—4。

本研究对后两个问题的答案进行重新归类编码,前一题答案设置为“上升了”和“没上升”,编码为1和0;后一题答案设置为“将会上升”和“不会上升”,编码为1和0。由于“[不好说]”其回答的含糊性不便于分析使用,在实际应用中作为缺失值处理。

(2)职位等级晋升

在CGSS 2006中关于“职位等级晋升”的问题有两个:

一是“与三年前相比,您本人在下列方面有什么变化?”,其中子问题3是关于“职位”的询问,答案分为“上升了”“差不多”“下降了”“[不好说]”,编码为1—4。

二是“在您看来,三年后您本人下列方面的状况会发生什么变化?”,其中子问题3也是关于“职位”的询问,答案设置和前面的问题基本相同,即“将会上升”“差不多”“将会下降”“[不好说]”,编码为1—4。

本研究对这两个问题的答案进行重新归类编码,前一题答案设置为“上升了”和“没上升”,编码为1和0;后一题答案设置为“将会上升”和“不会上升”,编码为1和0。同样将“[不好说]”作为缺失值处理。

7.行业收入不平等认知

不平等的合法性强调的是人们对不平等的正当性的价值判断的问题,即对已有的不平等状况公平与否、合理与否的判断和认知。行业分割衍生出的社会后果是行业劳动力市场的歧视和不公。不断扩大的行业收入差距昭示着行业分割的加剧,其中垄断行业与竞争行业日益显著的收入差距遭受着广泛的质疑。那么,人们对行业收入不平等状况有着怎样的认知?对行业收入公平与否有着怎么的判断?这些是对行业收入不平等的合法性的考察。本研究主要从以下方面对行业收入不平等的合法性进行操作化测量。

(1)自我分配公平感

怀默霆2009年对中国民众分配公平感的研究表明,民众对社会不平等的感知很强烈,但与通常看法不同的是,当前民众对社会不平等的容忍程度较高,在某种程度上,甚至超过了发达国家和地区民众对于社会不平等的容忍度。[164]此前的一些研究者与此看法有所不同,认为家庭背景因素[165]、公共权力在阶层分化中的作用[166]等因素是导致社会不平等的重要外部结构因素,在分析民众的分配公平感时这些因素的影响显然也是不可忽视的。王甫勤2010年还针对使用的数据范围指出,使用全国调查数据应当注意的一个重要问题是,有可能对人们的分配公平感程度存在一定的高估。[167]这些研究者的一个基本共识在于研究民众对收入不平等的公平感认知必须注重影响人们分配公平感的结构性因素。在行业成为影响收入不平等越来越重要的结构性因素的条件下,本研究着重从行业差异的角度来探讨人们对收入不平等的社会认知。

明确不同行业中从业人员个人的自我分配公平感,可以从行业中个人对当前收入是否满意或个人认为当前收入是否合理的判断得以反映。在CGSS 2006的调查问卷中,设置了如下问题:“考虑到您的能力和工作状况,您认为您目前的收入是否合理呢?(单选)”,答案设置为“非常合理”“合理”“不合理”“非常不合理”“不适用”五个选项,编码分别为1—5。

(2)对导致收入不平等的归因

对于不平等的判断和认知还反映在人们对不平等的归因上。怀默霆2009年指出,要评判当前的不平等是否公平,不仅仅要看贫富差距的大小,更为重要的是,看那些富人和穷人都是哪些人,以及他们是怎样变富和变穷的。[168]由此,他提出了一个基本假设,即如果当前的不平等更多地被归因于基于个人绩效(merit-based)的因素(比如个人天赋、才干、受教育程度、勤奋与否),那么就是公平的;否则,如果不平等更多地被归因为外部因素(比如机会不平等和歧视),那么这一不平等就被认为是不公平的。在CGSS 2006中关于收入不平等归因的问题有:

一项是关于收入状况判断,问题为“下列关于各种收入的描述,是否符合您的情况?”,其中的子问题5“年终奖金或分红的多少,在我们单位主要是根据职位等级来决定的”和子问题6“年终奖金或分红的多少,在我们单位每个人都有些差别,是由工作量或个人业绩决定的”,答案分为三个等级,“很符合”“有些符合”和“不符合”,编码为1—3。

还有关于月工资与月奖金的决定因素和稳定性的调查,问题为“您这份工作的月工资与月奖金是怎么决定的?是否稳定?”,其中关于工资或奖金归因的子问题是“完全由工作量或个人业绩决定”“部分参考工作量或个人业绩”“与工作量或个人业绩基本无关”和“[不适用]”,编码为1—4,其中“[不适用]”作为缺失值处理。

另外还有关于一些态度方面的问题也涉及对收入不平等归因的调查,问题为“您是否同意下列说法?”,子问题5“穷人之所以会穷,一个重要原因是接受的教育太少了”,子问题6“穷人之所以会穷,是因为他们不愿意工作”,子问题8“政府某些政策不妥当,是造成贫穷的重要原因”,答案为“非常不同意”“不同意”“同意”“非常同意”及“[不回答]”,编码为1—5,其中“[不回答]”作为缺失值处理。

(3)个人社会经济地位认知

收入水平是人们判断个人社会经济地位的重要方面,但也不是唯一指标,每个人的判断存在一定差异。

在CGSS 2006中的调查问题中判断个人对自身社会经济地位的有两个问题:

一是“就判定一个人的社会经济地位的高低来说,下列各因素哪些更重要些?请选三项并排序”,相关因素的陈述包括“收入高还是低”“有产业还是没有产业”“是否受过良好教育”“受人尊敬还是被人看不起”“有技术还是没技术”“是管理别人还是被别人管”“自己当老板还是替别人打工”“群众还是党员”“城里人还是乡下人”“国家干部还是普通老百姓”,编码为1—10,选项设置了“第一位”“第二位”“第三位”三个。

二是“在您看来,您本人的社会经济地位、家庭的社会经济地位属于上层、中上层、中层、中下层还是下层?”,选项为按题目中的“上层”到“下层”分为5个等级,编码为1—5,“[不作选择]”项编码为6,研究中将“[不作选择]”作为缺失值处理。

(4)个人生活满意度

个人生活满意度的判断受很多因素的影响,研究已经表明,收入与个人生活满意度并不呈线性关系,而是表现出随着收入的增加满意度先提高,然后收入高到一定程度后满意度开始下降的特点。本研究想要了解的是不同行业从业者对个人生活的满意度状况,而个人生活满意度的影响因素并不是本研究要探讨的问题。

在CGSS 2006中的调查问题是“总体而言,您对自己所过的生活的感觉是怎样的?您感觉您的生活是:”选项为“非常不幸福”“不幸福”“一般”“幸福”“非常幸福”,编码是1—5。

(三)控制变量

1.性别

性别收入差异是劳动力市场中性别差异最直接的表现形式,大量研究已经表明,当前性别收入差距已相当明显。职业的性别隔离(occupational gender segregation)与性别收入不平等有着密切关系,甚至是导致性别收入不平等最主要的也是最直接的因素之一。[169]与强调个人特征的人力资本理论[170]相比,职业的性别隔离理论则更强调结构性因素(职业的性别构成),认为劳动力市场中女性收入低于男性主要是因为职业的性别隔离[171]。性别隔离表明劳动力市场中存在结构性的性别歧视,而这种性别隔离在不同所有制类型、不同行业或职业中都普遍存在,其基本特征在于女性主要集中在收入低、声望低的行业或职业当中。在本研究当中,由于男性和女性的性别收入不平等并不是关注的核心问题,因而被当作控制变量来处理。在分析模型中,性别被定义为虚拟变量,男性为1,女性为0。

2.年龄

研究显示,除了性别因素外,个人的年龄对个人收入也有着重要的影响。一般认为,年龄的收入回报率呈向下开口的抛物线形状,即呈现先增后减的态势。具体而言,个人收入会先随着年龄的增长而增加,当临近退休时开始下降。[172]学者研究指出,年龄的收入回报率在不同的行业当中有着不同的特点。在较年轻的行业里年龄对收入回报率的影响并不明显,但在国有化程度较高和大规模、成熟的行业里,年龄对收入回报的影响更为明显。[173]本研究中被调查者的年龄按照调查年份减去被调查者的出生年份而得,样本年龄在17—69岁。

3.户籍

在当前中国独特的户籍制度下,中国劳动力市场的城乡二元分割非常显著,城乡收入差距十分明显,而劳动者的户籍流动显然也对其收入状况产生重要影响。尽管如此,本研究主要探讨的是劳动力市场的行业分割对收入不平等的影响,因此,户籍变量被当作控制变量来加以处理。在CGSS 2006的问卷调查中,使用的调查问题是“您的户口状况是”,选项设置为“农业户口”“非农业户口(蓝印户口)”“非农业户口(城镇户口)”,编码为1—3。为表述更为方便,本研究将其重新归为两类,即将“农业户口”归为一类,编码为0,而“非农业户口(蓝印户口)”[174]和“非农业户口(城镇户口)”合并为一类,统称为“非农业户口”,编码为1。

4.政治身份

政治资本是由政党、政权及意识形态提供的身份、权力、资源和由此而来的威慑力和影响力。[175]在中国,干部或党员身份被认为是政治资本的基本表征。党龄被认为和文凭一样,是党内筛选和提拔领导干部的重要准则。[176]党员身份意味着取得相应的政治资本和由此衍生的获取某些职位机会或资源的资格。政治资本作为“制度化的社会资本”在不同时期对收入分配有着不同程度的影响。[177]市场转型理论认为政治资本与收入差距呈正相关关系。而政治资本的收益逻辑在于政治资本与权力结合而获得“再分配”收益,由于再分配权力不会因为市场化作用而削弱,所以政治资本的资源回报率也不会降低,在某些情况下还可能提高。[178]在当前的市场转型时期,政治资本的收益回报具有一定的复杂性,从不同时期的比较来看,政治资本收益率表现出一定的波动性特征。[179]因此,党员身份的收益回报会随着不同的市场阶段发生变化。在本研究中将党员身份作为控制变量之一,根据CGSS 2006的调查问卷,关于个人政治身份的测量问题是“您目前的政治面貌是:(单选)”,选项设置四类:“共产党员”“民主党派”“共青团员”“群众”,编码分别为1—4。在实际分析中,对这一变量进行了简化处理,具体而言,就是将具有“共产党员”身份的编码为1,其他非共产党员身份的编码为0。

三 数据来源及分析模型

(一)数据来源

本研究主要需要使用到的是具有行业特征和收入分配方面的调查资料和数据,遗憾的是,综纵观当前的统计调查数据,以行业为基本单位的大规模调查数据还十分少见,而包含行业特征的大面积调查也不多见。同时,从我国的调查数据收集工作来看,全国性的抽样调查起步较晚,致使很多科研工作得不到全面、系统的权威数据资料的支持,很多学者采用不同渠道、不同层次的数据来进行研究,以弥补数据的不足。尽管这会存在很多局限(如研究同一问题得出大相径庭的结论、难以比较、研究结论混乱等),但这是很多学者不得不面临的两难选择。基于此,为了保障使用数据资料的质量和权威性,本研究主要采用的是由国家统计局调查获得的行业数据和2006年中国综合社会调查(CGSS 2006)中有关行业特征的相关数据。

国家统计局的调查数据主要参照各年的《中国统计年鉴》中的行业数据,其中包含了全国和各地区按行业分的职工平均工资、工资总额等方面的宏观数据,这些数据主要有助于分析行业收入差距的总体特征和趋势、行业收入的区域差异等。这是一项系统研究当中不可或缺的总体描述和基础分析。

本研究还使用到CGSS 2006的调查数据。中国综合社会调查(CGSS)是由中国人民大学社会学系与香港科技大学社会科学部执行的,项目主持人为李路路教授和边燕杰教授。这是一项全国范围内的、大型的抽样调查项目,主要目的是了解当前我国城镇居民的就业、工作和生活情况,以及对当前一些社会问题的看法。CGSS 2006的访问对象采用分层的四阶段不等概率抽样:区(县)、街道(镇)、居委会、住户和居民来获得,此次调查在全国28个省市抽取了10000个家庭户,然后在每个被选中的居民户中按一定规则随机选取1人作为调查对象。由于本研究旨在考查行业分割对收入不平等的影响,因此,在数据使用上主要是利用其中具有行业特征的数据,对于不在劳动力市场且未报告行业信息的样本则予以剔除,最终有效样本为5236个。

(二)数据处理

通常抽样调查的原始数据并不适合直接用于社会研究的建模和分析,而是需要对数据进行清理,同时围绕研究的对象和目的,对数据进行一定的整合和处理。由于本研究使用到了不同来源的调查数据,为了保证所使用数据的严谨性和尽量减少误差,我们在建模和分析前需要对数据进行相应的处理。

首先,需要指出的是,《中国统计年鉴》和《中国综合社会调查(CGSS)2006》中关于行业收入的统计口径并不完全一致,《中国统计年鉴2004—2009》具有行业门类和大类两个层次的行业收入数据统计,但《中国统计年鉴2010—2018》仅有门类层次的行业收入数据统计,却无行业大类层次数据。而《中国综合社会调查(CGSS)2006》中则是按照行业大类层次调查的收入数据。目前,《中国统计年鉴》(2003年至今)的行业划分标准[180]是按照我国2002年新修订的行业分类的国家标准——《国民经济行业分类》(GB/T4754—2002)来进行划分的,按照结构由粗到细将行业划分为行业门类、行业大类、行业中类和行业小类四个层次,其中行业门类20个、大类95个、中类396个、小类913个[181],《中国统计年鉴》只统计了其中19个行业门类职工的收入数据,而不包括第20个门类(国际组织)的收入数据。考虑到《中国综合社会调查(CGSS)2006》与《中国统计年鉴》的统计层次并不完全一致,在本研究中将采用行业门类数据和行业大类数据结合使用的策略:《中国统计年鉴》中的行业门类数据主要用于描述行业收入差距的总体特征和地区行业收入差距情况;而CGSS 2006的行业大类数据,对于行业划分层次更细,适合对于行业收入差距进行更细致的分析,主要用于对行业主、次劳动力市场的收入不平等状况及影响因素分析以及行业收入不平等的合法性问题分析。两套数据分别说明的是不同层次的问题,并不会因为数据层次的不同而影响分析的结论,因此本研究将两个层次的数据加以结合使用。

另外,在CGSS 2006当中,可分辨出来的具体行业共有91个,但并非所有这些行业数据都适合进行分析。因此,我们还需要对这些行业进行加工处理,使它们能够适合分析使用。本研究结合以往研究的经验做法,在对行业进行重新归类时主要考虑三个原则:一是相近原则,即性质相近的行业分归为一类,同时这一原则在《国民经济行业分类》(GB/T4754—2002)的标准指引下进行;二是保留足够的行业数(至少要有20个)来保证行业层次数据的覆盖面和多样化;三是每个行业内应包含有足够合理的个案,具体做法是每个行业中至少有20个个案。根据以上基本原则,对CGSS 2006的行业数据做进一步整理,将那些不适宜进入分析的个案剔除,包括“不适用、不回答、不便分类及其他”中的个案(n=176)、特殊的行业所含个案小于20个且无法归类的个案(n=12)都予以剔除。

同时,我们还需要对研究所涉及变量的相关数据进行整理。对于有缺损值的个案则予以剔除,而对于一些出现极值(extrema,又称为奇异值)[182]的个案也予以剔除。如在对个人收入数据的处理上,将“没有”“不适用”“不知道/不清楚”“拒绝回答”的个案(n=1932)删除,同时将年收入少于600元的不合理个案(n=177)删除。

表1-1 目前职业所属行业(N=5236)

续表

表1-2 中国综合社会调查(CGSS)2006年处理后的样本描述统计量(N=5236)

续表

需要说明的是,之所以将年收入少于600元的个案认为是不合理个案,是基于逻辑检验[183]和数理判断的结果。首先年收入少于600元意味着平均月收入不足50元,这在日常生活逻辑上是不太合理的,即便真的存在也只是极少个案;而从数理上看,在CGSS 2006的数据当中,所有有效个案年收入的均值为8993.59元,而年收入不足600元远远偏离平均水平,且这样的个案很少,因此本研究在分析时将这些个案作为不合理个案删除。这样处理后的数据才比较符合本研究的需要。数据经过处理过后剩下5236个个案,每个行业有22—1743个个案。处理后的数据参照表1-1和表1-2。

四 分析模型

(一)行业间平均收入的差距及不平等指数

对收入不平等的测量比较直观的方式就是采用绝对差异比较和相对差异比较的方法。通常的做法是采用最高收入群体收入与最低收入群体收入进行绝对值和相对值的比较。本研究将采用这一方法描述行业收入差距的总体状况。

1.最高行业平均收入和最低行业平均收入的差距

(1)极差(Rang),即最高行业平均收入和最低行业平均收入的差距。其计算表达式为:

式中,Ymax表示最高行业平均收入,Ymin表示最低行业平均收入。

(2)极值差率(Rang ratio),即最高行业平均收入和最低行业平均收入的比,其计算表达式为:

同样,式中的Ymax表示最高行业平均收入,Ymin表示最低行业平均收入。

2.变异系数(coefficient of variation)

变异系数也称标准差率或离散系数,采用标准差与其均值之比来衡量不同总体的变异程度。利用变异系数可以衡量行业间收入不平等的相对状况。其一般计算公式如下:

式中,Yi为第i个样本的收入(应用到行业收入中即可表示为第i个行业职工的平均工资),为所有样本收入的平均值(应用到行业收入中则表示各行业职工平均工资的均值),即Yi的均值,N为样本数。

3.标准差(Standard Deviation)

标准差(S)又称均方差,是衡量个体间离散程度最常用的指标,各实际值与均值之差的总和越大,表示差异越大,即均值的代表性很小。其计算公式如下:

具体在行业收入差距分析的应用中,式中,Yi表示为第i行业的职工平均收入,为所有行业收入的均值,即Yi的均值,N为行业数。

(二)行业基尼系数(Gini Coefficient)

基尼系数由意大利经济学家基尼(Gini)提出,它以一个0到1数值在表示分配不平等状况,数值越接近0表示越平等,贫富差距越小;相反,数值越接近1,表示越不平等,贫富差距越大。基尼系数是收入差距研究中使用最广泛的一个指标,它能以一个数值反映总体收入差距。基尼系数因其能较全面、准确地反映收入分配的差异程度且便于比较而在收入分配研究中得到广泛应用。行业的工资基尼系数能够以一个比较简洁的数字来测度行业间的收入差距。具体做法是将相同行业的职工作为一个具有相同工资水平的群体,并且用这个行业的职工人数作为计算基尼系数的组内人数,这样计算出的基尼系数即行业的工资基尼系数。[184]

基尼系数的计算公式为:

式中,Wi是各行业的从业者人口数占总人口数的比重;Yi是各行业从业者所拥有的收入占收入总额的比重;ViYii=1到i的累计数,即Vi=Y1+Y2+Y3…+Yi

(三)广义熵(Generalized Entropy,GE)

广义熵是衡量收入不平等的常用指标,与基尼系数相比,广义熵指数的优势在于能够比较组间和组内的收入不平等,因此广义熵指数也常用于测量地区间的收入不平等。其计算公式如下[185]

式中,yi是第i个样本的收入,u是总样本的平均收入值,fy i)是第i个样本人口占总样本人口的比重。参数c反映的是收入转移的敏感度,c取任何值,广义熵指数都可以按组(地区、行业、部门等)进行分解。当c=0,1时,广义熵指数就是泰尔指数(Theil Index),而且两种取值情况下计算结果基本相同。因此,一般考虑使用简便,研究中更多采用c=0的泰尔指数。本研究也将采用c=0的泰尔指数来分析不同区域行业间收入不平等。

(四)一般线性回归模型

一般线性回归分析适用于分析以定距变量为因变量的各变量之间关系的分析。本研究采用这一分析模型来研究不同因素对不同分割场域的行业收入的影响。其估计模型为:

其中,ln(Y)表示行业收入的自然对数,X1X2Xi分别表示主要解释变量(职业阶层、现职年资、人力资本、政治资本等)和控制变量(性别、年龄、户口等),β0是回归常数(截距项),其基本含义为当其他自变量取值为0时因变量ln(Y)的平均值,βi是待估计参数,表示在控制其他变量的情况下,自变量Xi每改变1个单位,因变量ln(Y)平均改变βi个单位。

(五)二元逻辑斯蒂回归模型

这一模型通常适用于以二分类变量为因变量的多元回归分析。本研究采用这一模型主要是测量行业收入合理性判断,以此分析不同行业从业者对行业收入不平等的社会认知。二元逻辑斯蒂回归估计模型为:

其中,表示不同行业从业者判断自己的收入合理与否的概率,Xi表示基本控制变量(性别、年龄、户口、党员身份)和主要解释变量(本研究主要考察的是行业及收入对从业者收入合理性的判断),回归系数b表示在控制其他变量的情况下,自变量Xi每改变1个单位,产生合理判断与不合理判断的比平均改变exp(b)个单位。