时间线突然跳出了这个4年前的问题。主要问题是中小企业数据库,重点是“中小企业”。由于我在国内几乎用过所有的企业级数据,所以这里有一个大概的介绍:
首先,什么是中小企业?根据国家统计局(2017),以工业企业为例,年营业收入4亿元以下、从业人员1000人以下的企业,可划分为小、中、微型企业(中、小、微)。也有具体的分类标准;不同一级行业大中小微企业的划分标准也不同;这个标准历史上几经变迁)。
其次,根据上述标准,我们发现,判断某一年哪些企业是中小企业,可能需要营业收入和员工人数两个变量。还是以工业企业为例,国家统计局建立了规模以上工业企业数据库,即中国工业企业数据库。那么什么是规模以上呢?目前国家统计局选取年主营业务收入2000万元及以上的企业(注:该标准仅适用于2011年至今的统计。1998-2006年的统计标准为年主营业务收入500万元及以上的所有国有及非国有企业,2007-2010年的统计标准为年主营业务收入500万元及以上的企业)。结合上面提到的标准,我们可以从中国工业企业数据库中提取一些中小型工业企业的数据。该数据库是目前国内最丰富的企业数据库。目前可以获得1998年至2013年的数据(2009年约有11万家企业名称和组织机构代码缺失,2010年没有真实的微观数据),主要包括企业基本信息、企业产出和用工信息、企业财务报表信息三个变量。样本在16-42万家企业之间。
再次,谈完工业企业,如何获取其他行业中小企业的信息?这里不得不提国家统计局建立的中国经济普查数据库。目前,我国已分别于2004年、2008年和2013年进行了三次经济普查。统计对象为第二、三产业所有单位和个体经营户,包括年营业收入和从业人数两个变量。根据相应的标准,还可以分为大型企业和中小型企业。这个数据的特点是样本比较全,但是变量比较少,远远少于我国工业企业的数据库。目前,2004年工业企业样本、2008年全部样本和2013年部分省份样本均可从中国经济普查数据库中获取。其中,2008年全国有法人单位708万个,工业单位213万个。
那么,我想要中小企业这样的数据怎么办:统计时间长,样本量不能太小,变量比较大?这个时候我会推荐你用中小板、创业板、新三板的上市公司数据。目前,它们分别有800多家、700家和11000家公司。这些上市(或新三板)中小企业的数据是高度公开的,几乎所有能公开的信息都会在年报中公开。以上三个板块分别始于2004年、2012年、20年,相应数据可从CSMAR数据库或WIND中国金融数据中获取。
继续,如果你不关心企业的财务报表和输出用工信息,那么我推荐中国工商企业数据库。这个数据库是国家工商总局建立的,包括市场上所有企业的基本信息(比其他所有企业数据库更全面)、企业变更信息(资本变更、经营范围变更、注销等)。),企业的股权结构(你的股东是谁,你的股东是谁,分支机构等。),以及企业的所有者和管理者(信息很细,有企业家的身份证号,但基于《统计法》保护一般无法获得)。根据中国工业企业数据库、中国经济普查数据库和上市公司数据中的财报信息,可以挑出大企业,其余为中小企业。需要注意的是,这个数据库中也包含了企业的年报信息,但大多数企业并不披露,一般只有上市公司才会披露。Skycheck、企名网、企名网等网站也提供工商企业信息,但数据来源是国家工商总局。
还有一些企业调查数据库:
世界银行在2002年和2012年对中国企业进行了三次调查,形成了世界银行中国企业调查数据库。这个数据库主要包括企业的基本信息,企业年报信息的一些变量,企业年报中不会披露的一些信息(如对当地商业环境的判断等。),样本约1500-12000家企业。
由中央统战部、全国工商联、国家工商行政管理总局、中国民营(私营)经济研究会共同组织的中国民营企业调查数据库,自1993年起每两年进行一次调查(目前可获得1993年至2012年的公开数据,20日起开始申请)。这个数据库主要以创业者信息为主,有大量创业者回答的问题,样本1100-50个。
以上两个数据库都提供了企业规模分组、员工人数等一些变量,可以用来提取中小企业。不幸的是,这两个调查数据库都没有提供企业名称。
我个人推荐的一个中小企业调查数据库是浙江工业大学建立的中小企业景气指数调查数据库。他们公布了2012年至今浙江省中小企业月度微观数据。该数据库主要包含企业的财务报告信息、融资信息、生产和销售信息等。大约有一万个样本。
除了上述三个调查数据库外,国外机构(或企业)还在中国收集了一些企业数据库,如Bureau van Dijk (BvD)的亚太企业数据库和Standard & amp所有这些或多或少都包含一些中国中小企业的数据。国内一些大学(或机构)也建立了自己的企业调查数据库,如ODI-CNSE轻工业调查数据库、中国企业创新创业调查数据库等。但目前,这些数据库的声誉和质量无法与CFPS、CHFS和其他中国住户调查数据库相比。
再者,如果你对中小初创企业非常感兴趣,那么我推荐你使用清科集团的私募股权数据库或者IT桔子网的初创企业融资数据库。相比较而言,上述两个中小创业企业数据库在同类数据库中质量最高,涵盖了1990年以来中小创业企业投资和退出事件的公开信息。截至2017年底,初创期中小企业风险投资样本约12万个。
但有人会问,如果我需要研究中小企业的进出口、创新、买地、环境污染、诉讼等问题呢?当然是做数据匹配啦!这时候你需要中国海关数据库、中国专利数据库、中国土地交易数据库、中国环境污染处罚数据库、中国诉讼数据库。以数据库m中的中小企业列表为例
最后,拿到这些中小企业的数据库后,我们还需要做两件事:第一,检查这个数据库是真是假。我得到了同一个数据库的许多版本,但我总是可以通过与宏观聚集数据的比较和数据分布测试来确定哪一组数据是真实的数据。其次,即使获得真实数据,同一数据库不同年份的统计变量和口径也可能不同,这就需要进行数据清理,统一调整变量口径。
当你说完以上几点,希望读者能体会到“数据注我”而不是“我注数据”。
鸡蛋:
我觉得数据库介绍里不会有彩蛋。
除了以上数据库,还有一个数据质量非常高的数据库,由发起的中国税收调查数据库。该数据库的调查对象覆盖所有行业,分为抽样调查企业和重点调查企业两大类。前者根据数据随机抽样,后者根据国家税制改革、政策调整和税收管理的需要确定选择条件。目前可以获得2007-2011年的数据,主要包括企业基本信息、企业财务报告信息、企业税务相关的详细信息等几类变量。2007-2011年的样本在60万至75万家企业之间。与中国的工业企业数据库相比,它不仅有更详细的税收信息,而且在财务报表上也有更多的信息。我们可以从中抽取中小企业做相关研究。