2016年4月15号更新:增加了如何做中国数据地图,以及几个平时做行业研究时常用的数据源。我从国外角度参与下讨论。政治经济文化类数据与研究方法基于读博经历(经济学),金融类基于工作经历(某欧洲大行)。

补充更新:对答案里中国数据地图感兴趣的朋友可以移步:excel上怎么做数据地图? - 钱粮胡同的回答用Excel做出强大的数据地图 - 钱粮胡同28号
更新1:银行对于行业分析的方法和框架可以参看 初入金融行业,如何进行实用行业研究与行业分析,比如风投和券商是怎么分析行业的? - 钱粮胡同的回答如何分析商业银行年报? - 钱粮胡同的回答
更新2:宏观金融和经济分析方法或思路可以参看 区位因素是否是江苏省省内贫富差距的主要原因? - 钱粮胡同的回答欧洲债务危机的根源是什么? - 钱粮胡同的回答

正文:读博期间主要做经济类研究,数据来源主要分一手和二手数据,三手的没碰过,也不敢碰,但是亲眼见识过 (/sigh)。

######宏观经济类######
  1. 直接从国家统计局买,地级市各类经济指标等,大学图书馆结账 (国统局网站也有不少:中华人民共和国国家统计局>>统计数据
  2. 直接从国家信息中心买,各类经济数据,大学图书馆买单
  3. 买的这些也可以找助研手动收集,比如需要地级市类的经济数据,一本本省级年鉴慢慢抄(这个虐人方法还没有试过,下不了手,也怕助研干完堵家门)
  4. 也可以尝试去经管之家(原人大经济论坛)-国内最大的经济、管理、金融、统计在线教育和咨询网站, 发帖求数据,神人很多
  5. 密西根大学的China Data Center提供中国数据的服务,没有用过,据说不错(非广告)
补充1:使用前两点提到的数据做了些研究,比如中国区域收入差距不平衡(省内收入差距和省间收入差距,GEM指标),收入极化现象 (polarization) 等,截取部分分析结论,见下图(红色代表中国省份之间的收入不平衡占整个国家不平衡的比例,蓝色代表省内不平衡(同省地市间不平衡度)占整个国家的比例,可以看出省内不平衡远超省间不平衡,这种角度采用Gini系数等是无法计算的)。

补充2:用同样的经济数据和一些基础设施数据,采用最近流行的机器学习(可以参考:机器学习(machine learning)在经济学领域是否有应用前景? - 钱粮胡同的回答),可以做很多有意思的启发性研究,比如对中国的城市群做集群分类(方法:SOM (自组织地图),人工神经网络的一种,unsupervised learning),具体方法可以参考AlphaGo 的数据算法,能否用来分析银行信贷企业的各项数据,然后得出关键指标和权重? - 钱粮胡同的回答,截图(蓝绿色代表较低收入城市群,红色代表中等收入,黄色代表高收入,之后的工作就是看每个群的属性然后从经济,社会发展等角度尝试解释):

######文化类######
  • 全国各地县级方言数据,收集方法是招了一个勤奋好学热爱生活对学术有向往的助研,耗时几个月收集所有方言数据放到提前设计好的数据库,根据中国方言系统(前辈的学术研究,可以参考中国社科院的 方言研究室),量化数据做文章。
结合上边儿宏观经济类和人文类,使用的分析方法和得出的结果请参看发表的拙作:Economic integration in China: Politics and culture

文字不够性感,截取一点拙作中的图片,根据方言系统重构的其中一种中国方言地图。然后采用空间计量的方法,分析经济溢出与文化的关系(其中方言作为文化的一种proxy)。
这篇文章具体的分析和截图请移步:文化对经济有着怎样的影响? - 钱粮胡同的回答

######政治类######
对的,政治类也行,再招一个爱好生活喜欢被虐但是仍然对学术有向往的助研(和之前不是同一个人,否则估计已经躺医院了 - 是我躺医院,不是助研),收集了所有地级市层面大部分官员近20年的简历(简历好找,人民网,百度百科,地方政府网站,看不了的直接上Google Cache,甚至爬虫),放入设计好的数据库,量化做文章。

没有性感图片,但是咱有感性的文章,分析方法和结果等请参看发表的文章:Career Backgrounds of Municipal Party Secretaries in China

补充一张上述政经文章比较有意思的统计图:样本中市委书记出生,上大学或之前工作省份与他当市委书记的时候不是同一个省的比例:

其他常用的宏观经济数据源:
  • 如果是一般宏观经济或金融数据,世界银行,IMF, 中国央行,银监会,Reserve Bank of St. Louis都有很多很好很全的免费数据库,如:Data | The World BankThe National Bureau of Economic ResearchIMF Data;付费类的网站比如TRADING ECONOMICS
  • 最后再补充一个,估计这个用的不多,也不知道现在还有没有:EcoWin,是个财经数据库,很多大学用,好像是某机构资助的学术类平易近人版
经济类分析工具:用的最多的是Stata, R, excel & VBA,偶尔用过一些专门的软件,比如做神经网络的,后来有了R,其他就弃用了。其实Stata和R有很多package,足够了,更重要的是了解package背后的模型和方法。

上边的研究味儿太浓,谈钱的请看下面金融类:

######金融类######
国内的用的不多,只知道高大上的有wind(万得资讯),通联,开源的有TuShare等,自己玩得话用用Yahoo Finance或者Google Finance也挺好,R或Python里都有对应的包, Mac上也有一些软件可以直接下载这些数据到excel里。

平时工作上最常用的:
企业与金融机构的财务数据:这方面因为工作需要,所以基本都是银行自己的分析师填入系统的企业数据。这类数据一般来源有:
  1. 从企业直接要(如果这个企业没有上市也没有发债的话),催银行的RM
  2. 巨潮资讯网,拿上市企业的,基金年报等,免费
  3. 中国货币网--中国外汇交易中心主办,拿发债企业的财务(包括企业的债券募集说明书),免费
  4. 银行和券商的财务数据从Bankscope下 (Bankscope | Global database for bank),保险的从isis下,需要机构帐户
  5. S&P,Moody等评级机构的帐户,上面有很多Credit Research和评级信息等
  6. Bloomberg(彭博终端),不多说了
  7. 美国上市的可以看http://SEC.gov | Filings & Forms
  8. 德意志银行研究部的公开网站(DB Research),也有一些还不错的数据和研究文章
  9. 外汇信息除了自己行内部用的,一般看Oanda
  10. CreditSights, 独立研究服务提供商,偶尔会用一些他们提供的行业研究报告
  11. Dealogic, 英国的一个数据/平台服务提供商,主要做行研的时候用
  12. 很多金融机构自己内部的一些软件或package,比如我们行内部的一些R package,可以直接导入财经数据

补充:感谢评论里 @一扬 的补充,这里加上两个学术圈常用的金融数据源
  1. 国泰安CSMAR金融数据库
  2. 锐思RESSET金融数据库

平时休闲自己常用的:
  1. Investing.com,很多市场信息,如油价,天然气,美元指数,各类经济指标等
  2. 更新:评论里有问到Mac上下载数据到excel的软件 (假设你指的主要是要金融类数据),我用过的几个:
    1. StockXloader(软件截图如下),直接批量下载Yahoo Finance的数据,输出到Mac上的ProTA做技术分析,也可以直出excel文件。
    2. 如果用R或Python,选择比较多,可以用quantmod: Quantitative Financial Modelling FrameworkTuShare -财经数据接口包,获得数据后直接输出成excel格式文件就好。

平时工作用的分析软件很少,大部分时间VBA和R足够了,其他的都是公司内部软件(SAS等,但是不喜欢)或平台。

补充两个iOS上看市场数据/ 画曲线图的app:
  1. 外汇,大宗商品市场(WTI,Brent, 天然气,美元欧元指数等)我常用NetDania,看动态数据,画技术图很方便实用,免费,有iPad版本

2. Investing.com,之前提到了,这个是手机上的,看大部分证券信息,同时还可以跟踪每天的财经热点和指标,基本每天一读

######One more thing######
现在很多分析师或研究员张嘴全是模型,但我觉得,不论是宏观经济研究,行研或是企业层面的分析,软件或模型只是工具,最重要的是阅历的积累,对研究对象本质的体会与把握,而不是拿过来一堆数据,扔进个模型里看结果。

目前先想到这些,如果还有其他的,再来更新。

我的专栏钱粮胡同28号