现代史氏家谱就是现代姓史的名字
史增波 史德亮 史建荷 史永洋 史建舆 史浩泽 史财佳 史保权 史子威 史子昌 史继鑫 史爱豪 史张阳 史懿伟 史建荣 史小伟 史友又 史春宁 史锆心 史柯宇 史行继 史阳宇 史鑫涛 史昊州 史良洳 史增轩 史妁宏 史家茗 史艺久 史权萱 史芯奇 史子城 史宗懿 史秀源 史铁燊 史同远 史湘峻 史建沁 史上源 史林军 史冠溧 史文铭 史浠利 史成赐 史正铭 史德清 史迪张 史友含 史香诚 史毓文 史若熙 史真涵 史文宸 史师标 史仔祺 史若龙 史宏政 史永毅 史翊桐 史志桐 史卓谐 史宗沂 史逸涛 史承轩 史连任 史永玮 史欣镐 史子峰 史锋沣 史思龙 史梓淇 史仁清 史安星 史梓昕 史嘉嘉 史圣军 史勇浩 史海朦 史子澜 史浩阳 史宗林 史润幻 史沐平 史圣涛 史智风 史书纬 史福宏 史灏鑫 史永翔 史东文 史宇丞 史晓军 史志娘 史武奕 史舍杰 史紫平 史耀城 史家竣 史鹄煜 史启恩 史得涛 史君锟 史其东 史明木 史以霏 史钊鑫 史启豪 史成民 史楚涛 史顺云 史国芯 史辉平 史熊东 史大灵 史轩心 史明希 史滨涛 史学纳 史国杰 史浩民 史康轩 史耀行 史橙峰 史孝海 史发森 史永磊 史神楠 史名铭 史煜骊 史素潇 史伯尧 史熙嘉 史远逸 史语宇 史朝强 史喜辉 史高阳 史国楠 史枢军 史明桦 史诗敏 史佳阳 史思全 史永灵 史艺鹏 史浩杰 史玮乐 史刚琪 史雨辰 史金禳 史郧涛 史应林 史鑫西 史跃偌 史睿宇 史弈镇 史诗鹏 史玉韩 史梓林 史雨豪 史泽城 史羽夫 史启文 史雪正 史天涛 史杰涵 史安才 史建海 史雅璀 史僮琦 史枞明 史裕冬 史明洳 史博明 史明佳 史雨恺 史奇文 史助祈 史广旖 史矾箫 史鑫恒 史嘉轩 史宏德 史心然 史茄西 史美霏 史成颖 史明杰 史津豆 史海义 史智辉 史梓攀 史兴琪 史景然 史郴文 史诗陈 史十好 史金美 史正勇 史兵印 史巨其 史禧新 史小利 史业成 史明鸣 史沁东 史洪开 史贵淼 史煜华 史明士 史城毅 史二之 史一剩 史秋吟 史泓琪 史佛悦 史米涛 史俊天 史枘涵 史旺森 史建程 史如泰 史多庆 史卓星 史本良 史禹铭 史德茸 史湘涵 史晓哲 史令含 史骏铭 史志汶 史晓飞 史诗嶙 史列翌 史浩奕 史雪鑫 史新澄 史偌天 史长诚 史晟云 史羽臣 史亮强 史志衍 史晗宁 史沐杰 史辉华 史楷宽 史镖佳 史永帆 史佳凯 史建亦 史郡亮 史福阳 史克良 史存涛 史子财 史子豪 史佩宇 史安元 史誉豫 史佳西 史利涵 史家非 史嘉华 史子杰 史宏泽 史大连 史占宇 史焜伟 史雨军 史东卿 史少天 史雨凯 史俊铭 史正龙 史有翔 史万滨 史恩旭 史重桥 史銮杭 史志亮 史铭明 史玉佳 史煜鸽 史子功 史雨泽 史守林 史知宇 史天耀 史成有 史子祥 史叔纬 史湉军 史少蒋 史宏然 史厚心 史忧超 史珂扬 史小含 史振臣 史垣伦 史泓祥 史礼乐 史家琳 史烁捷 史有灵 史轩湘 史晨桐 史芯雪 史辉继 史之祺 史一臣 史安贤 史睿新 史豪阳 史国杰 史逸鑫 史小杰 史宣旋 史成光 史凯炼 史军凌 史新林 史天衡 史卫彤 史文银 史泽宝 史光玉 史治月 史连彪 史清天 史诗泓 史若西 史帆杰 史清孝 史铃强 史昱林 史夫航 史博勤 史悦矜 史伟锐 史亦雨 史倬铿 史成俊 史鑫威 史智鸿 史芯轩 史紫枫 史一祁 史家成 史建阳 史建铭 史童健 史雨轩 史安子 史采平 史嘉蓁 史舞涛 史建祝 史泽涛 史国君 史峻漩 史海翔 史天旺 史如俪 史泽锌 史郁杰 史值民 史可凯 史明欣 史可佳 史胜临 史乐潇 史渴悦 史紫轩 史君鑫 史绵龙 史友人 史艺民 史骏芯 史佩均 史乐斌 史宇杰 史天涛 史颢辉 史哲朔 史锋彦 史旺语 史信寿 史旌意 史润桐 史云宏 史红水 史东龙 史佳涛 史惋民 史绍林 史中飞 史启懋 史天禾 史国壮 史铭堂 史天金 史蔚爱 史昊航 史召乐 史济玮 史逸源 史治翼 史家申 史嘉光 史家涵 史逸霄 史晨涛 史浩茗 史仕泽 史万明 史俊宏 史顺祺 史欣贤 史玉萱 史建华 史诗好 史柏戈 史龙安 史维峰 史埔诚 史柏皓 史承磊 史力玉 史扬天 史林城 史国栋 史若剑 史幼伟 史瑞盖 史子辉 史佩阳 史育琪 史译波 史艳勤 史小涛 史晓富 史天晖 史凯兵 史世铭 史圣珍 史宝锐 史麟吉 史添渤 史峪煌 史伊翔 史高禹 史新姊 史勋浏 史孟宏 史心实 史皓德 史天萱 史行飞 史可浩 史树席 史炳羚 史建兵 史旺林 史俊波 史浩卜 史重宏 史嘉昕 史绪涛 史宝傅 史效龙 史家华 史光行 史枝铫 史与翔 史毓涛 史涛明 史建骊 史驿然 史语岑 史俏东 史子明 史建凯 史绪远 史广唐 史子宇 史武文 史子伟 史祺中 史少雪 史乐良 史舂明 史鹏童 史泽国 史宜杰 史晨纯 史欣仁 史宏霖 史尚酌 史子淳 史查东 史京平 史宏汶 史裴妤 史浔雨 史天烟 史丁星 史晟谷 史子坤 史梓墨 史伯豪 史逸枫 史奕远 史胜宇 史钜宝 史毅宁 史子续 史琪求 史夏成 史子成 史元宇 史可泽 史彦甲 史梓军 史智龙 史思明 史林林 史弘煜 史家函 史文轩 史潆全 史振泽 史琬霖 史兆源 史志国 史纹蛋 史春煜 史孝龙 史书来 史心如 史乔昌 史祯宸 史家昊 史峻庆 史之有 史悦和 史芯峰 史泽山 史子略 史一铭 史仁清 史昭有 史泽文 史琳淦 史伯默 史晓禾 史俊桐 史晖铭 史靖芺 史瑞轩 史晗斯 史智雷 史随洋 史轶杰 史子端 史柏豪 史国云 史玉义 史仁龙 史冰光 史子武 史汝睿 史恪宇 史东胜 史幕鹏 史容德 史全才 史皓琪 史俊丫 史珺然 史年涛 史昊喜 史毓恒 史启林 史义云 史宛晗 史顺刚 史荣寒 史舜晨 史泽贤 史德杰 史国航 史禺嘉 史达伟 史会霆 史志盛 史军志 史良红 史远琪 史明轩 史芳轩 史葵雨 史星洲 史浩超 史双睿 史增程 史尔兰 史名北 史京豪 史诚杰 史裔旨 史昭飞 史庆东 史周俊 史全琦 史爱仁 史自林 史川琳 史晓程 史金轩 史立轩 史大军 史俊涵 史梓灵 史德宁 史森佶 史恒国 史奕佳 史其恺 史龙登 史享璞 史程云 史皓湘 史骁虎 史阜旺 史俊瑞 史卓宇 史向忠 史云轩 史风枝 史清楠 史文语 史子琪 史星韩 史亮礽 史心皓 史宇靖 史浩涛 史翊祥 史俊涛 史必嫦 史春贤 史天阳 史晓龙 史建洋 史深涛 史思辉 史程常 史诗清 史正德 史雨均 史元哲 史念宗 史国容 史健灏 史杉涛 史城林 史承翔 史大允 史星翔 史跃苇 史硕秀 史楚灿 史顺镡 史天荣 史科东 史星国 史飞达 史馨阳 史世宇 史淇翔 史杰雄 史魁聪 史京涛 史迎年 史芷正 史丁飞 史金吉 史湘贺 史箫彤 史玉靖 史立沁 史忻文 史振霖 史建彬 史万晓 史家涵 史文遥 史进宇 史德儒 史海勇 史奎舟 史成成 史枝峰 史豫泽 史耀军 史芷雷 史江鑫 史涛丞 史人胜 史德渊 史丽又 史正华 史昭敬 史富存 史贵宇 史向君 史东涛 史长斌 史文东 史皓来 史欲杉 史玉洋 史思初 史莜发 史兴然 史景豪 史艳晟 史宝奇 史荣泓 史洲儒 史思乐 史飞海 史朱缘 史耀恩 史修豪 史锈林 史进东 史泰洋 史金民 史怀行 史建心 史泊熔 史宇骁 史治达 史思雅 史旺男 史郅进 史文鹏 史珂松 史世旗 史祺华 史兴群 史振珅 史若豪 史思云 史盈翔 史家平 史瑞高 史东飞 史兴飞 史建瞳 史明宝 史宇林 史厚伟 史泽爷 史洪佑 史晓瑶 史利华 史学禹 史翱蔓 史耕山 史震冰 史昌鹏 史麒鑫 史大翰 史兖雄 史运晨 史智祥 史义明 史荣军 史冠东 史喜凯 史聪滨 史靖霏 史德旖 史邝军 史浩涵 史家哲 史玉成 史天诚 史迎凯 史于驰 史泽骉 史若宇 史皓锦 史皓权 史文江 史沈成 史志林 史子修 史永和 史囯勋 史楚卿 史浩泽 史凇铭 史栋崎 史恒杰 史轩竹 史可柔 史一欣 史根贺 史美威 史沛辰 史宏成 史维翔 史一昱 史胜延 史嘉昕 史朝锋 史青枫 史子晟 史淳涛 史睿凡 史亚骥 史馨妙 史旭威 史华杰 史滢坚 史俊豪 史中路 史彦海 史滟而 史京六 史俊夫 史析东 史思富 史大桑 史钧天 史亚栎 史社泽 史利伟 史珞康 史轩泰 史宏成 史光桦 史宇峰 史泽涛 史志亭 史良各 史永和 史朗城 史季涛 史佑骏 史子惠 史吉宇 史书蜂 史诗涵 史开瑞 史子铭 史智宏 史沄斐 史奇瞳 史宏杰 史昭坤 史子谦 史建模 史皓赫 史驰福 史林彪 史文宁 史依云 史欣烁 史文隆 史军煊 史烨彪 史思晶 史羿帆 史七机 史谨林 史宇宝 史宛南 史坷灏 史沁翔 史歆涵 史昌国 史春林 史理丞 史成萌 史骞墨 史瑞松 史儿文 史施泞 史文彪 史悠萧 史若缓 史邦明 史思炫 史曙淳 史大恺 史思萌 史妞杰 史泽杰 史昭建 史宇佳 史涵宇 史祥涵 史桂林 史逸民 史博澜 史长林 史纪煊 史智好 史洛英 史海涛 史晓宇 史漫霖 史承博 史卜贵 史家彤 史千柱 史若宇 史红默 史焱赫 史善程 史飞冉 史军峰 史凡云 史思光 史海榄 史峻豪 史浩文 史群军 史子汐 史聪彪 史兆权 史信珊 史宇檀 史刘杰 史莘周 史羽峰 史仁利 史汇雄 史俊澄 史青锐 史径安 史硕伟 史悦锦 史福永 史润晖 史瑞铭 史伯雨 史显河 史雪华 史洪阳 史连昌 史镕柱 史永韬 史浩杉 史成成 史冬龙 史晨涛 史雨涛 史诗龙 史奕君 史睿泰 史罗灿 史芷昕 史柏普 史卫翔 史霄彬 史子庆 史泽蔓 史耀华 史宏文 史文涵 史傲冰 史雨辰 史键超 史心柯 史宗蔹 史国初 史泽舟 史卫秋 史大瑁 史殿展 史抒林 史恺辉 史鸣泽 史佶东 史锡凯 史桢斌 史振键 史浩泫 史宇刁 史凌钊 史若宗 史树禹
张声杰
张劲杰
张桐杰
张运杰
张人杰
张波杰
张琛杰
张和杰
张孝杰
张雅杰
张易杰
张恺杰
张铭杰
张友杰
张彤杰
张士杰
张栩杰
张泊杰
张昱杰
张学杰
张为杰
张强杰
张义杰
张思杰
张善杰
张相杰
张宗杰
张亦杰
张予杰
张浚杰
张知杰
张津杰
张琳杰
张宁杰
张亮杰
张胤杰
张朗杰
张汉杰
张修杰
张光杰
张朋杰
张久杰
张月杰
张岚杰
张长杰
张焕杰
张添杰
张恒杰
张城杰
张仁杰
张懿杰
张佑杰
张延杰
张玉杰
张厚杰
张骐杰
张亚杰
张利杰
张来杰
张以杰
张德杰
张如杰
张传杰
张绍杰
张道杰
张悦杰
张仕杰
张力杰
张炜杰
张忻杰
张有杰
张鸣杰
张水杰
张潇杰
张欣杰
张裕杰
张秋杰
张世杰
张崇杰
张晓杰
张沐杰
张小杰
张虎杰
张积杰
张孟杰
张飞杰
张秀杰
张镇杰
张望杰
张宜杰
张雪杰
张屹杰
张蔚杰
张钦杰
张承杰
张鑫杰
张济杰
张丁杰
张鹤杰
张晨杰
张雄杰
张森杰
张富杰
张烁杰
张昭杰
张楚杰
张勋杰
张彦杰
张凌杰
张禹杰
张琪杰
张远杰
张高杰
张震杰
张灵杰
张礼杰
张凡杰
张洛杰
张心杰
张峥杰
该栏目主要是推送上财商学院教师国内外学术前沿动态、科研成果的信息平台。商学院以“双一流”学科建设为科研导向打造学院核心优势;商学院教师践行“厚德博学,经济匡时”的校训,不断提升科研实力和教学成果,在各自领域做出优秀的原创性科研成果,打造商学院财经特色品牌,为促进中国社会经济的发展提供理论支持。
编者按
本期推介成果为上财商学院谢天副教授及其合作者Steven F Lehrer完成,2021年3月12日发表在《Management Science》的论文“The Bigger Picture: Combining Econometrics with Analytics Improves Forecasts of Movie Success”。
· 论文摘要 ·
使用机器学习结合社交媒体大数据来提高预测精度,在学术界和业界都有较高的关注度。为了评估该项技术的实用性,本文使用**行业数据,将常规计量经济学方法与预测分析文献中的常见机器学习工具进行了详细的对比。在此基础上,我们还提出了一种全新的混合学习算法。该方法将常规计量经济学算法与机器学习算法相结合,进而可以更加精确地捕捉数据异质性,以达到提高预测精度的目的。我们的实证结果验证了社交媒体数据的重要性以及混合学习算法的价值。具体来说,虽然机器学习算法中的最小二乘支持向量回归和树类算法明显优于传统计量经济学方法,但我们提出的混合学习算法能够在其基础上进一步提高预测精度。此外,蒙特卡洛实验表明,我们提出的混合学习算法的相对优势主要建立在数据的异质性上。而无论社交媒体数据测度方法的迥异区别还是各种**特征对票房的不同影响都会产生显著的异质性。
作者介绍 INTRODUCTION
谢天,曾获加拿大皇后大学博士学位。上海财经大学商学院世经国贸系副教授。主要研究方向为组合预测和模型平均,大数据分析等。主持和参与多项国家自然科学基金项目。研究成果在Management Science, Review of Economics and Statistics, Journal of Financial Econometrics等一流期刊发表。
BONUS SCENE
一个小彩蛋
Management Science编辑部以及我的合作者Steven F Lehrer在推特上都有对本文做宣传。我私下里把他们发的Tweets以及所有回复的内容一起做了一个简单的字符分析,并把结果通过如下字图展示。字体越大说明提及频率越高。貌似在介绍本文的时候,人们较为看重数据处理,而且关心(机器)学习方法与计量经济学的全新结合。这较为直观地反映了目前我所在的研究(小)领域内,人们看重的关键点和可能的未来发展方向。一些表达情绪的关键词汇也被筛选出来。当然也没忘提及了下我的名字(右下角…好小…)。
我还用本文使用的情绪分析工具,研究了一下合作者所有相关Tweets的综合情绪。结果显示,和中性的0相比,Tweets情绪高达0733。说明Steve发推时的情绪高涨自豪。
01
引言
很多人推测,**制片厂在不久的将来会认识到,决定一部**成功与否的因素中,预测分析与制片人、导演和(或)**明星一样重要。目前文献中,预测分析结合社交媒体大数据的做法比较流行,且主要用在**行业的需求预测上。提高预测精度的意义重大,因为它们能够降低投资者对票房不确定性的顾虑从而增加资本投资;还可以帮助市场营销团队量身打造最有效的营销活动。
前人的研究中,如 Bollen, Mao 和 Zheng (2011), Goh, Heng 和 Lin (2013) 及 Lehrer 和 Xie (2017) 等,展示了社交媒体在不同预测情境下的重要性。然而,这些文献中都没有考虑目前流行的机器学习算法,如回归树,随机森林,提升方法和支持向量回归等。这些机器算法一般不会限制统计模型的具体结构,并且通过加入传统计量方法忽略的非线性预测量的交互项来提升预测精度。尽管这些算法在建模时有一定优势,通过递归分区构建超平面或者树形结构时,它们一般都要求在整个解释变量空间内,齐方差假设成立。
数据的异方差性可能来自于被忽略的参数异质性,会影响许多预测方法的预测能力。比如,异方差会改变支持向量的位置,还会改变数据分区的方式,从而影响回归树的结构等。本文提出了一种新的预测分析理念,与以往文献中的计量方法和机器学习算法都不同,为提升**业预测精度提供了指导性帮助。因此,本文对以改善预测精度等实证表现为主的数据科学领域的发展也做出了一定贡献。改领域目前在经济学科和管理学科都受到了重视,著名文献包括但不限于:Vasilios, Thephilos 和 Periklis (2015) 检验了预测每日和每月汇率时,机器学习方法的精度;Wager 和 Athey (2018) 提出了随机森林的变形方法,估计随机效应;Ban, Karoui 和 Lim (2018) 用机器学习算法做投资组合优化,等等。
本文提出的混合策略,考虑了最小二乘支持向量回归和递归分区方法中数据的异方差性导致的异质性问题。为了说明这一点,用回归树预测时, 我们通常用一个局部常量模型,假设单个终端叶片间结果同质。本文的混合方法允许模型有不确定性,并且在每个终端叶子分组中进行模型平均。因此,我们的混合方法考虑了每个叶子分组内,解释变量和被解释变量之间存在异质性的概率。最近的一篇文献,Pratola, Chipman, Geroge 和 Mc- Culloch (2020) 考虑在贝叶斯模型的框架之下,在现有机器学习文献中加入异方差。在支持向量回归方法中,我们也允许模型不确定性,对准则函数做出调整,使之建立在异方差误差项之上。本文通过模拟实验以及**票房相关的实证例子阐述了,混合策略及递归分区方法或者最小二乘支持向量回归的具体应用环境,和相比较于Pratola, Chipman, Geroge 和 Mc- Culloch (2020)等方法的比较优势,进而感兴趣的使用者提供了指导。
本文还对其他实证方法对**收入的预测精度做了检验。我们选择样本时并没有特定的标准依据,样本包括三年内北美所有在影院上映或售卖的**。我们发现,该数据表现出很强的异方差性,追溯其原因很可能是来自不同分布的人群对不同类型**的兴趣差异性。本文的实证结果首先为学者选择预测方法时的权衡提供了新的启示。样本容量较小时,我们发现最小二乘支持向量回归优于其他机器学习方法。总体来看,递归分区方法(包括回归树,引导聚合和随机森林)与计量方法相比,预测精度提升30%-40%,那些计量方法都采用了模型选择标准或模型平均方法。计量估计量和惩罚方法间接考虑了异方差数据,统计学习方法与这些方法相比,预测精度有很大的提升,进一步说明了线性参数计量模型的局限性。然而,这些线性模型目前仍然很受欢迎。如Manski (2004)所说:“统计学家取得进步的原因是把目标集中在易处理的估计量上,比如线性无偏或渐近正态的估计量。”
其次,本文的发现利用本文提出的混合策略,在允许模型不确定性存在时,预测精度约有10%的进一步提高。许多种类的机器学习算法的预测精度都有所提升:(i) 替代支持向量回归的核函数;(ii) 在树形结构(包括随机森林,引导聚合,M5’,最小二乘支持向量回归)下用超参数和局部目标函数来分割数据的算法等等。模拟实验能够帮助我们理解为什么实证分析中预测精度会出现大幅的提升。我们发现参数存在显著异质性导致数据异方差时, 本文的混合策略极为有效。参数异质性的原因可能是跳跃或门槛效应,或者是在潜在关系中忽视了参数的异质性。这种情况下,混合策略能在一定程度上解释叶片间结果的异质性。
最后,本文发现加入社交媒体数据,即使在异方差的数据环境下,仍然对提高预测精度有巨大的帮助。我们考虑了多种计量检验,都验证了社交媒体数据的重要性。我们提出的混合策略甚至可以对变量的重要性进行量化排序。计算结果说明,预测**票房或单位销售收入时,最重要的10个变量中,有7个隶属于社交媒体数据。
接下来,我们将对本文采用的模拟实验结果以及实证分析进行具体的描述。
02
模拟实验结果对比
为了展示混合策略相较传统方法的优势,我们考虑以下非线性模型。其中,图1(a)(b) 两部分分别展示了训练数据的散点图和曲面图,数据生成过程如下:
yi = sin(X1i) + cos(X2i) + ei,
其中 X1i ∈ [1, 10], X2i ∈ [1, 10], ei是均值为0、方差为001的高斯噪声。
图1 (c) -(f) 分别表示用 RT, MART, SVRLS,和 MASVRLS方法得到的训练数据的预测值 y由于RT预测假设叶片间同质,图1(c) 中的曲面图与阶梯函数类似。相反,MART预测假设叶片间也是异质的,图1(d) 中的曲面图与基本数据中联合分布的变化更接近。图1(e) SVRLS 的预测图与 MART 类似,但褶皱更明显。而MASVRLS 方法预测的曲面图最为平缓,具体可参见图1(f)
图1(g)-(j) 分别展示了 RT, MART, SVRLS,和 MASVRLS算法的预测误差。通过比较这四个图形的高度,我们发现,MART 和 MASVRLS 方法得到的绝对误差值的分别小于RT和SVRLS 的一半。而且,整个 X1 和 X2 的区间内,(h) 和 (i) 高度都减半了。这验证了我们对于放松模型具体结构可以提高预测精度的假设,也说明了捕捉叶片或支持向量之间的参数异质性从而提高预测精度的重要性。
图1、混合策略与其他传统方法在模拟数据下的表现差异展示▼
03
实证研究
我们收集了2010年10月1日至2013年6月30日期间北美上映的所有**的相关数据。在 IHS **咨询部门的帮助下,我们用一系列指标衡量每部**的特征,包括**类型,美国**协会给出的**内容评级(G, PG, PG13 和 R),除广告费用以外的预算,以及**上映六周前**制片厂预测的上映周数和上映影院数。在本文的分析中,我们主要用首映周末票房(n = 178) 和首映时 DVD 和蓝光光碟的总销量(n = 173) 考量一部**的初始需求量。
为了从大量推特信息中 (平均每天35亿条) 萃取出有用的关于“支付意愿”的信息,本文考虑两种衡量标准。第一,基于 Hannak 等人 (2012) 的算法,计算某一部**的“情绪”。这种算法包括**标题和关键词的文本分析:找出含有**名称或关键词的推特,再计算作者发布的文字和中的情绪得分。与某一部**有关的所有推特中,每个词语有不同的情绪得分,这部**的情绪指数就是情绪得分的均值。第二,我们计算了每部**有关的不加权的推特总数。在本文的分析中,我们分别考虑推特数量(volume)和推特情绪(sentiment),因为情绪能表现**的质量,但数量可以展现人们对**的兴趣(流量)。
为了检验在传统计量方法或机器学习方法中加入社交媒体数据的重要性,我们参照 Hansen 和 Racine (2012) 的做法,做了下述试验,以衡量包含不同协变量的模型中不同估计量的相对预测效率。我们比较的估计方法可以分为以下几类:(i) 传统计量方法;(ii) 模型筛选方法;(iii) 模型平均发 ;(iv) 机器学习方法;以及(v) 本文新提出的混合方法。该方法结合了计量工具和机器学习算法,能够更好地捕捉数据的异质性。
试验把原始数据 (样本量为 n ) 分成训练集 (nT ) 和评估集(nE = n −nT )我们可以从训练集中得到每种方法的参数估计量,这些参数估计量接着被用来预测评价集的结果,从而可以计算均方误测方差 (MSFE) 和平均绝对预测误差 (MAFE),对每类预测方法做出评价。以最小二成法(OLS)为例,MSFE和MAFE的具体算法如下:
其中 (yE, xE) 是评价集,nE 是训练集中观测值的数量, βˆT 是基于训练集的对应模型的估计系数,ιE 是一个 nE × 1、元素都为1的向量。总的来说, 我们用不同大小的评估集 (nE = 10, 20, 30, 40) 重复进行了10,001次试验。
图2和图3分别是公开票房和单位销售额的预测误差试验的结果。图2和图3最上面的一幅图表示的是 MSFE 的中位数,最下面的一幅图表示的是MAFE 的中位数。每个小图中都有四条曲线,分别对应不同大小的评估集, 每个点代表对应评估集下,x轴上标出的估计量的预测结果。估计量一般按照预测精度的改善程度排序,除了本文新提出的混合策略的估计量在传统的机器学习方法估计量的附近。重新排列帮助我们直观地看到每一个混合方法中加入模型不确定性带来的边际收益。需要注意的一点是,RF 和MARF 后的数值代表随机抽取的用来决定每个节点处是否分裂的解释变量的个数。
本文提出的 MASVRLS 方法在每幅图的最右边,因为不管用 MSFE 还是 MAFE 衡量,MASVRLS 的预测结果都是最优的。紧靠着 MASVRLS 左边的是 SVRLS 方法,得到了次优的结果。加入模型平均使得 SVRLS 和 MASVRLS 的预测表现提升10%。即便如此,nE 取值很小时,试验考察的机器学习方法都绝对优于 HRCp,计量估计量和惩罚方法。统计学习文献中常用的方法,如引导聚合、随机森林方法也优于基准模型。而且,我们发现把模型平均加入到引导聚合方法后,大约有10%的收益,与向 SVRLS 方法加入模型不确定性后的收益相同。
图2、公开票房预测结果对比
图3、单位销售额预测结果对比
比较图2和图3的结果,我们发现混合策略中加入支持向量回归比树形回归能获得更大的收益,且公开票房的预测结果优于零售单位销售额的预测结果。然而,**零售单位销售额的预测精度提高的百分点更大,因为**零售单位销售额的样本容量更小。我们还发现,当我们使用更大的样本来预测DVD和蓝光光碟销售额时,HBART相较于树形回归的优越性更为明显。常规的随机森林方法和加入模型平均后的随机森林估计,在所有方法中表现平平。需要注意的是,当测试集nE 变大,所有方法的预测表现都会变差,这一结果也符合预期。
04
结论
**行业充满不确定性。De Vany 和Walls (2004) 报告称,1984-1996年上映的2,000部**中,只有22% 的**盈利或不赚不赔。由于社交媒体能反映出一部**上映前公众的兴趣,而且社交媒体还能够测度潜在观众对广告营销的反应,**业对于用社交媒体数据做预测十分振奋。新的数据来源不仅能够提高潜在提升预测精度,还能运用递归分区方法或者为数据挖掘开发的SVR算法。运用**业的数据,我们发现这些算法与维度缩减或传统计量方法相比,预测精度有了显著提高。
尽管机器学习方法提供了实际性的帮助,我们认为异方差数据可能会阻碍许多算法的预测表现。因此,我们提出了一种混合策略,即把模型平均应用到每个支持向量或叶片中。本文的实证研究说明,不管是哪种机器学习算法,运用混合策略后预测精度都有显著改善。而且,混合策略中加入支持向量回归比树形回归能获得更大的收益,且公开票房的预测结果优于零售单位销售额的预测结果。然而,**零售单位销售额的预测精度提高的百分点更大,因为**零售单位销售额的样本容量更小。另外,在传统计量方法、惩罚方法或模型筛选方法中加入异方差能够提高预测精度,本文的分析对这点提出了怀疑。
机器学习领域学者们面临的一大挑战是Wolpert 和Macready (1997) 提出的“无免费午餐”定理。这是一个不可能定理,即不可能存在一个全局最优策略。最优策略不但取决于样本容量和预测的目标变量,还取决于特定问题的结构,而分析者事前通常不知道问题的结构。然而,由于现实世界中数据的异方差性很普遍,在树类算法或最小二乘支持向量回归的基础之上,我们提出的混合学习算法具有重要意义,还能够与 Pratola, Chipman, Geroge 和 McCulloch (2020) 提出的 HBART 策略相互补充。
为了推动后续有关社交媒体对**业盈利的影响的文献,我们可以考虑使用加总程度更低的推特数量和情绪得分作为解释变量。比如,我们可以测度推特不同子集的情绪,子集的分类标准可以是粉丝数量,人口特征, 或推特是否有正面(负面)导向,等等。通过把社交情绪分解成小部分,我们可以知道,推特中表达出的哪种类型的情绪与观看**的决策相关。未来的研究方向是:理解混合学习算法的统计特征,开发出一个能够在一个有多个协变量的模型中捕捉到异方差来源的检验方法,以及为他人提供策略选择方面的建议。另外,我们还需要开发出一套评价预测模型的标准,评价标准不仅仅是估计量的偏差和效率,还应该考虑预测方法的计算复杂性,这些都将会对管理决策提供很大的帮助。
SUFE COB
责编 | 张宜杰 审编 | 谢天 沈梦雪
张有杰
张善杰
张以杰
张思杰
张懿杰
张为杰
张玉杰
张亦杰
张昭杰
张高杰
张雄杰
张积杰
张凌杰
张洛杰
张厚杰
张修杰
张仁杰
张秀杰
张凡杰
张宜杰
张彦杰
张利杰
张绍杰
张延杰
张岚杰
张恺杰
张力杰
张世杰
张德杰
张如杰
张礼杰
张焕杰
张彤杰
张士杰
张森杰
张雅杰
张崇杰
张声杰
张恒杰
张潇杰
张小杰
张添杰
张承杰
张运杰
张烁杰
张远杰
张屹杰
张易杰
张孟杰
张义杰
张雪杰
张灵杰
张秋杰
张浚杰
张久杰
张镇杰
张孝杰
张琳杰
张波杰
张晨杰
张昱杰
张胤杰
张相杰
张泊杰
张仕杰
张蔚杰
张楚杰
张劲杰
张月杰
张欣杰
张传杰
张鑫杰
张朗杰
张济杰
张学杰
张丁杰
张忻杰
张震杰
张峥杰
张钦杰
张裕杰
张栩杰
张勋杰
张佑杰
张长杰
张光杰
张亮杰
张虎杰
张友杰
张炜杰
张道杰
张汉杰
张予杰
张心杰
张望杰
张人杰
张桐杰
张琛杰
张鹤杰
张水杰
张飞杰
张亚杰
张悦杰
张宗杰
张朋杰
张骐杰
张富杰
张琪杰
张宁杰
张津杰
张来杰
张鸣杰
张禹杰
张城杰
张和杰
张晓杰
张沐杰
张强杰
张铭杰
张知杰
现代史氏家谱就是现代姓史的名字
本文2023-10-11 04:05:27发表“资讯”栏目。
本文链接:https://www.lezaizhuan.com/article/224923.html