乐学京东 2023-08-14 0:15:02

如何用python获取京东的评论数据

京东商品评论信息是由JS动态加载的，所以直接抓取商品详情页的URL并不能获得商品评论的信息。因此我们需要先找到存放商品评论信息的文件。这里我们使用Chrome浏览器里的开发者工具进行查找。
具体方法是在商品详情页点击鼠标右键，选择检查，在 *** 出的开发者工具界面中选择Network，设置为禁用缓存(Disable cache)和只查看JS文件。然后刷新页面。页面加载完成后向下滚动鼠标找到商品评价部分，等商品评价信息显示出来后，在下面Network界面的左侧筛选框中输入productPageComments，这时下面的加载记录中只有一条信息，这里包含的就是商品详情页的商品评论信息。点击这条信息，在右侧的Preview界面中可以看到其中包含了当前页面中的评论信息。(抓取价格信息输入prices)。
复制这条信息，并把URL地址放在浏览器中打开，里面包含了当前页的商品评论信息。这就是我们要抓取的URL地址。
仔细观察这条URL地址可以发现，其中productId=10001234327是当前商品的商品ID。与商品详情页URL中的ID一致。而page=0是页码。如果我们要获取这个商品的所有评论，只需要更改page后面的数字即可。
在获得了商品评论的真实地址以及URL地址的规律后，我们开始使用python抓取这件商品的700+条评论信息。并对这些信息进行处理和分析。
开始前的准备工作
在开始抓取之前先要导入各种库文件，这里我们分别介绍下需要导入的每个库文件的名称以及在数据抓取和分析中的作用。requests用于进行页面抓取，time用于设置抓取过程中的Sleep时间，random用于生产随机数，这里的作用是将抓取页面的顺序打乱，re用于在抓取后的页面代码中提取需要的信息，numpy用于常规的指标计算，pandas用于进行数据汇总和透视分析，matplotlib用于绘制各站图表，jieba用于对评论内容进行分词和关键词提取。
#导入requests库(请求和页面抓取)
import requests
#导入time库(设置抓取Sleep时间)
import time
#导入random库(生成乱序随机数)
import random
#导入正则库(从页面代码中提取信息)
import re
#导入数值计算库(常规计算)
import numpy as np
#导入科学计算库(拼表及各种分析汇总)
import pandas as pd
#导入绘制图表库(数据可视化)
import matplotlibpyplot as plt
#导入结巴分词库(分词)
import jieba as jb
#导入结巴分词(关键词提取)
import jiebaanalyse
将爬虫伪装成浏览器
导入完库文件后，还不能直接进行抓取，因为这样很容易被封。我们还需要对爬虫进行伪装，是爬虫看起来更像是来自浏览器的访问。这里主要的两个工作是设置请求中的头文件信息以及设置Cookie的内容。
头文件信息很容易找到，在Chrome的开发者工具中选择Network，刷新页面后选择Headers就可以看到本次访问的头文件信息，里面包含了一些浏览器的技术参数和引荐来源信息。将这些信息直接添加到代码中就可以，这里我们将头部信息保存在headers中。
#设置请求中头文件的信息
headers = {'User-Agent':'Mozilla/50 (Windows NT 61) AppleWebKit/53711 (KHTML, like Gecko) Chrome/230127164 Safari/53711',
'Accept':'text/html;q=09,/;q=08',
'Accept-Charset':'ISO-8859-1,utf-8;q=07,;q=03',
'Connection':'close',
'Referer':''
}
在查看头文件信息的旁边还有一个Cookies标签，点击进去就是本次访问的Cookies信息。这里的Cookies信息与前面头文件中的Cookie信息一致，不过这里更加清晰。把Request Cookies信息复制到代码中即可，这里我们将Request Cookies信息保存在Cookie中。
#设置Cookie的内容
cookie={'TrackID':'1_VWwvLYiy1FUr7wSr6HHmHhadG8d1-Qv-TVaw8JwcFG4EksqyLyx1SO7O06_Y_XUCyQMksp3RVb2ezA',
'__jda':'122270672150760763214234957051479785414147979455392',
'__jdb':'12227067211507607632|921479794553',
'__jdc':'122270672',
'__jdu':'1507607632',
'__jdv':'122270672|direct|-|none|-|1478747025001',
'areaId':'1',
'cn':'0',
'ipLoc-djd':'1-72-2799-0',
'ipLocation':'%u5317%u4EAC',
'mx':'0_X',
'rkv':'V0800',
'user-key':'216123d5-4ed3-47b0-9289-12345',
'xtest':'4657553d9798cdf31c02d86b8b81cc119d94836b7a782741f667201b54880c925faec4b'}
抓取商品评论信息
设置完请求的头文件和Cookie信息后，我们开始抓取京东商品评论的信息。前面分析URL的时候说过，URL中包含两个重要的信息，一个是商品ID，另一个是页码。这里我们只抓取一个商品的评论信息，因此商品ID不需要更改。但这个商品的评论有700+条，也就是有近80页需要抓取，因此页码不是一个固定值，需要在0-80之间变化。这里我们将URL分成两部分，通过随机生成页码然后拼接URL的方式进行抓取。
#设置URL的第一部分
url1=''
#设置URL的第二部分
url2='&pageSize=10&callback=fetchJSON_comment98vv41127'
#乱序输出0-80的唯一随机数
ran_num=randomsample(range(80), 80)
为了使抓取过程看起来更加随机，我们没有从第1页一直抓取到第80页。而是使用random生成0-80的唯一随机数，也就是要抓取的页码编号。然后再将页码编号与两部分URL进行拼接。这里我们只知道商品有700+的评论，但并不知道具体数字，所以抓取范围定位从0-80页。
下面是具体的抓取过程，使用for循环每次从0-80的随机数中找一个生成页码编号，与两部分的URL进行拼接。生成要抓取的URL地址并与前面设置好的头文件信息和Cookie信息一起发送请求获取页面信息。将获取到的页面信息进行汇总。每次请求间休息5秒针，避免过于频繁的请求导致返回空值。
#拼接URL并乱序循环抓取页面
for i in ran_num:
a = ran_num[0]
if i == a:
i=str(i)
url=(url1+i+url2)
r=requestsget(url=url,headers=headers,cookies=cookie)
html=rcontent
else:
i=str(i)
url=(url1+i+url2)
r=requestsget(url=url,headers=headers,cookies=cookie)
html2=rcontent
html = html + html2
timesleep(5)
print("当前抓取页面:",url,"状态:",r)
在抓取的过程中输入每一步抓取的页面URL以及状态。通过下面的截图可以看到，在page参数后面的页码是随机生成的并不连续。
抓取完80个页面后，我们还需要对页面进行编码。完成编码后就可以看到其中所包含的中文评论信息了。后面大部分苦逼的工作就是要对这些评论信息进行不断提取和反复的清洗。
#对抓取的页面进行编码
html=str(html, encoding = "GBK")
这里建议将抓取完的数据存储在本地，后续工作可以直接从本地打开文件进行清洗和分析工作。避免每次都要重新抓取数据。这里我们将数据保存在桌面的pagetxt文件中。
#将编码后的页面输出为txt文本存储
file = open("c:\\Users \\Desktop\\pagetxt", "w")
filewrite(html)
fileclose()
读取文件也比较简单，直接open加read函数就可以完成了。
#读取存储的txt文本文件
html = open('c:\\Users\\ Desktop\\pagetxt', 'r')read()
提取信息并进行数据清洗
京东的商品评论中包含了很多有用的信息，我们需要将这些信息从页面代码中提取出来，整理成数据表以便进行后续的分析工作。这里应该就是整个过程中最苦逼的数据提取和清洗工作了。我们使用正则对每个字段进行提取。对于特殊的字段在通过替换等方式进行提取和清洗。
下面是提取的第一个字段userClient，也就是用户发布评论时所使用的设备类型，这类的字段提取还比较简单，一行代码搞定。查看一下提取出来的字段还比较干净。使用同样的方法我们分别提取了以下这些字段的内容。
#使用正则提取userClient字段信息
userClient=refindall(r',"usefulVoteCount","userClientShow":(),',html)
#使用正则提取userLevel字段信息
userLevel=refindall(r'"referenceImage","userLevelName":(),',html)
#使用正则提取productColor字段信息
productColor=refindall(r'"creationTime","productColor":(),',html)
#使用正则提取recommend字段信息
recommend=refindall(r'"creationTime","recommend":(),',html)
#使用正则提取nickname字段信息
nickname=refindall(r'"creationTime","nickname":(),',html)
#使用正则提取userProvince字段信息
userProvince=refindall(r'"referenceImage","userProvince":(),',html)
#使用正则提取usefulVoteCount字段信息
usefulVoteCount=refindall(r'"referenceImage","usefulVoteCount":(),',html)
#使用正则提取days字段信息
days=refindall(r'"usefulVoteCount","days":()}',html)
#使用正则提取score字段信息
score=refindall(r'"referenceImage","score":(),',html)</pre>
还有一些字段比较负责，无法通过正则一次提取出来，比如isMobile字段，有些值的后面还有大括号。这就需要进一步的提取和清洗工作。
#使用正则提取isMobile字段信息
isMobile=refindall(r'"usefulVoteCount","isMobile":(),',html)
使用for循环配合替换功能将字段中所有的}替换为空。替换完成后字段看起来干净多了。
#替换掉最后的}
mobile=[]
for m in isMobile:
n=mreplace('}','')
mobileappend(n)
productSize字段中包含了胸围和杯罩两类信息，为了获得独立的杯罩信息需要进行二次提取，将杯罩信息单独保存出来。
#使用正则提取productSize字段信息
productSize=refindall(r'"creationTime","productSize":(),',html)
使用for循环将productSize中的第三个字符杯罩信息提取出来，并保持在cup字段中。
#提取杯罩信息
cup=[]
for s in productSize:
s1=s[3]
cupappend(s1)
创建评论的日期信息仅依靠正则提取出来的信息还是比较乱，无法直接使用。因此也需要进行二次提取。下面是使用正则提取出的结果。
#使用正则提取时间字段信息
creationTime1=refindall(r'"creationTime":(),"referenceName',html)
日期和时间信息处于前20个字符，在二次提取中根据这个规律直接提起每个条目的前20个字符即可。将日期和时间单独保存为creationTime。
#提取日期和时间
creationTime=[]
for d in creationTime1:
date=d[1:20]
creationTimeappend(date)
在上一步日期和时间的基础上，我们再进一步提取出单独的小时信息，方法与前面类似，提取日期时间中的第11和12个字符，就是小时的信息。提取完保存在hour字段以便后续的分析和汇总工作。
#提取小时信息
hour=[]
for h in creationTime:
date=h[10:13]
hourappend(date)
最后要提取的是评论内容信息，页面代码中包含的评论信息是重复的，因此在使用正则提取完后还需要对评论信息进行去重。
#使用正则提取评论信息
content=refindall(r'"guid","content":(),',html)
使用if进行判断，排除掉所有包含的评论信息，已达到评论去重的目的。
#对提取的评论信息进行去重
content_1=[]
for i in content:
if not "img" in i:
content_1append(i)
完成所有字段信息的提取和清洗后，将这些字段组合在一起生成京东商品评论数据汇总表。下面是创建数据表的代码。数据表生成后还不能马上使用，需要对字段进行格式设置，例如时间和日期字段和一些包含数值的字段。具体的字段和格式设置依据后续的分析过程和目的。这里我们将creationTime设置为时间格式，并设置为数据表的索引列。将days字段设置为数值格式。
#将前面提取的各字段信息汇总为table数据表，以便后面分析
table=pdDataFrame({'creationTime':creationTime,'hour':hour,'nickname':nickname,'productColor':productColor,'productSize':productSize,'cup':cup,'recommend':recommend,'mobile':mobile,'userClient':userClient,'userLevel':userLevel,'userProvince':userProvince,'usefulVoteCount':usefulVoteCount,'content_1':content_1,'days':days,'score':score})
#将creationTime字段更改为时间格式
table['creationTime']=pdto_datetime(table['creationTime'])
#设置creationTime字段为索引列
table = tableset_index('creationTime')
#设置days字段为数值格式
table['days']=table['days']astype(npint64)
#查看整理完的数据表
tablehead()
这里建议再次保存清洗和预处理完的数据表。我们这里将数据表保存为csv格式。到了这一步可以选择在Excel中完成后续的数据分析和可视化过程，也可以继续在python中完成。我们这里选择继续在python中完成后续的数据分析和可视化工作。
#保存table数据表
tableto_csv('jd_tablecsv')
数据分析及可视化
分月评论数据变化趋势
首先查看京东商品评论的时间变化趋势情况，大部分用户在购买商品后会在10天以内进行评论，因此我们可以近似的认为在一个月的时间维度中评论时间的变化趋势代表了用户购买商品的变化趋势。

文/ 郑栾

电商江湖，七年之变。

随着马云和刘强东的归隐，局面从一对一的决斗，变成了张勇、蒋凡、黄峥和徐雷四个人的三国杀，烈度较几年前丝毫不减。

把时钟拨回2013年，蒋凡进入阿里，徐雷重回京东，黄峥开始了他的第三次创业，张勇正在筹备他的成名之战“All in无线”。

这场电商三国杀的时间线，从那时候就已经被开启，拥有各自的走向，却又在现在的时空中收束。

四位玩家走到今天这一步，既有自身的努力，也要感谢命运的安排。

2013，张勇超越经理人

马云最讨厌职业经理人。他曾经多次公开表达对职业经理人的不喜欢，还说过自己不想让CFO做CEO。

马云挑了又当过职业经理人，又当过CFO的张勇，在他退休之后领导阿里巴巴这艘银河战舰。

如同他说，“我不喜欢钱，我对钱没有兴趣”。

显然，在张勇接班之时，他早已不是马云口中的“职业经理人”。

张勇后来也在一次采访中说：“我们不希望管公司的是个manager，这很重要。我不断跟团队强调的就是这一点，改天你去采访马老师，可以问问他张勇是不是一个经理人？如果我是一个经理人，他肯定不会把阿里交给我的。”

张勇很幸运，尽管在阿里，他既不是元老，也不是最被看好的接班人选，但阿里的制度让他有机会施展自己的才能。

他坦陈，“阿里更多样性，并没有严格规定CFO该做什么。在别的公司像我这样的职务是不可能做业务的。”

于是张勇得以在阿里留下自己深刻的印记——双十一购物节、天猫商城、手机淘宝……这让“外来户”张勇得以成为阿里首次对外公布的27位合伙人之一。

他不仅兢兢业业地维护着阿里的价值观和组织架构，还拼命留住那些年轻精英，比如蒋凡。

2013年，阿里收购友盟，作为创始人的蒋凡进入阿里。原本实现财务自由的他准备“过段时间就撤了”，但据说张勇亲自到办公室挽留他，并说服他成为自己“All in无线”的得力助手。

马云-张勇-蒋凡，在蒋凡出事前，阿里的最高权力变动似乎已经明朗而平顺。

阿里的对手京东则截然不同。徐雷当上轮值CEO之前，没几个人知道他。

徐雷在京东的命运，和京东自身的组织发展有着莫大的关联。

今日资本总裁徐新是刘强东的贵人，她不仅给京东带来了第一笔过千万美元的大手笔投资，让京东声名鹊起，还给了刘强东很多可行的建议。

在京东快速发展的过程中，迅速扩充团队是必要的。京东最早的团队从中关村卖光碟起家，除刘强东本人是中国人民大学毕业之外，其他早期员工普遍学历不高。徐新给了刘强东两个建议： 一是引进几个牛人，另一个是招募管培生。

徐新建议先招一个财务总监，当时格局还有限的刘强东答应了，但要求工资不能高过京东的老员工，当时京东老员工最高的月薪是1万元。但徐新看得上的财务总监开价都在2万元以上。

徐新是真想让京东好，她找来了陈生强，现在京东金融的CEO，并且由自己和京东各承担了他一半的薪水。

刘强东尝到了“能人”的甜头，后来，徐雷从好耶网络加盟，王振辉（现任京东物流CEO）从怡亚通转投京东。

到京东筹备上市的时候，刘强东渐渐发现，仅靠这批管理者+管培生提拔，已经无法满足管理的要求，于是以沈皓瑜为首的一批职业经理人开始被他招进京东。

COO沈皓瑜、CMO蓝烨、CTO王亚卿、CHO隆雨……当时的京东管理层一下子空降了很多人，客观来讲，这些证明过自己能力的精英为京东上市做出了不小的贡献。

也许是这样的变化，让徐雷在2011年离开京东，在百丽旗下的优购网担任CMO，他在深圳度过了两年。

两年后，要去美国游学的刘强东特意找徐雷喝了几顿酒，把他喊了回来。可见，不管是在任还是离职，刘强东对徐雷的能力和人品都相当认可。

2013年的阿里和京东，都处在上市的前夜。它们日后最强劲的竞争对手拼多多，那时还没有诞生。

2015，黄峥的第四次创业

那时的黄峥在做什么？

和他开挂的人设完全不符，黄峥在2013年开启了自己的第三次创业，成立了一个叫寻梦游戏的公司，业务并不高大上，主要运营一些打情色擦边球的网页游戏。就在这个游戏公司有了一定利润的时候，倒霉的黄峥又得了中耳炎。接近一年的时间里，黄峥没怎么参与过公司运营。

就算浙大毕业，美国留学；就算你大学的时候认识了丁磊和段永平；就算你拥有在谷歌中国工作的光鲜履历；就算你已经通过创业实现了财务自由，创业的种种琐事照样会不断困扰着你。

黄峥也是凡人，也得想办法养活团队，只能做些赚钱的业务，譬如别人看不上的页游运营。

但他身上当然也有着不平凡的光点。

从谷歌中国离开后，段永平把步步高的电商业务交给了黄峥，黄峥在此基础上成立了欧酷网，但他发现做3C已经很难和当时的京东竞争。

于是欧酷网被他卖给了谷歌中国的另一位前同事，兰亭集势的创始人郭去疾。不过黄峥没有把欧酷网全盘打包，而是留下了技术团队。

这个技术团队跟着黄峥又做了电商代运营公司“乐其”和游戏公司“寻梦”，后来又成为拼多多团队的基础。这是很多创始人不具备的格局与眼光。

从中耳炎的折磨中走出来后，闭关了一段时间的黄峥仍然想创业。起初，因为中耳炎，黄峥考虑过开医院，但后来看到微商的凶猛，黄峥决定不要贸然跨行，而是抓住电商行业的机会。

于是在2015年，黄峥第四次创业，成立了拼好货，用社交的玩法做生鲜电商。

下半年，当拼好货在跌跌撞撞中快速发展的时候，寻梦游戏 CEO找到他，告诉他这种拼单模式可以做成平台，游戏公司希望自己做一个项目。

黄峥同意了，寻梦游戏将最核心的员工抽调20多人出来，将游戏公司之前赚的钱投到新项目拼多多上。一个团队撑起了两个项目，拼好货做B2C的生鲜电商；拼多多做C2C的电商平台，核心阵地都是社交流量。

黄峥发现，由于拼多多团队既做过电商，又做过游戏，相比拼好货的纯电商团队，他们对前端的理解，对消费者深层次需求的理解，包括怎么样做好软件产品等确实要强。

拼多多更重视软件产品的互动，把产品当成游戏运营，强调用户以什么方式第一次接触、互动、怎么做用户筛选。“ 游戏跟电商公司有一个思路是有差别的，它不认为进来的所有用户都是他的，始终在试图寻找适合这个玩法的用户，他在寻求的是玩法的迭代和更新。”

下沉市场里，黄峥的两个“儿子”——拼多多和拼好货，避开了京东和阿里的竞争，避开了 *** 打出头鸟，正在野蛮生长。

2016，徐雷脱颖而出

京东在2016年遭遇了第一次大危机。

成功上市后，刘强东把京东商城CEO的位置让给了沈皓瑜。但沈皓瑜毕竟只是个职业经理人，两年过去，刘强东发现很多管理者不作决策，大量事情议而不决，京东最擅长的战斗力逐步被稀释、下降。

刘强东只能结束在美国读书、谈恋爱的生活，重回京东的业务一线。同样具有“回归”意味的，是徐雷重掌京东市场部。

2016年京东618没有公布GMV，公司内悲观情绪漫延，股价也跌到低点。刘强东被迫重回一线，并且进行组织架构调整。沈皓瑜、蓝烨、王亚卿、熊青云等高管转岗，很多人实质上被架空了。

徐雷抓住了机会。 他提出把京东的“红六月”改为“618”，以期给消费者留下更深刻的印象，并且和双十一对标；同时，和张勇一样，他也负责了京东的无线化过程。 两年时间里，他带着京东顺利完成了无线化。

他的轨迹和张勇如出一辙。

那一年，马云干了两件事：一是提出新零售概念，二是举办了首届“马云乡村教师奖”颁奖典礼。100名乡村教师在海南三亚见到了马云，每人获得了10万元的奖金。从那之后，马云拍、搞达摩院，已然过上了逍遥日子，直到2019年正式退休。

彼时，张勇已经担任阿里巴巴集团CEO一年，大部分繁琐又不得不由企业一把手来处理的事情都来到了他这里。

对张勇来说，2016年最重要的事情是，3月份手机淘宝团队和淘宝合并。他在内部信中说， “淘宝的无线化已经完成，消费者也已经完全迁徙到无线上。”

当时，张勇手下有三大将，负责技术，花名南天的庄卓然；负责用户体验设计，花名青云的杨光以及没有花名的蒋凡。

而对蒋凡来说，那一年也发生了两件大事。

5月，蒋凡极为看重的“淘宝直播”被推出，阿里进入直播时代，大批网红从中受益，其中就有张大奕。同年，阿里巴巴以约3亿元入股如涵，这一投资为如涵赴美上市提供了背书。

黄峥也在这一年做出了自己的重要决断——将拼多多和拼好货合并，自己担任CEO。合并之后，拼多多的单月GMV已经超过20亿元，付费用户过亿。

2020，蒋凡马失前蹄

蒋凡是85后，和70后的徐雷几乎是两代人。

蒋凡既懂技术，又懂年轻人。有传闻称蒋凡办公不用电脑，几乎所有工作都在手机上完成，对手机的熟悉也帮助他成为了阿里巴巴全面转型无线时代的急先锋。

与他的伯乐张勇一样，蒋凡也在阿里留下了属于自己的印记。 他用1年的时间，将手机淘宝的日活从3000万提升到11亿。更重要的是，如今火爆的淘宝直播，正是由蒋凡一手主导。

这是阿里在眼下战场上的最大王牌，因此阿里绝无可能临阵换将，也无人能代替蒋凡在这条业务线上的地位。

蒋凡出事出得实在不是时候。

就在2019年底，阿里刚刚进行了一轮不大不小的组织架构调整。12月19日，阿里巴巴宣布新一轮面向未来的升级，集中发力推进全球化、内需、大数据和云计算三大战略。蒋凡在负责淘宝和天猫业务的基础上，分管阿里妈妈业务。

如此重要的三大业务交到蒋凡手中，几乎坐实了他接班人的位置。可惜蒋凡远没有学到张勇的低调和谨慎。

成为阿里CEO后，张勇经常强调一句话：“到哪天我从这个位置退下来，我做了10个大的决策，6个是对的，4个是错的，我已经很高兴了。”

徐雷则低调得多。

近几年，刘强东在学习马云、学习阿里巴巴，更多“老京东人”走上前台：徐雷、陈生强、王振辉被刘强东提拔起来。

因为自己的丑闻，他需要比马云的隐退更快、更低调。同时，他还需要一个既懂京东的基因，又有自己强劲战斗力的人，这个人就是徐雷。

伴随在后端的，是密集的组织架构调整——要保证即战力应对拼多多和淘宝的竞争，要让新CEO徐雷可以令行禁止，还要适应互联网环境未来的发展趋势。

学阿里并不丢人。阿里拥有极为先进的组织架构和管理体系，这在中国商业史上都是一大创举，哪怕学到其中三分精髓，对京东来说，都大有裨益。

当然，站在2020年5月这个时间点来看，京东做的很好，徐雷也做的很好。

很多人下意识认为徐雷是傀儡，要么是刘强东的傀儡，因为后者权力欲极强；要么是徐新的傀儡，因为他是徐新招进京东的，徐新又是京东的股东，徐雷的上位也许体现了资本的意志。

但事实是， 今日资本手中的大部分京东股票已经兑现；而对刘强东来说，完全脱手京东当然不现实，但当下的徐雷，绝非一个傀儡角色。

徐雷为了对抗拼多多力推的京喜，日均订单量已经超过百万，年初他更是在表彰大会上放话，要在2020年打赢全渠道、下沉新兴市场和平台生态这三大必赢之战。

于是，进入4月以来，京东零售分几次宣布了数位副总裁级别的新岗位任命。徐雷正在按自己的节奏改造京东的组织架构，试图打造一个高效的大中台。

京东的对手实力太强，节奏太快，一个傀儡不可能带着京东活下去。

蒋凡有没有出轨，目前还没有定论，但从表面看，桃色新闻的主角蒋凡和张大奕都没有否认此事。

因此，阿里对“蒋凡事件”的处理，颇有些各方妥协的意味：降级、除名阿里合伙人，但蒋凡负责的业务没有动。既维护了阿里的价值观，又没有损失战斗力。因此，蒋凡还有戴罪立功的机会，为了阿里，也为了自己亲手打造的那些业务。

电商大战在快速升维，它从线上延伸到线下，从交易延伸到供应链，从城市延伸到农村。 如同张勇所说：“如果我们不杀死自己，就会被敌人杀死。”

4月25日凌晨，拼多多发布2019财年年报。年报显示，2019年拼多多实现成交额10066亿元，平台年活跃买家数达5852亿，年营收3014亿元，全年净亏损6968亿元，同比下降三成，曾经饱受诟病的用户留存也有所改善。

为了更好的活下去，黄峥拉上了国美。

喜欢在微博分享音乐的徐雷，清空了自己的微博，把所有精力都投入了在京东的工作。

战争永不改变。

京东转链接通常是使用京东自己提供的app，例如京东分享助手、京东口令红包等，这些app都可以支持用户实现转链接功能。此外，也可以使用第三方网站提供的转链接服务，例如关注产品网等，这些网站也提供类似的转链接服务。

--本次实战案例，是使用三方接口（京东万象）,实现新闻浏览的功能。

项目耗时--版本1--12小时

主要功能--搜索新闻，浏览新闻，新闻分类获取。

安卓app框架：rxjava+retrofit+mvp

程序运行截图：
本软件--安卓端，功能并不多，主要实现新闻浏览，搜索功能。

网络请求接口，使用的是京东万象的免费新闻相关api，在京东万象首页搜索即可得到。

对于整个软件，实现起来并不复杂，下面是要注意的东西:

(1)ManiFest文件的网络权限的添加--networkSecurityConfig

(2)若项目android version28以上，需要配置requestLegacyExternalStorage

(3)网络数据请求结果的封装--三方接口返回的格式（如下图），封装返参的时候，需要进行处理
（4）注意rxjava的调用引起的内存泄露

（5）注意使用webview进行页面浏览时，内存泄露，url重定向的问题

此版本为version100

that's all--------------------------------------------------------------------------------------------------------------------------

他一直以来都给人以低调、神秘的印象。你可能没有听过他的名字，但你一定用过他投的产品。

BAT三大巨头中，他投资了两家：百度、腾讯。除此之外，十几年间，他还投资了京东、美团、滴滴、格力、美的、携程、去哪儿、蔚来汽车、摩拜单车、蓝月亮等800多家企业，在业界被称为“没人敢不给面子的人”。

作为中国“价值投资”领域教父级人物，他一直坚守长期价值投资，买入并长期持有公司股份，要做正和游戏，拒绝零和游戏。

如今的他，早已成为中国最富有的投资人之一。更重要的是，他深刻影响了中国的电商格局。他就是高瓴资本张磊。

1972年，张磊出生在河南驻马店市一个“双职工家庭”，父亲是外贸局干部，母亲是律师。虽然称不上富贵，但也算是中产家庭。

小时候，由于父母都很忙，没时间管教张磊，造就了他从小非常独立自主的性格，并且鬼点子多。

张磊在七岁的时候就展露出经营天赋。当时，他家住在火车站附近，放暑假时，就在车站旁摆上小椅子，把自己的连环画书出租给候车的人看，赚了一些钱。

上小学时，张磊成绩很差，由于靠近少林寺，他满脑子想着“仗剑走天涯”，一心想要“投奔”嵩山，差点连初中都没有考上。小学考初中的最低录取分是140分，张磊考了141分，刚好多1分。

虽然不喜欢学校里的功课，他却喜欢读各种各样的书籍。他认为别人知道的书里都有；但书里有的，别人未必知道。从书中看到的世界，比现实世界要大得多。

从学渣到学霸，除了多读书带给了张磊人生智慧的启迪之外，他还受到一个人的影响，这个人就是中国科学院院士、清华大学教授施一公。施一公是河南人，和张磊是半个老乡。张磊看了施一公写的文章后，很受启发，觉得人生不能虚度，要做出一点成绩。

于是，在上高二的时候，张磊开始发奋学习。

能做到学习和挣钱两不误，张磊不得不让人佩服。

高中时，张磊发动同学们从家里拿来书到火车站摆地摊，搞流动借书站。高三暑假，当别人都在享受第一个没有假期作业的暑假时，张磊却在扩大他的租书生意，大量购进杂志后再转手倒卖，后来又开始卖矿泉水、方便面以及湖南腊肠。

1990年，18岁的张磊以当地高考文科状元的成绩考入中国人民大学金融系就读。当离开家乡去北京时，他已净赚了800元人民币，足够支付自己的学费了！要知道，当时公务员的月薪才100元。

在人大就读期间，是张磊求知若渴的四年，也是积累人脉资源的四年。“现在我交的很多很好的朋友还都是当年在人大读书的时候认识的。他们当中，现在有的是朋友，有的是关系很深的合作伙伴，有的还一起从事一些公益性事业。”张磊回忆道。

1994年毕业后，张磊希望进入一家央企工作，并如愿以偿地入了五矿集团。

在五矿，张磊要经常坐车火车，去全国各地的收购矿山资产，这培养了他对社会的洞察能力。

由于长期做这份工作，感觉未来的发展有限，于是想出国留学。

1998年，张磊去美国耶鲁大学继续深造。耶鲁之行不仅改变了张磊的命运，更改变了许多当时渴望发展却苦于没有巨大投资的“刘强东们”。这是后话。

刚刚来到耶鲁大学的张磊，新鲜劲儿还没有过去，就因囊中羞涩面临了严重的财务危机。

当时之所以选择耶鲁大学，就是因为了解到耶鲁大学是唯一能够提供奖学金的。而且，耶鲁是一所有着三百多年历史的世界顶级名校，培养出无数名人，其中美国总统就有5位。

据说耶鲁老师之间经常开的玩笑是:“一不小心，你就会教出一个总统来。”

不过到了耶鲁后，张磊才知道自己得到的只是一年期奖学金，而整个研究生阶段为期三年，后面的学费要自己掏，急需要找到工作。

就像很多焦虑而迷茫的年轻人一样，张磊投出了无数的简历，最终都石沉大海，他经历了无数的面试，最后都没了回音。每次都是满怀憧憬去，垂头丧气回。

然而， 人生有“生生不息”的绝望，也有不期而遇的温暖。 当他一次次拖着疲惫的身子回到学校时，完全没有想到，机会竟然就在自己出发的地方等他。

张磊在《价值》一书中写到，与大卫·史文森初次相见是在课堂上，但近距离的会面却是在耶鲁投资办公室。

在耶鲁投资办公室的面试室，张磊的恩师大卫·史文森教授给了他一个弥足珍贵的机会——跟着他实习。大卫·史文森是耶鲁大学捐赠基金的首席投资官，在全球投资界，他是和巴菲特齐名的投资人，不仅理论功底深厚，而且还培养了很多投资界的人才。

而在此之前，张磊从未真正接触过投资。

大卫问了张磊很多关于投资的问题，张磊对多数问题都诚实地回答“我不知道”。后来，张磊曾问过大卫，为什么会接受一个对很多问题都回答“I don’t know”的小白？大卫说，很多时候，坦诚都是最为重要的品质。

张磊后来回忆说，在那里，他找到了自己事业的坐标系，选择进入了投资行业。

在耶鲁投资办公室实习时，张磊被派去木材行业做行业研究，几周后回来，张磊拿出了一份行业深度报告，足足有25厘米厚，相当于一本书的厚度。

这份报告中，体现张磊不少读到的见解，其扎实的分析能力与态度，与大卫的长期价值投资理念不谋而合。

大卫在张磊身上看到了巨大的投资潜质，对他刮目相看，传授了自己的毕生所学，并介绍他认识了许多华尔街的金融界大佬。

在那段宝贵的实习期内，大卫回答了张磊提出的数百个关于投资的基本问题。

1999年，自认为羽翼丰满的张磊，决定回国发展。

2000年，张磊创办了中华创业网，主要业务就是帮助中国的互联网企业融资。那时候，张磊坚信中国的雅虎和亚马逊5年之内就会诞生，而中华创业网正是那一场革命的催化剂。此后，张磊组织了上百场投融资对接会，并与张朝阳、马云、马化腾等人结下了哥们儿友谊。

仅仅6个月过后，中华创业网就开始赢利，会员企业超过13000多家，投资机构超过200多家，遍布北京、上海、香港、旧金山等20多个城市，一度被海外媒体评为中国最有影响的投资品牌。黄金年代，高调至极，他和公司的名字一起出现在《纽约时报》的头版和一众媒体上。

然而，2001年全球互联网泡沫破灭，张磊的第一次创业以失败而告终。那一年，28岁的张磊经历了人生的第一次大起大落。

此后，张磊从大众眼中消失了，他重新回到了耶鲁校友基金会。后来，他又辗转到全球新兴市场投资基金、纽约证券交易所工作，并担任纽交所驻中国首席代表。

2005年，互联网行业的魔幻之年。

当时，行业内所有目光都聚焦在李彦宏身上。8月5日，百度在纳斯达克上市，上市当天股价从27美元飙到120美元，敲钟现场，李彦宏喜极而泣。

百度的腾飞也鼓舞了一批有志青年的斗志，于是，2005年诞生了许多互联网公司：去哪儿网、58同城、汽车之家等等。

张磊意识到了中国即将雄起——“整个国家焕发勃勃生机，每个人都能发大财，国内涌现了众多朝气蓬勃的创业者与高科技创业公司。”

于是， 32岁的张磊拿着耶鲁导师的3千万美元戎马归来，创立了高瓴资本（Hillhouse Capital ）。高瓴资本，字面上取“高屋建瓴”之意，一出道气势就有了。

据说这3000万美金，是大卫·史文森为了支持爱徒，从耶鲁投资基金拨出了2000万美元给他作为启动基金，随后又追加了1000万美金。不得不说，大卫真是张磊的贵人！

张磊人生中第一笔真正的投资和QQ有关。

2005年，腾讯只是一家刚刚在香港上市的小企业，市值只有十几亿美元，主要用户是“三低”——低年龄、低学历、低收入，即时通信市场的老大还是MSN。

从价值投资的角度看，腾讯绝对算不上是一家好公司。但张磊却将公司仅有的3000万美元All In了腾讯。

人们不知道的是，在投资腾讯之前，张磊曾跑到义乌商品城调研，每个摊主的名片都印有QQ号，当地招商办也有自己的QQ号，这恐怕是张磊All In腾讯的直接原因。

有人说张磊这样投资腾讯未免太过冒险，而身为股神巴菲特忠实粉丝的张磊，却一直坚持长期价值投资信念： “ 社会早晚会奖励不断疯狂创造长期价值的企业家。”

后来，这笔投资让他获得了超过200倍的回报。

但真正让高瓴拿到顶级投资圈的门票并一战成名的，是投资京东。

2010年，京东正在筹建物流和配送体系，刘强东将营收和2009年新融资的2100万美元中的大部分都用于成立控投物流子公司、购买新的仓储场所等物流体系的建设，可以说，正是急用钱，又一时无法看到收益的投入期。

这种重资产的经营模式，并不被资本市场所看好，始终凑不齐投资款。

时年，37岁的刘强东找到大一岁的人大校友张磊，希望高瓴资本能给京东投点资。

当了解了京东的基本情况后，张磊问刘强东需要多少资金？刘强东犹豫再三，从牙缝里挤出7500万美元这个数字，他以为，张磊很难投资这么多。出人意料的是，张磊坚定地说，要么投资3亿美金，要么一分钱不投。

这是当时国内早期互联网企业的投资中，单笔投资量最大的交易之一，高瓴也一度被人取笑“人傻钱多”。

但是张磊看到了京东背后的强大发展潜力。

京东在他眼中，恰似当年的亚马逊，而贝索斯的遗憾正是亚马逊成立时美国已经有了UPS这类的物流巨头，因此丧失了做供应链整合的机会。而在中国，京东不存在这样的对手，因此面临更好的历史机遇。对于当时的京东而言，不烧足够的钱在物流和供应链系统上，根本看不出来核心竞争力。

正是高瓴的3亿美元大手笔投资，为刘强东争取了足够长的周期，京东才得以顺利确立B2C电子商务领域内不可撼动的领先优势，甚至在某种程度上威慑了新的资本投向该领域的竞争公司，强化了京东的绝对领袖地位。

当时对高瓴资本来说，3亿美金也是一笔巨款，如果投资失败，将全军覆没。张磊的这种反人性的投资，让他在投资界被贴上了“另类”的标签。然而，他又赢了。

2014年5月，京东成功在纳斯达克上市，市值上升至260亿美元。京东的这笔投资让高瓴大赚12倍多，高达38亿美元。

更重要的是，张磊深刻地影响了中国电商格局。

2014年腾讯电商和京东合并，腾讯成为京东的第一大股东，这起大变局的幕后推手正是张磊。

如今，高瓴资本基金规模从最初的3000万美元，已经飙升至600亿美元，十五年的时间，增长了2000倍，平均年化收益率高达65%。高瓴也已连续多年成为亚洲的最大基金。

随着国内经济的发展，以及产业不断升级，高瓴的投资领域也走向了多元化之路。

不仅投资了腾讯、京东、美团、去哪儿、摩拜等互联网公司，而且还持有美的、格力、福耀玻璃、蓝月亮、百丽等制造业和消费品行业的股票。

2017年，高瓴资本最大的一笔投资就是控股“一代鞋王”百丽。百丽本来是一家卖鞋子的传统企业，高瓴收购后一顿 *** 作猛如虎，进行各种转型和资本运作。

2019年，百丽被高瓴分拆出一块运动类资产滔搏单独上市，市值远超百丽私有化时的估值，高瓴又是大赚一笔。大约也是在百丽之后，高瓴开始在中国的投资圈封神。

2019年，高瓴资本正式接手格力集团出让的格力电器15%的股权，成为格力电器第一大股东。

后来，高瓴投资蓝月亮时，又把京东拉进来合作，不仅通过京东的后台数据进行消费者分析，帮助蓝月亮研发新产品，而且还帮蓝月亮解决了线上销售和供应链管理的问题。

资本市场瞬息万变，而张磊一直坚持“重仓中国”的理念，从未改变。关于张磊的故事还在继续，他过往的人生经历和价值观，也值得我们回味与思考。

京东信息字段阿里正则

DABAN RP主题是一个优秀的主题，极致后台体验，无插件，集成会员系统
乐在赚 » 如何用python获取京东的评论数据

乐学钻石

分享到：

如何用python获取京东的评论数据

乐学钻石

0条评论

发表评论取消回复

乐学 钻石

相关推荐

0条评论

发表评论 取消回复

提供最优质的资源集合

乐学钻石

发表评论取消回复