乐学京东 2023-05-19 22:17:02

12315投入京东需要企业代码在哪里找

1）进入京东官网。（2）进入京东店铺。（3）鼠标放置上方店铺名。（4）可查看到店铺信息。（5）点击店铺名进入店铺信息页。（6）输入验证码点击确定。（7）可查看店铺企业代码星级等详细信息。

京东商品评论信息是由JS动态加载的，所以直接抓取商品详情页的URL并不能获得商品评论的信息。因此我们需要先找到存放商品评论信息的文件。这里我们使用Chrome浏览器里的开发者工具进行查找。
具体方法是在商品详情页点击鼠标右键，选择检查，在 *** 出的开发者工具界面中选择Network，设置为禁用缓存(Disable cache)和只查看JS文件。然后刷新页面。页面加载完成后向下滚动鼠标找到商品评价部分，等商品评价信息显示出来后，在下面Network界面的左侧筛选框中输入productPageComments，这时下面的加载记录中只有一条信息，这里包含的就是商品详情页的商品评论信息。点击这条信息，在右侧的Preview界面中可以看到其中包含了当前页面中的评论信息。(抓取价格信息输入prices)。
复制这条信息，并把URL地址放在浏览器中打开，里面包含了当前页的商品评论信息。这就是我们要抓取的URL地址。
仔细观察这条URL地址可以发现，其中productId=10001234327是当前商品的商品ID。与商品详情页URL中的ID一致。而page=0是页码。如果我们要获取这个商品的所有评论，只需要更改page后面的数字即可。
在获得了商品评论的真实地址以及URL地址的规律后，我们开始使用python抓取这件商品的700+条评论信息。并对这些信息进行处理和分析。
开始前的准备工作
在开始抓取之前先要导入各种库文件，这里我们分别介绍下需要导入的每个库文件的名称以及在数据抓取和分析中的作用。requests用于进行页面抓取，time用于设置抓取过程中的Sleep时间，random用于生产随机数，这里的作用是将抓取页面的顺序打乱，re用于在抓取后的页面代码中提取需要的信息，numpy用于常规的指标计算，pandas用于进行数据汇总和透视分析，matplotlib用于绘制各站图表，jieba用于对评论内容进行分词和关键词提取。
#导入requests库(请求和页面抓取)
import requests
#导入time库(设置抓取Sleep时间)
import time
#导入random库(生成乱序随机数)
import random
#导入正则库(从页面代码中提取信息)
import re
#导入数值计算库(常规计算)
import numpy as np
#导入科学计算库(拼表及各种分析汇总)
import pandas as pd
#导入绘制图表库(数据可视化)
import matplotlibpyplot as plt
#导入结巴分词库(分词)
import jieba as jb
#导入结巴分词(关键词提取)
import jiebaanalyse
将爬虫伪装成浏览器
导入完库文件后，还不能直接进行抓取，因为这样很容易被封。我们还需要对爬虫进行伪装，是爬虫看起来更像是来自浏览器的访问。这里主要的两个工作是设置请求中的头文件信息以及设置Cookie的内容。
头文件信息很容易找到，在Chrome的开发者工具中选择Network，刷新页面后选择Headers就可以看到本次访问的头文件信息，里面包含了一些浏览器的技术参数和引荐来源信息。将这些信息直接添加到代码中就可以，这里我们将头部信息保存在headers中。
#设置请求中头文件的信息
headers = {'User-Agent':'Mozilla/50 (Windows NT 61) AppleWebKit/53711 (KHTML, like Gecko) Chrome/230127164 Safari/53711',
'Accept':'text/html;q=09,/;q=08',
'Accept-Charset':'ISO-8859-1,utf-8;q=07,;q=03',
'Connection':'close',
'Referer':''
}
在查看头文件信息的旁边还有一个Cookies标签，点击进去就是本次访问的Cookies信息。这里的Cookies信息与前面头文件中的Cookie信息一致，不过这里更加清晰。把Request Cookies信息复制到代码中即可，这里我们将Request Cookies信息保存在Cookie中。
#设置Cookie的内容
cookie={'TrackID':'1_VWwvLYiy1FUr7wSr6HHmHhadG8d1-Qv-TVaw8JwcFG4EksqyLyx1SO7O06_Y_XUCyQMksp3RVb2ezA',
'__jda':'122270672150760763214234957051479785414147979455392',
'__jdb':'12227067211507607632|921479794553',
'__jdc':'122270672',
'__jdu':'1507607632',
'__jdv':'122270672|direct|-|none|-|1478747025001',
'areaId':'1',
'cn':'0',
'ipLoc-djd':'1-72-2799-0',
'ipLocation':'%u5317%u4EAC',
'mx':'0_X',
'rkv':'V0800',
'user-key':'216123d5-4ed3-47b0-9289-12345',
'xtest':'4657553d9798cdf31c02d86b8b81cc119d94836b7a782741f667201b54880c925faec4b'}
抓取商品评论信息
设置完请求的头文件和Cookie信息后，我们开始抓取京东商品评论的信息。前面分析URL的时候说过，URL中包含两个重要的信息，一个是商品ID，另一个是页码。这里我们只抓取一个商品的评论信息，因此商品ID不需要更改。但这个商品的评论有700+条，也就是有近80页需要抓取，因此页码不是一个固定值，需要在0-80之间变化。这里我们将URL分成两部分，通过随机生成页码然后拼接URL的方式进行抓取。
#设置URL的第一部分
url1=''
#设置URL的第二部分
url2='&pageSize=10&callback=fetchJSON_comment98vv41127'
#乱序输出0-80的唯一随机数
ran_num=randomsample(range(80), 80)
为了使抓取过程看起来更加随机，我们没有从第1页一直抓取到第80页。而是使用random生成0-80的唯一随机数，也就是要抓取的页码编号。然后再将页码编号与两部分URL进行拼接。这里我们只知道商品有700+的评论，但并不知道具体数字，所以抓取范围定位从0-80页。
下面是具体的抓取过程，使用for循环每次从0-80的随机数中找一个生成页码编号，与两部分的URL进行拼接。生成要抓取的URL地址并与前面设置好的头文件信息和Cookie信息一起发送请求获取页面信息。将获取到的页面信息进行汇总。每次请求间休息5秒针，避免过于频繁的请求导致返回空值。
#拼接URL并乱序循环抓取页面
for i in ran_num:
a = ran_num[0]
if i == a:
i=str(i)
url=(url1+i+url2)
r=requestsget(url=url,headers=headers,cookies=cookie)
html=rcontent
else:
i=str(i)
url=(url1+i+url2)
r=requestsget(url=url,headers=headers,cookies=cookie)
html2=rcontent
html = html + html2
timesleep(5)
print("当前抓取页面:",url,"状态:",r)
在抓取的过程中输入每一步抓取的页面URL以及状态。通过下面的截图可以看到，在page参数后面的页码是随机生成的并不连续。
抓取完80个页面后，我们还需要对页面进行编码。完成编码后就可以看到其中所包含的中文评论信息了。后面大部分苦逼的工作就是要对这些评论信息进行不断提取和反复的清洗。
#对抓取的页面进行编码
html=str(html, encoding = "GBK")
这里建议将抓取完的数据存储在本地，后续工作可以直接从本地打开文件进行清洗和分析工作。避免每次都要重新抓取数据。这里我们将数据保存在桌面的pagetxt文件中。
#将编码后的页面输出为txt文本存储
file = open("c:\\Users \\Desktop\\pagetxt", "w")
filewrite(html)
fileclose()
读取文件也比较简单，直接open加read函数就可以完成了。
#读取存储的txt文本文件
html = open('c:\\Users\\ Desktop\\pagetxt', 'r')read()
提取信息并进行数据清洗
京东的商品评论中包含了很多有用的信息，我们需要将这些信息从页面代码中提取出来，整理成数据表以便进行后续的分析工作。这里应该就是整个过程中最苦逼的数据提取和清洗工作了。我们使用正则对每个字段进行提取。对于特殊的字段在通过替换等方式进行提取和清洗。
下面是提取的第一个字段userClient，也就是用户发布评论时所使用的设备类型，这类的字段提取还比较简单，一行代码搞定。查看一下提取出来的字段还比较干净。使用同样的方法我们分别提取了以下这些字段的内容。
#使用正则提取userClient字段信息
userClient=refindall(r',"usefulVoteCount","userClientShow":(),',html)
#使用正则提取userLevel字段信息
userLevel=refindall(r'"referenceImage","userLevelName":(),',html)
#使用正则提取productColor字段信息
productColor=refindall(r'"creationTime","productColor":(),',html)
#使用正则提取recommend字段信息
recommend=refindall(r'"creationTime","recommend":(),',html)
#使用正则提取nickname字段信息
nickname=refindall(r'"creationTime","nickname":(),',html)
#使用正则提取userProvince字段信息
userProvince=refindall(r'"referenceImage","userProvince":(),',html)
#使用正则提取usefulVoteCount字段信息
usefulVoteCount=refindall(r'"referenceImage","usefulVoteCount":(),',html)
#使用正则提取days字段信息
days=refindall(r'"usefulVoteCount","days":()}',html)
#使用正则提取score字段信息
score=refindall(r'"referenceImage","score":(),',html)</pre>
还有一些字段比较负责，无法通过正则一次提取出来，比如isMobile字段，有些值的后面还有大括号。这就需要进一步的提取和清洗工作。
#使用正则提取isMobile字段信息
isMobile=refindall(r'"usefulVoteCount","isMobile":(),',html)
使用for循环配合替换功能将字段中所有的}替换为空。替换完成后字段看起来干净多了。
#替换掉最后的}
mobile=[]
for m in isMobile:
n=mreplace('}','')
mobileappend(n)
productSize字段中包含了胸围和杯罩两类信息，为了获得独立的杯罩信息需要进行二次提取，将杯罩信息单独保存出来。
#使用正则提取productSize字段信息
productSize=refindall(r'"creationTime","productSize":(),',html)
使用for循环将productSize中的第三个字符杯罩信息提取出来，并保持在cup字段中。
#提取杯罩信息
cup=[]
for s in productSize:
s1=s[3]
cupappend(s1)
创建评论的日期信息仅依靠正则提取出来的信息还是比较乱，无法直接使用。因此也需要进行二次提取。下面是使用正则提取出的结果。
#使用正则提取时间字段信息
creationTime1=refindall(r'"creationTime":(),"referenceName',html)
日期和时间信息处于前20个字符，在二次提取中根据这个规律直接提起每个条目的前20个字符即可。将日期和时间单独保存为creationTime。
#提取日期和时间
creationTime=[]
for d in creationTime1:
date=d[1:20]
creationTimeappend(date)
在上一步日期和时间的基础上，我们再进一步提取出单独的小时信息，方法与前面类似，提取日期时间中的第11和12个字符，就是小时的信息。提取完保存在hour字段以便后续的分析和汇总工作。
#提取小时信息
hour=[]
for h in creationTime:
date=h[10:13]
hourappend(date)
最后要提取的是评论内容信息，页面代码中包含的评论信息是重复的，因此在使用正则提取完后还需要对评论信息进行去重。
#使用正则提取评论信息
content=refindall(r'"guid","content":(),',html)
使用if进行判断，排除掉所有包含的评论信息，已达到评论去重的目的。
#对提取的评论信息进行去重
content_1=[]
for i in content:
if not "img" in i:
content_1append(i)
完成所有字段信息的提取和清洗后，将这些字段组合在一起生成京东商品评论数据汇总表。下面是创建数据表的代码。数据表生成后还不能马上使用，需要对字段进行格式设置，例如时间和日期字段和一些包含数值的字段。具体的字段和格式设置依据后续的分析过程和目的。这里我们将creationTime设置为时间格式，并设置为数据表的索引列。将days字段设置为数值格式。
#将前面提取的各字段信息汇总为table数据表，以便后面分析
table=pdDataFrame({'creationTime':creationTime,'hour':hour,'nickname':nickname,'productColor':productColor,'productSize':productSize,'cup':cup,'recommend':recommend,'mobile':mobile,'userClient':userClient,'userLevel':userLevel,'userProvince':userProvince,'usefulVoteCount':usefulVoteCount,'content_1':content_1,'days':days,'score':score})
#将creationTime字段更改为时间格式
table['creationTime']=pdto_datetime(table['creationTime'])
#设置creationTime字段为索引列
table = tableset_index('creationTime')
#设置days字段为数值格式
table['days']=table['days']astype(npint64)
#查看整理完的数据表
tablehead()
这里建议再次保存清洗和预处理完的数据表。我们这里将数据表保存为csv格式。到了这一步可以选择在Excel中完成后续的数据分析和可视化过程，也可以继续在python中完成。我们这里选择继续在python中完成后续的数据分析和可视化工作。
#保存table数据表
tableto_csv('jd_tablecsv')
数据分析及可视化
分月评论数据变化趋势
首先查看京东商品评论的时间变化趋势情况，大部分用户在购买商品后会在10天以内进行评论，因此我们可以近似的认为在一个月的时间维度中评论时间的变化趋势代表了用户购买商品的变化趋势。

京东APPdevicefinger/Eid生成有以下方法
方法一利用浏览器“检查”获取首先需要登录京东账户，同时随便选一款商品，进入商品提交界面，利用谷歌浏览器右击“检查”，然后选择“Console”，在命令行输入“_JdTdudfp”，回车即可！
方法二编写html网页文件自动获取创建一个html后缀的文件indexhtml，编辑模式打开，写入代码，用浏览器打开京东，并登陆，随意选择一个商品进入提交界面，将上面创建的indexhtml文件拖到当前浏览器，即可看到想要的eid和fp值：

hot 或new在导航上会动这种是PS里先设计GIF动态，然后再安装到店铺中，京东现在导航是设计1920x40px，你就按这个尺寸在PS里设计好动态样式的，然后加上超链接，你如果要全屏代码再用疯狂的美工京东装修助手生成个店招上使用的全屏代码，这样用小一点分辨率的电脑看就会居中了。希望给帮到你~

做一些H5特效的动态页面，以前需要专业技术团队和设计师才能制作。现在通过这些简单的平台，你几分钟就能免费创作自己的H5页面。甚至有的你需要做的只是仅仅换上几张图，敲几个字，选自己喜欢的音乐\视频…一个不错的H5页面就出来了。下面介绍几款HTML5工具（排名不分先后；各平台可能会有所变更，介绍如果有不准确之处，还望多理解）！
搜狐快海报
快海报是搜狐快站平台上全新推出的免费H5页面制作工具， *** 作也极为简便易学，完全没有技术要求。采用拖拽式 *** 作，属性式设置的模式。一拖一拽，简单配置，所见即所得，一分钟即可学会，三分钟便能完成。还有海量模板即将上线，替换内容即可生成。快海报还支持同一组件的多重动画设置，让画面更丰富更炫酷。
久爱微景秀
久爱微景秀这个平台制作起来非常简单，静态模板和动态模板都有，模板样式丰富，浏览体验不错。有多种动态效果以及交互效果可供选择，多种效果、翻页动画、背景音乐、可统计浏览量，可以获得表单反馈信息。所见即所得的在线实时制作技术，很轻松就可以做出很炫的h5页面。且对于免费用户来说，全部功能也都是开放的，可以不受限制地做出自己的动态页面。还可以提供定制服务。
口袋通微杂志
口袋通是一个免费的微商平台，其场景海报也是为了其电商功能服务，不过免费得版提供的交互较为简单，没有多样的模板。
易传单
编辑器界面比较友好，设计灵活方便，数据统计与表单上也是亮点所在。除了模板较少之外其他的都是相当好。
epub360意派
这不是奇虎360的，意派的交互功能极为强大，可以说更适合专业的设计师打造的交互设计，动画效果出色，虽然简单傻瓜式的模板不多，但自由度相对较高。
易企秀
易企秀有多种动态模板，能实现文本和带有滑动、隐现、放大缩小等动态效果。同时有ios移动客户端，在手机上也可创建场景应用，以及数据统计功能。大体上和maka差不多，但是表单和统计是免费也可用，更多功能需要企业会员。
Liveapp场景应用/云来
云来Liveapp是面向企业方的移动场景APP云服务平台，许多企业都在使用，需购买场景应用。不过，现在云来场景应用正式免费开放，所有“认证企业”都可以申请获取。免费体验长达31天，体验结束后，也会永久保存并持续展示你的场景应用。
Vxplo
Vxplo也是专注在线交互设计，功能强大，同epub360一样适合专业设计师，可以零代码制作轻应用。使用上相对较为复杂，不过其甚至也可以用来制作响应式网站，有时间可以试试。
最酷网
最酷网也是一个免费H5场景应用制作和发布平台。不用懂设计、不用会编程，1分钟上手制作，平台针对不同的应用场景和内容展现形式，提供海量的模板、丰富的控件、灵活的动画特效。用户可以简单快速的通过替换、内容编辑，就可以创建属于自己的、炫酷的云场景应用。
FormFollowsFunction
严格来说，FormFollowsFunction不属于H5制作平台，而是一个预览平台。H5页面到底能实现什么样的动画效果？这一个网站几乎能看到所有H5能够实现的动画效果，引爆你的灵感，并且让你心中有数。
Weebly
Weebly和Wix也是一款HTML5拖放式智能创建器，支持中文，拥有多种优秀网页模板和交互效果，并且有IOS和Android客户端可以管理自己的网页、随时随地跟踪。
Wix
Wix基于H5技术，向用户提供多种网页模板， *** 作简单无需代码，智能拖拽即可实现网页建设。Wix每个类目下有上百的HTML5模板可供使用，响应式设计，在手机端也有很好的展示。
Ceilfire
Ceilfire是一个创建H5游戏并分享的平台，点击进入你就会看到很多的H5页面游戏。用户可以直接在浏览器中创建游戏、参与游戏、分享游戏，对于想做简单的H5游戏的朋友可以用这种方式试试手。就算不做也可以看看已有的H5游戏来找找感觉。
平台或可更多，不能尽述，留待留心发现。