• “两学一做”在山西——黄河新闻网 2019-07-13
  • 内地生报读香港高校本科人数持续下跌 2019-07-13
  • 【学习时刻】人民大学王义桅:金砖合作的“自信”与“自觉” 2019-07-12
  • 女子请“私家侦探”被骗3万 警方循线捣毁诈骗团伙 2019-07-11
  • 【学习时刻】北交大马院院长韩振峰:高校思想政治工作必须牢牢把握三大根本问题 2019-07-11
  • 全国“非遗”保护工作先进名单公布 2019-07-01
  • 紫光阁中共中央国家机关工作委员会 2019-06-25
  • 杭州控烟令修改草案拟允许室内设吸烟区,控烟专家:跌破眼镜 2019-06-25
  • 挪用近30万报纸征订款赌博 河南一报社聘用制干部获刑 2019-06-23
  • 2016年,有1145家上市公司大小非减持了3600亿元,还有210名上市公司高管减持了1400亿元。IPO已成了造就成千上万个十亿、百亿富豪的捷径, 2019-06-21
  • 专家“把脉”中国电影市场:提升品质方能逆袭 2019-06-21
  • “善款资助副局长儿子留学”真相须尽快落地 2019-06-19
  • 21岁女护士失联2天后确认遇害 嫌疑人为其前男友 2019-06-19
  • 中国地质公园名录旅行地中国国家地理网 2019-06-13
  • 玄关运用有四大原则 用的好才能财旺挡煞聚财 ——凤凰网房产 2019-06-10
  • C#爬取京东手机数据+PowerBI数据可视化展示

    广东十一选5一定牛 www.aavbg.com 此系列博文链接

    TODO:
    EF6中基本认识.
    EF6操作mysql
    MySQL乱码问题

    C#爬虫

    在开头贴一下github仓库地址,代码都放在上面.有需要可以参考. 仓库地址

    1. 分析网站,抓包
      这部分还算简单,用谷歌自带的开发者工具查看请求头参数等信息
      搜索商品基本的url是:https://search.jd.com/Search.补上一些参数即可,用谷歌浏览器的代理,否则拿不到数据.京东对爬虫还是比较友好的,除了一个浏览器代理其他没啥反爬虫的玩意儿.下面这个是RequestHeader,加上圈出来的三个即可,其他的没有用到
      还有几个参数要设置一下要在url中设置一下.
      在C#中写了个静态方法设置url的参数:

       public static string SetUrlParameters(string url, Dictionary<string, string> parameters)
      {
          string result = url;
      
          if (parameters.Count > 0)
          {
              result += "?";
              foreach (KeyValuePair<string, string> keyValuePair in parameters)
              {
                  result = string.Format("{0}{1}={2}&", result, keyValuePair.Key,
                      keyValuePair.Value);
              }
      
              result = result.TrimEnd('&');
          }
      
          return result;
      }
      
    2. 编写代码
      根据习惯还是分了三层(捂脸),项目目录结构:

      这里遇到的问题是在用entityframe6操作数据库的时候,采用codefirst方式,生成数据库的时候数据库的默认编码不是utf8,后来在数据库连接字符串里加了个 Character Set=utf8,设置完之后还是没用,又跑到阿里云设置了一下mysql的默认编码方式,然后好了.具体解决会写在另一篇博文中.

      还有问题就是codefirst建立模型,模型之间的关系一开始没有搞清楚,导致像数据库写数据的时候一直无法写入.一个写了三个实体类,分别是Shop Commodity Mobile,Shop(店铺)和Mobile(继承自Commodity)是多对多的关系,一个店铺可以有多个商品,一个商品也可以来自多个店铺,然而我这里并没有用商品Id作为主键,反而一个商品可以出现任意次,因为考虑到分析商品价格随时间的变化.关于EntityFramework6如何设置模型之间的关系也会在另一篇博文呈现.
      程序运行的一个截图:

      我大概爬了五千条左右的数据,再来数据库的截图

      其他的代码不一一赘述了,放到github上了.
      仓库地址

    下面还有PowerBI部分

    花了不少时间处理数据库那边,这部分就简单的图形化操作了一下,虽然拿了五千条左右的数据,还真不知道用来干点啥(捂脸).
    最直观的是想比较同一个手机在不同店铺的售价,用了个直方图,但是效果不太理想,筛选了几种型号的手机,可惜京东上的手机店铺就那么几家,大部分都是自营店铺.截图如下:

    然后用了一个饼图,看了一下各个手机厂商旗下都有多少种不同型号的手机.感叹一下,华为出手机真是勤快,不看不知道一看吓一跳,华为手机的型号,居然占了将近四分之一了.其实数据未必可靠,毕竟像oppo和vivo这些厂很多机型基本只有线下才有的卖.另外可以看到型号较少的手机美图(偷笑),报上了小米的大腿,也算是有个善终吧,当年自己还在官网想抢购一个美图然后加钱卖出去呢(可惜没抢到).

    看了下powerBI自带的还有个漏斗图,随便拖了几个字段进去,看一下京东上哪家店铺卖的手机种类最多吧.可以看到,小米自营店卖的在售的手机是最多的

    PowerBI确实很强大哦,微软爸爸的技术很牛逼,看了下PowerBI里还有一个叫多行卡的图表控件,用它做个表,以后买手机再也不用纠结了.拖几个字段进去,然后可以利用字段筛选满足自己要求的手机.

    上面的看了那么多,好像还有一个最重要的就是价格还没有分析!暂时想不出什么好的方法来分析价格,就简单粗暴的上个折线图吧,看看最贵的手机是谁.

    本以为苹果手机是最贵的,没想到华为的保时捷版本力压群雄,成为京东上最贵的手机.奇怪我记得当年这玩意儿我也在官网上抢购过(没抢到),不是说是限量发售吗~~.

    最后实在想不出还能搞啥了,就用饼图和柱状图拖了几个字段看一下效果:

    可以很直观的看到华为的价格是最贵的.

    总结

    利用这次做的东西,巩固了一下C#的linq的操作,之前数据库用的比较新的efcore操作的这次用的ef6,遇到些坑,不过,Linq真是个好东西,再来一句微软牛逼!!虽然微软曾经也有不完美的地方,但是正在往越来越好的方向发展,希望中国未来也能出现像微软这样优秀的软件+硬件厂商(近几年微软手机做的不行,surface系产品还是不错的,自己买了个二手的surface pro4用着还是舒服的).这次很大一部分时间是被坑在了数据库MySql上了,不是微软亲儿子结合ef用起来没那么爽>唉,还是自己比较菜吧(捂脸),好在最后问题解决了.

    posted @ 2019-04-20 10:48 Laggage 阅读(...) 评论(...) 编辑 收藏
  • “两学一做”在山西——黄河新闻网 2019-07-13
  • 内地生报读香港高校本科人数持续下跌 2019-07-13
  • 【学习时刻】人民大学王义桅:金砖合作的“自信”与“自觉” 2019-07-12
  • 女子请“私家侦探”被骗3万 警方循线捣毁诈骗团伙 2019-07-11
  • 【学习时刻】北交大马院院长韩振峰:高校思想政治工作必须牢牢把握三大根本问题 2019-07-11
  • 全国“非遗”保护工作先进名单公布 2019-07-01
  • 紫光阁中共中央国家机关工作委员会 2019-06-25
  • 杭州控烟令修改草案拟允许室内设吸烟区,控烟专家:跌破眼镜 2019-06-25
  • 挪用近30万报纸征订款赌博 河南一报社聘用制干部获刑 2019-06-23
  • 2016年,有1145家上市公司大小非减持了3600亿元,还有210名上市公司高管减持了1400亿元。IPO已成了造就成千上万个十亿、百亿富豪的捷径, 2019-06-21
  • 专家“把脉”中国电影市场:提升品质方能逆袭 2019-06-21
  • “善款资助副局长儿子留学”真相须尽快落地 2019-06-19
  • 21岁女护士失联2天后确认遇害 嫌疑人为其前男友 2019-06-19
  • 中国地质公园名录旅行地中国国家地理网 2019-06-13
  • 玄关运用有四大原则 用的好才能财旺挡煞聚财 ——凤凰网房产 2019-06-10
  • 加拿大快乐8开奖 七乐彩开奖中三个号码 任选9场开奖时间 湖北30选5走势图 pk10免费计划软件手机 福建时时彩龙虎和规则 淘宝充欢乐斗地主钻石 湖南快乐十分之动物总动员玩法 决胜21点国语高清 新疆十一选五基本走势 贝西克塔VS里昂分析 qq刮刮乐无法 079期连码三中三 广西快乐双彩今晚开奖 刘伯温平特一尾资料