事情是这样的

前段时候,我站在华山之巅(没错,我去夜爬华山看日出了,要死),一个朋友突然问我:你知道现在西安每个区域的新房均价是多少吗?

这个时候,肯定是用数据说话嘛。

不过你以为我会在网上随便找个,不知道哪里冒出来的(野榜)西安各区域价格排名,甩给对方了事吗?

当然不会!

众所周知,我是一个程序猿,身为程序猿,严谨细致,阳光帅气。。。咳咳

秉承着严谨负责的态度,我当然要用最准确,最全面的数据,这样才有说服力嘛。

先上结果

高新单价 一枝独秀 23199.73/㎡

航天基地 总价霸榜 平均333个w

航天基地 户均158.72㎡

时而房荒 时而放量

精装毛坯大约 1比2

面积分布 主力为100-150

房子越大,单价越贵

需求分解

我们来需求分解下,要想知道西安每个区域的新房均价是多少

  1. 首先我们需要知道全市每套新房的价格
  2. 其次要知道每套房子位于哪个区域
  3. 然后将所有房子按区域分类
  4. 最后求每个区域所有房子价格的平均数

重点难点还是前两步,从哪里获取这种价格和区域的数据,才最准确,最全面呢?

当然是西安住建官网的价格公示啦~

这个网站上,有 2021-09-14 之后所有新房的一房一价数据。刚好有我需要的每一套房子的价格和区域数据,还有一些其他信息。而且是官方公示,保证准确全面。

我们来看下这个网站的结构,点击项目名称,可显示楼幢信息:

点击楼幢编号,显示房屋信息:

这样我们就可以查到我们需要的所有数据了。

我简单看了下,网站总共公示了有160多个项目,5万多套房子的数据,我呢,手动将5万多套房子的数据复制粘贴到 Excel 统计。

最后得到了以上结论。很简单,有手就行。

全文完 感谢阅读

手艺人的事

说好的写代码实现呢!??

众所周知,我是一个程序猿,身为程序猿,会点网络请求数据处理很合情合理吧。

上手艺!

于是乎,我分析了下网页代码,流程大致是这样的:

3个界面所包含的信息如下:

  • 项目信息:项目名称、所属事权区域、项目坐落、开发企业、公示楼幢数量、公示时间
  • 楼幢信息:楼幢(#)、层数、楼幢均价(元/㎡)、装修标准、是否一房一价
  • 房屋信息:房号、建筑面积(㎡)、单价(元/㎡)、房屋总价(元)、装修标准

一进项目信息的网页,从开发者工具中可以看到,哗啦啦请求了一大堆资源,不用管别的,真正有用的是第一个(居然不是rest风格接口,差评):

这个请求就返回了我们需要的项目名称所属事权区域信息。

看这个请求的三个参数page=1&key=&qdm=,猜也能猜出来,第一个是分页参数,第二个是项目名称,第三个是区域。由于这里我们要的是所有数据,所以后面两个参数对我们来说就没啥用了。

再点击项目名称,进入楼幢信息页面,又会请求一堆资源,有用的还是第一个接口:

这个接口返回的是该项目下,每栋楼幢的信息,这里其实没有什么我们需要的数据。

请求参数也很简单,就一个gsbh=BDADB0175B77D79C60DA5D5B0B6F00D4,一看就知道是项目(公司)编号ID,用的应该是UUID。

有人会说,这里就有每栋楼幢的均价啊,那不就可以了吗?知道每幢楼的均价,再对每个区域所有楼幢的均价求平均数,不就是区域的房价平均数吗?

从数学角度,这逻辑没毛病,可我明明可以获取更精确的每套房子的价格,干嘛还要用别人给我提供的均价再去求平均数呢?万一某个楼幢均价被工作人员算错了也说不定。

于是我再点击楼幢号,进入房屋信息界面,依然请求了一堆资源,依然看第一个接口:

这个接口返回的是该楼幢下,每个房屋的信息,就有我们最关心的面积单价总价信息。

请求参数有两个lzbh=A4DE1E35C1227816B3F2239C0A685603&lzh=1,看拼音也知道,这两个分别是楼幢编号ID和楼幢号。

现在我们就清楚了所有需要的数据,应该从哪些地方搞了,就是上面三个接口。

Coding

页面逻辑已经梳理清楚,接下来不就剩coding了嘛。

别急,在coding之前,我们应该先在数据库里建好表,这样方便我们后续各种花式查询

我设计的表结构长这样:

其实从业务模型上来说,应该是有三张表才对:项目表、楼幢表、房屋表。但是因为我懒,所以一个大宽表全部存起来,数据冗余就冗余吧,对数据库来说数据量很小,问题不大。

然后去https://start.spring.io/网站搭个架子,我设想中这个程序要是持续自动化的,每周自动去更新最新的信息到数据库里,所以这里用一下 Spring 自带的 Scheduled 单机定时任务就行,不需要整什么分布式任务调度。

这里我们用 cron 表达式规则,让他每周六凌晨4点执行,这个时候网站访问人数应该比较少,减少对服务器的压力:

既然要模拟发送网络请求,我就简单搞个 OkHttp 吧,这个没什么,自己喜欢用哪个就用哪个:

然后就是一大段 html 解析了,这个没啥说的,就是一些数据处理,很简单,直接上成果:

代码逻辑主要有5步:

  1. 查询所有的项目信息
  2. 从数据库中过滤掉已经入库的项目信息
  3. 根据项目信息查询所有楼幢信息
  4. 根据楼幢信息查询所有房屋信息
  5. 构造DO对象集合,将所有房屋信息插入数据库

最后就是用 mybatis 批量插入数据库里:

记得这么写的话要开启这个参数哦:

两个坑

既然是分页查询数据,那肯定会有什么时候结束分页的问题。这个本来没什么,测试请求一个很大的 page 参数,看看服务器怎么返回的就知道了。可这里就有个坑,我在项目信息页,传入 page=100,返回的数据是这样的:

<table> 标签内只有一个 <tr>,就是表头信息,那我就认为,当出现这种情况的时候,分页请求就应该结束了。

可当我在请求楼幢信息页的时候,同样传入 page=100,发现并不一样,响应体居然是空的:

房屋信息页也是一样的问题。

所以项目信息页的分页终止条件,和楼幢信息页、房屋信息页的分页终止条件,是不一样的,这是一个坑。

第二个遇到的坑,是隐藏在网页的 JS 代码里。

当点击项目名称、楼幢编号,会进行页面跳转嘛,这肯定是在 JS 里实现的,去看看代码。

如上图所示,当点击项目名称的时候,会去调用 goherf 方法,这个方法有两个参数。第一个简单,应该就是项目编号ID,是打开楼幢信息页面所需要的参数之一。可第二个参数是什么呢?我们去看看方法里面:

看到第二个参数是一个 type ,当不等于 0 的时候,才会打开楼幢信息页面,否则就弹窗提示:“当前项目暂未公示楼幢信息!”

好了,知道了这个点,我们代码里也需要判断下这个 type 是否等于 0,当等于 0 的时候,就不需要继续往后查询楼幢和房屋信息了。

那么楼幢信息页呢?是不是也是这么处理的呢?结果它不一样了!在楼幢信息页,点击楼幢号,它也是调用了一个 goherf 方法:

这个方法有三个参数,第一个同样是楼幢编号ID,第三个是楼幢号,那第二个是啥?有了上面的经验,我猜测也是一个 type,去看看 JS 代码:

没猜错,第二个确实是一个 type,可判断逻辑和上面的项目信息页的不一样!这个是只有等于 1 的时候,才允许打开房屋信息页,否则就弹窗提示“当前楼幢暂未公示房屋信息!”,总结如下:

等于固定值时 不等于固定值时
项目信息页 type=0,没有楼幢信息 type!=0,打开楼幢信息
楼幢信息页 type=1,打开房屋信息 type!=1,没有房屋信息

所以这第二个坑,在处理两个页面的逻辑时要注意区别。

从上面两个坑来看,我有理由怀疑,写项目信息页接口的,和楼幢信息页、房屋信息页接口的程序员,应该不是同一个人

上成果

经过我两天的调研和coding,终于写完了,上成果:

数据库内容:

数据库有数据了,那么接下来就是写sql的事了。

统计各个区域新房的平均单价,由高到低排序:

这绝对是全网最真实最准确的各个区域新房均价排名了。怎么样,和你心目中的排名有区别吗?

我们可以再统计其他信息玩玩。

统计各个区域新房的平均总价,由高到低排序:

统计各个区域新房的平均建筑面积,由高到低排序:

统计每个月公示价格的新房数量:

好家伙,西安今年6月份是放了多少量啊,接下来一两个月市场供货量肯定很猛了。

统计西安新房中,精装房和毛坯房的数量:

可以看出来,毛坯房才是市场主流。

统计西安新房中,各个面积段的新房数量:

看的出来,主流面积段还是100-150的。

统计西安新房中,各个面积段的平均单价,由高到低排序:

总体来看,果然还是面积越大,单价越高啊。

好了,开头的问题,看到这里你肯定就有了答案,写完收工。如果还想知道从其他维度统计的结果,可以留言补充。

最后提一个直击灵魂的问题:

一个程序员写多少行代码,才能买下西安高新一套房?