事情是这样的
前段时候,我站在华山之巅(没错,我去夜爬华山看日出了,要死),一个朋友突然问我:你知道现在西安每个区域的新房均价是多少吗?
这个时候,肯定是用数据说话嘛。
不过你以为我会在网上随便找个,不知道哪里冒出来的(野榜)西安各区域价格排名,甩给对方了事吗?
当然不会!
众所周知,我是一个程序猿,身为程序猿,严谨细致,阳光帅气。。。咳咳
秉承着严谨负责的态度,我当然要用最准确,最全面的数据,这样才有说服力嘛。
先上结果
高新单价 一枝独秀 23199.73/㎡
航天基地 总价霸榜 平均333个w
航天基地 户均158.72㎡
时而房荒 时而放量
精装毛坯大约 1比2
面积分布 主力为100-150
房子越大,单价越贵
需求分解
我们来需求分解下,要想知道西安每个区域的新房均价是多少
- 首先我们需要知道全市每套新房的价格
- 其次要知道每套房子位于哪个区域
- 然后将所有房子按区域分类
- 最后求每个区域所有房子价格的平均数
重点难点还是前两步,从哪里获取这种价格和区域的数据,才最准确,最全面呢?
当然是西安住建官网的价格公示啦~
这个网站上,有 2021-09-14 之后所有新房的一房一价数据。刚好有我需要的每一套房子的价格和区域数据,还有一些其他信息。而且是官方公示,保证准确全面。
我们来看下这个网站的结构,点击项目名称,可显示楼幢信息:
点击楼幢编号,显示房屋信息:
这样我们就可以查到我们需要的所有数据了。
我简单看了下,网站总共公示了有160多个项目,5万多套房子的数据,我呢,手动将5万多套房子的数据复制粘贴到 Excel 统计。
最后得到了以上结论。很简单,有手就行。
全文完 感谢阅读
手艺人的事
说好的写代码实现呢!??
众所周知,我是一个程序猿,身为程序猿,会点网络请求和数据处理很合情合理吧。
上手艺!
于是乎,我分析了下网页代码,流程大致是这样的:
3个界面所包含的信息如下:
- 项目信息:项目名称、所属事权区域、项目坐落、开发企业、公示楼幢数量、公示时间
- 楼幢信息:楼幢(#)、层数、楼幢均价(元/㎡)、装修标准、是否一房一价
- 房屋信息:房号、建筑面积(㎡)、单价(元/㎡)、房屋总价(元)、装修标准
一进项目信息的网页,从开发者工具中可以看到,哗啦啦请求了一大堆资源,不用管别的,真正有用的是第一个(居然不是rest风格接口,差评):
这个请求就返回了我们需要的项目名称和所属事权区域信息。
看这个请求的三个参数page=1&key=&qdm=
,猜也能猜出来,第一个是分页参数,第二个是项目名称,第三个是区域。由于这里我们要的是所有数据,所以后面两个参数对我们来说就没啥用了。
再点击项目名称,进入楼幢信息页面,又会请求一堆资源,有用的还是第一个接口:
这个接口返回的是该项目下,每栋楼幢的信息,这里其实没有什么我们需要的数据。
请求参数也很简单,就一个gsbh=BDADB0175B77D79C60DA5D5B0B6F00D4
,一看就知道是项目(公司)编号ID,用的应该是UUID。
有人会说,这里就有每栋楼幢的均价啊,那不就可以了吗?知道每幢楼的均价,再对每个区域所有楼幢的均价求平均数,不就是区域的房价平均数吗?
从数学角度,这逻辑没毛病,可我明明可以获取更精确的每套房子的价格,干嘛还要用别人给我提供的均价再去求平均数呢?万一某个楼幢均价被工作人员算错了也说不定。
于是我再点击楼幢号,进入房屋信息界面,依然请求了一堆资源,依然看第一个接口:
这个接口返回的是该楼幢下,每个房屋的信息,就有我们最关心的面积、单价和总价信息。
请求参数有两个lzbh=A4DE1E35C1227816B3F2239C0A685603&lzh=1
,看拼音也知道,这两个分别是楼幢编号ID和楼幢号。
现在我们就清楚了所有需要的数据,应该从哪些地方搞了,就是上面三个接口。
Coding
页面逻辑已经梳理清楚,接下来不就剩coding了嘛。
别急,在coding之前,我们应该先在数据库里建好表,这样方便我们后续各种花式查询。
我设计的表结构长这样:
其实从业务模型上来说,应该是有三张表才对:项目表、楼幢表、房屋表。但是因为我懒,所以一个大宽表全部存起来,数据冗余就冗余吧,对数据库来说数据量很小,问题不大。
然后去https://start.spring.io/
网站搭个架子,我设想中这个程序要是持续自动化的,每周自动去更新最新的信息到数据库里,所以这里用一下 Spring 自带的 Scheduled
单机定时任务就行,不需要整什么分布式任务调度。
这里我们用 cron
表达式规则,让他每周六凌晨4点执行,这个时候网站访问人数应该比较少,减少对服务器的压力:
既然要模拟发送网络请求,我就简单搞个 OkHttp 吧,这个没什么,自己喜欢用哪个就用哪个:
然后就是一大段 html 解析了,这个没啥说的,就是一些数据处理,很简单,直接上成果:
代码逻辑主要有5步:
- 查询所有的项目信息
- 从数据库中过滤掉已经入库的项目信息
- 根据项目信息查询所有楼幢信息
- 根据楼幢信息查询所有房屋信息
- 构造DO对象集合,将所有房屋信息插入数据库
最后就是用 mybatis 批量插入数据库里:
记得这么写的话要开启这个参数哦:
两个坑
既然是分页查询数据,那肯定会有什么时候结束分页的问题。这个本来没什么,测试请求一个很大的 page
参数,看看服务器怎么返回的就知道了。可这里就有个坑,我在项目信息页,传入 page=100
,返回的数据是这样的:
<table> 标签内只有一个 <tr>,就是表头信息,那我就认为,当出现这种情况的时候,分页请求就应该结束了。
可当我在请求楼幢信息页的时候,同样传入 page=100
,发现并不一样,响应体居然是空的:
房屋信息页也是一样的问题。
所以项目信息页的分页终止条件,和楼幢信息页、房屋信息页的分页终止条件,是不一样的,这是一个坑。
第二个遇到的坑,是隐藏在网页的 JS 代码里。
当点击项目名称、楼幢编号,会进行页面跳转嘛,这肯定是在 JS 里实现的,去看看代码。
如上图所示,当点击项目名称的时候,会去调用 goherf
方法,这个方法有两个参数。第一个简单,应该就是项目编号ID,是打开楼幢信息页面所需要的参数之一。可第二个参数是什么呢?我们去看看方法里面:
看到第二个参数是一个 type ,当不等于 0 的时候,才会打开楼幢信息页面,否则就弹窗提示:“当前项目暂未公示楼幢信息!”
好了,知道了这个点,我们代码里也需要判断下这个 type 是否等于 0,当等于 0 的时候,就不需要继续往后查询楼幢和房屋信息了。
那么楼幢信息页呢?是不是也是这么处理的呢?结果它不一样了!在楼幢信息页,点击楼幢号,它也是调用了一个 goherf
方法:
这个方法有三个参数,第一个同样是楼幢编号ID,第三个是楼幢号,那第二个是啥?有了上面的经验,我猜测也是一个 type,去看看 JS 代码:
没猜错,第二个确实是一个 type,可判断逻辑和上面的项目信息页的不一样!这个是只有等于 1 的时候,才允许打开房屋信息页,否则就弹窗提示“当前楼幢暂未公示房屋信息!”,总结如下:
等于固定值时 | 不等于固定值时 | |
---|---|---|
项目信息页 | type=0,没有楼幢信息 | type!=0,打开楼幢信息 |
楼幢信息页 | type=1,打开房屋信息 | type!=1,没有房屋信息 |
所以这第二个坑,在处理两个页面的逻辑时要注意区别。
从上面两个坑来看,我有理由怀疑,写项目信息页接口的,和楼幢信息页、房屋信息页接口的程序员,应该不是同一个人。
上成果
经过我两天的调研和coding,终于写完了,上成果:
数据库内容:
数据库有数据了,那么接下来就是写sql的事了。
统计各个区域新房的平均单价,由高到低排序:
这绝对是全网最真实最准确的各个区域新房均价排名了。怎么样,和你心目中的排名有区别吗?
我们可以再统计其他信息玩玩。
统计各个区域新房的平均总价,由高到低排序:
统计各个区域新房的平均建筑面积,由高到低排序:
统计每个月公示价格的新房数量:
好家伙,西安今年6月份是放了多少量啊,接下来一两个月市场供货量肯定很猛了。
统计西安新房中,精装房和毛坯房的数量:
可以看出来,毛坯房才是市场主流。
统计西安新房中,各个面积段的新房数量:
看的出来,主流面积段还是100-150的。
统计西安新房中,各个面积段的平均单价,由高到低排序:
总体来看,果然还是面积越大,单价越高啊。
好了,开头的问题,看到这里你肯定就有了答案,写完收工。如果还想知道从其他维度统计的结果,可以留言补充。
最后提一个直击灵魂的问题:
一个程序员写多少行代码,才能买下西安高新一套房?