解决了最重要的事:书源查询问题
最近有友友反馈图书查询不到的了,经过排查发现又是第三方服务器的查询问题,访问官网可能已经跑路了。可能你不知道的是这是我们第四次更换书源服务器🥲,这次换了巨头的,终于算解决了。如果你愿意当故事看的话我下面详细说说悲惨的经历。
点击链接下载:

二维码扫码下载:

故事的分割线
豆瓣关闭查询功能
成立之初采用的豆瓣图书官方的开放接口,也是国内最全的图书源。所以很多信息结构是参考的豆瓣图书,并且做的是实时查询,并没有数据备份。因为我们相信他们的服务器比我们更稳定。但是2019年左右啪啪打脸了,豆瓣官方关闭了豆瓣图书和电影查询接口,也不再接收申请,现在都还没有再开放,图书查询功能彻底出局。
第一次使用第三方查询
迫不得已通过网络搜索,我们第一次更换到第三方服务商接口zuk,同时开发了用户上传图书信息的功能,做了服务器控制,这样既可以在第三方服务商查询接口关闭时无需升级app,可以直接动态查询,也可以让用户自己上传信息之后保存,方便下次自己查询。果不其然,几个月之后该服务商接口就出现了延迟和报错,所以我们开始寻找备用方案。
被放弃的爬虫方案
备选方案首先考虑的是爬虫方案,也是不少第三方接口最常见的思路。就是直接抓取豆瓣网页的图书数据,然后再整理。但是询问了专业人士,对于商用软件来说,如果对方明确禁止爬虫的话,采用爬虫抓取信息过滤是违法违规行为。所以我们没有采取该方案,还是优先考虑使用付费第三方接口的方式。
第二次切换查询接口
通过搜索和知乎推荐,我们了解了现在这个第三方接口服务商,对接之后效果还算满意,持续运行了一年多,直到最近友友又开始反馈搜索错误。同样的故事,该接口也不再稳定提供服务,网页也开始报错。所以联系了他们商务,他们图书数据是否可以打包售卖,结果六位数的报价劝退了我。贫穷的🦊~
AI探索
现在怎么解决的呢?答案就是现在如火如荼的AI。
我们之前测试过市面的AI模型,例如阿里的通义千问,豆包依赖的火山引擎,如果日常对话AI卖萌或者胡言乱语不影响使用,但是这种图书编码isbn明确对应信息的内容错了就是错了,不存在似是而非的情况。
结果测试了这几家的接口,实话实说,效果很垃圾。直接问ISBN: 9787108082930的图书信息,要么查询不到,要么教你怎么去网上查询,要么是一本正经的胡说八道。即便是开始联网搜索和深度思考,正确率也不到20%。即便开启联网和深度思考配置依旧如此。
通义千问不论在api接口还是网页直接问都回答不了,直接在豆包问却能返回正确的。我以为是自己使用问题,发工单咨询了技术,得知豆包是依赖火山引擎的二次加强和调试版本,就算你询问豆包得到了答案,api接口不支持还是不行,所以该方案就此搁置。
柳暗花明
国外的大模型更成熟但是一直没有调用权限,现在终于可以了,通过测试谷歌、OpenAI等头部大模型,准确度比之前测试的那些高了一层楼那么高🤣。终于使得该AI方案得到落地。更不用担心他们稳定性的问题啦。
后续计划:现在依旧在关注国内AI的发展,毕竟成本会低很多。后续会适时增加更多的查询节点加速查询时间,并且更全面的查询信息。