专利数据 | NullSpace

爬取内容专利基本信息、摘要、专利说明书等。技术架构爬虫框架：Scrapy URL队列：Redis 数据库：PostgreSQL（patent_detail表、patent_task表）运行方式手动或定时将patent_task表中的关键词构造成专利URL，并加入redis队列中定时启动爬虫（支持分布式），從redis队列中获取待爬取url，自动获取指定关键词最新/相关度最高/专利评级最高的专利信息，写入数据库。数据成果示例北京大学的专利其他反爬处理随机User-Agent（浏览器）