wos:scrapy下载导出文件

5 months ago · e48c1cc704
parent d9e96bd3cc
commit e48c1cc704
1 changed files with 149 additions and 0 deletions
--- a/science_article_add/science_article_add/spiders/wos_download.py
+++ b/science_article_add/science_article_add/spiders/wos_download.py
@ -0,0 +1,149 @@
+import os
+import json
+from datetime import datetime
+from typing import List, Dict, Union, Any, Self
+import scrapy
+from scrapy.http.request.json_request import JsonRequest
+from scrapy.crawler import Crawler
+
+from science_article_add.items.wos import WosArticleItem, WosCitedNumberItem
+from science_article_add.scripts.wos_parse_data import parse_full_records_txt
+from science_article_add.models import wos_model as model
+from science_article_add.utils import tools
+from science_article_add.configs import wos as config
+
+
+def _parse_download(body: Union[bytes, str]):
+    """
+    解析响应的下载内容
+    """
+    batch_time = datetime.now()
+    if isinstance(body, str):
+        body = body.encode()
+    item_g = parse_full_records_txt(body)
+    parse_count = 0
+    for data_dic in item_g:
+        t_id = data_dic.pop('ut', None)
+        if t_id:
+            parse_count += 1
+            article_item = WosArticleItem()
+            article_item['third_id'] = t_id
+            article_item['exported'] = data_dic
+            article_item['updated_at'] = batch_time
+            yield article_item
+            # 解析被引量
+            if cited_num := tools.str2int(data_dic.get("tc", 0), 0):
+                cited_item = WosCitedNumberItem()
+                cited_item['third_id'] = t_id
+                cited_item['cited'] = cited_num
+                cited_item['updated_at'] = batch_time
+                yield cited_item
+
+
+class WosDownloadSpider(scrapy.Spider):
+    name = "wos_download"
+    custom_settings = dict(
+        FILE_STORAGE_DIR=r"Y:\wos-metadata\wos increment-202512\03",
+        DOWNLOADER_MIDDLEWARES={
+            "science_article_add.middlewares.wos.WosSidParamMiddleware": 500
+        },
+        ITEM_PIPELINES={
+            "science_article_add.pipelines.mongo.MongoPipeline": 300,
+            "science_article_add.pipelines.verify_data.VerifyDataIntegrity": 400,
+        },
+        LOG_LEVEL="INFO"
+    )
+
+    def __init__(self, task_obj, file_storage_dir: str = None, **kwargs):
+        scrapy.Spider.__init__(self)
+        self.file_storage_dir = file_storage_dir
+        self.id_list: List[Dict[str, str]] = task_obj
+        self._records_found = 0
+
+    @classmethod
+    def from_crawler(cls, crawler: Crawler, *args: Any, **kwargs: Any) -> Self:
+        settings = crawler.settings
+        from pymongo import MongoClient
+        client = MongoClient(settings.get("MONGO_URI"))
+        db = client.get_database(settings.get("MONGO_DATABASE"))
+        collection = db.get_collection("todo_ids_wos")
+
+        def f():
+            cursor = collection.find(filter={"state": 0}, projection={"state": 0}).limit(500)
+            d = [c for c in cursor]
+            if not d:
+                cursor = collection.find(filter={"state": 2}, projection={"_id": 0, "state": 0}).limit(500)
+                d = [c for c in cursor]
+            else:
+                _ids = [x.pop("_id", None) for x in d]
+                collection.update_many(filter={"_id": {"$in": _ids}}, update={"$set": {"state": 2}})
+            return d
+
+        tasks = f()
+        kwargs.update({"task_obj": tasks})
+        kwargs['file_storage_dir'] = settings.get("FILE_STORAGE_DIR")
+        return super().from_crawler(crawler, *args, **kwargs)
+
+    def make_query(self) -> str:
+        third_ids = []
+        for idT in self.id_list:
+            third_ids.append('%s=(%s)' % (idT.get('field', 'UT'), idT.get('third_id')))
+        todo_query = ' OR '.join(third_ids)
+        return todo_query
+
+    def get_batch_ids(self) -> List[Dict[str, str]]:
+        return self.id_list
+
+    async def start(self):
+        if not os.path.exists(self.file_storage_dir):
+            os.makedirs(self.file_storage_dir)
+
+        qu = self.make_query()
+        yield JsonRequest(
+            config.WOS_ADVANCED_SEARCH_API, method='POST', data=model.make_advanced_search_ut(query=qu),
+        )
+
+    def parse(self, response, **kwargs):
+        meta = response.meta
+        request = response.request
+        query_id, records_found = model.get_record_info(response.body)
+        if (not query_id) or (records_found == 0):
+            self.logger.warning("""
+                    未找到记录！！！
+                    错误信息    %s
+                    请求信息    %s""" % (response.text, request))
+            return
+        else:
+            self.set_records_found(records_found)
+        mark_start = 1
+        yield JsonRequest(config.WOS_EXPORT_FILE_API, method='POST',
+                          data=model.export_search_data_to_txt(query_id, mark_from=mark_start,
+                                                               mark_to=records_found),
+                          meta={'QUERY_ID': query_id, 'QUERY': meta.get('QUERY'),
+                                'FILENAME': meta.get("FILENAME"),
+                                'RECORDS_FOUND': records_found, 'MARK_START': mark_start,
+                                'MARK_END': records_found},
+                          cb_kwargs=dict(filename=meta.get("FILENAME"), query_id=query_id),
+                          callback=self.download_parse)
+
+    def download_parse(self, response, query_id: str = None, **kwargs):
+        filename = query_id or response.meta.get('FILENAME')
+        file_export_path = os.path.join(self.file_storage_dir, '%s.txt' % filename)
+        with open(file_export_path, 'wb') as f:
+            f.write(response.body)
+        yield from _parse_download(response.body)
+
+    def set_records_found(self, val):
+        self._records_found = val
+
+    def get_records_found(self) -> int:
+        return self._records_found
+
+
+if __name__ == '__main__':
+    from scrapy.crawler import CrawlerProcess, Crawler
+    from scrapy.utils.project import get_project_settings
+
+    process = CrawlerProcess(get_project_settings())
+    process.crawl(WosDownloadSpider, task_obj=[])
+    process.start()