wos:增量采集

3 weeks ago · 1bf0703dba
parent a95f242bd5
commit 1bf0703dba
16 changed files with 1349 additions and 1 deletions
--- a/science_article_wos/requirements.txt
+++ b/science_article_wos/requirements.txt
@ -1,3 +1,11 @@
 sqlalchemy~=1.3.24
 requests~=2.32.4
 scrapy~=2.13.3
-itemadapter~=0.11.0
+pymongo~=4.13.0
 itemadapter~=0.11.0
 happybase~=1.2.0
 fastapi~=0.116.1
 redis~=6.2.0
 parsel~=1.10.0
 sympy~=1.14.0
 pydantic~=2.0.3
--- a/science_article_wos/science_article_wos/configs/init.py
+++ b/science_article_wos/science_article_wos/configs/init.py
--- a/science_article_wos/science_article_wos/configs/wos.py
+++ b/science_article_wos/science_article_wos/configs/wos.py
@ -0,0 +1,96 @@
 # -*- coding: utf-8 -*-
 # @Time    : 2024/1/16 8:41
 # @Author  : zhaoxiangpeng
 # @File    : config.py
 from datetime import datetime
 # 数据来源名
 SOURCE_NAME = 'wos'
 WOS_SEARCH_API = "https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch"
 WOS_DETAIL_LINK = 'https://webofscience.clarivate.cn/wos/woscc/full-record/{wos_id}'
 WOS_DETAIL_API = 'https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch'
 WOS_ADVANCED_SEARCH_API = 'https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch'
 WOS_EXPORT_FILE_API = 'https://webofscience.clarivate.cn/api/wosnx/indic/export/saveToFile'
 WOS_RECORD_STREAM_API = "https://webofscience.clarivate.cn/api/wosnx/core/runQueryGetRecordsStream"
 WOS_REFINE_API = "https://webofscience.clarivate.cn/api/wosnx/core/runQueryRefine"
 # WOS starter api
 WOS_STARTER_DOCUMENT_UID_API = "https://api.clarivate.com/apis/wos-starter/v1/documents/{uid}"  # Unique Identifier/Accession Number
 WOS_STARTER_DOCUMENT_API = "https://api.clarivate.com/apis/wos-starter/v1/documents"
 WOS_STARTER_PER_PAGE_LIMIT = 50  # 每页限制的数量
 # WOS lite api
 WOS_LITE_QUERY_FIRST_API = 'https://wos-api.clarivate.com/api/woslite'  # 第一个请求，请求后会有一个query的序号
 WOS_LITE_QUERY_API = 'https://wos-api.clarivate.com/api/woslite/query'  # 使用序号进行翻页
 # 发文表
 WOS_ARTICLE_COLLECTION = 'data_{}_article'.format(SOURCE_NAME)
 # 被引量集合
 WOS_CITED_NUMBER_COLLECTION = "relation_cited_number_{}".format(SOURCE_NAME)
 # 发文关系表
 SCHOOL_RELATION_COLLECTION = 'relation_school_{}'.format(SOURCE_NAME)
 # 参考文献集合
 WOS_REFERENCE_COLLECTION = "relation_reference_{}".format(SOURCE_NAME)
 # 待下载Id表
 ARTICLE_TODO_IDS_COLLECTION = "todo_ids_{}".format(SOURCE_NAME)
 # CSCD来源的发文表
 WOS_CSCD_ARTICLE_COLLECTION = 'data_{}_article_{}'.format(SOURCE_NAME, 'cscd')
 # cookie池配置
 # COOKIE_POOL_CONFIG = dict(host=setting.REDIS_HOST, port=6379, db=setting.REDIS_DB, password=setting.REDIS_PASSWORD)
 COOKIE_POOL_GROUP = 'cookies_pool:wos:sid*'
 COOKIE_POOL_KEY = 'cookies_pool:wos:sid-sjtu'
 COOKIE_TTL = 60 * 60 * 4
 # 下载的单个文件的大小
 BATCH_DOWNLOAD_LIMIT = 500
 # 导出文件时的默认值
 DEFAULT_EXPORT_RECORD_FILTER = "fullRecordPlus"  # fullRecordPlus
 # 表头验证配置
 SUCCESS_TABLE_HEAD_START = b'\xef\xbb\xbfPT'
 LOST_TABLE_HEAD_START = b'\xef\xbb\xbfnull'
 AUTO_TABLE_HEAD_START = b'\xef\xbb\xbfPT\tAU\tBA\tBE\tGP\tAF\tBF\tCA\tTI\tSO\tSE\tBS\tLA\tDT\tCT\tCY\tCL\tSP\tHO\tDE\tID\tAB\tC1\tC3\tRP\tEM\tRI\tOI\tFU\tFP\tFX\tCR\tNR\tTC\tZ9\tU1\tU2\tPU\tPI\tPA\tSN\tEI\tBN\tJ9\tJI\tPD\tPY\tVL\tIS\tPN\tSU\tSI\tMA\tBP\tEP\tAR\tDI\tDL\tD2\tEA\tPG\tWC\tWE\tSC\tGA\tPM\tOA\tHC\tHP\tDA\tUT\r\n'
 CORE_NAME_TABLE = dict(
    WOSCC="Web of Science Core Collection",
    BCI="BIOSIS Citation Index",
    SCIELO="SciELO Citation Index",
    RSCI="Russian Science Citation Index",
    CSCD="Chinese Science Citation Database℠",
    ARCI="Arabic Citation Index",
    DIIDW="Derwent Innovations Index",
    PPRN="",
    PQDT="ProQuest ™ Dissertations & Theses Citation Index"
 )
 NAV_NAME_TABLE = dict(
    SCI="Science Citation Index Expanded (SCI-Expanded)",
    ESCI="Emerging Sources Citation Index (ESCI)",
    SSCI="Social Sciences Citation Index (SSCI)",
    ISTP="Conference Proceedings Citation Index – Science (CPCI-S)",
    BSCI="Book Citation Index – Science (BKCI-S)",
    AHCI="Arts & Humanities Citation Index (A&HCI)",
    IC="Index Chemicus (IC)",
    ISSHP="Conference Proceedings Citation Index – Social Sciences & Humanities (CPCI-SSH)"
 )
 TASK_CONFIG = {
    "school_id": 83,
    "school_name": "北京林业大学",
    "search_policy": """OG=(Beijing Forestry University)""",
    "crawl_year": [2021, 2022, 2023],
    "source_type": 1,
    "priority": 10,
    "is_important": 1,
    "update_interval": 60 * 60 * 24 * 14,
    "create_time": datetime.now(),
    "last_time": datetime.now(),
    "next_time": datetime.now(),
    "state": 0
 }
--- a/science_article_wos/science_article_wos/db_utils/mongo.py
+++ b/science_article_wos/science_article_wos/db_utils/mongo.py
@ -0,0 +1,92 @@
 from __future__ import annotations
 import logging
 from typing import TYPE_CHECKING, Optional, Dict, Tuple
 from pymongo import MongoClient
 from pymongo import UpdateOne
 from pymongo.errors import DuplicateKeyError, BulkWriteError
 if TYPE_CHECKING:
    from pymongo.database import Database
    from pymongo.collection import Collection
    from pymongo.results import InsertOneResult, InsertManyResult, BulkWriteResult
 def build_update_query(update_data: dict, replace: bool = True) -> dict:
    """
    如果replace为True，则直接覆盖原有的document
    """
    update_query = {}
    if not update_data:
        return {}
    for key, val in update_data.items():
        if replace:
            update_query.setdefault(
                "$set", {}
            ).update(
                {key: val}
            )
        else:
            if isinstance(val, list):
                update_query.setdefault(
                    "$addToSet", {}
                ).update({
                    key: {"$each": val}
                })
            else:
                update_query.setdefault(
                    "$set", {}
                ).update(
                    {key: val}
                )
    return update_query
 def update_document(filter_query: dict = None, update_data: dict = None, replace: bool = True) -> Tuple[dict, dict]:
    update_query = {}
    if not update_data:
        return {}, {}
    for key, val in update_data.items():
        if replace:
            update_query.setdefault(
                "$set", {}
            ).update(
                {key: val}
            )
        else:
            if isinstance(val, list):
                update_query.setdefault(
                    "$addToSet", {}
                ).update({
                    key: {"$each": val}
                })
            else:
                update_query.setdefault(
                    "$set", {}
                ).update(
                    {key: val}
                )
    return filter_query, update_query
 class MongoDBUtils:
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
        self.client: MongoClient = None
        self.db: Database = None
    def insert2db(self, items, tablename, **kwargs) -> InsertOneResult:
        collection: Collection = self.db.get_collection(tablename)
        result: InsertOneResult = collection.insert_one(items, **kwargs)
        return result
    def _insert2db(self, items, tablename, ordered: bool = False, **kwargs) -> InsertManyResult:
        collection: Collection = self.db.get_collection(tablename)
        result: InsertManyResult = collection.insert_many(items, ordered=ordered, **kwargs)
        return result
    def _update2db(self, items, tablename, ordered: bool = False, **kwargs) -> BulkWriteResult:
        collection: Collection = self.db.get_collection(tablename)
        bulk_results: BulkWriteResult = collection.bulk_write(items, ordered=ordered, **kwargs)
        return bulk_results
--- a/science_article_wos/science_article_wos/extensions.py
+++ b/science_article_wos/science_article_wos/extensions.py
@ -0,0 +1,92 @@
 # -*- coding: utf-8 -*-
 # @Time    : 2026/1/14 16:17
 # @Author  : zhaoxiangpeng
 # @File    : extensions.py
 import logging
 import pymysql
 from scrapy import signals
 from scrapy.crawler import Crawler
 logger = logging.getLogger(__name__)
 class LatestSpiderProtocol:
    name: str
    record_id: int
    org_id: int
    org_name: str
    query_id: int
    query_content: str
    def get_records_found(self) -> int: ...
 class ACKExtension:
    def __init__(self, crawler: Crawler):
        self.crawler = crawler
        self.change_state_sql = 'update task_batch_record set %(update_kws)s where %(update_cond)s'
    @classmethod
    def from_crawler(cls, crawler):
        ext = cls(crawler=crawler)
        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(ext.spider_error, signal=signals.spider_error)
        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        return ext
    def spider_opened(self, spider):
        kws = {
            'is_done': 2,
        }
        sql = self.change_state_sql % {
            'update_kws': ', '.join([f'{k}={v}' for k, v in kws.items()]),
            'update_cond': 'id=%(record_id)s' % {'record_id': spider.record_id}
        }
        self._execute_sql(sql)
    def spider_closed(self, spider: LatestSpiderProtocol):
        """
        # 修改任务状态
        # 通知
        """
        kws = {
            'is_done': 1,
            'result_count': spider.get_records_found(),
            'updated_time': 'CURRENT_TIMESTAMP'
        }
        sql = self.change_state_sql % {
            'update_kws': ', '.join([f'{k}={v}' for k, v in kws.items()]),
            'update_cond': 'id=%(record_id)s' % {'record_id': spider.record_id}
        }
        self._execute_sql(sql)
    def spider_error(self, spider: LatestSpiderProtocol):
        kws = {
            'is_done': -1,
            'updated_time': 'CURRENT_TIMESTAMP'
        }
        sql = self.change_state_sql % {
            'update_kws': ', '.join([f'{k}={v}' for k, v in kws.items()]),
            'update_cond': 'id=%(record_id)s' % {'record_id': spider.record_id}
        }
        self._execute_sql(sql)
    def _execute_sql(self, sql):
        settings = self.crawler.settings
        client = pymysql.connect(
            host=settings.get('MYSQL_HOST'),
            port=settings.get('MYSQL_PORT', 3306),
            database=settings.get('MYSQL_DATABASE'),
            user=settings.get('MYSQL_USER'),
            passwd=settings.get('MYSQL_PASSWORD'),
        )
        try:
            cursor = client.cursor()
            cursor.execute(sql)
            cursor.connection.commit()
            logger.info(f'Execute SQL: {sql}')
        except Exception as e:
            logger.exception(e)
        finally:
            client.close()
--- a/science_article_wos/science_article_wos/items.py
+++ b/science_article_wos/science_article_wos/items.py
@ -0,0 +1,58 @@
 # Define here the models for your scraped items
 #
 # See documentation in:
 # https://docs.scrapy.org/en/latest/topics/items.html
 import scrapy
 class ScienceArticleWosItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass
 class AddItemBase(scrapy.Item):
    third_id = scrapy.Field()
    updated_at = scrapy.Field()
 class ArticleItem(AddItemBase):
    exported = scrapy.Field()
 class ArticleCitedItem(AddItemBase):
    cited = scrapy.Field()
 class WosArticleItem(ArticleItem):
    """wos文章item"""
    __tablename__ = 'data_wos_article'
    third_id = scrapy.Field()
    exported = scrapy.Field()
    updated_at = scrapy.Field()
 class WosIdRelationItem(AddItemBase):
    __tablename__ = 'relation_school_wos'
    query_ids = scrapy.Field()
    school_ids = scrapy.Field()
    task_ids = scrapy.Field()
 class WosArticleTodoIdItem(scrapy.Item):
    __tablename__ = 'todo_ids_wos'
    third_id = scrapy.Field()
    state = scrapy.Field()
 class WosCitedNumberItem(ArticleCitedItem):
    __tablename__ = 'relation_cited_number_wos'
    """发文被引量item"""
    third_id = scrapy.Field()
    cited = scrapy.Field()
    updated_at = scrapy.Field()
--- a/science_article_wos/science_article_wos/middlewares.py
+++ b/science_article_wos/science_article_wos/middlewares.py
@ -108,6 +108,15 @@ class ScienceArticleWosDownloaderMiddleware:
        spider.logger.info("Spider opened: %s" % spider.name)
 class WosStarterApiXkeyDownloaderMiddleware:
    async def process_request(self, request, spider):
        key_param = {
            'X-ApiKey': '53b8164e7543ccebe489988287e8b871bc2c0880'
        }
        request.headers.update(key_param)
        # return request
 class WosCookieMiddleware:
    def __init__(self, redis_uri: str):
        self.redis_cli = redis.from_url(redis_uri, decode_responses=True)
--- a/science_article_wos/science_article_wos/models/init.py
+++ b/science_article_wos/science_article_wos/models/init.py
@ -0,0 +1,4 @@
 # -*- coding: utf-8 -*-
 # @Time    : 2026/1/14 14:20
 # @Author  : zhaoxiangpeng
 # @File    : __init__.py.py
--- a/science_article_wos/science_article_wos/models/wos_model.py
+++ b/science_article_wos/science_article_wos/models/wos_model.py
@ -0,0 +1,331 @@
 # -*- coding: utf-8 -*-
 # @Time    : 2023/7/13 9:40
 # @Author  : zhaoxiangpeng
 # @File    : model.py
 import json
 import enum
 import warnings
 from typing import List, Tuple, Any, Dict, Union
 from urllib.parse import urlencode
 from science_article_wos.configs import wos as config
 false = False
 true = True
 null = None
 class WosDB(enum.Enum):
    WOS = 1
    CSCD = 2
 class AnalyzesEnum(enum.Enum):
    WOSCC = ["TP.Value.6", "REVIEW.Value.6", "EARLY ACCESS.Value.6", "OA.Value.6", "DR.Value.6", "ECR.Value.6",
             "PY.Field_D.6", "DT.Value.6", "AU.Value.6", "DX2NG.Value.6", "PEERREVIEW.Value.6"]
    CSCD = ["TP.Value.6", "DR.Value.6", "OA.Value.6", "PY.Field_D.6", "DT.Value.6", "SJ.Value.6", "AU.Value.6",
            "OG.Value.6", "SO.Value.6"]
 ColNameMap = dict(WOS='WOSCC', CSCD='CSCD')
 def calculate_next_page(next_page: int = 1, page_size: int = 100):
    """
    计算下一页的游标，即记录的序号
    :param next_page: 下一页的页码
    :param page_size: 每页的大小
    :return:
    """
    return (next_page - 1) * page_size + 1
 def lite_base_model(usr_query: str, db_id: int = None, first_record: int = 1, page_size: int = 100, **kwargs):
    if db_id is None:
        db_id = 1
    if first_record > 1e5:
        warnings.warn('first_record 必须在 1 ~ 100000 之间')
    model = {
        'databaseId': WosDB(db_id).name,
        'firstRecord': first_record,
        'count': page_size,
        'usrQuery': usr_query
    }
    # return urlencode(model)
    return model
 def lite_query_model(db_id: int = None, first_record: int = 1, page_size: int = 100, **kwargs):
    if db_id is None:
        db_id = 1
    model = {
        'databaseId': WosDB(db_id).name,
        'firstRecord': first_record,
        'count': page_size,
    }
    return urlencode(model)
 def starter_documents_uid_get(uid, detail: str = None):
    """
    :param uid:
    :param detail:
    :return:
    """
    _query_params: List[Tuple[str, str]] = []
    if detail is not None:
        _query_params.append(("detail", detail))
 def starter_documents_get(q, db: WosDB = WosDB.WOS.name, limit: int = config.WOS_STARTER_PER_PAGE_LIMIT, page: int = 1, sort_field: str = None,
                          modified_time_span=None, tc_modified_time_span=None, detail=None, **kwargs):
    """
    :param q:
    :param db:
    :param limit: 最大为50
    :param page: 当limit为50时，范围为1~2000，也就是最多10w条
    :param sort_field:
    :param modified_time_span:
    :param tc_modified_time_span:
    :param detail: 默认全部数据，如果值为short，返回较少的字段(uid, links{record,citingArticles,references,related}, citations[{db,count}], identifiers{doi,issn})
    :param kwargs:
    :return:
    """
    _query_params: List[Tuple[str, str]] = []
    _query_params.append(("q", q))
    if db: pass
    _query_params.append(("db", db))
    _query_params.append(("limit", limit))
    _query_params.append(("page", page))
    if detail is not None:
        _query_params.append(("detail", detail))
    return _query_params
 def make_advanced_search_ut(query: str = None, wos_ids: List = None, limit: int = 50, col_name: str = "WOS") -> Dict[
    str, Any]:
    if query is None:
        if wos_ids is None:
            raise ValueError('query 和 wos_ids 必须满足其中一个不为None')
        query = ' OR '.join([f'UT=({wos_id})' for wos_id in wos_ids])
    # 通过一个自定义的名字去拿核心
    product = ColNameMap[col_name]
    model = {
        "product": product,
        "searchMode": "general",
        "viewType": "search",
        "serviceMode": "summary",
        "search": {
            "mode": "general",
            "database": product,
            "query": [
                {
                    "rowText": query
                }
            ],
            "sets": [],
            "options": {
                "lemmatize": "On"
            }
        },
        "retrieve": {
            "count": limit,
            "history": True,
            "jcr": True,
            "sort": "relevance",
            "analyzes": getattr(AnalyzesEnum, product).value
        },
        "eventMode": None,
        "isPreprintReview": False
    }
    return model
 def export_search_data_to_txt(
        q_id: str,
        mark_from: int = 1,
        mark_to: int = 500,
        col_name: str = "WOS",
        filters: str = config.DEFAULT_EXPORT_RECORD_FILTER
 ) -> Dict[str, Any]:
    """
    导出搜索到的记录
    :param q_id: 通过检索得到的检索结果id
    :param mark_from: 记录开始，包含
    :param mark_to: 记录结束，包含
    :param col_name: 来源库/核心
    :param filters: fullRecord(完整记录)/fullRecordPlus(完整记录和参考文献)
    :return:
    """
    if mark_to - mark_from > 500:
        mark_to = mark_from + 499
    model = {"parentQid": q_id, "sortBy": "relevance",
             "displayTimesCited": "true", "displayCitedRefs": "true", "product": "UA", "colName": col_name,
             "displayUsageInfo": "true", "fileOpt": "othersoftware", "action": "saveToTab",
             "markFrom": str(mark_from), "markTo": str(mark_to),
             "view": "summary", "isRefQuery": "false", "locale": "zh_CN", "filters": filters}
    return model
 def article_detail_model(uts: Union[List[str], str], core: str = "WOSCC"):
    """
    详情 https://webofscience.clarivate.cn/wos/woscc/full-record/{wos_id}
    接口 https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch
    :param uts:
    :param core:
    :return:
    """
    if isinstance(uts, str):
        uts = [uts]
    model = {
        "eventMode": null,
        "isPreprintReview": false,
        "product": core,
        "retrieve": {
            "first": 1, "links": "retrieve", "sort": "relevance", "count": 1, "view": "super",
            "coll": null, "activity": false, "analyzes": null, "jcr": true, "reviews": true,
            "highlight": null,
            "secondaryRetrieve": {
                "associated_data": {
                    "sort": "relevance", "count": 10
                },
                "cited_references": {
                    "sort": "author-ascending", "count": 30
                },
                "citing_article": {
                    "sort": "date", "count": 2, "links": null, "view": "mini"
                },
                "cited_references_with_context": {
                    "sort": "date", "count": 135, "view": "mini"
                },
                "recommendation_articles": {
                    "sort": "recommendation-relevance", "count": 5, "links": null, "view": "mini"
                },
                "grants_to_wos_records": {
                    "sort": "date-descending", "count": 30, "links": null, "view": "mini"
                }
            }
        },
        "search": {
            "database": core,
            "mode": "record_ids",
            "uts": uts
        },
        "searchMode": "record_ids",
        "viewType": "search",
        "serviceMode": "summary",
    }
    return model
 # 被引用专用model
 def get_wos_core_cites(
        uts_or_qid: str,
        year_range: tuple = None,
        core: str = "WOSCC",
        parent_db: str = "WOSCC",
        is_refine: bool = False
 ):
    """
    https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch
    :param uts_or_qid:
    :param year_range: 筛选的年份范围
    :param core: 检索的数据库
    :param parent_db:
    :param is_refine: 是否是精炼检索
    :return:
    """
    model = {
        "eventMode": null,
        "isPreprintReview": false,
        "product": core,
        "search": {"database": core, "mode": "citing_article", "parentDatabase": parent_db,
                   "parentDoc": null,
                   "parentId": {"type": "colluid", "value": uts_or_qid},
                   "parentQid": null, "parentSort": null},
        # "retrieve": {
        #     "sort": "date-descending",
        #     "count": 50,
        #     "jcr": true,
        #     "history": true,
        #     "analyzes": ["TP.Value.6", "REVIEW.Value.6", "EARLY ACCESS.Value.6", "OA.Value.6",
        #                  "DR.Value.6", "ECR.Value.6", "PY.Field_D.6", "DT.Value.6", "AU.Value.6",
        #                  "DX2NG.Value.6", "PEERREVIEW.Value.6"]
        # },
        "searchMode": "citing_article",
        "serviceMode": "summary",
        "viewType": "search",
    }
    refines = []
    if year_range:
        is_refine = True
        years = list(range(*year_range)) + [year_range[-1]]
        refines.append(dict(
            index="PY", value=[str(year) for year in years]
        ))
        len(refines) and model.update({"refines": refines})
    if is_refine:
        model.setdefault("qid", uts_or_qid)
        model.pop("search")
        model.pop("isPreprintReview")
        model.update(viewType="refine")
    return model
 def get_aggregation_wos_cited(q_id: str, core: str = "WOSCC"):
    """
    获取各核心引用的聚合
    https://webofscience.clarivate.cn/api/wosnx/core/runQueryGetRecordsStream
    """
    model = {
        "product": core,
        "qid": q_id,
        "retrieve": {
            "analyzes": ["EDN.Value.200"]
        },
        "searchMode": "citing_article",
        "viewType": "records"
    }
    return model
 def get_refine_count(q_id: str, count: int = 5):
    model = {
        "eventMode": null,
        "product": "WOSCC",
        "qid": q_id,
        "refines": [
            {"index": "EDN", "value": ["WOS.SCI", "WOS.SSCI", "WOS.AHCI"]}
        ],
        # "retrieve": {
        #     "count": count, "sort": "date-descending", "history": true, "jcr": true,
        #     "analyzes": ["TP.Value.6", "REVIEW.Value.6", "EARLY ACCESS.Value.6", "OA.Value.6",
        #                  "DR.Value.6", "ECR.Value.6", "PY.Field_D.6", "DT.Value.6", "AU.Value.6",
        #                  "DX2NG.Value.6", "PEERREVIEW.Value.6"]
        # },
        "searchMode": "citing_article",
        "serviceMode": "summary",
        "viewType": "refine",
    }
    return model
 def get_record_info(body: bytes, sep: Union[str, bytes] = b'\n'):
    resp_texts = body.strip().split(sep)
    query_id = None
    records_found = 0
    for resp_text in resp_texts:
        resp_row_dict: dict = json.loads(resp_text)
        if resp_row_dict.get("key") == "searchInfo":
            query_id = resp_row_dict.get("payload", {}).get("QueryID")
            records_found = resp_row_dict.get("payload", {}).get("RecordsFound")  # 找到的记录
            break  # 找到就结束
    return query_id, records_found
 if __name__ == '__main__':
    m1 = lite_base_model(WosDB.WOS)
--- a/science_article_wos/science_article_wos/pipelines.py
+++ b/science_article_wos/science_article_wos/pipelines.py
@ -0,0 +1,208 @@
 # Define your item pipelines here
 #
 # Don't forget to add your pipeline to the ITEM_PIPELINES setting
 # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 # useful for handling different item types with a single interface
 from __future__ import annotations
 import logging
 from datetime import datetime
 from typing import TYPE_CHECKING, Tuple, Union, Optional
 import scrapy
 from scrapy import signals
 from itemadapter import ItemAdapter
 from pymongo import MongoClient
 from itemadapter import ItemAdapter
 from pymongo.errors import (
    DuplicateKeyError,
    BulkWriteError
 )
 from science_article_wos.items import WosIdRelationItem, WosArticleTodoIdItem, WosCitedNumberItem
 from science_article_wos.db_utils.mongo import MongoDBUtils, update_document, build_update_query
 if TYPE_CHECKING:
    from scrapy.crawler import Crawler
    from scrapy.statscollectors import StatsCollector
    from pymongo.collection import Collection
 mongo_logger = logging.getLogger('pymongo')
 mongo_logger.setLevel(logging.WARNING)
 logger = logging.getLogger(__name__)
 class ScienceArticleWosPipeline:
    def process_item(self, item, spider):
        return item
 class MongoPipeline(MongoDBUtils):
    def __init__(self, mongo_uri, mongo_db, stats: StatsCollector):
        super().__init__(mongo_uri, mongo_db)
        self.stats: StatsCollector = stats
        self.insert_failure_update_enable = True
        self.duplicate_cover_enable = False  # 重复项覆盖
    @classmethod
    def from_crawler(cls, crawler: Crawler):
        m = cls(
            mongo_uri=crawler.settings.get("MONGO_URI"),
            mongo_db=crawler.settings.get("MONGO_DATABASE", "items"),
            stats=crawler.stats
        )
        return m
    def open_spider(self, spider):
        self.client = MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
    def process_item(self, item, spider) -> scrapy.Item:
        """
        插入遇到错误不处理
        """
        adapter = ItemAdapter(item)
        tablename = self._get_item_table(item)
        collection = self.db.get_collection(tablename)
        d = adapter.asdict()
        try:
            collection.insert_one(d)
            self.stats.inc_value("item2db_inserted/{}".format(tablename))
        except DuplicateKeyError as duplicate_error:
            self.stats.inc_value("item2db_duplicate/{}".format(tablename))
            self.stats.inc_value(f"item_dropped_reasons_count/duplicate")
        except Exception:
            raise
        return item
    def process_item_update(self, item, spider) -> scrapy.Item:
        """
        插入遇到错误进行更新
        """
        adapter = ItemAdapter(item)
        tablename = self._get_item_table(item)
        collection = self.db.get_collection(tablename)
        d = adapter.asdict()
        try:
            collection.insert_one(d)
            self.stats.inc_value("item2db_inserted/{}".format(tablename))
        except DuplicateKeyError as duplicate_error:
            if self.insert_failure_update_enable:
                write_error = duplicate_error.details
                filter_query, update_query = self._pick_filter_update(write_error, doc=d)
                updated_at_query = None  # 删除不确定因素的时间防止影响更新（更新除了task_id外的字段不需要处理这个）
                key_pattern = write_error.get('keyPattern')
                key_value = write_error.get('keyValue')
                logger.debug("dupKey: %s, keyValue: %s", key_pattern, key_value)
                # 专门用来适配增量的任务
                task_ids = update_query.pop("task_ids", None)
                if task_ids:
                    # task_id一定会引起变动，所以先处理
                    task_id_query = {'task_ids': task_ids}
                    collection.update_one(filter=filter_query, update=build_update_query(task_id_query, replace=False))
                    updated_at_query = {"updated_at": update_query.pop('updated_at', None)}
                update_q = build_update_query(update_query, replace=self.duplicate_cover_enable)
                up_result = collection.update_one(filter=key_value, update=update_q, upsert=True)
                if up_result.matched_count == up_result.modified_count == 1:
                    # 变动了就要修改更新的时间（其实没变也要更新，这样可以知道什么时候动过这条数据）
                    if updated_at_query:
                        collection.update_one(filter=key_value, update={"$set": updated_at_query})
                    self.stats.inc_value("item2db_updated/{}".format(tablename))
        except Exception:
            raise
        return item
    @staticmethod
    def _pick_filter_update(write_error, doc: dict = None):
        original_doc = write_error.get('op', doc)  # 插入的数据
        key_pattern = write_error.get('keyPattern')
        original_doc.pop("_id", None)  # 删掉插入失败产生的_id
        filter_query = {}
        update_query = {key: val for key, val in original_doc.items() if val}
        for key in key_pattern.keys():
            filter_query.update({key: update_query.pop(key, None)})
        return filter_query, update_query
    def close_spider(self, spider):
        self.client.close()
    @staticmethod
    def _get_item_table(item) -> str:
        """获取Item类型"""
        if hasattr(item, '__tablename__'):
            return item.__class__.__tablename__
        return 'items_null_table'
 class CitedRelation2MongoPipeline(MongoPipeline):
    def process_item(self, item, spider):
        # 确定Item类型
        if isinstance(item, WosCitedNumberItem):
            super().process_item_update(item, spider=spider)
        return item
 class SchoolRelation2MongoPipeline(MongoPipeline):
    def process_item(self, item, spider):
        # 确定Item类型
        if isinstance(item, WosIdRelationItem):
            super().process_item_update(item, spider=spider)
        return item
 class DupTodoPipeline(MongoPipeline):
    def process_item(self, item, spider):
        if isinstance(item, WosArticleTodoIdItem):
            if self.is_exists(item, self._get_dup_key(spider)):
                return item
            super().process_item(item, spider=spider)
        return item
    def is_exists(self, item, filter_key) -> bool:
        fingerprints = item.get('third_id')
        collection: Collection = self.db.get_collection(filter_key)
        results = collection.find_one(filter={"third_id": fingerprints},
                                      projection={"_id": 0, "third_id": 1, "exported.da": 1})
        if isinstance(results, dict) and results.get('exported') and results.get('third_id') == fingerprints:
            self.inc_item_dropped_count("exists")
            return True
        return False
    def _get_dup_key(self, spider):
        return 'data_%(source_type)s_article' % {"source_type": spider.source}
    def inc_item_dropped_count(self, reason):
        self.stats.inc_value("item_dropped_count")
        self.stats.inc_value(f"item_dropped_reasons_count/{reason}")
 class DupTodoBySciencePipeline(DupTodoPipeline):
    dup_collection: Optional[Collection] = None
    # def __init__(self, mongo_uri, mongo_db, stats: StatsCollector):
    #     super().__init__(mongo_uri, mongo_db, stats=stats)
    #     self.dup_collection = None
    def open_spider(self, spider):
        super().open_spider(spider)
        settings = spider.settings
        dup_uri = settings.get("MONGO_URI_SCIENCE")
        cli = MongoClient(dup_uri)
        dup_db = cli.get_database("MONGO_DATABASE_SCIENCE")
        self.dup_collection = dup_db.get_collection('wos_raw_data')
    def is_exists(self, item, filter_key) -> bool:
        fingerprints = item.get('third_id')
        results = self.dup_collection.find_one(filter={"_id": fingerprints},
                                      projection={"_id": 1})
        if isinstance(results, dict) and (results.get('_id') == fingerprints):
            self.inc_item_dropped_count("exists")
            return True
        return False
--- a/science_article_wos/science_article_wos/scripts/wos_parse_data.py
+++ b/science_article_wos/science_article_wos/scripts/wos_parse_data.py
@ -0,0 +1,76 @@
 # -*- coding: utf-8 -*-
 # @Time    : 2024/3/5 16:05
 # @Author  : zhaoxiangpeng
 # @File    : parse_data.py
 import logging
 from typing import Union
 from science_article_wos.utils.tools import str2int
 logger = logging.getLogger(__name__)
 DEFAULT_TABLE_HEAD = ['PT', 'AU', 'BA', 'BE', 'GP', 'AF', 'BF', 'CA', 'TI', 'SO', 'SE', 'BS', 'LA', 'DT', 'CT', 'CY', 'CL', 'SP', 'HO', 'DE', 'ID', 'AB', 'C1', 'C3', 'RP', 'EM', 'RI', 'OI', 'FU', 'FP', 'FX', 'CR', 'NR', 'TC', 'Z9', 'U1', 'U2', 'PU', 'PI', 'PA', 'SN', 'EI', 'BN', 'J9', 'JI', 'PD', 'PY', 'VL', 'IS', 'PN', 'SU', 'SI', 'MA', 'BP', 'EP', 'AR', 'DI', 'DL', 'D2', 'EA', 'PG', 'WC', 'WE', 'SC', 'GA', 'PM', 'OA', 'HC', 'HP', 'DA', 'UT']
 DEFAULT_TABLE_HEAD_LOWER = [h.lower() for h in DEFAULT_TABLE_HEAD]
 def to_dict(data, headers: list):
    data_text = data.strip().decode()
    _to_dict = {}
    for key, value in zip(headers, data_text.split('\t')):
        if not value:
            value = None
        _to_dict[key] = value
    vyear = None
    str2int(_to_dict.get("py"), None)
    try:
        vyear = str2int(_to_dict.get("py"), None)
        if not vyear:
            logger.warning("WOS号: %s，年份异常: %s" % (_to_dict["ut"], _to_dict.get("py")))
    except Exception as e:
        logger.exception("""
                原始数据: %s,
                数据字典: %s
                异常信息: %s""" % (data, _to_dict, e))
    _to_dict["py"] = vyear
    return _to_dict
 def parse_full_records_txt(content: bytes):
    lines = content.strip().split(b'\r\n')
    head_line = lines.pop(0)
    try:
        head_start = head_line.index(b'PT')
        head_line = head_line[head_start:]
        head_line = head_line.strip().decode('utf-8')
        HEADERS = head_line.split('\t')
        HEADERS = [s.lower() for s in HEADERS]
    except ValueError:
        logger.error("内容出现异常跳过: %s" % head_line)
        HEADERS = ['PT', 'AU', 'Z2', 'AF', 'BA', 'BF', 'CA', 'GP', 'BE', 'TI', 'Z1', 'SO', 'Z3', 'SE', 'BS', 'LA', 'DT', 'CT', 'CY', 'CL', 'SP', 'HO', 'DE', 'Z5', 'ID', 'AB', 'Z4', 'C1', 'Z6', 'RP', 'EM', 'Z7', 'RI', 'OI', 'FU', 'FX', 'CR', 'NR', 'TC', 'Z9', 'Z8', 'Z9', 'U1', 'U2', 'PU', 'PI', 'PA', 'SN', 'EI', 'BN', 'J9', 'JI', 'PD', 'PY', 'VL', 'IS', 'SI', 'PN', 'SU', 'MA', 'BP', 'EP', 'AR', 'DI', 'D2', 'EA', 'EY', 'PG', 'P2', 'WC', 'SC', 'PM', 'UT', 'OA', 'HP', 'HC', 'DA', 'C3']
        HEADERS = [s.lower() for s in HEADERS]
    while lines:
        line_data = lines.pop(0)
        # print(line_data)
        standard_data = to_dict(line_data, HEADERS)
        # third_id = standard_data.pop('ut', None)
        # if not third_id:
        #     continue
        yield standard_data
 def parse_full_records(body: Union[bytes, str]):
    """
    解析响应的下载内容
    """
    if isinstance(body, str):
        body = body.encode()
    item_g = parse_full_records_txt(body)
    for data_dic in item_g:
        yield data_dic
--- a/science_article_wos/science_article_wos/settings.py
+++ b/science_article_wos/science_article_wos/settings.py
@ -0,0 +1,135 @@
 # Scrapy settings for science_article_wos project
 #
 # For simplicity, this file contains only settings considered important or
 # commonly used. You can find more settings consulting the documentation:
 #
 #     https://docs.scrapy.org/en/latest/topics/settings.html
 #     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
 #     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
 BOT_NAME = "science_article_wos"
 SPIDER_MODULES = ["science_article_wos.spiders"]
 NEWSPIDER_MODULE = "science_article_wos.spiders"
 ADDONS = {}
 # Crawl responsibly by identifying yourself (and your website) on the user-agent
 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/139.0.0.0 Safari/537.36'
 # Obey robots.txt rules
 ROBOTSTXT_OBEY = False
 # Concurrency and throttling settings
 #CONCURRENT_REQUESTS = 16
 CONCURRENT_REQUESTS_PER_DOMAIN = 1
 DOWNLOAD_DELAY = 1
 # Disable cookies (enabled by default)
 #COOKIES_ENABLED = False
 # Disable Telnet Console (enabled by default)
 #TELNETCONSOLE_ENABLED = False
 # Override the default request headers:
 #DEFAULT_REQUEST_HEADERS = {
 #    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
 #    "Accept-Language": "en",
 #}
 # Enable or disable spider middlewares
 # See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
 #SPIDER_MIDDLEWARES = {
 #    "science_article_wos.middlewares.ScienceArticleAddSpiderMiddleware": 543,
 #}
 # Enable or disable downloader middlewares
 # See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
 RETRY_ENABLED = True
 RETRY_TIMES = 2  # 重试3次
 RETRY_HTTP_CODES = [500, 502, 503, 504, 408, 400, 403, 404]  # 增加了一些常见的错误码
 DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550
    # "org_news.middlewares.OrgNewsDownloaderMiddleware": 543,
 }
 #DOWNLOADER_MIDDLEWARES = {
 #    "science_article_wos.middlewares.ScienceArticleAddDownloaderMiddleware": 543,
 #}
 # Enable or disable extensions
 # See https://docs.scrapy.org/en/latest/topics/extensions.html
 EXTENSIONS = {
    # "scrapy.extensions.telnet.TelnetConsole": None,
    # "science_article_wos.extensions.ackextension.ACKExtension": 0,
    # "science_article_wos.extensions.dingtalk_extension.DingTalkExtension": 0,
 }
 # Configure item pipelines
 # See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
 #ITEM_PIPELINES = {
 #    "science_article_wos.pipelines.ScienceArticleAddPipeline": 300,
 #}
 # MONGO_URI = "mongodb://root:123456@192.168.1.211:27017/"
 # MONGO_DATABASE = "science2"
 MONGO_URI = "mongodb://science-dev:kcidea1509!%25)(@101.43.239.105:27017/?authSource=science&directConnection=true"
 MONGO_DATABASE = 'science2'
 MONGO_URI_SCIENCE = "mongodb://root:kcidea1509%21%25%29%28@43.140.203.187:27017/"
 MONGO_DATABASE_SCIENCE = 'science'
 # REDIS_URL = 'redis://:kcidea1509@192.168.1.211:6379/10'
 REDIS_URL = 'redis://:kcidea1509!%)(@43.140.203.187:6379/10'
 # mysql配置
 MYSQL_HOST = '43.140.203.187'
 MYSQL_PORT = 3306
 MYSQL_DATABASE = 'science_data_dept'
 MYSQL_USER = 'science-data-dept'
 MYSQL_PASSWORD = 'datadept1509'
 # Enable and configure the AutoThrottle extension (disabled by default)
 # See https://docs.scrapy.org/en/latest/topics/autothrottle.html
 #AUTOTHROTTLE_ENABLED = True
 # The initial download delay
 #AUTOTHROTTLE_START_DELAY = 5
 # The maximum download delay to be set in case of high latencies
 #AUTOTHROTTLE_MAX_DELAY = 60
 # The average number of requests Scrapy should be sending in parallel to
 # each remote server
 #AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
 # Enable showing throttling stats for every response received:
 #AUTOTHROTTLE_DEBUG = False
 # Enable and configure HTTP caching (disabled by default)
 # See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
 #HTTPCACHE_ENABLED = True
 #HTTPCACHE_EXPIRATION_SECS = 0
 #HTTPCACHE_DIR = "httpcache"
 #HTTPCACHE_IGNORE_HTTP_CODES = []
 #HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"
 # Set settings whose default value is deprecated to a future-proof value
 FEED_EXPORT_ENCODING = "utf-8"
 # 钉钉机器人配置
 DINGTALK_WEBHOOK_URL = 'https://oapi.dingtalk.com/robot/send?access_token=1252fe1ef63e95ced11ac87a01e9978670e82036a516c558e524f89e11513f9f'
 DINGTALK_SECRET = 'SECe77fe7cd6c0dbfcdd9ebe6ba1941ddc376be86ca717e9d68bb177b7eded71091'
 # 自定义消息模板（可选）
 DINGTALK_START_MESSAGE = "🚀 爬虫启动啦！\n**爬虫**: %(spider_name)s\n**时间**: %(started_time)s"
 # DINGTALK_CLOSED_MESSAGE = "✅ 爬虫完成！\n**爬虫**: %(spider_name)s\n**项目数**: %(item_scraped_count)s"
 # 启用/禁用特定通知
 DINGTALK_ENABLE_START = False
 DINGTALK_ENABLE_FINISH = True
 DINGTALK_ENABLE_ERROR = True
 DINGTALK_CLOSED_MESSAGE = """📊 爬虫完成通知\n
 **爬虫名称**: %(spider_name)s\n
 **机构名称**: %(org_name)s\n
 **任务条件**: %(task_condition)s\n
 **任务ID**: %(record_id)s\n
 **完成时间**: %(finished_time)s\n
 **完成原因**: %(finish_reason)s\n
 **采集统计**:\n
  - 采集项目: %(item_scraped_count)s 条
  - 请求响应: %(response_count)s 次
  - 错误数量: %(error_count)s 个\n
 **状态**: %(state)s"""
--- a/science_article_wos/science_article_wos/spiders/wos_latest_increment.py
+++ b/science_article_wos/science_article_wos/spiders/wos_latest_increment.py
@ -0,0 +1,131 @@
 import math
 from datetime import datetime
 from urllib.parse import urlencode
 from copy import deepcopy
 import scrapy
 from scrapy.http.response.json import JsonResponse
 from science_article_wos.items import WosCitedNumberItem, WosIdRelationItem, WosArticleTodoIdItem
 from science_article_wos.models import wos_model as model
 from science_article_wos.configs import wos as config
 from science_article_wos.utils import tools
 def calculate_next_page(next_page: int = 1, page_size: int = 100):
    return (next_page - 1) * page_size + 1
 class WosLatestIncrementSpider(scrapy.Spider):
    name = "wos_latest_increment"
    # allowed_domains = ["wos-api.clarivate.com"]
    # start_urls = ["https://wos-api.clarivate.com/api/woslite"]
    custom_settings = dict(
        DOWNLOADER_MIDDLEWARES={
            "science_article_wos.middlewares.WosStarterApiXkeyDownloaderMiddleware": 500
        },
        ITEM_PIPELINES={
            "science_article_wos.pipelines.CitedRelation2MongoPipeline": 300,
            "science_article_wos.pipelines.SchoolRelation2MongoPipeline": 350,
            "science_article_wos.pipelines.DupTodoBySciencePipeline": 400,
            # "science_article_wos.pipelines.DupTodoPipeline": 400,
        },
        EXTENSIONS={
            "science_article_wos.extensions.ACKExtension": 0,
            # "science_article_wos.extensions.dingtalk_extension.DingTalkExtension": 0,
        },
        LOG_LEVEL="INFO"
    )
    source = "wos"
    def __init__(self, task_obj):
        scrapy.Spider.__init__(self)
        self.task_obj = task_obj
        self.record_id = task_obj['task_id']
        self.org_id = self.tolist(task_obj['org_id'])
        self.org_name = self.tolist(task_obj['org_name'])
        self.query_id = task_obj['query_id']
        self.query_content = task_obj['content']
        self.query_condition = task_obj['task_condition']
        self.first_page = task_obj.get('first_page', 1)
        self._records_found = 0
    @staticmethod
    def tolist(datas) -> list:
        if isinstance(datas, (list, tuple, set)):
            return list(set(datas))
        else:
            raise TypeError("不支持的类型：%s" % (type(datas)))
    async def start(self):
        full_query = self.query_content
        if self.query_condition is not None:
            full_query = '%(query)s%(condition)s' % {
                'query': f'({self.query_content})' if self.query_condition else self.query_content,
                'condition': ' ' + self.query_condition if self.query_condition else ''
            }
        self.logger.info(f'full_query: {full_query}')
        meta = dict(q=full_query, page=self.first_page, limit=50, detail="short")
        params = model.starter_documents_get(**meta)
        enc_params = urlencode(params, doseq=True)
        yield scrapy.Request(url=config.WOS_STARTER_DOCUMENT_API + '?' + enc_params,
                             meta=meta)
    async def parse(self, response: JsonResponse, **kwargs):
        meta = response.meta
        request: scrapy.Request = response.request
        task_query_id: int = self.query_id
        task_org_id: list = self.org_id
        task_record_id: int = self.record_id
        if response.status != 200:
            self.logger.warning("""
            响应异常
            状态码:    %s
            响应内容:  %s""" % (response.status, response.text))
        req_meta = request.meta
        resp_result = response.json()
        metadata: dict = resp_result.get("metadata")
        current_page = metadata.get("page")
        records_found = metadata.get('total')
        max_page = req_meta.get("MAX_PAGE")
        if req_meta.get("page") == self.first_page:
            self.logger.info("""
            检索式:    %s
            检索到结果: %s""" % (req_meta.get("q"), records_found))
            self.set_records_found(records_found)
            max_page = req_meta["MAX_PAGE"] = math.ceil(records_found / config.WOS_STARTER_PER_PAGE_LIMIT)
        batch_time = datetime.now()
        hits: list = resp_result.get("hits")
        for record in hits:
            third_id = record.get("uid")
            cited_num = tools.get_list_key(array=record.get("citations"), target="count", condition=("db", "WOS"))
            if cited_num:
                cited_item = WosCitedNumberItem()
                cited_item['third_id'] = third_id
                cited_item['cited'] = cited_num
                cited_item['updated_at'] = batch_time
                yield cited_item
            relation_item = WosIdRelationItem()
            relation_item['third_id'] = third_id
            relation_item['query_ids'] = [task_query_id]
            relation_item['school_ids'] = task_org_id
            relation_item['task_ids'] = [task_record_id]
            relation_item['updated_at'] = batch_time
            yield relation_item
            yield WosArticleTodoIdItem(**dict(third_id=third_id, state=0))
        if current_page < max_page:
            meta_copy: dict = deepcopy(req_meta)
            meta_copy.update({'page': meta_copy['page'] + 1})
            yield scrapy.Request(
                config.WOS_STARTER_DOCUMENT_API + '?' + urlencode(model.starter_documents_get(**meta_copy)),
                meta=meta_copy)
    def set_records_found(self, val):
        self._records_found = val
    def get_records_found(self) -> int:
        return self._records_found
--- a/science_article_wos/science_article_wos/utils/tools.py
+++ b/science_article_wos/science_article_wos/utils/tools.py
@ -0,0 +1,32 @@
 from typing import List, Tuple
 from datetime import datetime
 def str2int(val, replace=0):
    try:
        val = int(val)
    except ValueError:
        val = replace
    except TypeError:
        val = replace
    return val
 def get_today_date(fmt: str = "%Y-%m-%d"):
    return datetime.today().strftime(fmt)
 def get_list_key(array: List[dict], target: str, condition: Tuple[str, str]):
    """
    给定一个list [{key: val1, target: val2}, {key: val1, target: val2}]
    根据condition(key=val)返回第一个target对应的值
    :param target:
    :param condition:
    :param array:
    :return:
    """
    n, v = condition
    for dic in array:
        if dic.get(n) == v:
            return dic.get(target)
--- a/science_article_wos/scrapy.cfg
+++ b/science_article_wos/scrapy.cfg
@ -0,0 +1,11 @@
 # Automatically created by: scrapy startproject
 #
 # For more information about the [deploy] section see:
 # https://scrapyd.readthedocs.io/en/latest/deploy.html
 [settings]
 default = science_article_wos.settings
 [deploy]
 #url = http://localhost:6800/
 project = science_article_wos
--- a/science_article_wos/starter/crawl_article_latest.py
+++ b/science_article_wos/starter/crawl_article_latest.py
@ -0,0 +1,65 @@
 # -*- coding: utf-8 -*-
 # @Time    : 2026/1/14 13:59
 # @Author  : zhaoxiangpeng
 # @File    : crawl_article_latest.py
 import math
 from typing import List
 import pymysql
 from pymysql import cursors
 from twisted.internet import defer
 from scrapy.crawler import CrawlerProcess
 from scrapy.utils.project import get_project_settings
 from science_article_wos.spiders.wos_latest_increment import WosLatestIncrementSpider
 CREATE_RECORD_SQL = '''insert into task_batch_record (batch_date, query_id, task_condition) VALUES ("%(batch_date)s", %(query_id)s, %(task_condition)s)'''
 SELECT_RECORD_SQL = """
 SELECT
 	b.id AS task_id,
 	q.id AS query_id,
 	q.content AS content,
 	b.task_condition AS task_condition,
 	q.source_type AS source_type,
 	b.is_done AS is_done 
 FROM
 	task_batch_record AS b
 	JOIN task_search_strategy AS q ON q.id = b.query_id
 WHERE
 	b.is_done = 0 
 	AND q.source_type = 1 
 	LIMIT %(limit)s
 """
 def starter_latest_all():
    @defer.inlineCallbacks
    def f():
        client: pymysql.Connection = pymysql.connect(host='43.140.203.187', port=3306,
                                                     database='science_data_dept', user='science-data-dept',
                                                     passwd='datadept1509', )
        cursor = client.cursor(cursors.DictCursor)
        cursor.execute(SELECT_RECORD_SQL % {'limit': 1})
        result = cursor.fetchone()
        query_id = result['query_id']
        cursor.execute('select org_id, org_name from relation_org_query where query_id=%s', (query_id,))
        org_results: List[dict] = cursor.fetchall()
        result['org_id'] = [org_result['org_id'] for org_result in org_results]
        result['org_name'] = [org_result['org_name'] for org_result in org_results]
        init_params = result
        yield process.crawl(WosLatestIncrementSpider, task_obj=init_params)
    process = CrawlerProcess(get_project_settings())
    f()
    process.start()
    process.stop()
 def starter():
    process = CrawlerProcess(get_project_settings())
    process.crawl(WosLatestIncrementSpider)
    process.start()
 if __name__ == '__main__':
    starter_latest_all()