cnki:更改v的取值

cnki:采集所有库
cnki:公共工具
74 changed files with 3881 additions and 58 deletions
--- a/science_article_add/.idea/science_article_add.iml
+++ b/science_article_add/.idea/science_article_add.iml
@ -1,12 +0,0 @@
-<?xml version="1.0" encoding="UTF-8"?>
-<module type="PYTHON_MODULE" version="4">
-  <component name="NewModuleRootManager">
-    <content url="file://$MODULE_DIR$" />
-    <orderEntry type="jdk" jdkName="pydevenv" jdkType="Python SDK" />
-    <orderEntry type="sourceFolder" forTests="false" />
-  </component>
-  <component name="PyDocumentationSettings">
-    <option name="format" value="PLAIN" />
-    <option name="myDocStringFormat" value="Plain" />
-  </component>
-</module>
--- a/science_article_add/Dockerfile
+++ b/science_article_add/Dockerfile
@ -0,0 +1,54 @@
+# 使用 Python 官方镜像
+FROM python:3.11-slim
+
+# 设置工作目录
+WORKDIR /app
+
+# 安装系统依赖（包含浏览器相关）
+RUN apt-get update && apt-get install -y \
+    wget \
+    curl \
+    gnupg \
+    ca-certificates \
+    fonts-liberation \
+    libasound2 \
+    libatk-bridge2.0-0 \
+    libatk1.0-0 \
+    libatspi2.0-0 \
+    libcups2 \
+    libdbus-1-3 \
+    libdrm2 \
+    libgbm1 \
+    libgtk-3-0 \
+    libnspr4 \
+    libnss3 \
+    libxcomposite1 \
+    libxdamage1 \
+    libxfixes3 \
+    libxrandr2 \
+    xdg-utils \
+    --no-install-recommends \
+    && rm -rf /var/lib/apt/lists/*
+
+# 安装 Chrome 浏览器（如果需要）
+RUN wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add - \
+    && sh -c 'echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google.list' \
+    && apt-get update \
+    && apt-get install -y google-chrome-stable \
+    --no-install-recommends \
+    && rm -rf /var/lib/apt/lists/*
+
+# 复制依赖文件
+COPY requirements.txt .
+
+# 安装 Python 依赖
+RUN pip install --no-cache-dir -r requirements.txt
+
+# 复制应用代码
+COPY . .
+
+# 设置环境变量
+ENV PYTHONUNBUFFERED=1
+
+# 运行应用
+CMD ["python", "app.py"]
--- a/science_article_add/requirements.txt
+++ b/science_article_add/requirements.txt
@ -0,0 +1,10 @@
+requests~=2.32.4
+scrapy~=2.13.3
+pymongo~=4.13.0
+itemadapter~=0.11.0
+happybase~=1.2.0
+fastapi~=0.116.1
+redis~=6.2.0
+parsel~=1.10.0
+sympy~=1.14.0
+pydantic~=2.0.3
--- a/science_article_add/run.py
+++ b/science_article_add/run.py
@ -1,12 +0,0 @@
-from scrapy.crawler import CrawlerProcess
-from scrapy.utils.project import get_project_settings
-
-from science_article_add.scripts.get_db_task import TaskManager
-
-tm = TaskManager()
-process = CrawlerProcess(get_project_settings())
-
-task = tm.get_task_from_mysql()
-
-process.crawl('wos_latest_increment', task_obj=task)
-process.start()
--- a/science_article_add/science_article_add/browser/wos_search_export.py
+++ b/science_article_add/science_article_add/browser/wos_search_export.py
@ -0,0 +1,296 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/11/24 09:25
+# @Author  : zhaoxiangpeng
+# @File    : wos_search_export.py
+import math
+import json
+import logging
+from typing import Any
+from datetime import datetime
+
+import redis
+from DrissionPage import Chromium
+from DrissionPage import ChromiumPage, ChromiumOptions
+from DrissionPage._pages.chromium_tab import ChromiumTab
+from DrissionPage._units.listener import DataPacket, Response
+from DrissionPage.errors import ElementNotFoundError
+
+from science_article_add.utils import tools
+from science_article_add.scripts.wos_parse_data import parse_full_records_txt
+
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+LINK = "https://webofscience.clarivate.cn/wos/woscc/advanced-search"
+BATCH_DOWNLOAD_LIMIT = 500
+
+
+class Settings:
+    env = "dev"
+    SEARCH_ROUTE = '/api/wosnx/core/runQuerySearch'
+    EXPORT_ROUTE = '/api/wosnx/indic/export/saveToFile'
+    DB_CHANGE_ELE = '//*[@id="global-select"]/div/div[@aria-label="Select database"]/div[@title="Web of Science Core Collection"]'
+    QUERY_INPUT_ELE = '//*[@id="advancedSearchInputArea"]'
+    SEARCH_BUTTON_ELE = '//button[@data-ta="run-search"]/span[@class="mat-mdc-button-touch-target"]'
+
+    EXPORT_BUTTON_ELE = '//*[@id="export-trigger-btn"]'
+    TABWIN_BUTTON_ELE = '//*[@id="exportToTabWinButton"]'  # 制表符分割文件button
+
+    RECORD_TYPE_SELECT_ELE = '//div[@class="ng-star-inserted"]/wos-select/button[@aria-haspopup="listbox"]'  # 记录内容选择框
+    FULL_RECORD_ELE = '//div[@id="global-select"]//div[@class="options options-menu"]/div[@title="Full Record"]'  # 完整记录
+    FULL_RECORD_REFERENCE_ELE = '//div[@id="global-select"]//div[@class="options options-menu"]/div[@title="Full Record and Cited References"]'  # 全记录与参考文献
+
+    RECORD_RANGE_ELE = '//*[@id="radio3-input"]'  # 记录范围
+    RECORD_EXPORT_START_ELE = '//input[@name="markFrom"]'
+    RECORD_EXPORT_END_ELE = '//input[@name="markTo"]'
+
+    EXPORT_FILE_ELE = '//*[@id="exportButton"]'
+
+    INPUT_CONTENT = '(OG=(Anhui University of Science & Technology)) AND PY=(2025)'
+
+
+class ProSettings(Settings):
+    DB_CHANGE = '//*[@id="global-select"]/div/div[@aria-label="Select database"]/div[@title="Web of Science 核心合集"]'
+    EXPORT_BUTTON_ELE = '//botton[@id="export-trigger-btn"]'
+    FULL_RECORD_ELE = '//div[@id="global-select"]//div[@class="options options-menu"]/div[@title="完整记录"]'  # 完整记录
+    FULL_RECORD_REFERENCE_ELE = '//div[@id="global-select"]//div[@class="options options-menu"]/div[@title="全记录与引用的参考文献"]'  # 全记录与参考文献
+
+
+settings = Settings()
+
+
+class WosSearchExport:
+    _records_found = 0
+    inited: bool = False
+    is_running = False
+
+    def __init__(self, query_content: Any, options=None):
+        self._records_found = 0
+        self._query_id = None
+        self.query_content = query_content
+        self.options = options
+
+    @classmethod
+    def create_instance(cls, config: dict):
+        return cls(
+            query_content=config.get("query_content"),
+            options=config.get('options')
+        )
+
+    def set_records_found(self, val):
+        self._records_found = val
+
+    def get_records_found(self) -> int:
+        return self._records_found
+
+    def set_query_id(self, query_id):
+        self._query_id = query_id
+
+    def get_query_id(self):
+        return self._query_id
+
+    def _initialize(self):
+        self.browser = Chromium(self.options)
+        self.tab = self.browser.latest_tab
+        # 都只需要执行一次
+        self.open_url(LINK)
+        # 处理cookie的首选项
+        self.operate_cookie_first()
+        self.change_db()
+        self.inited = True
+
+    def open_url(self, url):
+        logger.debug('Opening url: %s' % url)
+        self.tab.get(url)
+
+    def operate_cookie_first(self):
+        # cookie管理处理
+        logger.debug('Operating cookie first...')
+        ck_m_div = self.tab.ele('xpath://*[@id="onetrust-banner-sdk"]')
+        if ck_m_div:
+            ele = self.tab.ele('xpath://*[@id="onetrust-accept-btn-handler"]')
+            ele.click()
+
+    def change_db(self):
+        logger.info('Changing database...')
+        default_db_ele = self.tab.ele('xpath://*[@id="snSelectDb"]/button')
+        c1 = default_db_ele.raw_text
+        default_db_ele.click()
+        self.tab.ele(
+            'xpath:%(xpath)s' % {"xpath": settings.DB_CHANGE_ELE}).click()
+
+    def input_query(self, content: str, clear_input: bool = True, tab=None):
+        tab = tab or self.tab
+        input_area_ele = tab.ele('xpath:%(xpath)s' % {"xpath": settings.QUERY_INPUT_ELE})
+        if clear_input:
+            input_area_ele.clear()  # 清空
+
+        input_area_ele.input(content)  # 输入检索内容
+
+        def listen_func():
+            tab.listen.start(settings.SEARCH_ROUTE, method="POST")
+
+        def operation_func():
+            search_button_ele = tab.ele('xpath:%(xpath)s' % {"xpath": settings.SEARCH_BUTTON_ELE})
+            search_button_ele.click()
+
+        def capture_packet(packet: DataPacket):
+            search_url = tab.url
+            record_id, records_found = self.get_record_info(packet.response.body)
+            self.set_records_found(records_found)
+            self.set_query_id(record_id)
+            if not self.get_query_id():
+                logger.warning('未找到记录 %s' % packet.response.body)
+
+            if records_found == 0:
+                logger.warning('检索式 "%s" 找到记录 %s 条' % (self.query_content, records_found))
+                return
+
+            else:
+                logger.info('检索式 "%s" 找到记录 %s 条' % (self.query_content, records_found))
+
+            return True
+
+        self.intercept(listen=listen_func, operation=operation_func, callback=capture_packet, tab=tab)
+
+    def download_records(self):
+        for b in self.distribute_page():
+            query_id, batch_id, mark_start, mark_end = b
+            self.rpa_download(mark_start, mark_end, batch=batch_id, tab=self.tab)
+
+    def distribute_page(self):
+        # 计算页码
+        logger.info("prepare downloading...")
+        records_found = self.get_records_found()
+        query_id = self.get_query_id()
+        mark_start = 1
+        mark_end = 0
+        batch_id = 0
+        for i in range(math.ceil(records_found / BATCH_DOWNLOAD_LIMIT)):
+            mark_end += BATCH_DOWNLOAD_LIMIT
+            if mark_end > records_found:
+                mark_end = records_found
+            batch_id += 1
+            yield query_id, batch_id, mark_start, mark_end
+
+            mark_start += BATCH_DOWNLOAD_LIMIT
+
+    def clear_query(self):
+        pass
+
+    def reflush_query(self):
+        pass
+
+    def reflush_page(self):
+        pass
+
+    def rpa_download(self, start: int = 1, end: int = 500, batch: str | int = None, tab=None):
+        """
+        点击下载前拦截api
+        """
+        try:
+            logger.debug("download starting...")
+            tab = tab or self.tab
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.EXPORT_BUTTON_ELE}).click()  # 点击导出
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.TABWIN_BUTTON_ELE}).click()  # 选择制表符分割
+            # 等待弹框
+            # 切换导出格式选择全记录与参考文献
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_TYPE_SELECT_ELE}).click()
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.FULL_RECORD_REFERENCE_ELE}).click()
+
+            # 输入记录起止
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_RANGE_ELE}).click()  # 切换到范围
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_EXPORT_START_ELE}).input(start, clear=True)
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_EXPORT_END_ELE}).input(end, clear=True)
+        except ElementNotFoundError:
+            self.reflush_page()
+
+        def listen_func():
+            tab.listen.start(settings.EXPORT_ROUTE, method="POST")
+
+        def operation_func():
+            # tab.ele('xpath:%(xpath)s' % {"xpath": settings.EXPORT_FILE_ELE}).click()  # 点击导出按钮
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.EXPORT_FILE_ELE}).click.to_download(
+                save_path=DOWNLOAD_PATH,
+                rename='%s.txt' % batch
+            )
+
+        def capture_packet(packet: DataPacket):
+            g = self._parse_download(packet.response)
+            for i in g:
+                print(i)
+            return True
+
+        self.intercept(listen=listen_func, operation=operation_func, callback=capture_packet, tab=tab)
+
+    def intercept(self, listen, operation, callback, tab=None):
+        listen()
+        operation()
+        for packet in tab.listen.steps(count=3):
+            print(packet.response.body)
+            if not self.intercept_verify(packet):
+                continue
+            r = callback(packet)
+            if r:
+                break
+        return
+
+    @staticmethod
+    def intercept_verify(packet: DataPacket):
+        content = packet.response.body
+        if isinstance(content, bytes) and content.find(b'"Server.passiveVerificationRequired"') != -1:
+            return False
+        else:
+            return True
+
+    def _parse_download(self, response: Response):
+        batch_time = datetime.now()
+        item_g = parse_full_records_txt(response.body.encode())
+        parse_count = 0
+        for data_dic in item_g:
+            t_id = data_dic.pop('ut', None)
+            if t_id:
+                parse_count += 1
+                yield dict(third_id=t_id, exported=data_dic, updated_at=batch_time)
+                # 解析被引量
+                if cited_num := tools.str2int(data_dic.get("tc", 0), 0):
+                    yield dict(third_id=t_id, cited=cited_num, updated_at=batch_time)
+
+    @staticmethod
+    def get_record_info(body: bytes):
+        resp_texts = body.strip().split(b'\n')
+        query_id = None
+        records_found = 0
+        for resp_text in resp_texts:
+            resp_row_dict: dict = json.loads(resp_text)
+            if resp_row_dict.get("key") == "searchInfo":
+                query_id = resp_row_dict.get("payload", {}).get("QueryID")
+                records_found = resp_row_dict.get("payload", {}).get("RecordsFound")  # 找到的记录
+                break  # 找到就结束
+        return query_id, records_found
+
+    def execute(self):
+        if not self.inited:
+            logger.info('初始化页面')
+            self._initialize()
+        self.input_query(self.query_content)
+        self.download_records()
+
+    def start(self):
+        pass
+
+    def stop(self):
+        self.tab.close()
+
+
+if __name__ == '__main__':
+    DOWNLOAD_PATH = r'Y:\wos-metadata\wos increment-202512\00'
+    conf = dict(
+        query_content="(OG=(Southwest University of Science & Technology - China)) AND PY=(2025)",
+        download_dir=DOWNLOAD_PATH
+    )
+    co = ChromiumOptions()  # .headless()
+    co.set_pref('download.default_directory', conf['download_dir'])
+    conf['options'] = co
+
+    ins = WosSearchExport.create_instance(config=conf)
+    ins.execute()
--- a/science_article_add/science_article_add/configs/wos_dp.py
+++ b/science_article_add/science_article_add/configs/wos_dp.py
--- a/science_article_add/science_article_add/db_utils/buffer_component.py
+++ b/science_article_add/science_article_add/db_utils/buffer_component.py
--- a/science_article_add/science_article_add/db_utils/mongo.py
+++ b/science_article_add/science_article_add/db_utils/mongo.py
@ -11,6 +11,36 @@ if TYPE_CHECKING:
    from pymongo.results import InsertManyResult, BulkWriteResult


+def build_update_query(update_data: dict, replace: bool = True) -> dict:
+    """
+    如果replace为True，则直接覆盖原有的document
+    """
+    update_query = {}
+    if not update_data:
+        return {}
+    for key, val in update_data.items():
+        if replace:
+            update_query.setdefault(
+                "$set", {}
+            ).update(
+                {key: val}
+            )
+        else:
+            if isinstance(val, list):
+                update_query.setdefault(
+                    "$addToSet", {}
+                ).update({
+                    key: {"$each": val}
+                })
+            else:
+                update_query.setdefault(
+                    "$set", {}
+                ).update(
+                    {key: val}
+                )
+    return update_query
+
+
 def update_document(filter_query: dict = None, update_data: dict = None, replace: bool = True) -> Tuple[dict, dict]:
    update_query = {}
    if not update_data:
--- a/science_article_add/science_article_add/items/init.py
+++ b/science_article_add/science_article_add/items/init.py
@ -13,6 +13,25 @@ class ScienceArticleAddItem(scrapy.Item):
    updated_at = scrapy.Field()


+class AddItemBase(scrapy.Item):
+    third_id = scrapy.Field()
+    updated_at = scrapy.Field()
+
+
+class ArticleItem(AddItemBase):
+    exported = scrapy.Field()
+
+
+class IdRelationItem(AddItemBase):
+    query_ids = scrapy.Field()
+    school_ids = scrapy.Field()
+    task_ids = scrapy.Field()
+
+
+class ArticleCitedItem(AddItemBase):
+    cited = scrapy.Field()
+
+
 class WosLiteAddItem(ScienceArticleAddItem):
    year = scrapy.Field()
    query_ids = scrapy.Field()
--- a/science_article_add/science_article_add/middlewares/init.py
+++ b/science_article_add/science_article_add/middlewares/init.py
--- a/science_article_add/science_article_add/middlewares/lifecycle_middleware.py
+++ b/science_article_add/science_article_add/middlewares/lifecycle_middleware.py
--- a/science_article_add/science_article_add/middlewares/wos.py
+++ b/science_article_add/science_article_add/middlewares/wos.py
@ -0,0 +1,97 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/10/23 17:22
+# @Author  : zhaoxiangpeng
+# @File    : wos.py
+from __future__ import annotations
+from typing import TYPE_CHECKING
+import sys
+import logging
+
+import redis
+from scrapy.exceptions import CloseSpider
+if TYPE_CHECKING:
+    from scrapy.crawler import Crawler
+    from scrapy import Request
+
+logger = logging.getLogger(__name__)
+
+
+class WosLiteApiXkeyDownloaderMiddleware:
+    async def process_request(self, request, spider):
+        key_param = {
+            'X-ApiKey': '941a216f25cbef0f80ee4ba58a08ef1e19dee7a4'
+        }
+        if not request.headers:
+            request.headers = key_param
+            return request
+
+        request.headers.update(key_param)
+        return request
+
+
+class WosStarterApiXkeyDownloaderMiddleware:
+    async def process_request(self, request, spider):
+        key_param = {
+            'X-ApiKey': '53b8164e7543ccebe489988287e8b871bc2c0880'
+        }
+        request.headers.update(key_param)
+        # return request
+
+
+class WosSidParamMiddleware:
+
+    def __init__(self, redis_uri: str):
+        self.redis_cli = redis.from_url(redis_uri)
+        self.cookiepool_key = 'cookies_pool:wos:sid-sjtu'
+
+    @classmethod
+    def from_crawler(cls, crawler: Crawler, *args, **kwargs):
+        settings = crawler.settings
+        return cls(
+            redis_uri=settings.get("REDIS_URL")
+        )
+
+    def process_request(self, request: Request, spider):
+        has_wos_sid = hasattr(request, 'wos_sid')
+        if not has_wos_sid:
+            sid = self.get_sid_from_redis()
+            if not sid:
+                raise CloseSpider(f"没有获取导sid: ")
+            # 把获取到的wos_sid绑定到request，可以在parse方法中获取到wos_sid的值
+            setattr(request, 'wos_sid', sid)
+        else:
+            sid = getattr(request, 'wos_sid')
+        cookie_1 = {'dotmatics.elementalKey': 'SLsLWlMhrHnTjDerSrlG'}
+
+        headers = {
+            'authority': 'webofscience.clarivate.cn',
+            'accept-language': 'zh-CN,zh;q=0.9',
+            'cache-control': 'no-cache',
+            'origin': 'https://webofscience.clarivate.cn',
+            'pragma': 'no-cache',
+            # 'referer': 'https://webofscience.clarivate.cn/wos/woscc/advanced-search',
+        }
+        request.cookies = cookie_1
+
+        if request.url.endswith('runQuerySearch'):
+            # 检索时需要带有sid参数
+            request._set_url(request.url + "?SID=%s" % sid)
+            headers.update(
+                {'accept': 'application/x-ndjson', 'content-type': 'text/plain;charset=UTF-8'})
+        else:
+            headers.update(
+                {'accept': 'application/json, text/plain, */*', 'content-type': 'application/json',
+                 'x-1p-wos-sid': sid})
+        for hk, hv in headers.items():
+            request.headers[hk] = hv
+
+        return None
+
+    def get_sid_from_redis(self):
+        sid = self.redis_cli.get(self.cookiepool_key)
+        if not sid:
+            return None
+            logger.warning("没有可用cookie, 退出!!!")
+            sys.exit()
+        return sid.decode()
+
--- a/science_article_add/science_article_add/models/wos_model.py
+++ b/science_article_add/science_article_add/models/wos_model.py
@ -314,5 +314,18 @@ def get_refine_count(q_id: str, count: int = 5):
    return model


+def get_record_info(body: bytes, sep: Union[str, bytes] = b'\n'):
+    resp_texts = body.strip().split(sep)
+    query_id = None
+    records_found = 0
+    for resp_text in resp_texts:
+        resp_row_dict: dict = json.loads(resp_text)
+        if resp_row_dict.get("key") == "searchInfo":
+            query_id = resp_row_dict.get("payload", {}).get("QueryID")
+            records_found = resp_row_dict.get("payload", {}).get("RecordsFound")  # 找到的记录
+            break  # 找到就结束
+    return query_id, records_found
+
+
 if __name__ == '__main__':
    m1 = lite_base_model(WosDB.WOS)
--- a/science_article_add/science_article_add/pipelines/mongo.py
+++ b/science_article_add/science_article_add/pipelines/mongo.py
@ -5,7 +5,7 @@
 from __future__ import annotations
 import logging
 from datetime import datetime
-from typing import TYPE_CHECKING, Tuple, Generator
+from typing import TYPE_CHECKING, Tuple, Union

 from pymongo import MongoClient
 from itemadapter import ItemAdapter
@ -15,7 +15,8 @@ from pymongo.errors import (
 )

 from science_article_add.db_utils.buffer_component import SimpleBuffer
-from science_article_add.db_utils.mongo import MongoDBUtils, update_document
+from science_article_add.db_utils.mongo import MongoDBUtils, update_document,build_update_query
+
 if TYPE_CHECKING:
    from scrapy.crawler import Crawler
    from scrapy.statscollectors import StatsCollector
@ -51,14 +52,17 @@ class MongoPipeline(MongoDBUtils):
        d = adapter.asdict()
        try:
            insert_result = collection.insert_one(d)
+            self.stats.inc_value("item2db_inserted/{}".format(item_type))
        except DuplicateKeyError as duplicate_error:
            if self.insert_failure_update_enable:
                write_error = duplicate_error.details
                key_pattern = write_error.get('keyPattern')
                key_value = write_error.get('keyValue')
                logger.debug("dupKey: %s, keyValue: %s", key_pattern, key_value)
+                d.pop("_id", None)
                [d.pop(k, None) for k in key_pattern.keys()]
                up_result = collection.update_one(filter=key_value, update={"$set": d}, upsert=True)
+                self.stats.inc_value("item2db_updated/{}".format(item_type))
        except Exception:
            raise

@ -71,20 +75,22 @@ class MongoPipeline(MongoDBUtils):
    def _get_item_type(item) -> str:
        """获取Item类型"""
        if hasattr(item, '__tablename__'):
-            return item.item_type
+            return item.__class__.__tablename__
        return 'items_null_table'


 class MongoPipelineMulti(MongoDBUtils):
-    def __init__(self, mongo_uri, mongo_db, buffer_max_size=None):
+    def __init__(self, mongo_uri, mongo_db, stats: StatsCollector, buffer_max_size=None):
        super().__init__(mongo_uri, mongo_db)
        self.buffer = SimpleBuffer(buffer_max_size=buffer_max_size, flush_interval=10)
+        self.stats: StatsCollector = stats

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get("MONGO_URI"),
            mongo_db=crawler.settings.get("MONGO_DATABASE", "items"),
+            stats=crawler.stats,
            buffer_max_size=crawler.settings.get("BUFFER_MAX_SIZE", 100),
        )

@ -127,11 +133,15 @@ class MongoPipelineMulti(MongoDBUtils):
            write_errors = bulk_write_e.details.get('writeErrors')
            current_time = datetime.now()
            up_time_requests = []
-            errors = self._build__update(write_errors)
            collection = self.db.get_collection(item_type)
-            for new_item in errors:
-                filter_query, update_query = new_item
-                up_result = collection.update_one(filter=filter_query, update=update_query)
+            for write_error in write_errors:
+                filter_query, update_query = self._pick_filter_update(write_error)
+                original_doc = write_error.get('op')  # 插入的数据
+                task_ids = update_query.pop('task_ids', None)
+                if task_ids:
+                    task_id_query = {'task_ids': task_ids}
+                    collection.update_one(filter=filter_query, update=build_update_query(task_id_query, replace=False))
+                up_result = collection.update_one(filter=filter_query, update=build_update_query(update_query, replace=False))
                affect_count -= 1

                if up_result.matched_count == up_result.modified_count == 1:
@ -149,16 +159,29 @@ class MongoPipelineMulti(MongoDBUtils):
        finally:
            # 清空缓冲区
            self.buffer.clear_buffer(item_type)
+        self.stats.inc_value("item2db_inserted/{}".format(item_type), count=affect_count)
+        self.stats.inc_value("item2db_updated/{}".format(item_type), count=item_count - affect_count)
        logger.info('✅ 入库 %s 行数 %s 条, 新增 %s 条, 更新 %s 条' % (
-                    item_type, item_count, affect_count, item_count - affect_count))
-
-    def _build__update(self, write_errors) -> Generator[Tuple[dict, dict], Tuple[None, None]]:
-        for write_error in write_errors:
-            update_one = None, None
-            if write_error.get('code') == 11000:
-                update_one = self._build_dup_error(write_error)
-            if update_one:
-                yield update_one
+            item_type, item_count, affect_count, item_count - affect_count))
+
+    def _build__update(self, write_error) -> Union[Tuple[dict, dict], Tuple[None, None]]:
+        update_one = None, None
+        if write_error.get('code') == 11000:
+            update_one = self._pick_filter_update(write_error)
+        return update_one
+
+    @staticmethod
+    def _pick_filter_update(write_error):
+        original_doc = write_error.get('op')  # 插入的数据
+        key_pattern = write_error.get('keyPattern')
+        original_doc.pop("_id", None)  # 删掉插入失败产生的_id
+        filter_query = {}
+        update_query = {key: val for key, val in original_doc.items() if val}
+        update_query.pop('updated_at', None)  # 删除不确定因素时间防止影响更新的
+
+        for key in key_pattern.keys():
+            filter_query.update({key: update_query.pop(key, None)})
+        return filter_query, update_query

    @staticmethod
    def _build_dup_error(write_error) -> tuple[None, None] | tuple[dict, dict]:
--- a/science_article_add/science_article_add/pipelines/verify_data.py
+++ b/science_article_add/science_article_add/pipelines/verify_data.py
@ -65,3 +65,16 @@ class VerifyDataIntegrity:
            coll.update_many(filter={"third_id": {"$in": list(failure)}}, update={"$set": {"state": -1}})
        else:
            self.logger.info("Successfully verified: %s" % "下载完整无异常")
+
+    def spider_end(self):
+        """
+        组合检索式，把结果写到数据库里
+        """
+        dict(
+            content="",
+            qeury_id="",
+            records_found=0,
+            perfact=1,
+            state=1,
+            reason=""
+        )
--- a/science_article_add/science_article_add/pipelines/wos.py
+++ b/science_article_add/science_article_add/pipelines/wos.py
@ -1,7 +1,11 @@
 # pipelines.py
+import logging
 import pymongo
 from itemadapter import ItemAdapter
-from science_article_add.items.wos import WosCitedNumberItem, WosIdRelationItem
+
+from science_article_add.items.wos import WosArticleItem, WosCitedNumberItem, WosIdRelationItem
+from science_article_add.pipelines.verify_data import VerifyDataIntegrity
+logger = logging.getLogger(__name__)


 class MongoDBPipeline:
@ -38,3 +42,12 @@ class MongoDBPipeline:
        self.db[collection_name].insert_one(dict(adapter))

        return item
+
+
+class WosVerifyDataIntegrity(VerifyDataIntegrity):
+
+    def open_spider(self, spider):
+        spider_batch_ids = spider.get_batch_ids()
+        for batch in spider_batch_ids:
+            if batch.get("field") == "UT":
+                self.batch_ids.add(batch.get("third_id"))
--- a/science_article_add/science_article_add/scripts/crawl_task.py
+++ b/science_article_add/science_article_add/scripts/crawl_task.py
@ -0,0 +1,139 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/10/31 10:24
+# @Author  : zhaoxiangpeng
+# @File    : distribute_task.py
+
+from typing import Any
+import pymysql
+from science_article_add.utils import tools
+
+SELECT_STRATEGY_SQL = '''SELECT 
+r.org_id, q.id, q.content, q.param, q.disable_flag, q.state 
+FROM relation_org_query AS r JOIN task_search_strategy AS q 
+ON r.query_id = q.id 
+WHERE 
+r.org_name="%(org_name)s" AND disable_flag = 0'''
+CREATE_RECORD_SQL = '''insert into task_batch_record (batch_date, query_id, task_condition) VALUES ("%(batch_date)s", %(query_id)s, %(task_condition)s)'''
+
+ORG_STRATEGY_SQL = """
+SELECT r.%(org_id)s, r.%(org_name)s, r.%(query_id)s, q.%(content)s, q.%(source_type)s 
+FROM task_search_strategy AS q JOIN relation_org_query AS r ON r.query_id = q.id
+WHERE q.id = %(q_id)s
+"""
+ORG_STRATEGY_FIELDS = ['org_id', 'org_name', 'query_id', 'content', 'source_type']
+
+
+class CrawlTaskManager:
+    def __init__(self):
+        self.client: pymysql.Connection = pymysql.connect(host='43.140.203.187', port=3306,
+                                                          database='science_data_dept', user='science-data-dept',
+                                                          passwd='datadept1509', )
+
+    def execute_sql(self, sql):
+        cursor = self.client.cursor()
+        try:
+            cursor.execute(sql)
+            results = cursor.fetchall()
+            return results
+        except Exception as e:
+            raise e
+        finally:
+            cursor.close()
+
+    def find_task_by_school_name(self, school_name, source_type: int = None):
+        cursor = self.client.cursor()
+        try:
+            # 查询
+            select_fields = ['org_id', 'id', 'content', 'disable_flag', 'state']
+            select_sql = 'select %()s from task_search_strategy as q join relation_org_query as r ON q.id = r.query_id where q.source_type = %(source_type)s'
+            cursor.execute(
+                select_sql
+            )
+            find_result = cursor.fetchall()
+
+        except pymysql.MySQLError as e:
+            pass
+
+    def create_crawler_task(self, query_id: int, condition: Any = None, source_type: int = None):
+        cursor = self.client.cursor()
+        try:
+            insert_sql = CREATE_RECORD_SQL % {
+                'batch_date': tools.get_today_date(),
+                'query_id': query_id,
+                'task_condition': condition
+            }
+            cursor.execute(
+                insert_sql
+            )
+            cursor.connection.commit()
+            return cursor.lastrowid
+        except pymysql.MySQLError as e:
+            print(e)
+            return None
+        finally:
+            cursor.close()
+
+    def get_crawler_task(self, task_id: int = None, source_type: int = None, state: int = None):
+        STRATEGY_FIELDS = ['org_id', 'org_name', 'query_id', 'content', 'source_type']
+        cursor = self.client.cursor()
+        try:
+            record_fields = ['id', 'batch_date', 'query_id', 'task_condition', 'is_done']
+            condition = {}
+            if state is not None:
+                condition['is_done'] = state
+            else:
+                condition['is_done'] = 0
+            if task_id:
+                condition['id'] = task_id
+
+            sql = "select %(fields)s from task_batch_record where %(condition)s" % {
+                'fields': ', '.join(record_fields), 'condition': ' and '.join([f'{k}={v}' for k, v in condition.items()])
+            }
+            if source_type:
+                pass
+            cursor.execute(sql)
+            result = cursor.fetchone()
+            if result is None:
+                return
+            task_record_dic = dict(zip(record_fields, result))
+            fill = dict(zip(STRATEGY_FIELDS, STRATEGY_FIELDS))
+            fill.update(q_id=task_record_dic.get("query_id"))
+            cursor.execute(
+                ORG_STRATEGY_SQL % fill,
+            )
+            result = cursor.fetchone()
+            task_dic = dict(zip(STRATEGY_FIELDS, result))
+            task_dic.update(task_record_dic)
+            return task_dic
+        finally:
+            cursor.close()
+
+    def _build_condition(self, source_type: int = None):
+        if source_type is None:
+            source_type = 1
+        if source_type == 1:
+            condition = 'AND PY=()'
+
+
+# def test_create_one():
+#     manager = CrawlTaskManager()
+#     manager.create_crawler_task(1542, condition='NULL', source_type=1)
+
+
+def main():
+    manager = CrawlTaskManager()
+    rr = manager.execute_sql('select id from task_search_strategy where disable_flag=0 and source_type=1 and state=0 limit 20')
+    # rr = manager.execute_sql('select id from task_search_strategy where disable_flag=0 and source_type=1 and id in (1124, 1148, 1159, 1162, 1163, 1164, 1534, 1535)')
+    query_ids = []
+    for c in rr:
+        record_id = manager.create_crawler_task(c[0], condition='"AND PY=(2025-2026)"', source_type=1)
+        query_ids.append(c[0])
+        print(record_id)
+    changed = [str(i) for i in query_ids]
+    print(changed)
+    ok = 'update task_search_strategy set state=1 where id in (%s)' % ', '.join(changed)
+    print(ok)
+
+
+if __name__ == '__main__':
+    main()
--- a/science_article_add/science_article_add/scripts/get_db_task.py
+++ b/science_article_add/science_article_add/scripts/get_db_task.py
@ -22,10 +22,12 @@ class TaskManager:
    def get_task_from_mysql(self):
        cursor = self.client.cursor()
        record_fields = ['id', 'batch_date', 'query_id', 'task_condition', 'is_done']
-        sql = "select %(fields)s from task_batch_record" % {'fields': ', '.join(record_fields)}
+        sql = "select %(fields)s from task_batch_record where is_done=0" % {'fields': ', '.join(record_fields)}
        try:
            cursor.execute(sql)
            result = cursor.fetchone()
+            if result is None:
+                return
            task_record_dic = dict(zip(record_fields, result))
            fill = dict(zip(STRATEGY_FIELDS, STRATEGY_FIELDS))
            fill.update(q_id=task_record_dic.get("query_id"))
@ -43,6 +45,34 @@ class TaskManager:
        finally:
            cursor.close()

+    def create_task_from_mysql(self, school_name=None, school_id=None):
+        cursor = self.client.cursor()
+        sql = """
+        SELECT
+	r.org_id,
+	q.id,
+	q.content,
+	q.param,
+	q.interval_unit,
+	q.disable_flag,
+	q.state
+FROM
+	relation_org_query AS r
+	JOIN task_search_strategy AS q ON r.query_id = q.id
+WHERE
+	r.org_name="%(school_name)s"
+	AND source_type = 1
+	AND disable_flag = 0""" % {'school_name': school_name}
+        try:
+            cursor.execute(sql)
+            result = cursor.fetchone()
+
+            sql = "insert into %s (batch_date, query_id, task_condition, result_count, is_done, created_time) values ('%s', %s, '%s', %s, %s, CURRENT_TIMESTAMP)" % (
+                "", batch_date, query_id, task_condition, result_count, is_done
+            )
+        except Exception as exc:
+            pass
+

 if __name__ == '__main__':
    tm = TaskManager()
--- a/science_article_add/science_article_add/scripts/todo_id_manager.py
+++ b/science_article_add/science_article_add/scripts/todo_id_manager.py
--- a/science_article_add/science_article_add/spiders/download_by_qid.py
+++ b/science_article_add/science_article_add/spiders/download_by_qid.py
@ -0,0 +1,95 @@
+from typing import Any, List, Union
+from datetime import datetime
+import scrapy
+from scrapy.http import Response
+from scrapy.http.request.json_request import JsonRequest
+from scrapy.crawler import Crawler
+
+from science_article_add.items.wos import WosArticleItem, WosCitedNumberItem, WosIdRelationItem
+from science_article_add.scripts.wos_parse_data import parse_full_records
+from science_article_add.models import wos_model as model
+from science_article_add.utils import tools
+from science_article_add.configs import wos as config
+
+
+def maybe_list(val: Union[int, List[int]]) -> List[int]:
+    if isinstance(val, int):
+        return [val]
+    return list(val)
+
+
+class DownloadByQidSpider(scrapy.Spider):
+    name = "download_by_qid"
+
+    custom_settings = dict(
+        DOWNLOADER_MIDDLEWARES={
+            "science_article_add.middlewares.wos.WosSidParamMiddleware": 500
+        },
+        ITEM_PIPELINES={
+            "science_article_add.pipelines.mongo.MongoPipeline": 300,
+        },
+        LOG_LEVEL="INFO"
+    )
+
+    @classmethod
+    def from_crawler(cls, crawler, *args, **kwargs):
+        return super().from_crawler(crawler, *args, **kwargs)
+
+    def __init__(self, record_id: str, mark_from: int = 1, mark_to: int = 500, records_found: int = None, **kwargs):
+        super().__init__()
+        self.record_id = record_id
+        self.records_found = records_found
+        self.mark_from = mark_from
+        self.mark_to = mark_to
+        self.task_id = None
+        self.org_id = None
+        self.query_id = None
+        self.bind_relation_enable = False
+        self.bind_relation_d = None
+        if self.bind_relation_enable:
+            self.build_relation()
+
+    def build_relation(self):
+        bind_relation_d = dict()
+        if self.task_id: self.bind_relation_d.setdefault("task_ids", maybe_list(self.task_id))
+        if self.org_id: self.bind_relation_d.setdefault("school_ids", maybe_list(self.org_id))
+        if self.query_id: self.bind_relation_d.setdefault("query_ids", maybe_list(self.query_id))
+        self.bind_relation_d = bind_relation_d
+        return bind_relation_d
+
+    async def start(self):
+        query_id = self.record_id
+        records_found = self.records_found
+        mark_start = self.mark_from
+        mark_end = self.mark_to
+        yield JsonRequest(config.WOS_EXPORT_FILE_API, method='POST',
+                          data=model.export_search_data_to_txt(query_id, mark_from=mark_start,
+                                                               mark_to=mark_end),
+                          callback=self.download_parse)
+
+    def download_parse(self, response: Response, **kwargs: Any) -> Any:
+        parse_count = 0
+        batch_time = datetime.now()
+        records = parse_full_records(response.body)
+        for data_dic in records:
+            t_id = data_dic.pop('ut', None)
+            if t_id:
+                parse_count += 1
+                article_item = WosArticleItem()
+                article_item['third_id'] = t_id
+                article_item['exported'] = data_dic
+                article_item['updated_at'] = batch_time
+                yield article_item
+                # 解析被引量
+                if cited_num := tools.str2int(data_dic.get("tc", 0), 0):
+                    cited_item = WosCitedNumberItem()
+                    cited_item['third_id'] = t_id
+                    cited_item['cited'] = cited_num
+                    cited_item['updated_at'] = batch_time
+                    yield cited_item
+                if self.bind_relation_enable and self.bind_relation_d:
+                    # 当启用绑定关系配置才会绑定各种关系
+                    relation_item = WosIdRelationItem()
+                    relation_item['third_id'] = t_id
+                    relation_item.update(**self.bind_relation_d)
+                    yield relation_item
--- a/science_article_add/science_article_add/spiders/wos_download.py
+++ b/science_article_add/science_article_add/spiders/wos_download.py
@ -0,0 +1,149 @@
+import os
+import json
+from datetime import datetime
+from typing import List, Dict, Union, Any, Self
+import scrapy
+from scrapy.http.request.json_request import JsonRequest
+from scrapy.crawler import Crawler
+
+from science_article_add.items.wos import WosArticleItem, WosCitedNumberItem
+from science_article_add.scripts.wos_parse_data import parse_full_records_txt
+from science_article_add.models import wos_model as model
+from science_article_add.utils import tools
+from science_article_add.configs import wos as config
+
+
+def _parse_download(body: Union[bytes, str]):
+    """
+    解析响应的下载内容
+    """
+    batch_time = datetime.now()
+    if isinstance(body, str):
+        body = body.encode()
+    item_g = parse_full_records_txt(body)
+    parse_count = 0
+    for data_dic in item_g:
+        t_id = data_dic.pop('ut', None)
+        if t_id:
+            parse_count += 1
+            article_item = WosArticleItem()
+            article_item['third_id'] = t_id
+            article_item['exported'] = data_dic
+            article_item['updated_at'] = batch_time
+            yield article_item
+            # 解析被引量
+            if cited_num := tools.str2int(data_dic.get("tc", 0), 0):
+                cited_item = WosCitedNumberItem()
+                cited_item['third_id'] = t_id
+                cited_item['cited'] = cited_num
+                cited_item['updated_at'] = batch_time
+                yield cited_item
+
+
+class WosDownloadSpider(scrapy.Spider):
+    name = "wos_download"
+    custom_settings = dict(
+        FILE_STORAGE_DIR=r"Y:\wos-metadata\wos increment-202512\03",
+        DOWNLOADER_MIDDLEWARES={
+            "science_article_add.middlewares.wos.WosSidParamMiddleware": 500
+        },
+        ITEM_PIPELINES={
+            "science_article_add.pipelines.mongo.MongoPipeline": 300,
+            "science_article_add.pipelines.verify_data.VerifyDataIntegrity": 400,
+        },
+        LOG_LEVEL="INFO"
+    )
+
+    def __init__(self, task_obj, file_storage_dir: str = None, **kwargs):
+        scrapy.Spider.__init__(self)
+        self.file_storage_dir = file_storage_dir
+        self.id_list: List[Dict[str, str]] = task_obj
+        self._records_found = 0
+
+    @classmethod
+    def from_crawler(cls, crawler: Crawler, *args: Any, **kwargs: Any) -> Self:
+        settings = crawler.settings
+        from pymongo import MongoClient
+        client = MongoClient(settings.get("MONGO_URI"))
+        db = client.get_database(settings.get("MONGO_DATABASE"))
+        collection = db.get_collection("todo_ids_wos")
+
+        def f():
+            cursor = collection.find(filter={"state": 0}, projection={"state": 0}).limit(500)
+            d = [c for c in cursor]
+            if not d:
+                cursor = collection.find(filter={"state": 2}, projection={"_id": 0, "state": 0}).limit(500)
+                d = [c for c in cursor]
+            else:
+                _ids = [x.pop("_id", None) for x in d]
+                collection.update_many(filter={"_id": {"$in": _ids}}, update={"$set": {"state": 2}})
+            return d
+
+        tasks = f()
+        kwargs.update({"task_obj": tasks})
+        kwargs['file_storage_dir'] = settings.get("FILE_STORAGE_DIR")
+        return super().from_crawler(crawler, *args, **kwargs)
+
+    def make_query(self) -> str:
+        third_ids = []
+        for idT in self.id_list:
+            third_ids.append('%s=(%s)' % (idT.get('field', 'UT'), idT.get('third_id')))
+        todo_query = ' OR '.join(third_ids)
+        return todo_query
+
+    def get_batch_ids(self) -> List[Dict[str, str]]:
+        return self.id_list
+
+    async def start(self):
+        if not os.path.exists(self.file_storage_dir):
+            os.makedirs(self.file_storage_dir)
+
+        qu = self.make_query()
+        yield JsonRequest(
+            config.WOS_ADVANCED_SEARCH_API, method='POST', data=model.make_advanced_search_ut(query=qu),
+        )
+
+    def parse(self, response, **kwargs):
+        meta = response.meta
+        request = response.request
+        query_id, records_found = model.get_record_info(response.body)
+        if (not query_id) or (records_found == 0):
+            self.logger.warning("""
+                    未找到记录！！！
+                    错误信息    %s
+                    请求信息    %s""" % (response.text, request))
+            return
+        else:
+            self.set_records_found(records_found)
+        mark_start = 1
+        yield JsonRequest(config.WOS_EXPORT_FILE_API, method='POST',
+                          data=model.export_search_data_to_txt(query_id, mark_from=mark_start,
+                                                               mark_to=records_found),
+                          meta={'QUERY_ID': query_id, 'QUERY': meta.get('QUERY'),
+                                'FILENAME': meta.get("FILENAME"),
+                                'RECORDS_FOUND': records_found, 'MARK_START': mark_start,
+                                'MARK_END': records_found},
+                          cb_kwargs=dict(filename=meta.get("FILENAME"), query_id=query_id),
+                          callback=self.download_parse)
+
+    def download_parse(self, response, query_id: str = None, **kwargs):
+        filename = query_id or response.meta.get('FILENAME')
+        file_export_path = os.path.join(self.file_storage_dir, '%s.txt' % filename)
+        with open(file_export_path, 'wb') as f:
+            f.write(response.body)
+        yield from _parse_download(response.body)
+
+    def set_records_found(self, val):
+        self._records_found = val
+
+    def get_records_found(self) -> int:
+        return self._records_found
+
+
+if __name__ == '__main__':
+    from scrapy.crawler import CrawlerProcess, Crawler
+    from scrapy.utils.project import get_project_settings
+
+    process = CrawlerProcess(get_project_settings())
+    process.crawl(WosDownloadSpider, task_obj=[])
+    process.start()
--- a/science_article_add/science_article_add/spiders/wos_dp_download.py
+++ b/science_article_add/science_article_add/spiders/wos_dp_download.py
@ -0,0 +1,250 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/11/25 14:44
+# @Author  : zhaoxiangpeng
+# @File    : wos_dp_download.py
+from __future__ import annotations
+import math
+from datetime import datetime
+from typing import TYPE_CHECKING, Generator
+
+from scrapy_drissionpage.spider import DrissionSpider
+from science_article_add.items.wos import WosArticleItem, WosCitedNumberItem
+from science_article_add.models.wos_model import get_record_info
+from science_article_add.configs.wos_dp import settings as wos_dp_settings
+from science_article_add.configs.wos import BATCH_DOWNLOAD_LIMIT
+from science_article_add.utils import tools
+from science_article_add.scripts.wos_parse_data import parse_full_records_txt
+
+if TYPE_CHECKING:
+    from DrissionPage import ChromiumPage, ChromiumOptions
+    from scrapy_drissionpage.response import DrissionResponse
+    from DrissionPage._pages.chromium_tab import ChromiumTab
+    from DrissionPage._units.listener import DataPacket, Response
+
+settings = wos_dp_settings
+DOWNLOAD_PATH = r'Y:\wos-metadata\wos increment-202512\00'
+
+
+class DpWosFileSpider(DrissionSpider):
+    name = "dp_wos_file"
+    start_urls = ["https://webofscience.clarivate.cn/wos/woscc/advanced-search"]
+    custom_settings = dict(
+        # 启用中间件
+        DOWNLOADER_MIDDLEWARES={
+            'scrapy_drissionpage.middleware.DrissionPageMiddleware': 543,
+        },
+        ITEM_PIPELINES={
+            "science_article_add.pipelines.mongo.MongoPipeline": 300,
+        },
+        EXTENSIONS={},
+        CONCURRENT_REQUESTS=1,
+
+        # DrissionPage配置
+        DRISSIONPAGE_HEADLESS=False,  # 是否无头模式
+        DRISSIONPAGE_LOAD_MODE='normal',  # 页面加载模式：normal, eager, none
+        DRISSIONPAGE_DOWNLOAD_PATH='downloads',  # 下载路径
+        DRISSIONPAGE_TIMEOUT=30,  # 请求超时时间
+        DRISSIONPAGE_RETRY_TIMES=3,  # 重试次数
+        DRISSIONPAGE_RETRY_INTERVAL=2,  # 重试间隔（秒）
+
+        # 浏览器设置
+        DRISSIONPAGE_BROWSER_PATH=None,  # 浏览器路径，None使用默认浏览器
+        DRISSIONPAGE_INCOGNITO=True,  # 是否使用无痕模式
+        DRISSIONPAGE_CHROME_OPTIONS=['--disable-gpu'],  # Chrome启动选项}
+    )
+
+    _records_found = 0
+    _records_id = 0
+
+    query_content = "(OG=(Southwest University of Science & Technology - China)) AND PY=(2025)"
+
+    async def start(self):
+        yield self.drission_request(
+            url=self.start_urls[0],
+            callback=self.before_search,
+            page_type='chromium'
+        )
+
+    def before_search(self, response: DrissionResponse, **kwargs):
+        page: ChromiumPage = response.page  # 重用页面
+
+        def operate_cookie_first():
+            # cookie管理处理
+            ck_m_div = page.ele('xpath://*[@id="onetrust-banner-sdk"]')
+            if ck_m_div:
+                ele = page.ele('xpath://*[@id="onetrust-accept-btn-handler"]')
+                ele.click()
+
+        operate_cookie_first()  # cookie管理处理
+
+        # 切换数据库类型
+        page.ele('xpath://*[@id="snSelectDb"]/button').click()
+        page.ele('xpath:%(xpath)s' % {"xpath": settings.DB_CHANGE_ELE}).click()
+
+        # 开始检索流程
+        input_area_ele = page.ele('xpath:%(xpath)s' % {"xpath": settings.QUERY_INPUT_ELE})
+        input_area_ele.clear()  # 清空
+        input_area_ele.input(self.query_content)
+
+        def listen_func():
+            page.listen.start(settings.SEARCH_ROUTE, method="POST")
+
+        def operation_func():
+            search_button_ele = page.ele('xpath:%(xpath)s' % {"xpath": settings.SEARCH_BUTTON_ELE})
+            search_button_ele.click()
+
+        def capture(packet: DataPacket):
+            search_url = page.url
+            record_id, records_found = get_record_info(packet.response.body)
+            self.set_records_found(records_found)
+            self.set_records_id(record_id)
+            if not self.get_records_id():
+                self.logger.warning('未找到记录 %s' % packet.response.body)
+
+            if records_found == 0:
+                self.logger.warning('检索式 "%s" 找到记录 %s 条' % (self.query_content, records_found))
+                return
+
+            else:
+                self.logger.info('检索式 "%s" 找到记录 %s 条' % (self.query_content, records_found))
+
+            return True
+
+        r = self.intercept(listen_func, operation=operation_func, callback=capture, tab=page)
+        print(r)
+        yield from self.download_records()
+
+    def before_download(self, response: DrissionResponse, **kwargs):
+        resp_meta = response.meta['wos_download_info']
+        g = self.rpa_download(
+            start=resp_meta['mark_start'],
+            end=resp_meta['mark_end'],
+            batch=resp_meta['batch_id'],
+            tab=self.current_tab
+        )
+        yield from g
+
+    def download_records(self):
+        for b in self.distribute_page():
+            query_id, batch_id, mark_start, mark_end = b
+            yield self.drission_request(
+                self.current_tab.url,
+                callback=self.before_download,
+                meta={'wos_download_info': dict(query_id=query_id, batch_id=batch_id, mark_start=mark_start,
+                                                mark_end=mark_end)}
+            )
+            # self.rpa_download(mark_start, mark_end, batch=batch_id, tab=self.current_tab)
+
+    def distribute_page(self):
+        # 计算页码
+        self.logger.info("prepare downloading...")
+        records_found = self.get_records_found()
+        query_id = self.get_records_id()
+        mark_start = 1
+        mark_end = 0
+        batch_id = 0
+        for i in range(math.ceil(records_found / BATCH_DOWNLOAD_LIMIT)):
+            mark_end += BATCH_DOWNLOAD_LIMIT
+            if mark_end > records_found:
+                mark_end = records_found
+            batch_id += 1
+            yield query_id, batch_id, mark_start, mark_end
+
+            mark_start += BATCH_DOWNLOAD_LIMIT
+
+    def rpa_download(self, start: int = 1, end: int = 500, batch: str | int = None, tab=None):
+        """
+        点击下载前拦截api
+        """
+        self.logger.debug("download starting...")
+        tab = tab or self.current_tab
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.EXPORT_BUTTON_ELE}).click()  # 点击导出
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.TABWIN_BUTTON_ELE}).click()  # 选择制表符分割
+        # 等待弹框
+        # 切换导出格式选择全记录与参考文献
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_TYPE_SELECT_ELE}).click()
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.FULL_RECORD_REFERENCE_ELE}).click()
+
+        # 输入记录起止
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_RANGE_ELE}).click()  # 切换到范围
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_EXPORT_START_ELE}).input(start, clear=True)
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_EXPORT_END_ELE}).input(end, clear=True)
+
+        def listen_func():
+            tab.listen.start(settings.EXPORT_ROUTE, method="POST")
+
+        def operation_func():
+            tab.ele('xpath:%(xpath)s' % {"xpath": settings.EXPORT_FILE_ELE}).click.to_download(
+                save_path=DOWNLOAD_PATH,
+                rename='%s.txt' % batch
+            )
+
+        def capture_packet(packet: DataPacket):
+            g = self._parse_download(packet.response)
+            yield from g
+
+        return self.intercept(listen=listen_func, operation=operation_func, callback=capture_packet, tab=tab)
+
+    def _parse_download(self, response: Response):
+        batch_time = datetime.now()
+        item_g = parse_full_records_txt(response.body.encode())
+        parse_count = 0
+        for data_dic in item_g:
+            t_id = data_dic.pop('ut', None)
+            if t_id:
+                parse_count += 1
+                article_item = WosArticleItem()
+                article_item['third_id'] = t_id
+                article_item['exported'] = data_dic
+                article_item['updated_at'] = batch_time
+                yield article_item
+                # 解析被引量
+                if cited_num := tools.str2int(data_dic.get("tc", 0), 0):
+                    cited_item = WosCitedNumberItem()
+                    cited_item['third_id'] = t_id
+                    cited_item['cited'] = cited_num
+                    cited_item['updated_at'] = batch_time
+                    yield cited_item
+
+    def intercept(self, listen, operation, callback, tab=None):
+        listen()
+        operation()
+        for packet in tab.listen.steps(count=3):
+            if not self.intercept_verify(packet):
+                continue
+            r = callback(packet)
+            if isinstance(r, Generator):
+                return r
+            else:
+                if isinstance(r, bool):
+                    break
+        return
+
+    @staticmethod
+    def intercept_verify(packet: DataPacket):
+        content = packet.response.body
+        if isinstance(content, bytes) and content.find(b'"Server.passiveVerificationRequired"') != -1:
+            return False
+        else:
+            return True
+
+    def set_records_found(self, val):
+        self._records_found = val
+
+    def get_records_found(self) -> int:
+        return self._records_found
+
+    def set_records_id(self, val):
+        self._records_id = val
+
+    def get_records_id(self) -> str:
+        return self._records_id
+
+
+if __name__ == '__main__':
+    from scrapy.crawler import CrawlerProcess
+    from scrapy.utils.project import get_project_settings
+
+    process = CrawlerProcess(get_project_settings())
+    process.crawl(DpWosFileSpider)
+    process.start()
--- a/science_article_add/science_article_add/spiders/wos_latest_increment.py
+++ b/science_article_add/science_article_add/spiders/wos_latest_increment.py
@ -28,6 +28,10 @@ class WosLatestIncrementSpider(scrapy.Spider):
            "science_article_add.pipelines.mongo.MongoPipelineMulti": 300,
            "science_article_add.pipelines.duptodo.DupTodoPipeline": 400,
        },
+        EXTENSIONS={
+            "science_article_add.extensions.ackextension.ACKExtension": 0,
+            # "science_article_add.extensions.dingtalk_extension.DingTalkExtension": 0,
+        },
        LOG_LEVEL="INFO"
    )
    source = "wos"
--- a/science_article_add/science_article_add/utils/dingtalk.py
+++ b/science_article_add/science_article_add/utils/dingtalk.py
@ -0,0 +1,378 @@
+import asyncio
+import aiohttp
+from typing import Dict, List, Any, Optional
+from enum import Enum
+import logging
+from dataclasses import dataclass
+import time
+
+logger = logging.getLogger(__name__)
+
+
+class DingTalkMessageType(Enum):
+    """钉钉消息类型枚举"""
+    TEXT = "text"
+    LINK = "link"
+    MARKDOWN = "markdown"
+    ACTION_CARD = "actionCard"
+    FEED_CARD = "feedCard"
+
+
+@dataclass
+class DingTalkConfig:
+    """钉钉配置数据类"""
+    webhook: str
+    secret: Optional[str] = None
+    at_mobiles: Optional[List[str]] = None
+    at_user_ids: Optional[List[str]] = None
+    at_all: bool = False
+
+
+class DingTalkSender:
+    """
+    钉钉消息推送器
+
+    功能描述:
+        1. 支持多种消息类型：文本、链接、Markdown、ActionCard、FeedCard
+        2. 支持@指定用户或@所有人
+        3. 支持签名安全设置
+        4. 支持异步发送和批量发送
+        5. 内置重试机制和错误处理
+    """
+
+    def __init__(self, config: DingTalkConfig):
+        """
+        初始化钉钉消息发送器
+
+        Args:
+            config: 钉钉机器人配置
+        """
+        self.config = config
+        self.session: Optional[aiohttp.ClientSession] = None
+        self._retry_count = 3
+        self._retry_delay = 1
+
+    async def __aenter__(self):
+        """异步上下文管理器入口"""
+        await self._ensure_session()
+        return self
+
+    async def __aexit__(self, exc_type, exc_val, exc_tb):
+        """异步上下文管理器出口"""
+        await self.close()
+
+    async def _ensure_session(self):
+        """确保会话存在"""
+        if self.session is None:
+            self.session = aiohttp.ClientSession(
+                timeout=aiohttp.ClientTimeout(total=10)
+            )
+
+    async def close(self):
+        """关闭会话"""
+        if self.session:
+            await self.session.close()
+            self.session = None
+
+    def _generate_signature(self, timestamp: int) -> str:
+        """
+        生成签名
+
+        Args:
+            timestamp: 时间戳
+
+        Returns:
+            签名字符串
+        """
+        if not self.config.secret:
+            return ""
+
+        import hmac
+        import hashlib
+        import base64
+        import urllib.parse
+
+        string_to_sign = f"{timestamp}\n{self.config.secret}"
+        hmac_code = hmac.new(
+            self.config.secret.encode('utf-8'),
+            string_to_sign.encode('utf-8'),
+            digestmod=hashlib.sha256
+        ).digest()
+
+        sign = urllib.parse.quote_plus(base64.b64encode(hmac_code))
+        return sign
+
+    def _build_webhook_url(self) -> str:
+        """
+        构建完整的webhook URL（包含签名）
+
+        Returns:
+            完整的webhook URL
+        """
+        if not self.config.secret:
+            return self.config.webhook
+
+        timestamp = int(time.time() * 1000)
+        sign = self._generate_signature(timestamp)
+        return f"{self.config.webhook}&timestamp={timestamp}&sign={sign}"
+
+    def _build_at_info(self) -> Dict[str, Any]:
+        """
+        构建@信息
+
+        Returns:
+            @信息字典
+        """
+        at_info = {}
+        if self.config.at_mobiles:
+            at_info["atMobiles"] = self.config.at_mobiles
+        if self.config.at_user_ids:
+            at_info["atUserIds"] = self.config.at_user_ids
+        if self.config.at_all:
+            at_info["isAtAll"] = True
+
+        return at_info
+
+    async def _send_request(self, data: Dict[str, Any]) -> Dict[str, Any]:
+        """
+        发送请求到钉钉
+
+        Args:
+            data: 请求数据
+
+        Returns:
+            响应数据
+
+        Raises:
+            Exception: 发送失败时抛出异常
+        """
+        await self._ensure_session()
+
+        webhook_url = self._build_webhook_url()
+        headers = {
+            "Content-Type": "application/json",
+            "User-Agent": "DingTalk-Bot/1.0"
+        }
+
+        last_exception = None
+        for attempt in range(self._retry_count):
+            try:
+                logger.info(f"发送钉钉消息，尝试 {attempt + 1}/{self._retry_count}")
+
+                async with self.session.post(
+                        webhook_url,
+                        json=data,
+                        headers=headers
+                ) as response:
+                    result = await response.json()
+
+                    if response.status == 200 and result.get("errcode") == 0:
+                        logger.info("钉钉消息发送成功")
+                        return result
+                    else:
+                        error_msg = f"钉钉消息发送失败: {result.get('errmsg', 'Unknown error')}"
+                        logger.error(error_msg)
+                        last_exception = Exception(error_msg)
+
+            except asyncio.TimeoutError:
+                error_msg = f"钉钉消息发送超时，尝试 {attempt + 1}/{self._retry_count}"
+                logger.warning(error_msg)
+                last_exception = Exception(error_msg)
+            except Exception as e:
+                error_msg = f"钉钉消息发送异常: {str(e)}，尝试 {attempt + 1}/{self._retry_count}"
+                logger.error(error_msg)
+                last_exception = e
+
+            # 如果不是最后一次尝试，等待重试
+            if attempt < self._retry_count - 1:
+                await asyncio.sleep(self._retry_delay * (attempt + 1))
+
+        # 所有重试都失败，抛出异常
+        raise last_exception or Exception("钉钉消息发送失败")
+
+    async def send_text(self, content: str, at_mobiles: Optional[List[str]] = None,
+                        at_user_ids: Optional[List[str]] = None, at_all: Optional[bool] = None) -> Dict[str, Any]:
+        """
+        发送文本消息
+
+        Args:
+            content: 消息内容
+            at_mobiles: @的手机号列表
+            at_user_ids: @的用户ID列表
+            at_all: 是否@所有人
+
+        Returns:
+            发送结果
+        """
+        at_info = self._build_at_info()
+        # 覆盖默认的@设置
+        if at_mobiles is not None:
+            at_info["atMobiles"] = at_mobiles
+        if at_user_ids is not None:
+            at_info["atUserIds"] = at_user_ids
+        if at_all is not None:
+            at_info["isAtAll"] = at_all
+
+        data = {
+            "msgtype": DingTalkMessageType.TEXT.value,
+            "text": {
+                "content": content
+            },
+            "at": at_info
+        }
+
+        return await self._send_request(data)
+
+    async def send_markdown(self, title: str, text: str, at_mobiles: Optional[List[str]] = None,
+                            at_user_ids: Optional[List[str]] = None, at_all: Optional[bool] = None) -> Dict[str, Any]:
+        """
+        发送Markdown消息
+
+        Args:
+            title: 消息标题
+            text: Markdown格式的消息内容
+            at_mobiles: @的手机号列表
+            at_user_ids: @的用户ID列表
+            at_all: 是否@所有人
+
+        Returns:
+            发送结果
+        """
+        at_info = self._build_at_info()
+        if at_mobiles is not None:
+            at_info["atMobiles"] = at_mobiles
+        if at_user_ids is not None:
+            at_info["atUserIds"] = at_user_ids
+        if at_all is not None:
+            at_info["isAtAll"] = at_all
+
+        data = {
+            "msgtype": DingTalkMessageType.MARKDOWN.value,
+            "markdown": {
+                "title": title,
+                "text": text
+            },
+            "at": at_info
+        }
+
+        return await self._send_request(data)
+
+    async def send_link(self, title: str, text: str, message_url: str,
+                        pic_url: Optional[str] = None) -> Dict[str, Any]:
+        """
+        发送链接消息
+
+        Args:
+            title: 消息标题
+            text: 消息内容
+            message_url: 点击消息跳转的URL
+            pic_url: 图片URL
+
+        Returns:
+            发送结果
+        """
+        data = {
+            "msgtype": DingTalkMessageType.LINK.value,
+            "link": {
+                "title": title,
+                "text": text,
+                "messageUrl": message_url,
+            }
+        }
+
+        if pic_url:
+            data["link"]["picUrl"] = pic_url
+
+        return await self._send_request(data)
+
+    async def send_action_card(self, title: str, text: str, single_title: str,
+                               single_url: str, btn_orientation: str = "0") -> Dict[str, Any]:
+        """
+        发送整体跳转ActionCard消息
+
+        Args:
+            title: 消息标题
+            text: 消息内容
+            single_title: 单个按钮标题
+            single_url: 单个按钮跳转URL
+            btn_orientation: 按钮排列方向，0-竖直，1-横向
+
+        Returns:
+            发送结果
+        """
+        data = {
+            "msgtype": DingTalkMessageType.ACTION_CARD.value,
+            "actionCard": {
+                "title": title,
+                "text": text,
+                "singleTitle": single_title,
+                "singleURL": single_url,
+                "btnOrientation": btn_orientation
+            }
+        }
+
+        return await self._send_request(data)
+
+    async def send_feed_card(self, links: List[Dict[str, str]]) -> Dict[str, Any]:
+        """
+        发送FeedCard消息
+
+        Args:
+            links: 链接列表，每个链接包含title, messageURL, picURL
+
+        Returns:
+            发送结果
+        """
+        data = {
+            "msgtype": DingTalkMessageType.FEED_CARD.value,
+            "feedCard": {
+                "links": links
+            }
+        }
+
+        return await self._send_request(data)
+
+    async def send_alert(self, title: str, message: str, level: str = "info",
+                         at_users: bool = False) -> Dict[str, Any]:
+        """
+        发送告警消息（便捷方法）
+
+        Args:
+            title: 告警标题
+            message: 告警内容
+            level: 告警级别 (info, warning, error, critical)
+            at_users: 是否@相关人员
+
+        Returns:
+            发送结果
+        """
+        level_emojis = {
+            "info": "ℹ️",
+            "warning": "⚠️",
+            "error": "❌",
+            "critical": "🚨"
+        }
+
+        emoji = level_emojis.get(level, "ℹ️")
+
+        markdown_text = f"""
+## {emoji} {title}
+
+**级别**: {level.upper()}
+**时间**: {time.strftime('%Y-%m-%d %H:%M:%S')}
+
+**详情**:
+{message}
+        """.strip()
+
+        at_all = at_users and self.config.at_all
+        at_mobiles = self.config.at_mobiles if at_users else None
+        at_user_ids = self.config.at_user_ids if at_users else None
+
+        return await self.send_markdown(
+            title=f"{emoji} {title}",
+            text=markdown_text,
+            at_mobiles=at_mobiles,
+            at_user_ids=at_user_ids,
+            at_all=at_all
+        )
--- a/science_article_add/science_article_add/utils/get_cookie.py
+++ b/science_article_add/science_article_add/utils/get_cookie.py
--- a/science_article_add/science_article_add/utils/get_self_ip.py
+++ b/science_article_add/science_article_add/utils/get_self_ip.py
--- a/science_article_add/starts/crawl_article_by_qid.py
+++ b/science_article_add/starts/crawl_article_by_qid.py
@ -0,0 +1,43 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/12/11 13:56
+# @Author  : zhaoxiangpeng
+# @File    : crawl_article_by_qid.py
+import math
+from scrapy.crawler import CrawlerProcess
+from scrapy.utils.project import get_project_settings
+from science_article_add.spiders.download_by_qid import DownloadByQidSpider
+
+BATCH_DOWNLOAD_LIMIT = 500
+
+process = CrawlerProcess(get_project_settings())
+RECORDS_FOUND = 1486
+wos_download_todo = [
+
+]
+
+
+def f(record_id: str, records_found: int):
+    mark_start = 1
+    mark_end = 0
+    idx = 0
+    for i in range(math.ceil(records_found / BATCH_DOWNLOAD_LIMIT)):
+        idx += 1
+        mark_end += BATCH_DOWNLOAD_LIMIT
+
+        if mark_end > records_found:
+            mark_end = records_found
+
+        yield dict(
+            record_id=record_id, batch=idx,
+            mark_from=mark_start, mark_to=mark_end, records_found=records_found
+        )
+
+        mark_start += BATCH_DOWNLOAD_LIMIT
+
+
+init_params = dict(
+    record_id='02f30273-1342-4d61-9e51-c1ea1f5b2423-0190efdd10',
+    mark_from=1, mark_to=500, records_found=10641
+)
+process.crawl(DownloadByQidSpider, **init_params)
+process.start()
--- a/science_article_add/starts/crawl_article_by_ut.py
+++ b/science_article_add/starts/crawl_article_by_ut.py
@ -0,0 +1,41 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/12/11 17:07
+# @Author  : zhaoxiangpeng
+# @File    : crawl_article_by_ut.py
+import math
+import time
+import logging
+from twisted.internet import defer
+from scrapy.crawler import CrawlerProcess
+from scrapy.utils.project import get_project_settings
+from science_article_add.spiders.wos_download import WosDownloadSpider
+
+logging.getLogger('pymongo').setLevel(logging.WARNING)
+logger = logging.getLogger(__name__)
+BATCH_DOWNLOAD_LIMIT = 500
+
+
+@defer.inlineCallbacks
+def crawl_sequentially():
+    settings = get_project_settings()
+    from pymongo import MongoClient
+    client = MongoClient(settings.get("MONGO_URI"))
+    db = client.get_database(settings.get("MONGO_DATABASE"))
+    collection = db.get_collection("todo_ids_wos")
+
+    def f():
+        count = collection.count_documents(filter={"state": 0})
+        return count
+
+    while count_doc := f():
+        logger.info('待下载数量 %d' % count_doc)
+        yield process.crawl(WosDownloadSpider)
+        time.sleep(60)
+
+    process.stop()  # 所有爬虫结束后关闭事件循环
+
+
+if __name__ == '__main__':
+    process = CrawlerProcess(get_project_settings())
+    crawl_sequentially()
+    process.start()  # 阻塞直到所有爬虫完成
--- a/science_article_add/tests/run_crawl_task.py
+++ b/science_article_add/tests/run_crawl_task.py
@ -0,0 +1,88 @@
+import time
+from typing import List
+import scrapy
+from scrapy.crawler import CrawlerProcess
+from scrapy.utils.project import get_project_settings
+from twisted.internet import defer
+from scrapy import Spider
+import pymysql
+from pymysql import cursors
+from science_article_add.spiders.wos_latest_increment import WosLatestIncrementSpider
+
+sql = """
+SELECT
+	b.id AS task_id,
+	r.org_id AS org_id,
+	r.org_name AS org_name,
+	q.id AS query_id,
+	q.content AS content,
+	b.task_condition AS task_condition,
+	q.source_type AS source_type,
+	b.is_done AS is_done 
+FROM
+	task_batch_record AS b
+	JOIN task_search_strategy AS q ON q.id = b.query_id
+	JOIN relation_org_query AS r ON r.query_id = b.query_id 
+WHERE
+	b.is_done = 2 
+	AND q.source_type = 1 
+	LIMIT %(limit)s
+"""
+sql2 = """
+SELECT
+	b.id AS task_id,
+	q.id AS query_id,
+	q.content AS content,
+	b.task_condition AS task_condition,
+	q.source_type AS source_type,
+	b.is_done AS is_done 
+FROM
+	task_batch_record AS b
+	JOIN task_search_strategy AS q ON q.id = b.query_id
+WHERE
+	b.is_done = 0 
+	AND q.source_type = 1 
+	LIMIT %(limit)s
+"""
+
+def get_task(limit: int = 1):
+    client: pymysql.Connection = pymysql.connect(host='43.140.203.187', port=3306,
+                                                 database='science_data_dept', user='science-data-dept',
+                                                 passwd='datadept1509', )
+    cursor = client.cursor(cursors.DictCursor)
+    try:
+        cursor.execute(sql2 % {'limit': limit})
+        results = cursor.fetchall()
+    except Exception as e:
+        raise e
+    else:
+        for result in results:
+            query_id = result['query_id']
+            cursor.execute('select org_id, org_name from relation_org_query where query_id=%s', (query_id,))
+            org_results: List[dict] = cursor.fetchall()
+            result['org_id'] = [org_result['org_id'] for org_result in org_results]
+            result['org_name'] = [org_result['org_name'] for org_result in org_results]
+            print(result)
+            yield result
+    finally:
+        cursor.close()
+        client.close()
+
+
+@defer.inlineCallbacks
+def crawl_sequentially(targets):
+    for target in targets:
+        print(f"\n=== 正在启动 Spider，参数: {target} ===")
+        yield process.crawl(WosLatestIncrementSpider, task_obj=target)
+        print(f"=== Spider 完成: {target} ===\n")
+        time.sleep(60)
+
+    process.stop()  # 所有爬虫结束后关闭事件循环
+
+
+# ====== 主程序部分 ======
+if __name__ == '__main__':
+    process = CrawlerProcess(get_project_settings())
+    targets = get_task(10)
+    crawl_sequentially(targets)
+    process.start()  # 阻塞直到所有爬虫完成
--- a/science_article_add/wos下载.md
+++ b/science_article_add/wos下载.md
--- a/science_article_cnki/science_article_cnki/items.py
+++ b/science_article_cnki/science_article_cnki/items.py
@ -21,10 +21,32 @@ class ArticleItem(AddItemBase):
    exported = scrapy.Field()


-class IdRelationItem(AddItemBase):
+class CnkiArticleItem(ArticleItem):
+    """cnki文章item"""
+    __tablename__ = 'data_cnki_article'
+
+    third_id = scrapy.Field()
+    exported = scrapy.Field()
+    updated_at = scrapy.Field()
+
+
+class CnkiIdRelationItem(AddItemBase):
+    __tablename__ = 'relation_school_cnki'
+
    query_ids = scrapy.Field()
    school_ids = scrapy.Field()
    task_ids = scrapy.Field()
+    year = scrapy.Field()
+
+
+class CnkiArticleTodoIdItem(scrapy.Item):
+    __tablename__ = 'todo_ids_cnki'
+
+    third_id = scrapy.Field()
+    db_code = scrapy.Field()
+    state = scrapy.Field()
+    ti = scrapy.Field()
+    v = scrapy.Field()


 class ArticleCitedItem(AddItemBase):
--- a/science_article_cnki/science_article_cnki/models/enum_cls.py
+++ b/science_article_cnki/science_article_cnki/models/enum_cls.py
@ -9,6 +9,7 @@ from datetime import timedelta

 class ResourceType(enum.Enum):
    """资源类型"""
+    总库 = ALL = CROSSDB = "CROSSDB"  # 默认是中文的，中午呢和外文分开
    学术期刊 = JOURNAL = "JOURNAL"  # 学术期刊
    学位论文 = DISSERTATION = "DISSERTATION"  # 学位论文
    会议 = CONFERENCE = "CONFERENCE"  # 会议
@ -22,6 +23,7 @@ class ResourceType(enum.Enum):

 class SourceDatabaseEnum(enum.Enum):
    """来源库id"""
+    CROSSDB = 总库 = "WD0FTY92"
    JOURNAL = 学术期刊 = "YSTT4HG0"  # 学术期刊
    DISSERTATION = 学位论文 = "LSTPFY1C"  # 学位论文
    CONFERENCE = 会议 = "JUP3MUPD"  # 会议
@ -33,6 +35,15 @@ class SourceDatabaseEnum(enum.Enum):
    ACHIEVEMENTS = "BLZOG7CK"


+class ProductsEnum(enum.Enum):
+    pass
+
+
+class ResourceLanguageEnum(enum.Enum):
+    中文 = "CHINESE"
+    外文 = "FOREIGN"
+
+
 class SearchTypeId(enum.Enum):
    """知网的检索类型"""
    ADV = 1
@ -149,4 +160,3 @@ class UpdatedTimeEnum(enum.Enum):
    最近半年 = timedelta(days=180)
    最近一年 = timedelta(days=180)
    今年迄今 = timedelta(days=180)
-
--- a/science_article_cnki/science_article_cnki/pipelines.py
+++ b/science_article_cnki/science_article_cnki/pipelines.py
@ -24,12 +24,13 @@ from pymongo.errors import (
    DuplicateKeyError,
    BulkWriteError
 )
-
+from science_article_cnki.items import CnkiArticleTodoIdItem
 from science_article_cnki.db_utils.mongo import MongoDBUtils, update_document, build_update_query

 if TYPE_CHECKING:
    from scrapy.crawler import Crawler
    from scrapy.statscollectors import StatsCollector
+    from pymongo.collection import Collection

 mongo_logger = logging.getLogger('pymongo')
 mongo_logger.setLevel(logging.WARNING)
@ -57,8 +58,11 @@ class MongoPipeline(MongoDBUtils):

    def process_item(self, item, spider):
        # 确定Item类型
+        if isinstance(item, CnkiArticleTodoIdItem):
+            return item
+
        adapter = ItemAdapter(item)
-        item_type = self._get_item_type(item)
+        item_type = self._get_item_table(item)
        collection = self.db.get_collection(item_type)
        d = adapter.asdict()
        try:
@ -71,10 +75,14 @@ class MongoPipeline(MongoDBUtils):
                key_value = write_error.get('keyValue')
                logger.debug("dupKey: %s, keyValue: %s", key_pattern, key_value)
                d.pop("_id", None)
+                updated_at = d.pop('updated_at', None)
                [d.pop(k, None) for k in key_pattern.keys()]
                update_q = build_update_query(d, replace=self.duplicate_cover_enable)
                up_result = collection.update_one(filter=key_value, update=update_q, upsert=True)
-                self.stats.inc_value("item2db_updated/{}".format(item_type))
+                if up_result.matched_count == up_result.modified_count == 1:
+                    current_time = datetime.now()
+                    collection.update_one(filter=key_value, update={"$set": {"updated_at": updated_at}})
+                    self.stats.inc_value("item2db_updated/{}".format(item_type))
        except Exception:
            raise

@ -84,9 +92,63 @@ class MongoPipeline(MongoDBUtils):
        self.client.close()

    @staticmethod
-    def _get_item_type(item) -> str:
+    def _get_item_table(item) -> str:
        """获取Item类型"""
        if hasattr(item, '__tablename__'):
            return item.__class__.__tablename__
        return 'items_null_table'

+
+class DupTodoPipeline(MongoDBUtils):
+    def __init__(self, mongo_uri, mongo_db, stats: StatsCollector):
+        super().__init__(mongo_uri, mongo_db)
+        self.stats: StatsCollector = stats
+
+    @classmethod
+    def from_crawler(cls, crawler: Crawler):
+        return cls(
+            mongo_uri=crawler.settings.get("MONGO_URI"),
+            mongo_db=crawler.settings.get("MONGO_DATABASE", "items"),
+            stats=crawler.stats
+        )
+
+    def open_spider(self, spider):
+        self.client = MongoClient(self.mongo_uri)
+        self.db = self.client[self.mongo_db]
+
+    def process_item(self, item, spider):
+        if isinstance(item, CnkiArticleTodoIdItem):
+            fingerprints = item.get('third_id')
+            try:
+                if not self.is_exists(item, filter_key=self._get_dup_key(spider)):
+                    table_name = self._get_item_table(spider)
+                    coll = self.db.get_collection(table_name)
+                    adapter = ItemAdapter(item)
+                    d = adapter.asdict()
+                    insert_result = coll.insert_one(d)
+                    self.stats.inc_value("item2db_inserted/{}".format(table_name), count=1)
+            except DuplicateKeyError as duplicate_error:
+                logger.warning(duplicate_error)
+            except Exception as e:
+                raise e
+        return item
+
+    def is_exists(self, item, filter_key) -> bool:
+        fingerprints = item.get('third_id')
+        collection: Collection = self.db.get_collection(filter_key)
+        results = collection.find_one(filter={"third_id": fingerprints}, projection={"_id": 0, "third_id": 1})
+        if results and results.get('third_id') == fingerprints:
+            self.inc_item_dropped_count("duplicate")
+            return True
+        return False
+
+    def _get_dup_key(self, spider):
+        return 'data_%(source_type)s_article' % {"source_type": spider.source}
+
+    def _get_item_table(self, spider) -> str:
+        """获取Item类型"""
+        return 'todo_ids_%(source_type)s' % {"source_type": spider.source}
+
+    def inc_item_dropped_count(self, reason):
+        self.stats.inc_value("item_dropped_count")
+        self.stats.inc_value(f"item_dropped_reasons_count/{reason}")
--- a/science_article_cnki/science_article_cnki/settings.py
+++ b/science_article_cnki/science_article_cnki/settings.py
@ -16,7 +16,7 @@ ADDONS = {}


 # Crawl responsibly by identifying yourself (and your website) on the user-agent
-USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/139.0.0.0 Safari/537.36'
+USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'

 # Obey robots.txt rules
 ROBOTSTXT_OBEY = False
@ -39,11 +39,11 @@ COOKIES_ENABLED = True
 #}
 SEARCH_REQUEST_HEADERS = {
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
-    'Cookie': 'Hm_lvt_dcec09ba2227fd02c55623c1bb82776a=1739256689; UM_distinctid=197b0769b48ea3-0de0b4b2dd761f-26001051-1fa400-197b0769b49cc6; Ecp_ClientId=e250627180800765334; Ecp_ClientIp=111.186.53.36; cnkiUserKey=1b8e7dbe-3c98-864f-2b80-84b544af32af; _c_WBKFRo=UO8UFAxWLjMjlOxhuKvmtkZ4yYaXr8dPZXuhVFea; Ecp_loginuserbk=SJTU; tfstk=g5GqYEZ0ZId4NHSWG0FNzQCb6QNYs5-QjfZ_SV0gloqDDdFa7uoTCSMjSA5ZJuEOhdn6_lmxYPZ0DxMNb0nUXt99nAPZ2q5jhfuO_P0iXEE6kLgxk5FMAHTBOq3vhen9f3NMS4V_773PuGuxk5Q-60hJAqQN2mSLS5mgZz4gS540ItYPZPqliPf0SgYzWuVgSrX0ZT4_uGb0Sc0kzPEuolmgsUPu2PVgjcViG50mS_zQnU-thdfV8NPaxqqPs67Lu-cB9u5Mabzqzugc-1fiaryqZpcfbM2jI2eKGqONwSgEE74qjBx0ex0r_Jh9Csg0ZoPxa-bMXocxSfPYTNAmzSr4KbwXO1mnzVDQUbTH9SP0mANx5w-jzjojkbu1STV4GYyEgWAdmlMS8fzZ6hdrYqDnjASP1GUobXlt3GXanzUzAU8z4y3oBzrYp_6OB8VLzkTblOBTnzUzAU8PBOeu2zrBlr1..; Ecp_session=1; SID_sug=018104; knsLeftGroupSelectItem=; dsorders=CF; dsortypes=cur%20DESC; knsadv-searchtype=%7B%22BLZOG7CK%22%3A%22gradeSearch%2CmajorSearch%22%2C%22MPMFIG1A%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22T2VC03OH%22%3A%22gradeSearch%2CmajorSearch%22%2C%22JQIRZIYA%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22S81HNSV3%22%3A%22gradeSearch%22%2C%22YSTT4HG0%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22ML4DRIDX%22%3A%22gradeSearch%2CmajorSearch%22%2C%22WQ0UVIAA%22%3A%22gradeSearch%2CmajorSearch%22%2C%22VUDIXAIY%22%3A%22gradeSearch%2CmajorSearch%22%2C%22LIQN9Z3G%22%3A%22gradeSearch%22%2C%22NN3FJMUV%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22LSTPFY1C%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22HHCPM1F8%22%3A%22gradeSearch%2CmajorSearch%22%2C%22OORPU5FE%22%3A%22gradeSearch%2CmajorSearch%22%2C%22WD0FTY92%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22BPBAFJ5S%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22EMRPGLPA%22%3A%22gradeSearch%2CmajorSearch%22%2C%22PWFIRAGL%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22U8J8LYLV%22%3A%22gradeSearch%2CmajorSearch%22%2C%22R79MZMCB%22%3A%22gradeSearch%22%2C%22J708GVCE%22%3A%22gradeSearch%2CmajorSearch%22%2C%228JBZLDJQ%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22HR1YT1Z9%22%3A%22gradeSearch%2CmajorSearch%22%2C%22JUP3MUPD%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22NLBO1Z6R%22%3A%22gradeSearch%2CmajorSearch%22%2C%22RMJLXHZ3%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%221UR4K4HZ%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22NB3BWEHK%22%3A%22gradeSearch%2CmajorSearch%22%2C%22XVLO76FD%22%3A%22gradeSearch%2CmajorSearch%22%7D; Ecp_IpLoginFail=25121149.65.252.186; SID_kns_new=kns018106; SID_restapi=kns018110; KNS2COOKIE=1765437722.656.114388.232155|b25e41a932fd162af3b8c5cff4059fc3; dblang=both; createtime-advInput=2025-12-11%2015%3A22%3A21; searchTimeFlags=1',
    'Origin': 'https://kns.cnki.net',
    'Referer': 'https://kns.cnki.net/kns8s/AdvSearch?crossids=YSTT4HG0%2CLSTPFY1C%2CJUP3MUPD%2CMPMFIG1A%2CWQ0UVIAA%2CBLZOG7CK%2CPWFIRAGL%2CEMRPGLPA%2CNLBO1Z6R%2CNN3FJMUV',
    'User-Agent': USER_AGENT,
 }
+SEARCH_REQUEST_COOKIES_STR = 'Ecp_notFirstLogin=qkFgu9; Ecp_ClientId=o240823084800102418; Ecp_loginuserbk=SJTU; cnkiUserKey=eef4d3aa-1096-bc9e-dff0-74349179c2cc; Ecp_ClientIp=111.186.52.67; UM_distinctid=19366f14e7a832-0f92ef85a35cb5-26001051-1fa400-19366f14e7c14f2; Hm_lvt_dcec09ba2227fd02c55623c1bb82776a=1734079899; Ecp_session=1; SID_kns_new=kns018104; SID_sug=018104; knsLeftGroupSelectItem=; updatetime-advInput=2024-12-19+17%3A42%3A08; knsadv-searchtype=%7B%22BLZOG7CK%22%3A%22gradeSearch%2CmajorSearch%22%2C%22MPMFIG1A%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22T2VC03OH%22%3A%22gradeSearch%2CmajorSearch%22%2C%22JQIRZIYA%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22S81HNSV3%22%3A%22gradeSearch%22%2C%22YSTT4HG0%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22ML4DRIDX%22%3A%22gradeSearch%2CmajorSearch%22%2C%22WQ0UVIAA%22%3A%22gradeSearch%2CmajorSearch%22%2C%22VUDIXAIY%22%3A%22gradeSearch%2CmajorSearch%22%2C%22NN3FJMUV%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22LSTPFY1C%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22HHCPM1F8%22%3A%22gradeSearch%2CmajorSearch%22%2C%22OORPU5FE%22%3A%22gradeSearch%2CmajorSearch%22%2C%22WD0FTY92%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22BPBAFJ5S%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22EMRPGLPA%22%3A%22gradeSearch%2CmajorSearch%22%2C%22PWFIRAGL%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%22U8J8LYLV%22%3A%22gradeSearch%2CmajorSearch%22%2C%22R79MZMCB%22%3A%22gradeSearch%22%2C%22J708GVCE%22%3A%22gradeSearch%2CmajorSearch%22%2C%22HR1YT1Z9%22%3A%22gradeSearch%2CmajorSearch%22%2C%22JUP3MUPD%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22NLBO1Z6R%22%3A%22gradeSearch%2CmajorSearch%22%2C%22RMJLXHZ3%22%3A%22gradeSearch%2CmajorSearch%2CsentenceSearch%22%2C%221UR4K4HZ%22%3A%22gradeSearch%2CmajorSearch%2CauthorSearch%2CsentenceSearch%22%2C%22NB3BWEHK%22%3A%22gradeSearch%2CmajorSearch%22%2C%22XVLO76FD%22%3A%22gradeSearch%2CmajorSearch%22%7D; createtime-advInput=2024-12-20%2014%3A37%3A03; LID=WEEvREcwSlJHSldSdmVpanJGNW9JQS9sbkNrOUFycHJkRzF3eXgyTGlWbz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!; Ecp_LoginStuts={"IsAutoLogin":false,"UserName":"SJTU","ShowName":"%E4%B8%8A%E6%B5%B7%E4%BA%A4%E9%80%9A%E5%A4%A7%E5%AD%A6","UserType":"bk","BUserName":"","BShowName":"","BUserType":"","r":"qkFgu9","Members":[]}; KNS2COOKIE=1734680479.883.14106.830885|b25e41a932fd162af3b8c5cff4059fc3; dblang=both; c_m_LinID=LinID=WEEvREcwSlJHSldSdmVpanJGNW9JQS9sbkNrOUFycHJkRzF3eXgyTGlWbz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=12%2F20%2F2024%2016%3A01%3A27; c_m_expire=2024-12-20%2016%3A01%3A27; tfstk=gnXZLQYMKRewdgBaoHvqL9aIUYp9sd45ntTXmijDfFYG5iTcTZbBCGsccx-D-NdjCxY18pQRVAC_6ITq0dBC1xT_WKScPKz7P8w5XGpynzaShW0gBdKqnncilpDHmK-i1ZwdGGpvnyaM9UCdXabz7TCMnkJH4ncDnxYMtk-6qKDMiAcn-eKDnKADjDYH4nmioAYgYMYpDKxcoCcmtGjmL3Og25LCsWPKUCYljekmU0KHslSnGAMsnhA9rBxrnH6ebC8ljOHkrv-hd9RWOmayKgCCSHJz3vvwaOBytO4K3BQ2-IWMh0kcYNshNIWgD5IF3FRlIBoS3dIpmZAV9zkWbd1eaO5TD2jGPF5kBiiz5MRPTQKHtmlMC_s5HQXgQ4LBwn7y4NuN4DuvxG5lH1umgCxpYUZUY7E40mtBH0LEMjdHeH87fhGxMCxpYUZUYjhvteKePlt1.; searchTimeFlags=1; updatetime-advInput=2024-12-19+17%3A42%3A08'

 # Enable or disable spider middlewares
 # See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
--- a/science_article_cnki/science_article_cnki/spiders/cnki_article_crossdb.py
+++ b/science_article_cnki/science_article_cnki/spiders/cnki_article_crossdb.py
@ -0,0 +1,185 @@
+from __future__ import annotations
+import math
+from copy import deepcopy
+from datetime import datetime
+from typing import TYPE_CHECKING, Any, Self
+from pprint import pformat
+import scrapy
+
+from science_article_cnki.items import CnkiIdRelationItem, CnkiArticleTodoIdItem, CnkiCitedNumberItem
+from science_article_cnki.models.enum_cls import SingleResultEnum
+from science_article_cnki.models import cnki_model as model
+from science_article_cnki.utils import tools
+from science_article_cnki.utils.tools import parse_datetime, add_year2item
+from science_article_cnki.utils.ti_match_id import ti2format, ti2unique_type2
+from science_article_cnki.configs import cnki as config
+
+
+class CnkiArticleCrossdbSpider(scrapy.Spider):
+    name = "cnki_article_crossdb"
+    custom_settings = dict(
+        DOWNLOADER_MIDDLEWARES={
+            "science_article_cnki.middlewares.CnkiSearchHeadersDownloaderMiddleware": 540,
+        },
+        ITEM_PIPELINES={
+            "science_article_cnki.pipelines.MongoPipeline": 300,
+            "science_article_cnki.pipelines.DupTodoPipeline": 310,
+            # "science_article_cnki.pipelines.verify_data.VerifyDataIntegrity": 400,
+        },
+        # LOG_LEVEL="INFO"
+    )
+    source = 'cnki'
+
+    resource_type: str = "总库"
+
+    query_id: int
+    query: str
+    filters: list = list()
+
+    def open_spider(self):
+        """
+        """
+        pass
+
+    async def start(self):
+        m = dict(query=self.query, resource_type=self.resource_type, page=1)
+        m.update(filters=self.filters)
+        query_body = model.adv_refine_search(**m)
+        # 把筛选项加到查询体中
+        model.add_muti_filters(base_query=query_body, filters=m.get("filters"))
+        form_d = model.adv_query_search(query_body, **m)
+        yield scrapy.FormRequest(url=config.CNKI_ADV_SEARCH_API, method="POST",
+                                 formdata=form_d, meta=dict(REQUEST_Q=m))
+
+    def parse(self, response, **kwargs):
+        """
+        首次请求会进入这个解析
+        """
+        request_q = response.meta["REQUEST_Q"]
+        msg = """当前检索: %(query)s,\n筛选项: %(filters)s,\n页数: %(page)s"""
+        kws = {
+            "query": request_q.get("query"),
+            "filters": pformat(request_q.get("filters", [])),
+            "page": '{c}/{m}'.format(c=request_q.get("page", 1), m=request_q.get("max_page", 'null'))
+        }
+        self.logger.info(msg % kws)
+
+        # -------------------------------------------- 计算一共有多少页的逻辑 --------------------------------------------
+        # 提取检索结果的数量
+        total_prm = response.xpath('//span[@class="pagerTitleCell"]/em/text()').get()
+        if not total_prm:
+            return
+        total = tools.str2int(total_prm.replace(',', ''))  # 格式化数量字符串并转int
+
+        # 计算一共有多少页
+        max_page = math.ceil(total / config.BATCH_SEARCH_RESULT_LIMIT)
+        request_q['max_page'] = max_page
+        batch_time = datetime.now()
+        # ---------------------------------------------- 提取列表文章的逻辑 ----------------------------------------------
+        tr_nodes = response.xpath('//div[@id="gridTable"]//table[@class="result-table-list"]/tbody/tr')
+        for tr_node in tr_nodes:
+            check_v = tr_node.xpath('./td[@class="seq"]/input/@value').get()  # 下载导出用的v
+            article_title = tr_node.xpath('./td[@class="name"]/a//text()').getall()  # 文章标题
+            article_title = article_title and ''.join(article_title)
+            article_link = tr_node.xpath('./td[@class="name"]/a/@href').get()  # 文章链接（有v值）
+            source_title = tr_node.xpath('./td[@class="source"]/*/a/text()').get()  # 出版物名称（刊名）
+            db_name = tr_node.xpath('./td[@class="operat"]/a[@class="icon-collect"]/@data-dbname').get()  # 收录库
+            third_id = tr_node.xpath('./td[@class="operat"]/a[@class="icon-collect"]/@data-filename').get()  # 三方id
+            cited_str = tr_node.xpath('./td[@class="quote"]/span/a/text()').get()  # 被引量字符串
+
+            param = tools.url_parse(article_link)
+            v = check_v
+            ti_format = ti2format(article_title)
+            ti_unique = ti2unique_type2(ti=ti_format, so=source_title)
+
+            if third_id:
+                relation_item = CnkiIdRelationItem()
+                relation_item['third_id'] = third_id
+                relation_item['query_ids'] = [self.query_id]
+                # 给关系添加年份
+                add_year2item(relation_item, request_q.get("year"), tr_node.xpath('./td[@class="date"]/text()').get())
+                relation_item['updated_at'] = batch_time
+                yield relation_item
+
+                if cited_str:
+                    cited_item = CnkiCitedNumberItem(**dict(third_id=third_id, cited=tools.str2int(cited_str, 0), updated_at=batch_time))
+                    yield cited_item
+            yield CnkiArticleTodoIdItem(**dict(third_id=third_id, db_code=db_name, ti=ti_unique, v=v, state=0))
+
+        q_bak: dict = deepcopy(request_q)
+        q_bak['page'] += 1
+        query_body = model.adv_refine_search(**q_bak)
+        model.add_muti_filters(base_query=query_body, filters=q_bak.get("filters"))
+        search_param = model.adv_query_search(query_body, **q_bak)
+        yield scrapy.FormRequest(
+            url=config.CNKI_ADV_SEARCH_API, method="POST",
+            formdata=search_param,
+            callback=self.parse_other_page,
+            meta=dict(REQUEST_Q=q_bak)
+        )
+
+    async def parse_other_page(self, response, **kwargs):
+        priority = response.request.priority
+        request_q = response.meta["REQUEST_Q"]
+        msg = """当前检索: %(query)s,\n筛选项: %(filters)s,\n页数: %(page)s"""
+        kws = {
+            "query": request_q.get("query"),
+            "filters": pformat(request_q.get("filters", [])),
+            "page": '{c}/{m}'.format(c=request_q.get("page", 1), m=request_q.get("max_page", 'null'))
+        }
+        self.logger.info(msg % kws)
+        batch_time = datetime.now()
+        # ---------------------------------------------- 提取列表文章的逻辑 ----------------------------------------------
+        tr_nodes = response.xpath('//div[@id="gridTable"]//table[@class="result-table-list"]/tbody/tr')
+        for tr_node in tr_nodes:
+            check_v = tr_node.xpath('./td[@class="seq"]/input/@value').get()  # 下载导出用的v
+            article_title = tr_node.xpath('./td[@class="name"]/a/text()').get()  # 文章标题
+            article_link = tr_node.xpath('./td[@class="name"]/a/@href').get()  # 文章链接（有v值）
+            source_title = tr_node.xpath('./td[@class="source"]/*/a/text()').get()  # 出版物名称（刊名）
+            db_name = tr_node.xpath('./td[@class="operat"]/a[@class="icon-collect"]/@data-dbname').get()  # 收录库
+            third_id = tr_node.xpath('./td[@class="operat"]/a[@class="icon-collect"]/@data-filename').get()  # 三方id
+            cited_str = tr_node.xpath('./td[@class="quote"]/span/a/text()').get()  # 被引量字符串
+
+            param = tools.url_parse(article_link)
+            v = check_v
+            ti_format = ti2format(article_title)
+            ti_unique = ti2unique_type2(ti=ti_format, so=source_title)
+            if third_id:
+                relation_item = CnkiIdRelationItem()
+                relation_item['third_id'] = third_id
+                relation_item['query_ids'] = [self.query_id]
+                # 给关系添加年份
+                add_year2item(relation_item, request_q.get("year"), tr_node.xpath('./td[@class="date"]/text()').get())
+                relation_item['updated_at'] = batch_time
+                yield relation_item
+                if cited_str:
+                    cited_item = CnkiCitedNumberItem(**dict(third_id=third_id, cited=tools.str2int(cited_str, 0), updated_at=batch_time))
+                    yield cited_item
+            yield CnkiArticleTodoIdItem(**dict(third_id=third_id, db_code=db_name, ti=ti_unique, v=v, state=0))
+
+        """
+        # -------------------------------------------------- 翻页逻辑 --------------------------------------------------
+        """
+        if request_q['page'] < request_q['max_page']:
+            q_bak = deepcopy(request_q)
+            """
+            2023年6月29日14:56:44 处理倒序逻辑
+            cnki单次检索限制6000条，即6000/50=120页，当6000<数量<12000时，可以使用倒序来进行补充
+            """
+            # 限制6000条的逻辑
+            if q_bak['page'] >= 120 and q_bak.get('sort') != 'asc':
+                q_bak['page'] = 0
+                q_bak['sort'] = 'asc'
+                q_bak['max_page_sum'] = q_bak['max_page']
+                q_bak['max_page'] = q_bak['max_page_sum'] - 120 + 2
+            # 倒序处理逻辑结束
+            q_bak['page'] += 1
+            query_body = model.adv_refine_search(**q_bak)
+            model.add_muti_filters(base_query=query_body, filters=q_bak.get("filters"))
+            search_param = model.adv_query_search(query_body, **q_bak)
+            yield scrapy.FormRequest(
+                url=config.CNKI_ADV_SEARCH_API, method="POST",
+                formdata=search_param, priority=priority,
+                callback=self.parse_other_page,
+                meta=dict(REQUEST_Q=q_bak)
+            )
--- a/science_article_cnki/science_article_cnki/spiders/cnki_cited_number.py
+++ b/science_article_cnki/science_article_cnki/spiders/cnki_cited_number.py
@ -33,7 +33,7 @@ class CnkiCitedNumberSpider(scrapy.Spider):
        # 比如判断如果没有参数从数据库中读取
        return super().from_crawler(crawler, *args, **kwargs)

-    def __init__(self, query: str = None, resource_type: str = "JOURNAL", query_condition: dict = None, **kwargs: Any):
+    def __init__(self, query: str = None, resource_type: str = "学术期刊", query_condition: dict = None, **kwargs: Any):
        super().__init__(**kwargs)
        self.query = query
        self.resource_type = resource_type
--- a/science_article_cnki/science_article_cnki/spiders/cnki_ids_download.py
+++ b/science_article_cnki/science_article_cnki/spiders/cnki_ids_download.py
@ -0,0 +1,30 @@
+from typing import Any, List, Dict, Self, AsyncIterator
+
+import scrapy
+from scrapy.crawler import Crawler
+from science_article_cnki.models import cnki_model as model
+from science_article_cnki.configs import cnki as config
+
+
+class CnkiIdsDownloadSpider(scrapy.Spider):
+    name = "cnki_ids_download"
+    allowed_domains = ["cnki.net"]
+    start_urls = ["https://cnki.net"]
+
+    @classmethod
+    def from_crawler(cls, crawler: Crawler, *args: Any, **kwargs: Any) -> Self:
+        return super().from_crawler(crawler, *args, **kwargs)
+
+    def __init__(self):
+        scrapy.Spider.__init__(self)
+        self.id_list: List[Dict[str, str]] = None
+
+    async def start(self):
+        yield scrapy.FormRequest(
+            config.CNKI_EXPORT_XLS_OLD_API,
+            method='POST',
+            formdata=model.export_data(ids),
+        )
+
+    def parse(self, response):
+        pass
--- a/science_article_cnki/science_article_cnki/utils/extract_rule.py
+++ b/science_article_cnki/science_article_cnki/utils/extract_rule.py
@ -0,0 +1,15 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2024/5/13 16:53
+# @Author  : zhaoxiangpeng
+# @File    : extract_rule.py
+
+# 提取ISSN号
+ISSN_REGEX_PATTERN = r'ISSN：(\d{4}-[\dX]{4})'
+# 提取CN号, https://baike.baidu.com/item/%E5%9B%BD%E5%86%85%E7%BB%9F%E4%B8%80%E5%88%8A%E5%8F%B7/386463
+CN_REGEX_PATTERN = r'CN：(\d{2}-\d{4}/?[A-Z]?)'
+
+# 去除/替换标题中的特殊字符
+DEL_TITLE_SYMBOL_PATTERN = '[’!"#$%&\'()*+,-.·/:：;<=>—?@，。?★、…（）【】《》？“”‘’！[\\]^_`{|}~\s]+'
+
+# 去除特殊字符后的字符
+DEL_SOURCE_SYMBOL_PATTERN = DEL_TITLE_SYMBOL_PATTERN
--- a/science_article_cnki/science_article_cnki/utils/logformat.py
+++ b/science_article_cnki/science_article_cnki/utils/logformat.py
@ -0,0 +1,8 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2026/1/12 14:31
+# @Author  : zhaoxiangpeng
+# @File    : logformat.py
+
+
+def pformat_dict(**kwargs):
+    return ', '.join([f'{k}={v}' for k, v in kwargs.items()])
--- a/science_article_cnki/science_article_cnki/utils/ti_match_id.py
+++ b/science_article_cnki/science_article_cnki/utils/ti_match_id.py
@ -0,0 +1,409 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2024/5/23 16:22
+# @Author  : zhaoxiangpeng
+# @File    : ti_match_id.py
+
+from .tools import ji2format, ti2format
+
+TYPE1 = '1@'
+TYPE2 = '2@'
+TAG_TYPE_LENGTH = 2
+GET_TYPE_MAP = {TYPE1, TYPE2}
+
+
+def ti2unique(ti=None, ji=None, y=None, i=None):
+    """
+    标题加其他标志作为唯一号
+    :param ti:
+    :param ji: 期刊issn
+    :param y:
+    :param i:
+    :return:
+    """
+    if ji:
+        ji = ji2format(ji)
+    ti_unique = '{ti}:{j}:{y}{i}'.format(ti=ti, j=ji, y=y, i=i)
+    return ti_unique
+
+
+def ti2unique_type1(ti=None, ji=None, y=None, i=None):
+    """
+    标题加其他标志作为唯一号
+    :param ti:
+    :param ji: 期刊issn
+    :param y:
+    :param i:
+    :return:
+    """
+    if ji:
+        ji = ji2format(ji)
+    ti_unique = TYPE1 + '{ti}:{j}:{y}{i}'.format(ti=ti, j=ji, y=y, i=i)
+    return ti_unique
+
+
+def ti2unique_type2(ti=None, so=None):
+    """
+    生成检索结果的唯一id
+    :param ti:
+    :param so:
+    :return:
+    """
+    if so:
+        so = ti2format(so)
+    ti_unique = TYPE2 + '{ti}:{so}'.format(ti=ti, so=so)
+    return ti_unique
+
+
+class TitleMatchIdTool:
+    def __init__(self, id_ti_info: str = None):
+        self._id_ti_info = id_ti_info
+        self._map_count = 0
+        # self._unfold_map = self.make_ti_id_relation(id_ti_info)
+        self._unfold_map_extend = self.ti_id_relation(id_ti_info)
+
+    def make_ti_id_relation(self, ti_map_str: str) -> dict:
+        """
+        展开字符串关系
+        :return:
+        """
+        result = {}
+        count = 0
+        del_top_id_set = set()
+        del_top_issue = {}
+        del_issn_id_coll = {}
+        del_issue_coll = {}
+        id_ti_list = ti_map_str.split(';')
+        for s in id_ti_list:
+            count += 1
+            i, ti = s.split(',')
+            # 标题可能会重复，那么标题需要时一对多
+            #  预处理标题
+            ti_format, is_format, issue_format = ti.split(':')
+            if not result.get(ti_format):
+                result.setdefault(ti_format, {})
+            else:
+                del_top_id_set.add(ti_format)
+            # 需要先把标题的字典里有一个id字段
+            if not result[ti_format].get('id'):
+                result[ti_format].setdefault('id', i)
+            else:
+                # 设置过id说明标题有重复，就要删除掉id字段，进行下层处理
+                del_top_id_set.add(ti_format)
+            # 再加一层结构
+            if not result[ti_format].get(is_format):
+                result[ti_format].setdefault(is_format, {})
+                # 在issn层中设置id
+                result[ti_format][is_format].setdefault('id', i)
+            else:
+                # 说明issn有重复，删除掉id
+                del_issn_id_coll.setdefault(ti_format, []).append(is_format)
+            # 在issn层中设置期关联id
+            if not result[ti_format][is_format].get(issue_format):
+                result[ti_format][is_format].setdefault(issue_format, i)
+                # 在标题层设置期关联id
+                if not result[ti_format].get(issue_format):
+                    result[ti_format].setdefault(issue_format, i)
+                else:
+                    del_top_issue.setdefault('issue', []).append(issue_format)
+            else:
+                # 说明同一本期刊的期也重复了，那么重复的期数都不可信
+                del_issue_coll.setdefault(ti_format, {}).setdefault(is_format, []).append(issue_format)
+                count -= 1
+        if del_top_id_set:
+            for del_top in del_top_id_set:
+                result[del_top].pop('id', None)
+        if del_issn_id_coll:
+            for key_ti, vals in del_issn_id_coll.items():
+                for val in vals:
+                    result[key_ti][val].pop('id', None)
+        # 删除期重复的
+        if del_issue_coll:
+            for key_ti, is_info in del_issue_coll.items():
+                for ii in is_info:
+                    for x in is_info[ii]:
+                        count -= 1
+                        # 移除issn中的的期
+                        result[key_ti][ii].pop(x, None)
+                        # 移除最上层的期
+                        result[key_ti].pop(x, None)
+        self._map_count = count
+        return result
+
+    def get_id_use_ti_unique(self, ti_unique: str):
+        """
+        使用格式化标题匹配id
+        :param ti_unique:
+        :return:
+        """
+        unfold_map = self._unfold_map_extend.get(TYPE1)
+        if not unfold_map:
+            return None
+
+        ti_format, is_format, issue_format = ti_unique.split(':')
+        obj = unfold_map.get(ti_format)
+        if not obj:
+            return None
+        # 直接获取id key，如果可以获取到，说明只有一个没有重复，直接返回
+        t_id = obj.get('id')
+        if t_id:
+            return t_id
+        # 没有获取到走issn的逻辑，issn可能会因为过刊的原因变化
+        is_obj = obj.get(is_format)  # 获取到issn层的对象
+        if not is_obj:
+            return None
+        # 如果获取到，那么唯一
+        t_id = is_obj.get('id')
+        if t_id:
+            return t_id
+        # 获取不到可能不唯一，进行期获取
+        t_id = is_obj.get(issue_format)
+        if t_id:
+            return t_id
+        # 以上流程走完如果还没有匹配到，那么直接通过标题和期进行匹配
+        issue_t_id = obj.get(issue_format, None)
+        # 如果依然获取不到，返回 None，流程结束
+        return issue_t_id
+
+    def get_id_use_ti_unique2(self, ti_unique: str):
+        """
+        使用格式化标题匹配id
+        :param ti_unique:
+        :return:
+        """
+        unfold_map = self._unfold_map_extend.get(TYPE2)
+        if not unfold_map:
+            return None
+
+        ti_format, so_format = ti_unique.split(':')
+        obj = unfold_map.get(ti_format)
+        if not obj:
+            return None
+        # 直接获取id key，如果可以获取到，说明只有一个没有重复，直接返回
+        t_id = obj.get('id')
+        if t_id:
+            return t_id
+        # 没有获取到走期刊名称的逻辑
+        is_obj = obj.get(so_format)  # 获取到issn层的对象
+        if not is_obj:
+            return None
+
+    def get_id_control(self, ti_unique: str):
+        type_ = ti_unique[:TAG_TYPE_LENGTH]
+        if type_ not in GET_TYPE_MAP:
+            type_ = TYPE1
+            ti2uni = ti_unique
+        else:
+            ti2uni = ti_unique[TAG_TYPE_LENGTH:]
+        func = {TYPE1: self.get_id_use_ti_unique, TYPE2: self.get_id_use_ti_unique2}
+        return func[type_](ti2uni)
+
+    def count(self):
+        return self._map_count
+
+    @staticmethod
+    def format_article_title(title: str) -> str:
+        """
+        去除特殊字符
+        :param title:
+        :return:
+        """
+
+    @staticmethod
+    def format_journal_issn(issn: str) -> str:
+        """
+        去除特殊字符
+        :param issn:
+        :return:
+        """
+
+    def make_ti_id_type1(self, datas):
+        result = {}
+        count = 0
+        del_top_id_set = set()
+        del_top_issue = {}
+        del_issn_id_coll = {}
+        del_issue_coll = {}
+        for s in datas:
+            count += 1
+            i, ti = s
+            # 标题可能会重复，那么标题需要时一对多
+            #  预处理标题
+            ti_format, is_format, issue_format = ti.split(':')
+            if not result.get(ti_format):
+                result.setdefault(ti_format, {})
+            else:
+                del_top_id_set.add(ti_format)
+            # 需要先把标题的字典里有一个id字段
+            if not result[ti_format].get('id'):
+                result[ti_format].setdefault('id', i)
+            else:
+                # 设置过id说明标题有重复，就要删除掉id字段，进行下层处理
+                del_top_id_set.add(ti_format)
+            # 再加一层结构
+            if not result[ti_format].get(is_format):
+                result[ti_format].setdefault(is_format, {})
+                # 在issn层中设置id
+                result[ti_format][is_format].setdefault('id', i)
+            else:
+                # 说明issn有重复，删除掉id
+                del_issn_id_coll.setdefault(ti_format, []).append(is_format)
+            # 在issn层中设置期关联id
+            if not result[ti_format][is_format].get(issue_format):
+                result[ti_format][is_format].setdefault(issue_format, i)
+                # 在标题层设置期关联id
+                if not result[ti_format].get(issue_format):
+                    result[ti_format].setdefault(issue_format, i)
+                else:
+                    del_top_issue.setdefault('issue', []).append(issue_format)
+            else:
+                # 说明同一本期刊的期也重复了，那么重复的期数都不可信
+                del_issue_coll.setdefault(ti_format, {}).setdefault(is_format, []).append(issue_format)
+                count -= 1
+        if del_top_id_set:
+            for del_top in del_top_id_set:
+                result[del_top].pop('id', None)
+        if del_issn_id_coll:
+            for key_ti, vals in del_issn_id_coll.items():
+                for val in vals:
+                    result[key_ti][val].pop('id', None)
+        # 删除期重复的
+        if del_issue_coll:
+            for key_ti, is_info in del_issue_coll.items():
+                for ii in is_info:
+                    for x in is_info[ii]:
+                        count -= 1
+                        # 移除issn中的的期
+                        result[key_ti][ii].pop(x, None)
+                        # 移除最上层的期
+                        result[key_ti].pop(x, None)
+        self._map_count += count
+        return result
+
+    def make_ti_id_type2(self, datas: list):
+        result = {}
+        count = 0
+        del_top_id_set = set()
+        del_so_coll = {}
+        for data in datas:
+            count += 1
+            t_id, ti_uni = data
+            ti_format, so_format = ti_uni.split(':')
+            if not result.get(ti_format):
+                result.setdefault(ti_format, {})
+            else:
+                del_top_id_set.add(ti_format)
+            # 需要先把标题的字典里有一个id字段
+            if not result[ti_format].get('id'):
+                result[ti_format].setdefault('id', t_id)
+            else:
+                # 设置过id说明标题有重复，就要删除掉id字段，进行下层处理
+                del_top_id_set.add(ti_format)
+            # 处理期刊名称
+            if not result[ti_format].get(so_format):
+                result[ti_format].setdefault(so_format, {})
+                # 在期刊名称层中设置id
+                result[ti_format][so_format].setdefault('id', t_id)
+            else:
+                # 说明期刊名称有重复，删除掉id
+                del_so_coll.setdefault(ti_format, []).append(so_format)
+
+            if del_top_id_set:
+                for del_top in del_top_id_set:
+                    result[del_top].pop('id', None)
+            if del_so_coll:
+                for key_ti, vals in del_so_coll.items():
+                    for val in vals:
+                        result[key_ti][val].pop('id', None)
+        self._map_count += count
+        return result
+
+    def ti_id_relation(self, ti_map_str: str):
+        count = 0
+        # 类型收集
+        var_map = dict()
+        id_ti_list = ti_map_str.split(';')
+        for s in id_ti_list:
+            count += 1
+            i, ti = s.split(',')
+            t = ti[:TAG_TYPE_LENGTH]  # 取类型标记位
+            # -------------------- 没有标识类型时用默认的逻辑 --------------------
+            if t not in GET_TYPE_MAP:
+                t = TYPE1  # 默认值为1
+            else:
+                ti = ti[TAG_TYPE_LENGTH:]
+            var_map.setdefault(t, []).append((i, ti))
+        case = dict()
+        while var_map:
+            t, info = var_map.popitem()
+            if t == TYPE1:
+                case[t] = self.make_ti_id_type1(info)
+            elif t == TYPE2:
+                case[t] = self.make_ti_id_type2(info)
+            else:
+                raise ValueError("%s 类型解析未实现" % t)
+        return case
+
+
+if __name__ == '__main__':
+    """
+    ti_map = TitleMatchIdTool(
+        id_ti_info='BLDS201706005,区域大气污染排放效率变化趋势地区差距与影响因素基于长江经济带11省市的面板数据:10093370:20176;BLDS201706004,北京机动车环境外部成本的测算:10093370:20176;BLDS201706003,个体异质性与环境公共物品的私人有效供给:10093370:20176;BLDS201706002,绿色治理变迁逻辑政策反思与展望基于19782016年政策文本分析:10093370:20176;BLDS201706001,新能源汽车产业专利池的形成机制:10093370:20176;BLDS201806021,北京理工大学学报社会科学版征稿简则:10093370:20186;BLDS201806020,北京理工大学学报社会科学版2018年总目录:10093370:20186;BLDS201806019,双一流建设高校的全要素科技创新效率研究:10093370:20186;BLDS201806018,公共财政如何促进教育公平基于广东省基础教育创强专项资金绩效评价:10093370:20186;BLDS201806017,行政裁量行为的合理性审查研究:10093370:20186;BLDS201806016,大数据视野下环境侵权诉讼证据制度的优化:10093370:20186;BLDS201806015,食品安全监管国际软法变革论食品安全全球治理的视角:10093370:20186;BLDS201806014,不动产善意取得中无权处分认定研究:10093370:20186;BLDS201806013,国民经济动员立法的必要性及重难点:10093370:20186;BLDS201806012,中国经济增长方式转变的影响因素及路径选择:10093370:20186;BLDS201806011,农地闲置治理中的村民互助地方经验与缺陷补正以四川省G村为例:10093370:20186;BLDS201806010,房价波动银行信贷与产业升级基于银行信贷中介效应检验及区域差异对比分析:10093370:20186;BLDS201806009,中国股票市场信息流关联网络基于转移熵的实证研究:10093370:20186;BLDS201806008,国家创新型城市效率评价研究基于两阶段DEA模型:10093370:20186;BLDS201806007,共享经济监管机制对感知隐私风险消费者信任及持续共享意愿的影响:10093370:20186;BLDS201806006,区域旅游业碳排放的时空差异以山东省为例:10093370:20186;BLDS201806005,中国储能产业中动力电池梯次利用的商业价值:10093370:20186;BLDS201806004,环境规制空间溢出与区域生态效率基于空间杜宾面板模型的实证分析:10093370:20186;BLDS201806003,环境约束下中国工业部门能源投入的拥塞效应:10093370:20186;BLDS201806002,陷入惩戒牢笼失信惩戒是否抑制了企业创新来自废水国控重点监测企业的证据:10093370:20186;BLDS201806001,基准线法下企业最优碳减排和产品定价决策:10093370:20186;BLDS201805022,北京理工大学学报社会科学版征稿简则:10093370:20185;BLDS201805021,社会自主性的三种提升路径:10093370:20185;BLDS201805020,朱子学与日本近世儒学的一元论倾向:10093370:20185;BLDS201805019,从共同体之善的定位到价值中立原则的悖论反思权利绝对化及其隐忧:10093370:20185;BLDS201805018,法律效力的道德条件比较分析:10093370:20185;BLDS201805017,中国刑事证人保护制度的问题与完善:10093370:20185;BLDS201805016,诉权层次论视域下的行政诉权要件探析基于诉权本质学说与诉权要件之关联性考察:10093370:20185;BLDS201805015,岛礁之辨的分歧及其消解路径:10093370:20185;BLDS201805014,中国自然灾害与长期经济增长基于VAR与VEC模型的协整分析:10093370:20185;BLDS201805013,区块链技术在政府数据治理中的应用优势挑战与对策:10093370:20185;BLDS201805012,基于三方演化博弈的网约车出行市场规制策略:10093370:20185;BLDS201805011,中国工业行业产能利用率测度分析:10093370:20185;BLDS201805010,基于VAR模型P2P网络借贷与传统金融市场之间的动态变化:10093370:20185;BLDS201805009,电子口碑平台对感知可信度及购买意愿的影响:10093370:20185;BLDS201805008,协同创新网络与组织创新绩效的关系:10093370:20185;BLDS201805007,基于网络搜索指数的股票市场微观结构特征:10093370:20185;BLDS201805006,公众环境关心指数编制及其影响因素以北京市为例:10093370:20185;BLDS201805005,公众环境治理参与行为的多层分析:10093370:20185;BLDS201805004,政府规制下废旧汽车非正规回收渠道的演化博弈:10093370:20185;BLDS201805003,中国电力消费周期的路径演化识别基于Markov区制转移模型:10093370:20185;BLDS201805002,基于改进希尔伯特黄变换算法的碳市场价格多尺度分解:10093370:20185;BLDS201805001,地方政府环境规制竞争背景下地区间的企业污染排放行为:10093370:20185;BLDS201804020,北京理工大学学报社会科学版征稿简则:10093370:20184;BLDS201804019,建国初期劳动教育的兴起与上海的地方性实践:10093370:20184;'
+                   'BLDS201806001,北京理工大学学报社会科学版征稿简则:10093370:20186;GDWZ202206019,2肝癌转移的免疫微环境:肝胆外科杂志;HDLG2022S2014,2U型管式蒸汽发生器内改性壁面强化传热数值研究:核动力工程;HDLG2022S2012,2高温下锆合金包壳切向微动磨蚀行为研究:核动力工程;HDLG2022S2003,2铅铋螺旋管壳侧流动传热数值模拟研究:核动力工程;ZLJS202206003,2基于对抗网络的冷水机组制冷剂泄漏故障跨工况诊断研究:制冷技术;ZLJS202206001,2高温梯级相变胶囊堆积床储热系统数值研究:制冷技术;QHDL202204013,2调相机整流电路电阻绝缘垫块灼烧问题分析及处理:青海电力;ZLJS202206014,2模糊控制与模型预测控制在空调系统中应用的研究现状:制冷技术;CCJY2022S1005,2双一流背景下一流大学毕业生就业质量评估模型的构建与应用:成才与就业;TJCX202206007,2高速铁路半封闭式声屏障脉动风压特性实车测试研究:铁路技术创新;SHGL202204029,2上海市国家高速公路命名编号调整工作实施效果评价:上海公路;SHGL202204025,2基于轨迹和气象数据的高速公路行车安全风险研究:上海公路;NTKT2022S2015,2地铁站台与轨行区的非均匀非稳态流场及热平衡仿真分析:暖通空调;XNYJ202206007,2密闭空间内10氢气浓度的氢气空气混合气体燃爆的仿真和实验研究:新能源进展;SLJX202206003,2浮式电站黑启动方式下谐波影响因素及其表征:发电技术;ZUAN202212023,2失代偿期肝硬化的新定义:肝脏;ZUAN202212005,2门静脉成纤维细胞有望成为可再生肌成纤维细胞的新来源:肝脏;ZUAN202212004,2肝窦内皮细胞介导的细胞串扰在肝纤维化中的作用:肝脏;ZUAN202212003,2药物性肝损伤的生物标志物研究进展:肝脏;YYXX202206017,22型糖尿病患者血清叶酸和维生素B:营养学报;ZUAN202212024,2原发性肝脏神经内分泌肿瘤的诊治现状:肝脏;ZUAN202212002,2固有淋巴样细胞抗肿瘤免疫新进展:肝脏;SHGL202204017,2克服无人机拍摄扰动的高精度车辆轨迹数据提取方法:上海公路;XJZZ202206009,2北京小剧场戏曲节的发展节点与编剧养成:戏剧中央戏剧学院学报;GDYJ202212006,2双极性方波场下电晕老化对环氧树脂空间电荷特性的影响:高电压技术;SDLJ202205011,2尺度效应对船舶在受限水域航行时的流场偏移影响研究:水动力学研究与进展A辑;LSBL202212014,2EBV相关性胃癌21例临床病理学分析:临床与实验病理学杂志;SXGC202212015,2面向PHF工艺的7075T6铝合金高温变形行为:塑性工程学报;LSBL202212001,2第五版WHO肾脏肿瘤新分类主要变化解读:临床与实验病理学杂志;TSZM202212001,2增强极端天气下城市治理的韧性:探索与争鸣;TSZM202212024,2提升以个人为中心的城市应急管理能力:探索与争鸣;TSZM202212019,2践行人民城市重要理念扎实推进气候适应型城市建设:探索与争鸣;TSZM202212023,2发挥新媒体平台在城市重大气象灾害风险治理中的社会协同作用:探索与争鸣;HGSZ202212001,2微反应器内连续制备拓扑结构聚合物的研究进展:化工学报;MYSY202206005,2略论电影想象力消费的三个层面:民族艺术研究;XXCB202206005,2广州市5岁以下腹泻儿童人芽囊原虫感染流行病学特征及影响因素:中国血吸虫病防治杂志;ZLDT202212006,2超长鸡舍夏季湿帘通风时舍内温度分布研究:制冷与空调;GCSJ202206010,2超精密大行程麦克斯韦磁阻驱动器磁场建模与推力分析:工程设计学报;HEBG202212014,2U50Zr螺旋十字燃料热力耦合特性分析:哈尔滨工程大学学报;HJGC202212003,2填埋场好氧修复过程碳排放特征及削减研究:环境工程;GZTX202206006,2双减背景下社会力量参与学校体育的价值困境与对策:广州体育学院学报;SDLJ202206001,2基于神经网络的船舶剖面参数化建模与辐射水动力系数预测:水动力学研究与进展A辑;ZZLL202211001,2PI3KAKT信号转导通路关键蛋白在皮肤光老化及皮肤鳞状细胞癌中的表达研究:肿瘤;SDLJ202206003,2基于虚实结合的波浪环境下船舶操纵运动机器学习建模研究:水动力学研究与进展A辑;SDLJ202206015,2仿鸮前缘突节风机叶片气动流场的数值模拟:水动力学研究与进展A辑;ZJJB202202005,2高校实验室仪器设备管理维护现存问题及对策探究:中国教育技术装备;DZXU202212013,2基于分形超表面的小型化宽带高透射率平面透镜天线:电子学报;QHMS202204002,2大学生铸牢中华民族共同体意识的内涵特征本质规律与实践进路:青海民族大学学报社会科学版;JJYS202206009,2新时代社会主义意识形态凝聚力和引领力提升的路径研究:经济与社会发展;ZJJB202214034,2航空航天方向本科实验教学改革探讨:中国教育技术装备'
+    )
+    print(ti_map.count())
+    print(ti_map.get_id_control('六地企业顾客关系管理现状调研报告:10035192:20054'))
+    print(ti_map.get_id_control('北京理工大学学报社会科学版征稿简则:10093370:20185'))
+    print(ti_map.get_id_control('北京理工大学学报社会科学版征稿简则:10093370:20186'))
+    print(ti_map.get_id_control('2肝癌转移的免疫微环境:肝胆外科杂志'))
+    """
+    ti_map = TitleMatchIdTool('BJTJ200310003,当前北京经济运行中的主要问题:10065954:200310;'
+                              'BJTJ200310002,北京市2003年19月份主要经济指标:10065954:200310;'
+                              'BJTJ200310001,今年北京经济呈V字型走势:10065954:200310;'
+                              'BJTJ200310000,让我轻轻地告诉你:10065954:200310;'
+                              'BJTJ2003Z1057,动态简讯:10065954:2003Z1;'
+                              'BJTJ2003Z1055,统计员颂歌歌词:10065954:2003Z1;'
+                              'BJTJ2003Z1054,庆祝北京市统计局建局五十周年有感:10065954:2003Z1;'
+                              'BJTJ2003Z1053,第二回美女午后品茶费雪突发灵感统计学的故事一:10065954:2003Z1;'
+                              'BJTJ2003Z1052,享受快乐统计:10065954:2003Z1;'
+                              'BJTJ2003Z1051,数字的回响:10065954:2003Z1;'
+                              'BJTJ2003Z1050,从统计资料调查报告看美国社会现象之一斑:10065954:2003Z1;'
+                              'BJTJ2003Z1049,国际统计学会职业道德宣言讲了些什么:10065954:2003Z1;'
+                              'BJTJ2003Z1048,怎样避免统计基本概念与方法的误用:10065954:2003Z1;'
+                              'BJTJ2003Z1047,裁文匠笔戒律为先统计分析报告写作十戒:10065954:2003Z1;'
+                              'BJTJ2003Z1046,谈谈怎样用活统计数据:10065954:2003Z1;'
+                              'BJTJ2003Z1045,摩托罗拉公司成功运作电子商务案例摩托罗拉公司房地产项目网上审批系统的实施:10065954:2003Z1;'
+                              'BJTJ2003Z1044,应实行能源的全社会统计:10065954:2003Z1;'
+                              'BJTJ2003Z1043,统计方法制度改革的思考:10065954:2003Z1;'
+                              'BJTJ2003Z1042,北京市物流现状调查设计的问题与思考兼与北京市物流现状调查表设计者商榷:10065954:2003Z1;'
+                              'BJTJ2003Z1041,行政诉讼中的补证问题:10065954:2003Z1;'
+                              'BJTJ2003Z1040,统计执法程序及执法文书的使用与制作十三:10065954:2003Z1;'
+                              'BJTJ2003Z1039,兼职做统计工作也要认真对待:10065954:2003Z1;'
+                              'BJTJ2003Z1038,统计违法行为处罚难难在何处:10065954:2003Z1;'
+                              'BJTJ2003Z1037,居民睡眠用时多少北京居民生活时间分配调查系列报告之八:10065954:2003Z1;'
+                              'BJTJ2003Z1036,北京市劳动岗位人员需求知多少:10065954:2003Z1;'
+                              'BJTJ2003Z1035,难忘在希望的田野上:10065954:2003Z1;'
+                              'BJTJ2003Z1034,政府统计为企业微观评价提供了丰富营养:10065954:2003Z1;'
+                              'BJTJ2003Z1033,难说再见:10065954:2003Z1;'
+                              'BJTJ2003Z1032,天道酬勤记市统计局新闻发言人于秀琴:10065954:2003Z1;'
+                              'BJTJ2003Z1031,追忆跨越祝福:10065954:2003Z1;'
+                              'BJTJ2003Z1030,50年的评说抒怀寄语:10065954:2003Z1;'
+                              'BJTJ2003Z1029,2001年首都经济六大行业前10名按2001年经营收入排序:10065954:2003Z1;'
+                              'BJTJ2003Z1028,首都经济200强强在何处:10065954:2003Z1;'
+                              'BJTJ2003Z1027,新企业会计制度与会计准则和股份有限公司会计制度的主要差异二十:10065954:2003Z1;'
+                              'BJTJ2003Z1026,企业效绩评价操作细则修订八:10065954:2003Z1;'
+                              'BJTJ2003Z1025,2002年批发零售贸易业餐饮业年报培训测试题及答案:10065954:2003Z1;'
+                              'BJTJ2003Z1024,2003年固定资产投资房地产开发定期报表制度填报方法二:10065954:2003Z1;'
+                              'BJTJ2003Z1023,如何看待居民消费价格指数和商品零售价格指数的数据差异:10065954:2003Z1;'
+                              'BJTJ2003Z1022,工业主要产品产量统计数据审核要点:10065954:2003Z1;'
+                              'BJTJ2003Z1021,北京市消费者信心指数是怎样编制的:10065954:2003Z1;'
+                              'BJTJ2003Z1020,北京市第二次投入产出工作会议召开:10065954:2003Z1;'
+                              'BJTJ2003Z1019,消费需求扩张环境问题突出北京市人均GDP突破3000美元究竟意味着什么之二:10065954:2003Z1;'
+                              'BJTJ2003Z1018,北京知识经济发展进程及分析:10065954:2003Z1;'
+                              'BJTJ2003Z1017,北京城市竞争力状况与变化:10065954:2003Z1;'
+                              'BJTJ2003Z1016,北京应在哪些领域巩固和培育经济增长点:10065954:2003Z1;'
+                              'BJTJ2003Z1015,京房景气指数京投景气指数均呈降势:10065954:2003Z1;'
+                              'BJTJ2003Z1014,关于征集北京市第十二届统计科学讨论会论文的通知:10065954:2003Z1;'
+                              'BJTJ2003Z1013,怎样科学分析经济形势:10065954:2003Z1;'
+                              'BJTJ2003Z1012,稳健统计在经济指标中的应用探讨:10065954:2003Z1;'
+                              'BJTJ2003Z1011,关于我国数理统计学发展中存在的问题的几点思考:10065954:2003Z1')
+    print(ti_map)
--- a/science_article_cnki/science_article_cnki/utils/tools.py
+++ b/science_article_cnki/science_article_cnki/utils/tools.py
@ -1,5 +1,16 @@
-from typing import List, Tuple
-from datetime import datetime
+# -*- coding: utf-8 -*-
+# @Time    : 2024/5/15 17:40
+# @Author  : zhaoxiangpeng
+# @File    : tools.py
+
+import enum
+import re
+from typing import Dict, Union
+
+from datetime import datetime, timedelta
+from urllib.parse import urlparse, quote, unquote, parse_qs
+
+from . import extract_rule


 def str2int(val, replace=0):
@ -12,6 +23,258 @@ def str2int(val, replace=0):
    return val


-def get_today_date(fmt: str = "%Y-%m-%d"):
-    return datetime.today().strftime(fmt)
+def replace_str(source_str, regex, replace_str=""):
+    """
+    916
+    @summary: 替换字符串
+    ---------
+    @param source_str: 原字符串
+    @param regex: 正则
+    @param replace_str: 用什么来替换 默认为''
+    ---------
+    @result: 返回替换后的字符串
+    """
+    str_info = re.compile(regex)
+    return str_info.sub(replace_str, source_str)
+
+
+def url_parse(url: str):
+    """
+    url解析为dict
+    :param url:
+    :return:
+    """
+    query = urlparse(url).query
+    params = parse_qs(query)
+    result = {key: params[key][0] if params[key].__len__() == 1 else params[key] for key in params}
+    return result
+
+
+def parse_datetime(datetime_str):
+    """
+    解析多种格式的日期时间字符串，返回datetime对象
+
+    支持的格式：
+    1. YYYY-MM-DD
+    2. YYYY-MM-DD HH:MM
+    3. YYYY-MM-DD HH:MM:SS
+
+    参数:
+        datetime_str (str): 日期时间字符串
+
+    返回:
+        datetime: 解析后的datetime对象
+    """
+    formats = [
+        "%Y-%m-%d",  # 2025-05-09
+        "%Y-%m-%d %H:%M",  # 2025-05-08 16:16
+        "%Y-%m-%d %H:%M:%S"  # 2025-04-15 14:40:03
+    ]
+
+    for fmt in formats:
+        try:
+            return datetime.strptime(datetime_str, fmt)
+        except ValueError:
+            continue
+
+    return None
+
+
+def add_year2item(item, year: Union[int, None], pub_datetime):
+    """
+    给关系添加年份
+    :param item: CnkiIdRelationItem
+    :param year: 优先选择的年份，如果为None，则从tr_node中提取
+    :param pub_datetime: 从node节点中提取的日期时间字符串，支持格式见 parse_datetime 方法
+    :return:
+    """
+    if not year:
+        # 如果meta中没有携带年份字段，从页面中解析年份
+        dt = parse_datetime(pub_datetime)
+        if dt:
+            year = dt.year
+    if year:
+        item.year = year
+
+    return item
+
+
+def parse_retrieval(query: str):
+    """
+    解析aside值拼接queryJson
+    :param query:
+    :return:
+    """
+    def func(string: str):
+        stand = string[1:-1]  # 去除左右的中文括号
+        title, value = stand.split("：", maxsplit=1)  # 分割 "作者单位：湖南中医药大学(模糊)" ->  [作者单位, 湖南中医药大学(模糊)]
+        return title, value[:-4], value[-3:-1]
+    cond_list = re.split(r'(AND|NOT|OR)', query)
+    logic = 'AND'
+    content = cond_list[0]
+    yield logic, func(content)
+    for i in range(1, len(cond_list), 2):
+        chunk = cond_list[i:i + 2]  # 获取两个元素
+        logic, content = chunk
+        yield logic, func(content)
+
+
+def parse_updatedtime_symbol(symbol: str, today: str = None) -> tuple:
+    """
+    从字符串解析时间范围
+    :param symbol:
+    :param today:
+    :return:
+    """
+    if today and isinstance(today, str):
+        today = datetime.strptime(today, "%Y-%m-%d")
+    else:
+        today = datetime.now()
+    if symbol == "最近一周":
+        ago_day = today - timedelta(days=7)
+    elif symbol == "最近一月":
+        ago_day = today - timedelta(days=30)
+    elif symbol == "最近半年":
+        ago_day = today - timedelta(days=181)
+    elif symbol == "最近一年":
+        ago_day = today.replace(year=today.year-1)
+    elif symbol == "今年迄今":
+        ago_day = today.replace(month=1, day=1)
+    else:
+        ago_day = today
+    return ago_day.strftime("%Y-%m-%d"), today.strftime("%Y-%m-%d")
+
+
+def id_ti2map(ti_map_str: str) -> Dict[str, str]:
+    """
+    将third_id,标题转为标题对应id的dict
+    :param ti_map_str:
+    :return:
+    """
+    example = {
+        '配额约束下考虑回收维修努力的共享单车供应链决策与协调': {
+            'id': 'YUCE202202005',  # 标题仅有一个时存在
+            '20970145': 'YUCE202202005',  # issn对应一个id
+            '20222': 'YUCE202202005',  # 期号对应一个id
+            # 假设标题有多个
+            # 1.不同期刊标题重复
+            '00010002': 'ZHXP200101001',
+            '20011': 'ZHXP200101001',
+            # 2.同期刊同期标题重复
+            '00010003': {
+                'id': 'ZHXP200101001',
+                '20011': 'ZHXP200101001'
+            }
+        }
+    }
+    result = {}
+    id_ti_list = ti_map_str.split(';')
+    for s in id_ti_list:
+        i, ti = s.split(',')
+        # 标题可能会重复，那么标题需要时一对多
+        #  预处理标题
+        ti_format, is_format, issue_format = ti.split(':')
+        if not result.get(ti_format):
+            result.setdefault(ti_format, {})
+        # 需要先把标题的字典里有一个id字段
+        if not result[ti_format].get('id'):
+            result[ti_format].setdefault('id', i)
+        else:
+            result[ti_format].pop('id')
+        result[ti_format].setdefault(is_format, i)
+        result[ti_format].setdefault(issue_format, i)
+        # if ti in result:
+        #     continue
+        # result.setdefault(ti, i)
+    return result
+
+
+def get_id_from_map(ti_unique, ti_map: dict):
+    ti_format, is_format, issue_format = ti_unique.split(':')
+    obj = ti_map.get(ti_format)
+    if not obj:
+        return None
+    t_id = obj.get('id')
+    if t_id:
+        return t_id
+    for p in [is_format, issue_format]:
+        t_id = ti_map.get(p)
+        if t_id:
+            return t_id
+
+
+def so2format(data):
+    """
+    去除刊名的特殊后綴
+    :param data:
+    :return:
+    """
+    if not data:
+        return ''
+    split_result = re.split(extract_rule.DEL_SOURCE_SYMBOL_PATTERN, data)
+    return split_result[0]
+
+
+def ji2format(data: str):
+    """
+    issn标准化
+    :param data:
+    :return:
+    """
+    if not data:
+        return ''
+    data = data.upper()
+    return re.sub(r'-', '', data)
+
+
+def ti2format(data):
+    """
+    去除标题空格
+    :param data:
+    :return:
+    """
+    return replace_str(data, extract_rule.DEL_TITLE_SYMBOL_PATTERN, "")
+
+
+def ti2unique(ti=None, ji=None, y=None, i=None):
+    """
+    标题加其他标志作为唯一号
+    :param ti:
+    :param ji: 期刊issn
+    :param y:
+    :param i:
+    :return:
+    """
+    if ji:
+        ji = ji2format(ji)
+    ti_unique = '{ti}:{j}:{y}{i}'.format(ti=ti, j=ji, y=y, i=i)
+    return ti_unique
+
+
+def func_0(ti, todo_dic: dict):
+    """
+    从dic中匹配到id
+    :param ti:
+    :param todo_dic:
+    :return:
+    """
+    t_id = todo_dic.get(ti)
+    if not t_id:
+        # 去掉期刊名来匹配
+        ti1, jn, q = ti.split(':')
+        # 同理 dic里的也要去除刊名
+    return t_id
+
+
+if __name__ == '__main__':
+    # so2format('中国农业文摘-农业工程')
+    # id_ti2map('YUCE200504016,六地企业顾客关系管理现状调研报告:10035192:20054;YUCE200504015,中国电信业市场结构与X效率的实证研究:10035192:20054;YUCE200504004,基于质量合约的风险化管理初探:10035192:20054')

+    q1 = '（作者单位：湖南中医药大学(模糊)）OR（作者单位：湖南中医学院(精确)）'
+    q2 = '（作者单位：湖南中医药大学(模糊)）OR（作者单位：湖南中医学院(模糊)）OR（篇名：基于PINK1LETM1信号通路探讨何首乌苷减轻脑缺血再灌注损伤的作用机制(精确)）'
+    q3 = '（作者单位：湖南中医药大学(模糊)）OR（作者单位：湖南中医学院(模糊)）AND（篇名：基于PINK1LETM1信号通路探讨何首乌苷减轻脑缺血再灌注损伤的作用机制(精确)）'
+    g = parse_retrieval(q3)
+    i = 1
+    for _, s in g:
+        print(i, _, s)
+        i += 1
--- a/science_article_cnki/starter/crawl_article_crossdb.py
+++ b/science_article_cnki/starter/crawl_article_crossdb.py
@ -0,0 +1,54 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2026/1/12 14:13
+# @Author  : zhaoxiangpeng
+# @File    : crawl_crossdb_article.py
+from twisted.internet import defer
+from scrapy.crawler import CrawlerProcess
+from scrapy.utils.project import get_project_settings
+from science_article_cnki.spiders.cnki_article_crossdb import CnkiArticleCrossdbSpider
+
+
+def starter_by_year():
+    @defer.inlineCallbacks
+    def f(range_list: list = None):
+        for y in range_list:
+            init_params = {
+                'query_id': 1609,
+                'query': '（作者单位：河北工程技术学院(模糊)）',
+                # 'query_condition': {'year': str(y)},
+                'filters': [
+                    dict(project="年度", value=f"{y}", text_or_title=f"{y}年"),
+                ]
+            }
+            yield process.crawl(CnkiArticleCrossdbSpider, **init_params)
+
+    process = CrawlerProcess(get_project_settings())
+    f(list(range(2021, 2022)))
+    process.start()
+
+
+def starter_more_year():
+    @defer.inlineCallbacks
+    def f(years: list = None):
+        init_params = {
+            'query_id': 1611,
+            'query': '（作者单位：武昌首义学院(模糊)）',
+            'filters': [
+                dict(project="年度", value=[f"{y}" for y in years], text_or_title=[f"{y}年" for y in years]),
+            ]
+        }
+        yield process.crawl(CnkiArticleCrossdbSpider, **init_params)
+
+    process = CrawlerProcess(get_project_settings())
+    f(list(range(2021, 2026)))
+    process.start()
+
+
+def starter():
+    process = CrawlerProcess(get_project_settings())
+    process.crawl(CnkiArticleCrossdbSpider)
+    process.start()
+
+
+if __name__ == '__main__':
+    starter_more_year()
--- a/science_article_wos/Dockerfile
+++ b/science_article_wos/Dockerfile
--- a/science_article_wos/a.py
+++ b/science_article_wos/a.py
--- a/science_article_wos/docker-compose.yml
+++ b/science_article_wos/docker-compose.yml
--- a/science_article_wos/requirements.txt
+++ b/science_article_wos/requirements.txt
@ -0,0 +1,3 @@
+sqlalchemy~=1.3.24
+scrapy~=2.13.3
+itemadapter~=0.11.0
--- a/science_article_wos/science_article_wos/init.py
+++ b/science_article_wos/science_article_wos/init.py
--- a/science_article_wos/science_article_wos/dao/init.py
+++ b/science_article_wos/science_article_wos/dao/init.py
--- a/science_article_wos/science_article_wos/dao/database/connection.py
+++ b/science_article_wos/science_article_wos/dao/database/connection.py
--- a/science_article_wos/science_article_wos/dao/models/base.py
+++ b/science_article_wos/science_article_wos/dao/models/base.py
@ -0,0 +1,13 @@
+# my_scrapy_project/models/base.py
+from sqlalchemy.ext.declarative import declarative_base
+from sqlalchemy import Column, Integer, DateTime
+from datetime import datetime
+
+Base = declarative_base()
+
+
+class BaseModel(Base):
+    """基础模型类"""
+    __abstract__ = True
+
+    id = Column(Integer, primary_key=True, autoincrement=True)
--- a/science_article_wos/science_article_wos/dao/models/search_record.py
+++ b/science_article_wos/science_article_wos/dao/models/search_record.py
--- a/science_article_wos/science_article_wos/dao/services/init.py
+++ b/science_article_wos/science_article_wos/dao/services/init.py
--- a/science_article_wos/science_article_wos/dao/services/search_record_service.py
+++ b/science_article_wos/science_article_wos/dao/services/search_record_service.py
--- a/science_article_wos/science_article_wos/dao/tablesql/search_record.sql
+++ b/science_article_wos/science_article_wos/dao/tablesql/search_record.sql
--- a/science_article_wos/science_article_wos/db_utils/init.py
+++ b/science_article_wos/science_article_wos/db_utils/init.py
--- a/science_article_wos/science_article_wos/db_utils/mongo.py
+++ b/science_article_wos/science_article_wos/db_utils/mongo.py
--- a/science_article_wos/science_article_wos/items.py
+++ b/science_article_wos/science_article_wos/items.py
--- a/science_article_wos/science_article_wos/middlewares.py
+++ b/science_article_wos/science_article_wos/middlewares.py
@ -0,0 +1,225 @@
+# Define here the models for your spider middleware
+#
+# See documentation in:
+# https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+from __future__ import annotations
+import json
+from typing import TYPE_CHECKING
+import redis
+
+from scrapy import signals, Spider
+from scrapy.exceptions import CloseSpider
+# useful for handling different item types with a single interface
+from itemadapter import ItemAdapter
+
+if TYPE_CHECKING:
+    from scrapy.crawler import Crawler
+    from scrapy import Request
+
+
+class ScienceArticleWosSpiderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the spider middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_spider_input(self, response, spider):
+        # Called for each response that goes through the spider
+        # middleware and into the spider.
+
+        # Should return None or raise an exception.
+        return None
+
+    def process_spider_output(self, response, result, spider):
+        # Called with the results returned from the Spider, after
+        # it has processed the response.
+
+        # Must return an iterable of Request, or item objects.
+        for i in result:
+            yield i
+
+    def process_spider_exception(self, response, exception, spider):
+        # Called when a spider or process_spider_input() method
+        # (from other spider middleware) raises an exception.
+
+        # Should return either None or an iterable of Request or item objects.
+        pass
+
+    async def process_start(self, start):
+        # Called with an async iterator over the spider start() method or the
+        # maching method of an earlier spider middleware.
+        async for item_or_request in start:
+            yield item_or_request
+
+    def spider_opened(self, spider):
+        spider.logger.info("Spider opened: %s" % spider.name)
+
+
+class ScienceArticleWosDownloaderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the downloader middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_request(self, request, spider):
+        # Called for each request that goes through the downloader
+        # middleware.
+
+        # Must either:
+        # - return None: continue processing this request
+        # - or return a Response object
+        # - or return a Request object
+        # - or raise IgnoreRequest: process_exception() methods of
+        #   installed downloader middleware will be called
+        return None
+
+    def process_response(self, request, response, spider):
+        # Called with the response returned from the downloader.
+
+        # Must either;
+        # - return a Response object
+        # - return a Request object
+        # - or raise IgnoreRequest
+        return response
+
+    def process_exception(self, request, exception, spider):
+        # Called when a download handler or a process_request()
+        # (from other downloader middleware) raises an exception.
+
+        # Must either:
+        # - return None: continue processing this exception
+        # - return a Response object: stops process_exception() chain
+        # - return a Request object: stops process_exception() chain
+        pass
+
+    def spider_opened(self, spider):
+        spider.logger.info("Spider opened: %s" % spider.name)
+
+
+class WosCookieMiddleware:
+    def __init__(self, redis_uri: str):
+        self.redis_cli = redis.from_url(redis_uri, decode_responses=True)
+        self.redis_key_prefix = 'cookie_pool:wos_sid'
+        self.cookiepool_cache_key = 'cookie_pool:wos:sid_q'
+
+    @classmethod
+    def from_crawler(cls, crawler: Crawler, *args, **kwargs):
+        settings = crawler.settings
+        middle = cls(
+            redis_uri=settings.get("REDIS_URL")
+        )
+        crawler.signals.connect(middle.open_spider, signal=signals.spider_opened)
+        crawler.signals.connect(middle.close_spider, signal=signals.spider_closed)
+        return middle
+
+    def open_spider(self, spider: Spider):
+        self.loading_sid_from_redis()
+
+    def close_spider(self, spider: Spider, reason: str = None):
+        self.del_sid_from_redis()
+
+    def process_request(self, request: Request, spider):
+        req_wos_sid = request.meta.get('wos_sid')
+        if not req_wos_sid:
+            sid = self.get_sid_from_redis()
+            if not sid:
+                raise CloseSpider(f"没有获取到sid，即将退出")
+            # 把获取到的wos_sid绑定到request，可以在parse方法中获取到wos_sid的值
+            request.meta['wos_sid'] = sid
+        else:
+            sid = req_wos_sid
+
+        cookie_1 = {'dotmatics.elementalKey': 'SLsLWlMhrHnTjDerSrlG'}
+
+        headers = {
+            'authority': 'webofscience.clarivate.cn',
+            'accept-language': 'zh-CN,zh;q=0.9',
+            'cache-control': 'no-cache',
+            'origin': 'https://webofscience.clarivate.cn',
+            'pragma': 'no-cache',
+            # 'referer': 'https://webofscience.clarivate.cn/wos/woscc/advanced-search',
+        }
+        request.cookies = cookie_1
+
+        if request.url.endswith('runQuerySearch'):
+            # 检索时需要带有sid参数
+            request._set_url(request.url + "?SID=%s" % sid)
+            headers.update(
+                {'accept': 'application/x-ndjson', 'content-type': 'text/plain;charset=UTF-8'})
+        else:
+            headers.update(
+                {'accept': 'application/json, text/plain, */*', 'content-type': 'application/json',
+                 'x-1p-wos-sid': sid})
+        for hk, hv in headers.items():
+            request.headers[hk] = hv
+
+        return None
+
+    def process_response(self, request, response, spider):
+        if response.status != 200:
+            self.mark_sid_status(request.meta.get('wos_sid'))
+
+        return response
+
+    def get_sid_from_redis(self):
+        val = self.redis_cli.rpoplpush(self.cookiepool_cache_key, self.cookiepool_cache_key)
+        if val:
+            self.redis_cli.hincrby(f'{self.redis_key_prefix}:{val}', 'used_times', 1)
+            return val
+        return None
+
+    def mark_sid_status(self, sid: str, status: str = 'validate'):
+        """
+        :param sid:
+        :param status: validate/expired
+        :return:
+        """
+        if status == "expired":
+            # 过期直接删除key
+            self.redis_cli.delete(f'{self.cookiepool_cache_key}:{sid}')
+        else:
+            self.redis_cli.hset(f'{self.redis_key_prefix}:{sid}', 'status', status)
+
+    def loading_sid_from_redis(self) -> list:
+        """
+        加载所有的sid到List结构，从缓存队列取sid
+        :return:
+        """
+        valid_sid = []
+        keys = self.redis_cli.keys(f'{self.redis_key_prefix}:*')
+        for key in keys:
+            # 获取所有的信息
+            key_obj: dict = self.redis_cli.hgetall(key)
+            if key_obj.get("status") == "normal":
+                real_sid = key.rsplit(':', maxsplit=1)[-1]
+                valid_sid.append(real_sid)
+                self.redis_cli.lpush(self.cookiepool_cache_key, real_sid)
+        return valid_sid
+
+    def del_sid_from_redis(self):
+        self.redis_cli.delete(f'{self.cookiepool_cache_key}')
+
+
+class A:
+    def __init__(self, redis_cli):
+        self.redis_cli = redis_cli
+
+    def load_keys(self, name):
+        return self.redis_cli.keys(r'cookie_pool:wos_sid:*')
+
+    def get_one_sid(self, name):
+        return self.redis_cli.rpoplpush(name)
+
+
--- a/science_article_wos/science_article_wos/pipelines.py
+++ b/science_article_wos/science_article_wos/pipelines.py
--- a/science_article_wos/science_article_wos/scripts/cookie_manager.py
+++ b/science_article_wos/science_article_wos/scripts/cookie_manager.py
@ -0,0 +1,409 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/12/16 15:24
+# @Author  : zhaoxiangpeng
+# @File    : cookie_manager.py
+from __future__ import annotations
+
+import json
+from typing import TYPE_CHECKING, Generator
+import logging
+import time
+import threading
+from datetime import datetime, timedelta
+from typing import Optional, Callable
+
+import redis
+import requests
+from DrissionPage import Chromium
+
+from science_article_wos.utils.xpath_cfg import Settings
+
+if TYPE_CHECKING:
+    from DrissionPage import ChromiumPage, ChromiumOptions
+    from scrapy_drissionpage.response import DrissionResponse
+    from DrissionPage._pages.chromium_tab import ChromiumTab
+    from DrissionPage._units.listener import DataPacket, Response
+
+VERIFY_ROUTER = "/api/wosnx/core/verify"
+settings = Settings()
+logging.basicConfig(level=logging.DEBUG)
+logger = logging.getLogger(__name__)
+
+
+def get_self_ip():
+    """获取当前IP地址"""
+    try:
+        resp = requests.get("https://www.httpbin.org/ip", timeout=10)
+        assert resp.status_code == 200
+        data = resp.json()
+        ipaddr = data['origin']
+        return ipaddr
+    except Exception as e:
+        logger.error(f"获取IP失败: {str(e)}")
+        return "unknown"
+
+
+def intercept(self, listen, operation, callback, tab=None):
+    listen()
+    operation()
+    for packet in tab.listen.steps(count=3):
+        if not intercept_verify(packet):
+            continue
+        r = callback(packet)
+        if isinstance(r, Generator):
+            return r
+        else:
+            if isinstance(r, bool):
+                break
+    return
+
+
+def intercept_verify(packet: DataPacket):
+    content = packet.response.body
+    if isinstance(content, bytes) and content.find(b'"Server.passiveVerificationRequired"') != -1:
+        return False
+    else:
+        return True
+
+
+class DPOperations:
+    def __init__(self, browser, tab):
+        self.browser = browser
+        self.tab = tab
+
+    @staticmethod
+    def operate_cookie_first(tab):
+        # 处理弹出的cookie首选项
+        logger.debug('Operating cookie first...')
+        ck_m_div = tab.ele('xpath://*[@id="onetrust-banner-sdk"]')
+        if ck_m_div:
+            ele = tab.ele('xpath://*[@id="onetrust-accept-btn-handler"]')
+            ele.click()
+
+    @staticmethod
+    def change_db(tab):
+        logger.info('Changing database...')
+        default_db_ele = tab.ele('xpath://*[@id="snSelectDb"]/button')
+        c1 = default_db_ele.raw_text
+        default_db_ele.click()
+        xpath = '//*[@id="global-select"]/div/div[@aria-label="Select database"]/div[@title="Web of Science Core Collection"]'
+        tab.ele(
+            'xpath:%(xpath)s' % {"xpath": xpath}).click()
+
+    @staticmethod
+    def input_ops(tab, content=None, clear_input: bool = True):
+        logger.debug('Input operation...')
+        input_area_ele = tab.ele('xpath:%(xpath)s' % {"xpath": settings.QUERY_INPUT_ELE})
+        if clear_input:
+            input_area_ele.clear()  # 清空
+        if content is None:
+            content = "(OG=(Shanghai Jiao Tong University)) AND PY=(2025)"
+        input_area_ele.input(content)  # 输入检索内容
+
+    @staticmethod
+    def search_ops(tab):
+        logger.debug('Search operation...')
+        search_button_ele = tab.ele('xpath:%(xpath)s' % {"xpath": settings.SEARCH_BUTTON_ELE})
+        search_button_ele.click()
+
+    @staticmethod
+    def export_ops(tab, start: int = 1, end: int = 50):
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.EXPORT_BUTTON_ELE}).click()  # 点击导出
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.TABWIN_BUTTON_ELE}).click()  # 选择制表符分割
+        # 等待弹框
+        # 切换导出格式选择全记录与参考文献
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_TYPE_SELECT_ELE}).click()
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.FULL_RECORD_REFERENCE_ELE}).click()
+
+        # 输入记录起止
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_RANGE_ELE}).click()  # 切换到范围
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_EXPORT_START_ELE}).input(start, clear=True)
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.RECORD_EXPORT_END_ELE}).input(end, clear=True)
+
+        # 点击导出
+        tab.ele('xpath:%(xpath)s' % {"xpath": settings.EXPORT_FILE_ELE}).click.to_download(
+            # save_path=DOWNLOAD_PATH,
+            rename='%s.txt' % 'savedrecs'
+        )
+
+    def first_ops(self):
+        tab = self.tab
+        self.operate_cookie_first(tab)
+        self.change_db(tab)
+        self.input_ops(tab)
+        self.search_ops(tab)
+
+    def bypass_ops(self):
+        tab = self.tab
+        self.export_ops(tab)
+
+
+class CookieManager:
+    def __init__(
+            self,
+            redis_uri: str = "redis://localhost:6379/0",
+            cookie_lifetime: int = 60 * 60 * 4,  # cookie有效期（秒）
+            check_interval: int = 60,
+            keep_browser_alive: bool = True,
+    ):
+        self.url = "https://webofscience.clarivate.cn/wos/woscc/advanced-search"
+        self.cookie_lifetime = cookie_lifetime
+        # Redis连接
+        self.redis_key_prefix = 'cookie_pool:wos_sid'
+        self.check_interval = check_interval
+        self.redis_client = redis.Redis.from_url(
+            redis_uri,
+            decode_responses=True
+        )
+        logger.info(f"Redis连接成功: {redis_uri}")
+        self.dp_ins: DPOperations = None
+        self.first = True
+
+        # 浏览器实例
+        self.browser = None
+        self.tab = None
+        self.keep_browser_alive = keep_browser_alive
+        self.current_sid = None
+        self.bypass_ok_tag = False
+
+        # 控制标志
+        self._running = False
+        self._monitor_thread = None
+
+    def start_browser(self):
+        """启动浏览器"""
+        if self.browser is None:
+            logger.info("启动浏览器...")
+            self.browser = Chromium()
+            self.tab = self.browser.latest_tab
+            logger.info("浏览器启动成功")
+            self.dp_ins = DPOperations(self.browser, self.tab)
+
+    def close_browser(self):
+        """关闭浏览器"""
+        if self.browser:
+            logger.info("关闭浏览器...")
+            self.browser.quit()
+            self.browser = None
+            self.tab = None
+            logger.info("浏览器已关闭")
+
+    def refresh_page(self):
+        try:
+            logger.info("正在刷新页面")
+            if self.tab:
+                self.tab.refresh()
+        except Exception as e:
+            logger.error(f"正在刷新页面: {str(e)}")
+
+    def intercept_verify(self, op_func: Callable[[], None]):
+        """
+        所有的刷新或者xhr操作都要监听一下hcaptcha验证接口
+        :return:
+        """
+        logger.debug("监听 %s" % VERIFY_ROUTER)
+        self.tab.listen.start(VERIFY_ROUTER, method="POST")  # 开启监听
+        op_func()  # 指定操作方法
+        verify_count = 0
+        for packet in self.tab.listen.steps(count=3, timeout=60):
+            verify_count += 1
+            if self.verify_hook(packet):
+                # 验证成功会退出，不会出发下面的逻辑
+                return
+        if verify_count:
+            logger.warning("获取失败")
+        else:
+            logger.info("没有触发验证, cookie有效")
+            self.sid2redis()
+
+    @staticmethod
+    def get_wos_sid_from_localstorage(tab):
+        s = tab.local_storage('wos_sid')
+        sid = s.strip('"')
+        return sid
+
+    def get_cookie_from_browser(self):
+        try:
+            if self.tab is None:
+                self.start_browser()
+
+            if self.first:
+                logger.info(f"第一次访问页面: {self.url}")
+                self.tab.get(self.url)
+                time.sleep(3)  # 等待页面加载
+
+                # 执行自定义操作
+                self.intercept_verify(op_func=self.dp_ins.first_ops)
+                time.sleep(2)
+                self.sid2redis()
+
+        except Exception as e:
+            logger.error(e)
+
+    def save_cookie_to_redis(self, wos_sid: str):
+        try:
+            current_time = datetime.now()
+            expired_time = current_time + timedelta(seconds=self.cookie_lifetime)
+            ip = get_self_ip()
+
+            cookie_data = {
+                'ip': ip,
+                'status': 'normal',
+                'generated_time': current_time.isoformat(),
+                'expired_time': expired_time.isoformat(),
+                'used_times': 0
+            }
+            self.redis_client.hset(
+                name=f'{self.redis_key_prefix}:{wos_sid}',
+                mapping=cookie_data
+            )
+            logger.info(f"Cookie已保存到Redis: {self.redis_key_prefix}:{wos_sid}")
+
+        except Exception as e:
+            (
+                logger.error(f"保存cookie到Redis失败: {str(e)}"))
+
+    def sid2redis(self):
+        """
+        存储到reids
+        :return:
+        """
+        wos_sid = self.get_wos_sid_from_localstorage(self.tab)
+        if wos_sid:
+            logger.info("保存 %s 到redis..." % wos_sid)
+            self.current_sid = wos_sid
+            self.save_cookie_to_redis(wos_sid)
+
+    def verify_hook(self, packet: DataPacket):
+        verified_tag = 'verified'
+        request_url = packet.request.url
+        verify_success = False
+        if request_url.find(VERIFY_ROUTER) != -1:  # 走验证了
+            logger.debug(f"正在验证: {request_url}\n"
+                         f"请求body: {packet.request.postData}")
+            response_body = packet.response.body
+            if isinstance(response_body, bytes):
+                verify_success = packet.response.body.find(verified_tag.encode()) != -1
+            elif isinstance(response_body, str):
+                verify_success = packet.response.body.find(verified_tag) != -1
+            elif isinstance(response_body, dict):
+                verify_success = response_body.get('key') == verified_tag
+            elif isinstance(response_body, list) and len(response_body) > 0:
+                verify_success = response_body[0].get('key') == verified_tag
+            else:
+                raise TypeError("未知的response_body类型")
+            if verify_success:
+                logger.info(f"验证成功: {request_url}")
+                return True
+            else:
+                return False
+        else:
+            logger.info("无需验证")
+            return True
+
+    def check_cookie_status(self, sid: str = None, default_status: str = "expired"):
+        if sid is None:
+            sid = self.current_sid
+
+        if not sid:
+            return default_status
+
+        status = self.redis_client.hget(name=f'{self.redis_key_prefix}:{sid}', key='status')
+
+        return status
+
+    def monitor_loop(self):
+        """
+        监控循环，定期检查cookie状态
+
+        Args:
+            custom_operations: 自定义操作函数
+        """
+        logger.info(f"开始监控cookie，检查间隔: {self.check_interval}秒")
+        while self._running:
+            try:
+                status = self.check_cookie_status()
+
+                if status == "validate":
+                    logger.warning("cookie使用次数超限/需要验证，准备进行验证。。。")
+                    # 验证逻辑，导出一次过验证
+                    self.intercept_verify(op_func=self.dp_ins.bypass_ops)
+
+                elif status == "expired":
+                    logger.warning("cookie已过期，准备重新获取。。。")
+                    # 刷新页面或者重新进行搜索/导出
+                    self.intercept_verify(op_func=self.refresh_page)
+                else:
+                    logger.info(f"Cookie状态正常: {status}")
+
+                # 等待下次检查
+                time.sleep(self.check_interval)
+            except Exception as e:
+                logger.error(e)
+
+    def start_monitor(self):
+        if self._running:
+            logger.warning("监控已在运行中")
+            return
+
+        if self.browser is None:
+            self.start_browser()
+
+        # 首次获取cookie
+        logger.info("首次获取cookie...")
+        self.get_cookie_from_browser()
+        if self.current_sid:
+            logger.error("首次获取cookie成功")
+        else:
+            logger.error("首次获取cookie失败")
+            if not self.keep_browser_alive:
+                self.close_browser()
+            return
+
+        # 如果不需要浏览器保活，关闭
+        if not self.keep_browser_alive:
+            self.close_browser()
+
+        # 启动监控线程
+        self._running = True
+        # self._monitor_thread = threading.Thread(
+        #     target=self.monitor_loop,
+        #     name="CookieMonitorThread",
+        #     daemon=True
+        # )
+        # self._monitor_thread.start()
+        self.monitor_loop()
+        logger.info("监控已启动")
+
+    def stop_monitor(self):
+        """停止监控"""
+        if not self._running:
+            logger.warning("监控未在运行")
+            return
+
+        logger.info("正在停止监控...")
+        self._running = False
+
+        if self._monitor_thread:
+            self._monitor_thread.join(timeout=5)
+
+        self.close_browser()
+        logger.info("监控已停止")
+
+
+def main():
+    manager = CookieManager(redis_uri="redis://:kcidea1509@192.168.1.211:6379/10", keep_browser_alive=True)
+    try:
+        manager.start_monitor()
+
+        # 主程序运行
+        logger.info("Cookie管理器正在运行，按Ctrl+C停止...")
+    except KeyboardInterrupt:
+        logger.info("收到停止信号")
+        # manager.close_browser()
+    finally:
+        manager.stop_monitor()
+
+
+if __name__ == '__main__':
+    main()
--- a/science_article_wos/science_article_wos/scripts/wos_parse_data.py
+++ b/science_article_wos/science_article_wos/scripts/wos_parse_data.py
--- a/science_article_wos/science_article_wos/settings.py
+++ b/science_article_wos/science_article_wos/settings.py
--- a/science_article_wos/science_article_wos/spiders/init.py
+++ b/science_article_wos/science_article_wos/spiders/init.py
@ -0,0 +1,4 @@
+# This package will contain the spiders of your Scrapy project
+#
+# Please refer to the documentation for information on how to create and manage
+# your spiders.
--- a/science_article_wos/science_article_wos/spiders/database.py
+++ b/science_article_wos/science_article_wos/spiders/database.py
--- a/science_article_wos/science_article_wos/spiders/download_by_search_record.py
+++ b/science_article_wos/science_article_wos/spiders/download_by_search_record.py
@ -0,0 +1,110 @@
+from typing import Any, List, Union
+from datetime import datetime
+import scrapy
+from scrapy import signals
+from scrapy.http import Response
+from scrapy.http.request.json_request import JsonRequest
+
+from .database import DatabaseSpider
+from science_article_wos.items import WosArticleItem, WosCitedNumberItem, WosIdRelationItem
+from science_article_wos.scripts.wos_parse_data import parse_full_records
+from science_article_wos.utils import model
+from science_article_wos.utils import tools
+from science_article_wos.utils import config
+
+
+def maybe_list(val: Union[int, List[int]]) -> List[int]:
+    if isinstance(val, int):
+        return [val]
+    return list(val)
+
+
+class DownloadBySearchRecordSpider(DatabaseSpider):
+    name = "download_by_search_record"
+    custom_settings = dict(
+        DOWNLOADER_MIDDLEWARES={
+            "science_article_wos.middlewares.WosCookieMiddleware": 500
+        },
+        # ITEM_PIPELINES={
+        #     "science_article_wos.pipelines.MongoPipeline": 300,
+        # },
+        REDIS_URL='redis://:kcidea1509@192.168.1.211:6379/10',
+        LOG_LEVEL="INFO"
+    )
+
+    def spider_opened(self, spider):
+        if self.record_id is None:
+            # 从数据库中查询任务执行
+            from science_article_wos.dao.database.connection import DatabaseManager
+            from science_article_wos.dao.models.search_record import SearchRecord
+            db_url = ""
+            db_manager = DatabaseManager(db_url)
+            with db_manager.session_scope() as session:
+                record = session.query(SearchRecord).filter_by(state="pending").first()
+                if record:
+                    print(f"查询到记录: {record}")
+                    self.record_id = record.record_id
+                    self.records_found = record.records_found
+                    self.mark_from = record.mark_from
+                    self.mark_to = record.mark_to
+                    self.shard = record.shard
+
+    def __init__(self, record_id: str = None, mark_from: int = 1, mark_to: int = 500, shard: str | int = None, records_found: int = None, **kwargs):
+        super().__init__()
+        self.record_id = record_id
+        self.records_found = records_found
+        self.mark_from = mark_from
+        self.mark_to = mark_to
+        self.shard = shard
+        self.task_id = None
+        self.org_id = None
+        self.query_id = None
+        self.bind_relation_enable = False
+        self.bind_relation_d = None
+        if self.bind_relation_enable:
+            self.build_relation()
+
+    def build_relation(self):
+        bind_relation_d = dict()
+        if self.task_id: self.bind_relation_d.setdefault("task_ids", maybe_list(self.task_id))
+        if self.org_id: self.bind_relation_d.setdefault("school_ids", maybe_list(self.org_id))
+        if self.query_id: self.bind_relation_d.setdefault("query_ids", maybe_list(self.query_id))
+        self.bind_relation_d = bind_relation_d
+        return bind_relation_d
+
+    async def start(self):
+        query_id = self.record_id
+        records_found = self.records_found
+        mark_start = self.mark_from
+        mark_end = self.mark_to
+        yield JsonRequest(config.WOS_EXPORT_FILE_API, method='POST',
+                          data=model.export_search_data_to_txt(query_id, mark_from=mark_start,
+                                                               mark_to=mark_end),
+                          callback=self.download_parse)
+
+    def download_parse(self, response: Response, **kwargs: Any) -> Any:
+        parse_count = 0
+        batch_time = datetime.now()
+        records = parse_full_records(response.body)
+        for data_dic in records:
+            t_id = data_dic.pop('ut', None)
+            if t_id:
+                parse_count += 1
+                article_item = WosArticleItem()
+                article_item['third_id'] = t_id
+                article_item['exported'] = data_dic
+                article_item['updated_at'] = batch_time
+                yield article_item
+                # 解析被引量
+                if cited_num := tools.str2int(data_dic.get("tc", 0), 0):
+                    cited_item = WosCitedNumberItem()
+                    cited_item['third_id'] = t_id
+                    cited_item['cited'] = cited_num
+                    cited_item['updated_at'] = batch_time
+                    yield cited_item
+                if self.bind_relation_enable and self.bind_relation_d:
+                    # 当启用绑定关系配置才会绑定各种关系
+                    relation_item = WosIdRelationItem()
+                    relation_item['third_id'] = t_id
+                    relation_item.update(**self.bind_relation_d)
+                    yield relation_item
--- a/science_article_wos/science_article_wos/utils/init.py
+++ b/science_article_wos/science_article_wos/utils/init.py
--- a/science_article_wos/science_article_wos/utils/config.py
+++ b/science_article_wos/science_article_wos/utils/config.py
@ -0,0 +1,96 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2024/1/16 8:41
+# @Author  : zhaoxiangpeng
+# @File    : config.py
+
+from datetime import datetime
+
+# 数据来源名
+SOURCE_NAME = 'wos'
+
+WOS_SEARCH_API = "https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch"
+WOS_DETAIL_LINK = 'https://webofscience.clarivate.cn/wos/woscc/full-record/{wos_id}'
+WOS_DETAIL_API = 'https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch'
+
+WOS_ADVANCED_SEARCH_API = 'https://webofscience.clarivate.cn/api/wosnx/core/runQuerySearch'
+WOS_EXPORT_FILE_API = 'https://webofscience.clarivate.cn/api/wosnx/indic/export/saveToFile'
+
+WOS_RECORD_STREAM_API = "https://webofscience.clarivate.cn/api/wosnx/core/runQueryGetRecordsStream"
+WOS_REFINE_API = "https://webofscience.clarivate.cn/api/wosnx/core/runQueryRefine"
+
+# WOS starter api
+WOS_STARTER_DOCUMENT_UID_API = "https://api.clarivate.com/apis/wos-starter/v1/documents/{uid}"  # Unique Identifier/Accession Number
+WOS_STARTER_DOCUMENT_API = "https://api.clarivate.com/apis/wos-starter/v1/documents"
+WOS_STARTER_PER_PAGE_LIMIT = 50  # 每页限制的数量
+
+# WOS lite api
+WOS_LITE_QUERY_FIRST_API = 'https://wos-api.clarivate.com/api/woslite'  # 第一个请求，请求后会有一个query的序号
+WOS_LITE_QUERY_API = 'https://wos-api.clarivate.com/api/woslite/query'  # 使用序号进行翻页
+
+# 发文表
+WOS_ARTICLE_COLLECTION = 'data_{}_article'.format(SOURCE_NAME)
+# 被引量集合
+WOS_CITED_NUMBER_COLLECTION = "relation_cited_number_{}".format(SOURCE_NAME)
+# 发文关系表
+SCHOOL_RELATION_COLLECTION = 'relation_school_{}'.format(SOURCE_NAME)
+# 参考文献集合
+WOS_REFERENCE_COLLECTION = "relation_reference_{}".format(SOURCE_NAME)
+# 待下载Id表
+ARTICLE_TODO_IDS_COLLECTION = "todo_ids_{}".format(SOURCE_NAME)
+
+# CSCD来源的发文表
+WOS_CSCD_ARTICLE_COLLECTION = 'data_{}_article_{}'.format(SOURCE_NAME, 'cscd')
+
+# cookie池配置
+# COOKIE_POOL_CONFIG = dict(host=setting.REDIS_HOST, port=6379, db=setting.REDIS_DB, password=setting.REDIS_PASSWORD)
+COOKIE_POOL_GROUP = 'cookies_pool:wos:sid*'
+COOKIE_POOL_KEY = 'cookies_pool:wos:sid-sjtu'
+COOKIE_TTL = 60 * 60 * 4
+
+# 下载的单个文件的大小
+BATCH_DOWNLOAD_LIMIT = 500
+# 导出文件时的默认值
+DEFAULT_EXPORT_RECORD_FILTER = "fullRecordPlus"  # fullRecordPlus
+
+# 表头验证配置
+SUCCESS_TABLE_HEAD_START = b'\xef\xbb\xbfPT'
+LOST_TABLE_HEAD_START = b'\xef\xbb\xbfnull'
+AUTO_TABLE_HEAD_START = b'\xef\xbb\xbfPT\tAU\tBA\tBE\tGP\tAF\tBF\tCA\tTI\tSO\tSE\tBS\tLA\tDT\tCT\tCY\tCL\tSP\tHO\tDE\tID\tAB\tC1\tC3\tRP\tEM\tRI\tOI\tFU\tFP\tFX\tCR\tNR\tTC\tZ9\tU1\tU2\tPU\tPI\tPA\tSN\tEI\tBN\tJ9\tJI\tPD\tPY\tVL\tIS\tPN\tSU\tSI\tMA\tBP\tEP\tAR\tDI\tDL\tD2\tEA\tPG\tWC\tWE\tSC\tGA\tPM\tOA\tHC\tHP\tDA\tUT\r\n'
+
+
+CORE_NAME_TABLE = dict(
+    WOSCC="Web of Science Core Collection",
+    BCI="BIOSIS Citation Index",
+    SCIELO="SciELO Citation Index",
+    RSCI="Russian Science Citation Index",
+    CSCD="Chinese Science Citation Database℠",
+    ARCI="Arabic Citation Index",
+    DIIDW="Derwent Innovations Index",
+    PPRN="",
+    PQDT="ProQuest ™ Dissertations & Theses Citation Index"
+)
+NAV_NAME_TABLE = dict(
+    SCI="Science Citation Index Expanded (SCI-Expanded)",
+    ESCI="Emerging Sources Citation Index (ESCI)",
+    SSCI="Social Sciences Citation Index (SSCI)",
+    ISTP="Conference Proceedings Citation Index – Science (CPCI-S)",
+    BSCI="Book Citation Index – Science (BKCI-S)",
+    AHCI="Arts & Humanities Citation Index (A&HCI)",
+    IC="Index Chemicus (IC)",
+    ISSHP="Conference Proceedings Citation Index – Social Sciences & Humanities (CPCI-SSH)"
+)
+
+TASK_CONFIG = {
+    "school_id": 83,
+    "school_name": "北京林业大学",
+    "search_policy": """OG=(Beijing Forestry University)""",
+    "crawl_year": [2021, 2022, 2023],
+    "source_type": 1,
+    "priority": 10,
+    "is_important": 1,
+    "update_interval": 60 * 60 * 24 * 14,
+    "create_time": datetime.now(),
+    "last_time": datetime.now(),
+    "next_time": datetime.now(),
+    "state": 0
+}
--- a/science_article_wos/science_article_wos/utils/model.py
+++ b/science_article_wos/science_article_wos/utils/model.py
--- a/science_article_wos/science_article_wos/utils/tools.py
+++ b/science_article_wos/science_article_wos/utils/tools.py
--- a/science_article_wos/science_article_wos/utils/xpath_cfg.py
+++ b/science_article_wos/science_article_wos/utils/xpath_cfg.py
--- a/science_article_wos/scrapy.cfg
+++ b/science_article_wos/scrapy.cfg
--- a/science_article_wos/starter/crawl_article_by_qid.py
+++ b/science_article_wos/starter/crawl_article_by_qid.py
@ -0,0 +1,59 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/12/11 13:56
+# @Author  : zhaoxiangpeng
+# @File    : crawl_article_by_qid.py
+import math
+from scrapy.crawler import CrawlerProcess
+from scrapy.utils.project import get_project_settings
+from science_article_wos.spiders.download_by_search_record import DownloadBySearchRecordSpider
+
+BATCH_DOWNLOAD_LIMIT = 500
+
+
+def f(record_id: str, records_found: int, shard_count: int = None):
+    mark_start = 1
+    mark_end = 0
+    idx = 0
+    shard_count = shard_count or math.ceil(records_found / BATCH_DOWNLOAD_LIMIT)
+    for i in range(shard_count):
+        idx += 1
+        mark_end += BATCH_DOWNLOAD_LIMIT
+
+        if mark_end > records_found:
+            mark_end = records_found
+
+        yield dict(
+            record_id=record_id,
+            mark_from=mark_start, mark_to=mark_end,
+            shard=idx, shard_count=shard_count,
+            records_found=records_found
+        )
+
+        mark_start += BATCH_DOWNLOAD_LIMIT
+
+
+def ready():
+    """
+    把待采集的任务入库
+    :return:
+    """
+    RECORDS_FOUND = 1486
+
+
+def test_starter():
+    init_params = dict(
+        record_id='68ce1627-b4c3-4938-adcb-476c7dcde004-0192d3c012',
+        mark_from=1, mark_to=50,
+        shard=1, shard_count=51,
+        records_found=25256
+    )
+
+    process = CrawlerProcess(get_project_settings())
+    process.crawl(DownloadBySearchRecordSpider, **init_params)
+    process.start()
+
+
+def starter():
+    process = CrawlerProcess(get_project_settings())
+    process.crawl(DownloadBySearchRecordSpider)
+    process.start()
--- a/science_article_wos/tests/search_records_orm.py
+++ b/science_article_wos/tests/search_records_orm.py
@ -0,0 +1,70 @@
+# -*- coding: utf-8 -*-
+# @Time    : 2025/12/15 16:47
+# @Author  : zhaoxiangpeng
+# @File    : search_records_orm.py
+import math
+from science_article_wos.dao.database.connection import DatabaseManager
+from science_article_wos.dao.models.search_record import SearchRecord
+BATCH_DOWNLOAD_LIMIT = 500
+
+
+def f(record_id: str, records_found: int, shard_count: int = None):
+    mark_start = 1
+    mark_end = 0
+    idx = 0
+    shard_count = shard_count or math.ceil(records_found / BATCH_DOWNLOAD_LIMIT)
+    for i in range(shard_count):
+        idx += 1
+        mark_end += BATCH_DOWNLOAD_LIMIT
+
+        if mark_end > records_found:
+            mark_end = records_found
+
+        yield dict(
+            record_id=record_id,
+            mark_from=mark_start, mark_to=mark_end,
+            shard=idx, shard_count=shard_count,
+            records_found=records_found
+        )
+
+        mark_start += BATCH_DOWNLOAD_LIMIT
+
+
+if __name__ == "__main__":
+    # 根据您的数据库类型选择连接字符串
+    # MySQL
+    db_url = "mysql+pymysql://root:admin000@localhost/crawler"
+
+    # SQLite
+    # db_url = "sqlite:///search_records.db"
+
+    # 初始化数据库管理器
+    db_manager = DatabaseManager(db_url)
+
+    # 创建表
+    db_manager.create_tables()
+
+    # 使用示例
+    with db_manager.session_scope() as session:
+    #     search_record_id = "02f30273-1342-4d61-9e51-c1ea1f5b2423-0190efdd10"
+    #     for d in f(search_record_id, 10641):
+    #         # 创建新记录
+    #         new_record = SearchRecord(
+    #             **d
+    #         )
+    #
+    #         session.add(new_record)
+    #         print(f"记录已添加: {new_record}")
+    #     session.commit()
+
+        # 查询记录
+        record = session.query(SearchRecord).filter_by(state="pending").first()
+        if record:
+            print(f"查询到记录: {record}")
+
+        # 更新记录
+        if record:
+            record.state = "processing"
+            record.reason = "正在处理数据"
+            session.commit()
+            print(f"记录已更新: {record}")
--- a/wos/wos/items.py
+++ b/wos/wos/items.py
@ -3,10 +3,25 @@
 # See documentation in:
 # https://docs.scrapy.org/en/latest/topics/items.html

+from datetime import datetime
 import scrapy


 class WosItem(scrapy.Item):
    # define the fields for your item here like:
-    # name = scrapy.Field()
-    pass
+    third_id = scrapy.Field()
+    updated_at = scrapy.Field()
+
+
+class WosArticleItem(WosItem):
+    """
+    wos发文item
+    """
+    exported = scrapy.Field()
+
+
+class WosCitedNumberItem(WosItem):
+    """发文被引量item"""
+    third_id = scrapy.Field()
+    cited = scrapy.Field()
+    updated_at = scrapy.Field()
Author	SHA1	Message	Date
zhaoxiangpeng	a95f242bd5	cnki:更改v的取值	4 months ago
zhaoxiangpeng	a97423e71f	cnki:采集所有库	4 months ago
zhaoxiangpeng	7883a2d349	cnki:公共工具	4 months ago
zhaoxiangpeng	d452c24baf	cnki:增加枚举类型	4 months ago
zhaoxiangpeng	21c8179918	Merge branch 'main' of https://gitea.resourcemap.com.cn/zhaoxiangpeng/science-spider2	4 months ago
zhaoxiangpeng	7b97965a85	wos:item	4 months ago
zhaoxiangpeng	efe077695d	cnki:通过id下载	4 months ago
zhaoxiangpeng	8b2862774e	cnki:修改配置	4 months ago
zhaoxiangpeng	17b5253fde	add:备份	4 months ago
zhaoxiangpeng	14eea8c9d1	add:docker	4 months ago
zhaoxiangpeng	abdad5b786	add:搁置更改	4 months ago
zhaoxiangpeng	12e9ed53a9	wos	4 months ago
zhaoxiangpeng	e48c1cc704	wos:scrapy下载导出文件	4 months ago
zhaoxiangpeng	d9e96bd3cc	wos:scrapy使用dp下载	4 months ago
zhaoxiangpeng	bcbc59e659	wos:param model	4 months ago
zhaoxiangpeng	b47caf1c59	wos:生产任务	4 months ago
zhaoxiangpeng	1b0da2c41e	wos:启动代码	4 months ago