优化DifyCompareTest和WorkorderToDify模块，调整日志记录格式，修复API密钥获取方式，增强工单处理流程，添加元数据管理功能，改进并发上传逻辑，更新文档处理方式。

2025-07-28 08:34:17 +08:00
parent 780f423200
commit ba42107999
3 changed files with 356 additions and 64 deletions
@@ -105,7 +105,7 @@ class DifyApi:
        while idx < 5:
            if self.get_document_indexing_status(dataset_id, response.json().get("batch")):
                break
-            time.sleep(1)
+            time.sleep(5)
            idx += 1
        else:
            logging.warning("文档索引超时，可能需要手动检查。")
@@ -221,11 +221,101 @@ class DifyApi:
        # 获取所有文档
        doc_info = self.get_documents(dataset_id, keyword=document_name)
        for doc_id, info in doc_info.items():
-            if info["name"].split('.')[0] == document_name:
+            if info["name"] == document_name:
                return doc_id

-        print(f'获取文档ID失败。名称: {document_name}。原因：未找到文档ID')
        return ''
+        
+    def add_document_metadata(self, dataset_id: str, document_id: str, metadata_list: List[Dict]) -> bool:
+        """
+        为文档添加元数据。
+
+        :param dataset_id: 数据集ID。
+        :param document_id: 文档ID。
+        :param metadata_list: 元数据列表，每项包含id、name和value。
+        :return: 如果添加成功返回True，否则返回False。
+        """
+        url = f"{self.dify_url}/datasets/{dataset_id}/documents/metadata"
+        headers = {
+            'Authorization': f'Bearer {self.dify_dataset_api_key}',
+            'Content-Type': 'application/json'
+        }
+        
+        data = {
+            "operation_data": [
+                {
+                    "document_id": document_id,
+                    "metadata_list": metadata_list
+                }
+            ]
+        }
+        
+        try:
+            response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)
+            if response.status_code == 200:
+                logging.info(f"成功为文档 {document_id} 添加元数据")
+                return True
+            else:
+                logging.error(f"添加元数据失败，状态码: {response.status_code}, 响应: {response.text}")
+                return False
+        except Exception as e:
+            logging.error(f"添加元数据请求失败: {e}")
+            return False
+            
+    def get_dataset_metadata(self, dataset_id: str) -> List[Dict]:
+        """
+        获取数据集的元数据。
+
+        :param dataset_id: 数据集ID。
+        :return: 元数据列表，如果获取失败则返回空列表。
+        """
+        url = f"{self.dify_url}/datasets/{dataset_id}/metadata"
+        headers = {
+            'Authorization': f'Bearer {self.dify_dataset_api_key}'
+        }
+        
+        try:
+            response = requests.get(url, headers=headers, verify=False)
+            if response.status_code == 200:
+                return response.json()
+            else:
+                logging.error(f"获取数据集元数据失败，状态码: {response.status_code}, 响应: {response.text}")
+                return []
+        except Exception as e:
+            logging.error(f"获取数据集元数据请求失败: {e}")
+            return []
+            
+    def create_dataset_metadata(self, dataset_id: str, metadata_type: str, metadata_name: str) -> Dict:
+        """
+        创建数据集元数据。
+
+        :param dataset_id: 数据集ID。
+        :param metadata_type: 元数据类型，如"string"。
+        :param metadata_name: 元数据名称。
+        :return: 创建的元数据信息，如果创建失败则返回空字典。
+        """
+        url = f"{self.dify_url}/datasets/{dataset_id}/metadata"
+        headers = {
+            'Authorization': f'Bearer {self.dify_dataset_api_key}',
+            'Content-Type': 'application/json'
+        }
+        
+        data = {
+            "type": metadata_type,
+            "name": metadata_name
+        }
+        
+        try:
+            response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)
+            if response.json()["id"]:
+                logging.info(f"成功创建数据集元数据: {metadata_name}")
+                return response.json()
+            else:
+                logging.error(f"创建数据集元数据失败，状态码: {response.status_code}, 响应: {response.text}")
+                return {}
+        except Exception as e:
+            logging.error(f"创建数据集元数据请求失败: {e}")
+            return {}

    def get_document_last_update_time(self, dataset_id: str, document_name: str) -> str:
        """
@@ -638,9 +728,7 @@ if __name__ == '__main__':
    load_dotenv()

    d = DifyApi()
-    id = d.upload_file(r"D:\Code\DataConvertUpload\wiki3todify\images\5fd27f31858f808f7659165628bfb8a7.png")
-    print(id)
-    
-    # d.remove_dataset_all_doc("0b835829-4d47-4419-832f-3cd6d9510b87")
+
+    # d.remove_dataset_all_doc("8673162d-0db1-4752-905e-ae3ef377a541")
    # d.remove_dataset_all_doc("78abfb73-7e12-4dd4-92ff-b377b0235690")
    # d.remove_dataset_all_doc("841b890e-c769-4839-8314-70756c0bf3c1")