6.13提交，语义处理测试

2025-06-13 10:11:42 +08:00
parent 026f9bd70c
commit 89b0154217
11 changed files with 2481 additions and 0 deletions
@@ -0,0 +1,229 @@
+from langchain_openai import ChatOpenAI
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.prompts import ChatPromptTemplate
+from langchain_core.prompts.prompt import PromptTemplate
+from langchain_core.output_parsers import JsonOutputParser
+
+qwen_llm = ChatOpenAI(
+    openai_api_base="https://api.siliconflow.cn/v1",
+    model_name="Qwen/Qwen2.5-72B-Instruct",
+    # sk-muuqautpcyuowjtgfecbnivqodlhzydtfslqkmwbknawejsx
+    openai_api_key="sk-bbeamiumkouptsrueilgufqqyuumelcsivxwjbdugqwsqhwj",
+    temperature=0.1
+)
+
+deep_v3 = ChatOpenAI(
+    openai_api_base="https://api.siliconflow.cn/v1",
+    model_name="deepseek-ai/DeepSeek-V3",
+    # sk-muuqautpcyuowjtgfecbnivqodlhzydtfslqkmwbknawejsx
+    openai_api_key="sk-bbeamiumkouptsrueilgufqqyuumelcsivxwjbdugqwsqhwj",
+    temperature=0.1
+)
+
+def Problem_rewrite():
+    PromptTemplate1 = """
+    请根据用户的输入内容，替换其中内容：  
+
+    【用户输入】：
+    {query}
+
+    【检索内容】：
+    {retriever}
+
+    【举例】：
+    用户输入：塔材装材费是多少？
+    检索内容：角钢塔_塔材装材费_元
+    得到的结果：【角钢塔_塔材装材费_元】是多少？
+
+    【要求】：
+    - 不允许输出任何解释、标点符号或额外内容，仅在原输入上进行替换
+    - 替换后的内容要加上【】
+    """
+
+    Prompt = ChatPromptTemplate.from_template(PromptTemplate1)
+
+    Chain = Prompt | deep_v3 | StrOutputParser()
+    # Chain = Prompt | llm | StrOutputParser()
+
+    return Chain 
+
+def question_answer():
+    PromptTemplate1 = """
+    请根据用户的输入内容，和检索到的信息，回答问题：  
+
+    【用户输入】：
+    {query}
+
+    【实际检索目标】：
+    {retriever_keywords}
+
+    【检索内容】：
+    {retriever_info}
+
+    【要求】：
+    - 不允许输出任何解释、标点符号或额外内容
+    - 要选找到和实际检索目标最接近的检索内容，直接读取相关信息进行解答，不做任何运算
+    - 检索到的信息不一定有用，如果和问题毫无相关性，则回答不会
+    """
+
+    Prompt = ChatPromptTemplate.from_template(PromptTemplate1)
+
+    Chain = Prompt | deep_v3 | StrOutputParser()
+    # Chain = Prompt | llm | StrOutputParser()
+
+    return Chain 
+
+
+def question_answer_calculation():
+    PromptTemplate1 = """
+    请根据用户的实际检索目标查到的内容，基于用户输入和计算公式回答问题：  
+
+    【用户输入】：
+    {query}
+
+    【实际检索目标】：
+    {retriever_keywords}
+
+    【计算公式】：
+    {calculation}
+
+    【检索内容】：
+    {retriever_info}
+
+    【要求】：
+    - 不允许输出任何解释、标点符号或额外内容
+    - 要选找到和实际检索目标最接近的检索内容，直接读取相关信息进行解答，不做任何运算
+    - 检索到的信息不一定有用，如果和问题毫无相关性，则回答不会
+    """
+
+    Prompt = ChatPromptTemplate.from_template(PromptTemplate1)
+
+    Chain = Prompt | deep_v3 | StrOutputParser()
+    # Chain = Prompt | llm | StrOutputParser()
+
+    return Chain 
+
+
+"""neo4j"""
+
+from langchain_community.graphs import Neo4jGraph
+
+
+
+graph = Neo4jGraph(
+    url="bolt://172.20.0.145:7687",
+    username="neo4j",
+    password="password",
+)
+
+graph.refresh_schema()
+
+
+from langchain.prompts import (
+    PromptTemplate,
+    SystemMessagePromptTemplate,
+    HumanMessagePromptTemplate,
+    ChatPromptTemplate,
+)
+
+cypher_generation_template = """
+# 任务：
+为 Neo4j 图数据库生成 Cypher 查询。
+
+# 说明：
+仅使用架构中提供的关系类型和属性。 不得使用架构中未提供的关系类型或属性。
+
+# 架构：
+{schema}
+
+# 注意：
+不得在回答中包含任何解释或道歉。 
+不得回答任何不要求构造 Cypher 查询的问题。
+回答中不得包含除生成的 Cypher 查询以外的任何文本。
+请确保查询中关系的方向正确，并正确为实体和关系设置别名。
+在查询中使用 WITH 为后续语句设置别名（例如，WITH v as visit, c.billing_amount as billing_amount）。
+如果需要进行数字除法运算，请确保对分母进行非零过滤。
+
+# 注意
+在查询关键字时，不能使用MATCH (n:PropertyNode)，要用最原始的MATCH (n)
+在查询中分析缺失属性时，必须使用 IS NULL 或 IS NOT NULL。 
+不得在查询中返回嵌套属性。
+不得在查询中包含 "GROUP BY" 语句。
+请确保为所有后续语句使用 WITH 设置别名（例如，WITH v as visit, c.billing_amount as billing_amount）。
+如果需要进行数字除法运算，请确保对分母进行非零过滤。
+
+# 示例：
+
+1.
+输入：
+查找一下【工程数据/安装工程/安装/架空输电线路本体工程/基础工程】的【定额】下的【YX2-1/YX2-2/YX2-3/YX2-4/YX2-5/YX2-6/YX2-7】
+输出：
+MATCH (root:ProjectDivisionItem [name: '架空输电线路本体工程'])-[:HAS_CHILD]->(base:ProjectDivisionItem [name: '基础工程'])
+MATCH path = (base)-[:HAS_CHILD]->(child)-[:HAS_COMPONENT*1..]->(component)
+WHERE ANY(prop IN keys(component) WHERE toString(component[prop]) =~ 'YX2-[1-7]')
+RETURN component
+
+2.
+输入：
+查找一下【工程数据/安装工程/安装/架空输电线路本体工程/杆塔工程/杆塔组立/铁塔、钢管杆组立】的【主材】下的【角钢】
+输出：
+MATCH (root:ProjectDivisionItem [name: '架空输电线路本体工程'])-[:HAS_CHILD]->(base1:ProjectDivisionItem [name: '杆塔工程'])-[:HAS_CHILD]->(base2:ProjectDivisionItem [name: '杆塔组立'])-[:HAS_CHILD]->(base3:ProjectDivisionItem [name: '铁塔、钢管杆组立'])
+MATCH path = (base3)-[:HAS_COMPONENT*1..]->(component)
+WHERE ANY(prop IN keys(component) WHERE toString(component[prop]) CONTAINS '角钢') 
+RETURN component
+
+3.
+输入：
+查找一下【架空输电线路本体工程/架线工程/导地线架设】和【架空输电线路本体工程/架线工程/导地线跨越架设】的【主材】下的【高导电率】
+输出：
+MATCH (root:ProjectDivisionItem [name: '架空输电线路本体工程'])
+-[:HAS_CHILD]->(base1:ProjectDivisionItem [name: '架线工程'])-[:HAS_CHILD]->(base:ProjectDivisionItem)
+WHERE base.name IN ['导地线架设', '导地线跨越架设']
+MATCH path = (base)-[:HAS_COMPONENT*1..]->(component)
+WHERE ANY(prop IN keys(component) WHERE toString(component[prop]) CONTAINS '高导电率') 
+RETURN component
+
+
+问题：
+{question}
+"""
+
+cypher_generation_prompt = PromptTemplate(
+    input_variables=["schema", "question"], template=cypher_generation_template
+)
+
+qa_generation_template = """你是一个助手，根据 Neo4j Cypher 查询的结果生成可读的回答。查询结果部分包含根据用户的自然语言问题生成的 Cypher 查询结果。提供的信息是权威的；你必须始终使用这些信息来构建回答，不得使用内部知识来质疑或更正这些信息。确保回答听起来像是对问题的直接回应。
+
+用户提出了以下问题：
+{question}
+
+运行了一个 Cypher 查询，生成了以下结果：
+{context}
+
+如果提供的信息是空的，就说明你不知道答案。
+空的信息看起来是这样的：[]
+
+如果查询结果不为空，你必须提供一个回答。
+
+如果有查询结果数据，绝不能说你没有正确的信息。如果用户提问时需要显示所有相关查询结果，确保你显示所有相关结果。你必须始终假设提供的查询结果与问题相关。回答时只能基于提供的查询结果构建答案。
+
+"""
+
+qa_generation_prompt = PromptTemplate(
+    input_variables=["context", "question"], template=qa_generation_template
+)
+
+from langchain.chains import GraphCypherQAChain
+
+booway_cypher_chain = GraphCypherQAChain.from_llm(
+    allow_dangerous_requests=True,
+    cypher_llm=deep_v3,                       # 用于生成Cypher查询的LLM
+    qa_llm=deep_v3,                           # 用于根据Cypher查询结果生成答案的LLM
+    graph=graph,
+    verbose=True,
+    qa_prompt=qa_generation_prompt,
+    cypher_prompt=cypher_generation_prompt,
+    validate_cypher=True,
+    top_k=100,
+    return_intermediate_steps=True
+)
@@ -0,0 +1,145 @@
+测试1
+测试2
+电压等级
+工程编码
+工程名称
+工程时间
+线路曲折系数
+线路长度合计_折单
+路径长度_单回路长度
+路径长度_双回路长度
+路径长度_三回路长度
+路径长度_四回路长度
+杆塔总基数
+角钢塔_塔基数
+角钢塔_塔材量
+角钢塔_其中：高强钢塔材量
+角钢塔_塔材装材费
+角钢塔_塔材装材费_元
+角钢塔_其中：高强钢塔材费用
+角钢塔_其中：高强钢塔材费用_元
+钢管塔_塔基数
+钢管塔_塔材量
+钢管塔_钢管价格
+钢管塔_钢管价格_元
+钢管杆_塔基数
+钢管杆_塔材量
+钢管杆_钢管价格
+钢管杆_钢管价格_元
+水泥杆基数
+直线塔基数
+耐张转角塔基数
+海拔
+导线及线材_分裂数
+导线及线材_单根导线面积
+导线及线材_导线量
+导线及线材_其中：节能导线量
+导线及线材_导线装材费
+导线及线材_导线装材费_元
+导线及线材_其中：节能导线费用
+导线及线材_其中：节能导线费用_元
+导线及线材_导线类型
+设计风速
+覆冰厚度
+地形分布_平地
+地形分布_丘陵
+地形分布_河网
+地形分布_泥沼
+地形分布_山地
+地形分布_高山
+地形分布_沙漠
+地形分布_峻岭
+地质条件_普通土
+地质条件_坚土
+地质条件_松砂石
+地质条件_水坑
+地质条件_泥水坑
+地质条件_流沙坑
+地质条件_岩石爆破
+地质条件_岩石人工
+土石方总量
+土石方量_基坑
+土石方量_接地
+土石方量_基面
+各类基础数量占总塔基数比例_台阶式
+各类基础数量占总塔基数比例_板式
+各类基础数量占总塔基数比例_插入式
+各类基础数量占总塔基数比例_掏挖
+各类基础数量占总塔基数比例_岩石嵌固
+各类基础数量占总塔基数比例_锚杆
+各类基础数量占总塔基数比例_灌注桩
+各类基础数量占总塔基数比例_人工挖孔桩
+各类基础数量占总塔基数比例_其他
+台阶式基础基数
+板式基础基数
+插入式基础基数
+掏挖基础基数
+岩石嵌固基础基数
+锚杆基础基数
+灌注桩基础基数
+人工挖孔桩基础基数
+其他基础基数
+基础混凝土总量
+灌注桩基础混凝土量
+现浇基础混凝土量
+挖孔基础混凝土量
+基础护壁混凝土用量
+预制混凝土用量
+基础钢材量
+基础钢材价格
+本体费用合计
+本体工程人工费
+本体工程机械费
+基础工程费用
+杆塔工程费用
+接地工程费用
+架线工程费用
+附件工程费用
+辅助工程费用
+辅助设施工程
+其他费用合计
+建场费合计
+项目建设管理费合计
+其中：工程监理费
+项目建设技术服务费合计
+其中：项目前期工作费
+其中：勘察费
+其中：设计费
+其中：工程建设检测费
+生产准备费
+其中：安全文明施工费
+基本预备费
+静态投资
+建设期利息
+动态投资
+增值税抵扣税额
+本体费用合计_元
+本体工程人工费_本体_元
+本体工程人工费_调试_元
+本体工程机械费_本体_元
+本体工程机械费_调试_元
+基础工程费用_元
+杆塔工程费用_元
+接地工程费用_元
+架线工程费用_元
+附件工程费用_元
+辅助工程费用_元
+辅助工程费用_调试_元
+辅助设施工程_元
+其他费用合计_元
+建场费合计_元
+项目建设管理费合计_元
+其中：工程监理费_元
+项目建设技术服务费合计_元
+其中：项目前期工作费_元
+其中：勘察费_元
+其中：设计费_元
+其中：工程建设检测费_元
+生产准备费_元
+其中：安全文明施工费_线路_元
+其中：安全文明施工费_调试_元
+基本预备费_元
+静态投资_元
+建设期利息_元
+动态投资_元
+增值税抵扣税额_元
@@ -0,0 +1,37 @@
+from chains_lab import Problem_rewrite
+
+problem_rewrite = Problem_rewrite()
+
+from vector_lab import intersection_of_three_lists
+
+# input_str1 = "杆塔总基数是多少？"
+# input_str2 = "单回路长度是多少？"
+# input_str3 = "计算一下角钢塔的塔材装材费"
+# input_str4 = "计算一下土石方总量"
+# input_str5 = "板式塔基的各类基础数量占总塔基数比例是多少？"
+# input_str6 = "基础混凝土总量是多少"
+# input_str7 = "计算一下本体工程机械费"
+# ipout_str8 = "项目建设技术服务费合计"
+
+input_str = "项目建设技术服务费合计是多少？"
+results = intersection_of_three_lists(input_str)
+
+retriever = intersection_of_three_lists(input_str)[0]
+
+print(f"输入:{input_str}")
+
+keywords = problem_rewrite.invoke({"query":input_str, "retriever":retriever})
+
+print(f"输出:{keywords}")
+
+
+import json
+
+with open('./data/data.json', 'r', encoding='utf-8') as file:
+    data = json.load(file)
+
+from utils import find_target_item, find_target_items, pre_mapping, pre_mapping2
+
+input_neo4j = pre_mapping2(keywords, data)
+
+print(f"检索目标：{input_neo4j}")
@@ -0,0 +1,12 @@
+with open("./data/data.json", 'r', encoding='utf-8') as json_file:
+    data_list = json.load(json_file)
+
+with open("./data/data.txt", 'w', encoding='utf-8') as txt_file:
+    for item in data_list:
+        if "指标名称" in item:
+            txt_file.write(item["指标名称"] + '\n')
+        else:
+            txt_file.write("无指标名称字段\n")
+
+with open("./data/data.txt", 'r', encoding='utf-8') as file:
+    txt_list = [line.strip() for line in file]
@@ -0,0 +1,221 @@
+def Dictionary_content_mapping(input_str, data, key="指标名称"):
+    import re
+
+    match = re.search(r'【(.*?)】', input_str)
+
+    if match:
+        extracted = match.group(1)
+    else:
+        return None  # 如果没有匹配到，提前返回
+
+    for i in range(len(data)):
+        if data[i].get(key) == extracted:
+            return data[i]
+
+    return None
+
+def find_target_item(input_str, data):
+    result = [None, None]
+    temp = None
+    for item in data:
+        if isinstance(item["指标描述"], dict):
+            if item["指标描述"]["指标映射"][0] == input_str:
+                result[0] = item["指标描述"]["映射规则"]
+                temp = item["指标描述"]["指标映射"][0]
+
+    for item in data:
+        if item["指标名称"] == temp:
+            result[1] = item['指标描述']
+            return result
+
+def find_target_items(ele, input_str, data):
+    result = [None, ele]
+    for item in data:
+        if isinstance(item["指标描述"], dict):
+            if item["指标名称"] == input_str or item["指标描述"]["指标映射"][0] == input_str:
+                if len(item["指标描述"]["指标映射"]) == 1:
+                    result[0] = item["指标描述"]["指标映射"][0]
+    return result
+
+def judge_exists(input_str, data):
+    for item in data:
+        if isinstance(item["指标描述"], dict):
+            if item["指标名称"] == input_str or item["指标描述"]["指标映射"][0] == input_str:
+                return True
+    return False
+
+def judge_str(ceshi, data):
+    for item in data:
+        if isinstance(item["指标描述"], str):
+            if item["指标名称"] == ceshi["指标描述"]["指标映射"][0]:
+                return True
+    return False
+
+def pre_mapping(keywords, data):
+    import re
+
+    match = re.search(r'【(.*?)】', keywords)
+
+    if match:
+        extracted = match.group(1)
+
+    for i in range(len(data)):
+        if data[i]["指标名称"] == extracted:
+            ceshi = data[i]
+            break
+
+    if isinstance(ceshi["指标描述"], str):
+        return ceshi["指标描述"]
+
+    elif isinstance(ceshi["指标描述"], dict):
+        if ceshi["指标描述"]["映射规则"] == "1":
+            temp = ceshi["指标描述"]["指标映射"][0]
+            return f"模糊查找一下【{temp}】"
+        else:
+            if len(ceshi["指标描述"]["指标映射"]) == 1:
+                temp0, temp1 = find_target_item(ceshi["指标描述"]["指标映射"][0], data)
+                return f"{temp1}，换算规则：【{temp0}】"
+
+            elif len(ceshi["指标描述"]["指标映射"]) > 1:
+                
+                
+                result = []
+                if judge_str(ceshi, data) == True:
+                    for ele in ceshi["指标描述"]["指标映射"]:
+                        for item in data:
+                            if isinstance(item["指标描述"], str) and item["指标名称"] == ele:
+                                temp1 = item["指标描述"]
+                                temp2 = ceshi["指标描述"]["映射规则"]
+                                result.append(f"{temp1}，换算规则：【{temp2}】")
+
+                else:
+                
+                    for item in ceshi["指标描述"]["指标映射"]:
+                        temp0, temp1 = find_target_items(ceshi["指标描述"]["映射规则"], item, data)
+    
+                        if temp0 is None and temp1 is None:
+                            pass
+                        elif temp0 != None and temp1 is None:
+                            if judge_exists(item, data):
+                                temp1 = item
+                                # temp0 = find_target_items(ceshi["指标描述"]["映射规则"], item, data)
+                                result.append(f"模糊查找一下【{temp0}】，换算规则：【{temp1}】")
+                            else:
+                                continue
+    
+                        elif temp0 != None and temp1 != None:
+                            if judge_exists(item, data):
+                                # temp0, temp1 = find_target_items(ceshi["指标描述"]["映射规则"], item, data)
+                                result.append(f"模糊查找一下【{temp0}】，换算规则：【{temp1}】")
+                            else:
+                                continue
+
+                return result
+
+
+def extract_concrete_info(outputs):
+    import re
+    from typing import List
+
+    """
+    从多个句子中提取第一个“【】”作为查找信息，最后一个“【】”作为换算规则，
+    返回格式为：[合并的查找句子, 换算规则]
+    """
+    prefixes = []
+    suffix = ''
+
+    for item in outputs:
+        matches = re.findall(r'【([^】]+)】', item)
+        if len(matches) >= 2:
+            prefixes.append(f"查找一下【{matches[0]}】")
+            # 假设所有换算规则一致，取第一个即可
+            if not suffix:
+                suffix = f'换算规则：【{matches[-1]}】'
+
+    if not prefixes or not suffix:
+        return []
+
+    return ['; '.join(prefixes), suffix]
+
+
+def extract_query_prefix_list(input_list):
+    import re
+    """
+    输入一个字符串列表，提取每个字符串中符合格式的前缀内容（例如：'查找一下【样式】'）
+
+    参数:
+        input_list (list[str]): 包含描述性语句的字符串列表
+
+    返回:
+        list[str]: 提取出的前缀部分列表（如 '查找一下【大板式】'）
+    """
+    pattern = r'(查找一下【[^】]+】)'
+    return [re.match(pattern, text).group(1) for text in input_list if re.match(pattern, text)]
+
+
+
+def pre_mapping2(keywords, data):
+    import re
+
+    # 提取关键字中中括号内的内容
+    match = re.search(r'【(.*?)】', keywords)
+    if not match:
+        return "未找到匹配的关键字"
+
+    extracted = match.group(1)
+
+    # 查找对应的指标项
+    ceshi = next((item for item in data if item["指标名称"] == extracted), None)
+    if not ceshi:
+        return "未找到对应的指标"
+
+    desc = ceshi.get("指标描述")
+
+    if isinstance(desc, str):
+        return f"测试：{desc}"
+
+    elif isinstance(desc, dict):
+        mapping_rule = desc.get("映射规则")
+        mappings = desc.get("指标映射", [])
+
+        # 单一映射规则为1时
+        if mapping_rule == "1":
+            return f"模糊查找一下【{mappings[0]}】"
+
+        # 仅有一个映射项
+        if len(mappings) == 1:
+            temp0, temp1 = find_target_item(mappings[0], data)
+            if "【" in temp0:
+                return f"{temp1}，换算规则：【{temp0}】"
+            else:
+                return f"查找一下【{temp1}】，换算规则：【{temp0}】"
+
+
+        # 多个映射项
+        result = []
+        if judge_str(ceshi, data):
+            for ele in mappings:
+                item = next((d for d in data if d["指标名称"] == ele and isinstance(d["指标描述"], str)), None)
+                if item:
+                    result.append(f"{item['指标描述']}，换算规则：【{mapping_rule}】")
+        else:
+            for item_name in mappings:
+                temp0, temp1 = find_target_items(mapping_rule, item_name, data)
+
+                if temp0 is None and temp1 is None:
+                    continue
+
+                if judge_exists(item_name, data):
+                    if temp1 is None:
+                        temp1 = item_name
+                    result.append(f"模糊查找一下【{temp0}】，换算规则：【{temp1}】")
+
+        return result or "未匹配到有效的映射项"
+
+    else:
+        return "不支持的指标描述格式"
+
+
+
+    
+    
@@ -0,0 +1,39 @@
+import os
+from langchain_community.vectorstores import FAISS
+from langchain_huggingface import HuggingFaceEmbeddings
+
+with open("./data/data.txt", 'r', encoding='utf-8') as file:
+    txt_list = [line.strip() for line in file]
+
+embedding_path = "/data/Z_LLM_data/Embed_data/bge-m3"
+embeddings = HuggingFaceEmbeddings(model_name=embedding_path)
+
+faiss_archived = "./data/faiss_data/data"
+vectorstore_txt_faiss = FAISS.from_texts(txt_list, embeddings)
+vectorstore_txt_faiss.save_local(faiss_archived)
+
+retriever_txt_faiss1 = vectorstore_txt_faiss.as_retriever(search_kwargs={"k":3})
+retriever_txt_faiss2 = vectorstore_txt_faiss.as_retriever(
+    search_type="mmr",
+    search_kwargs={"k": 3,  # 检索结果
+                   "fetch_k": 1,  # 候选结果数量
+                   "lambda_mult": 0.5}  # 平衡指数，1为相关性；0为多样性
+)
+retriever_txt_faiss3 = vectorstore_txt_faiss.as_retriever(
+    search_type="similarity_score_threshold",
+    search_kwargs={"score_threshold": 0.5}
+)
+
+def intersection_of_three_lists(input_str):
+    list1 = retriever_txt_faiss1.invoke(input_str)
+    list2 = retriever_txt_faiss2.invoke(input_str)
+    list3 = retriever_txt_faiss3.invoke(input_str)
+    
+    def _intersection_of_three_lists(retrieval_results):
+        return [doc.page_content for doc in retrieval_results]
+        
+    list11 = _intersection_of_three_lists(list1)
+    list22 = _intersection_of_three_lists(list2)
+    list33 = _intersection_of_three_lists(list3)
+        
+    return list(set(list11) & set(list22) & set(list33))