OpenAI开放gpt-3.5turbo微调fine-tuning测试教程

news/2024/5/17 16:54:52 标签: gpt-3, transformer, GitHub, git, hugging face, gitee, fine-tuning

文章目录

        • openai微调 fine-tuning介绍
        • openai微调地址
        • jsonl格式数据集准备
        • 点击上传文件

openai微调 fine-tuning介绍
openai微调地址

网址:https://platform.openai.com/finetune

在这里插入图片描述

jsonl格式数据集准备
  • 使用Chinese-medical-dialogue-data数据集
  • git clone进行下载

git clone https://github.com/Toyhom/Chinese-medical-dialogue-data

  • 选择其中心血管科中的部分数据进行微调
    微调需要进行付费,token越多收费越多,并且gpt-3.5-turbotoken数最多为4096

  • dataframe导入csv文件

import pandas as pd

df = pd.read_csv('Chinese-medical-dialogue-data/样例_内科5000-6000.csv',encoding='gbk')

df
  • 提取样本
train_data = df[df['department']=='心血管科'].iloc[0:50,:]
valid_data = df[df['department']=='心血管科'].iloc[50:70,:]

train_data
  • jsonl格式数据构建
lis1 = []
lis2 = []
sys_content = "You are a specialist in cardiovascular disease and you will apply your expertise to give your specialized answers to patients."

for index,row in train_data.iterrows():
    each = []
    each.append({"role":"system","content":sys_content})
    each.append({"role":"user","content":row['ask']})
    each.append({"role":"assistant","content":row['answer']})
    #print(each)
    lis1.append(each)

for index,row in valid_data.iterrows():
    each = []
    each.append({"role":"system","content":sys_content})
    each.append({"role":"user","content":row['ask']})
    each.append({"role":"assistant","content":row['answer']})
    #print(each)
    lis2.append(each)

lis1
  • jsonl数据导出
lis1 = []
lis2 = []
sys_content = "You are a specialist in cardiovascular disease and you will apply your expertise to give your specialized answers to patients."

for index,row in train_data.iterrows():
    each = []
    each.append({"role":"system","content":sys_content})
    each.append({"role":"user","content":row['ask']})
    each.append({"role":"assistant","content":row['answer']})
    #print(each)
    lis1.append(each)

for index,row in valid_data.iterrows():
    each = []
    each.append({"role":"system","content":sys_content})
    each.append({"role":"user","content":row['ask']})
    each.append({"role":"assistant","content":row['answer']})
    #print(each)
    lis2.append(each)

lis1
点击上传文件

在这里插入图片描述

  • 上传文件(钱不够了)

文件


http://www.niftyadmin.cn/n/5091420.html

相关文章

Golang定时器

func main(){timerAction() }func timerAction(){time.AfterFunc(10*time.Second,timerAction)println("do something") } 简单明了,10秒执行一次

Redis订阅和发布

Redis订阅和发布 一、订阅者和发布者二、使用示例三、常用命令 一、订阅者和发布者 发布者:publish,发送消息订阅者:subscribe,接收消息 如下图所示,可以有多个订阅者订阅同一个频道,如果该频道发送消息&…

【软考】9.4 图的概念/存储/遍历/最小生成树/拓扑/查找

《图》 图的存储(顶点和边) 邻接矩阵:适合边数较多的图,不易造成浪费无向图:不分方向;对称矩阵 邻接链表:顶点,边——>(编号,权值)&#xff1b…

异地组网原理

文章目录 异地组网原理VPN技术传统VPN 和 P2PVPNP2PVPN的两个Point的连接建立 [基于P2PVPN 的 ZeroTier](https://vpsxb.net/2781/#ZeroTier) 异地组网原理 之前描述了 异地组网方案,但是没有说异地组网原理 异地组网通常使用一系列网络技术来连接不同地理位置的网络&#xf…

05-MogoDB执行计划

执行计划 MongoDB 查询分析可以确保我们建议的索引是否有效&#xff0c;是查询语句性能分析的重要工具 #插入1000条数据 for(var i1;i<1000;i)db.user.insert({id:100i,username:name_i,age:10i})#查看执行计划 > db.user.find({age:{$gt:100},id:{$lt:200}}).explain(…

六、RocketMQ发送事务消息

事务消息介绍 在一些对数据一致性有强需求的场景&#xff0c;可以用 Apache RocketMQ 事务消息来解决&#xff0c;从而保证上下游数据的一致性。 以电商交易场景为例&#xff0c;用户支付订单这一核心操作的同时会涉及到下游物流发货、积分变更、购物车状态清空等多个子系统的…

Unity中Shader的深度缓冲区

文章目录 前言一、什么是深度缓冲区深度缓冲区是和颜色缓冲区、模板缓冲区平行的一个缓冲区在这里插入图片描述 二、什么是深度信息三、深度缓冲区的作用 前言 Unity中的深度缓冲区 一、什么是深度缓冲区 深度缓冲区是和颜色缓冲区、模板缓冲区平行的一个缓冲区 深度缓冲区&a…

ChatGPT快速入门

ChatGPT快速入门 一、什么是ChatGPT二、ChatGPT底层逻辑2.1 实现原理2.2 IO流程 三、ChatGPT应用场景3.1 知心好友3.2 文案助理3.3 创意助理3.4 角色扮演 一、什么是ChatGPT ChatGPT指的是基于GPT&#xff08;Generative Pre-trained Transformer&#xff09;模型的对话生成系…