景联文科技打造高质量图文推理问答数据集,赋能大语言模型提升推理能力

news/2024/7/21 11:43:20 标签: 人工智能, 大数据

大语言模型在处理推理任务时,不同于人类能够反思错误并修正思维路径,当它遇到自身知识盲区时,缺乏自我校正机制,往往导致输出结果不仅无法改善,反而可能变得更不准确。

需要依赖外部的知识库和推理能力来克服其在理解和生成信息时可能出现的幻觉问题,从而提供更为准确和连贯的输出。

景联文科技是一家专业的大语言模型数据服务商,打造图文推理问答数据集,致力于为不同训练阶段的算法精准匹配高质量数据资源。

1000万条图文问答推理描述数据

数据详情:数据集包含1000万张高清带版权图片和对应的1000万条相应的2轮简单的问答推理(一问一答为一轮)。

图片规格:1080P及以上

数据分类:人物、动物、风景、食物、物品、城市、艺术、植物

数据格式:图片数据格式为jpg,标注文件格式为json

数据规模:

  1. 1000万1080p及以上高清图片,1000万条相应的2轮简单的问答推理(一问一答为一轮)。
  2. 所有图片类目及其对应在json文档中的类目,每张图片对应一个json,分布统计如下所示(单位:张)

人物 150万

动物 150万

风景 150万

食物 150万

物品 140万

城市 120万

艺术 70万

植物 70万

图像格式:jpg

标注文档格式:json

标注内容

  1. 图片分类
    对图片进行分类标注,一级类别、二级类别
    2)图片标签
    对图片中存在的元素进行词组描述
    3)图片描述
    对图片的内容呈现进行细化描述

样例

图片:

Json:

{

"分类":"自然景观",

"标签":"山脉,公路,阳光,蓝天,云朵,山谷",

"图片描述":"一条蜿蜒的公路如同一条银色的丝带,在郁郁葱葱的山谷间穿行。两旁的山峦巍峨,

顶部覆盖着稀疏的积雪,山脚下的植被在春日阳光的照耀下渐渐苏醒。天空是一片澄清的蔚蓝,

几朵洁白的云朵悠然地漂浮。阳光透过云层的缝隙,洒在蜿蜒的道路上,仿佛是大自然的指引,邀请旅者进入这个秘境探索。”

}

在数据安全与合规方面,景联文科技已通过ISO9001质量、ISO27001信息安全、ISO27701国际隐私安全管理认证,积极参与8项国家数据交换格式和数据安全标准制定,牢固构筑数据保护的基石。

获取样例请登录景联文科技官网咨询客服。https://www.jinglianwen.com/ai/

或直接发送需求至邮箱:lx@jinglianwen.com

景联文科技|数据采集|数据标注|大语言模型数据集

助力人工智能技术,赋能传统产业智能化转型升级

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。


http://www.niftyadmin.cn/n/5545082.html

相关文章

如何删除Windows自带的游戏

Windows自带的一些游戏,如纸牌、扫雷、泡泡龙等,对于部分用户来说可能只是系统中无用的“装饰”。如果你希望释放更多的磁盘空间,或是简化你的系统环境,本指南将教你如何删除Windows自带的游戏。 Windows 10 1. 打开设置&#x…

爬虫:Sentry-Span参数逆向

在抓某眼查数据太过频繁时会出现极验的验证码。极验的教程有很多,主要是发现在这里获取验证码的时候需要携带参数Sentry-Span。在这里记录一下逆向的主要过程,直接上补环境的代码。 window global; location {}; my_log console.log;(function () {l…

724.寻找数组的中心下标

解题思路 先计算数组的和,由于返回最靠左的中心下标的位置,则从左至右遍历: 如果只有一个元素,则中心下标位置就是0反之len(nums) > 0, Java class Solution {public int pivotIndex(int[] nums) {int sum Arr…

Echarts 实现数据可视化

Echarts 简介 Echarts 是一个开源的、免费的、成熟的、商业级图表可视化框架,是 Apache 开源社区的顶级项目之一,也是国内使用最多和最为广泛的可视化图表框架之一。 数据可视化图表框架并没有一个统一的行业标准,比较常见的有 D3、Highchart…

Laravel - laravel-websockets 开发详解

1.我laravel-websockets 的开发环境 Laravel 9.0Laravel WebSockets (最新版)Laravel Vite 2. 安装服务器端包 beyondcode/laravel-websockets 运行以下命令安装laravel-websockets composer require beyondcode/laravel-websockets 安装完后&#…

白骑士的C++教学基础篇 1.1 C++简介

系列目录 上一篇:无内容 什么是C? C是一种广泛使用的编程语言,由Bjarne Stroustrup在20世纪80年代早期开发。C在设计上追求的是效率、灵活性和可扩展性,使其成为系统编程、游戏开发、高性能计算和大型应用程序开发的理想选择。C…

【云原生之kubernetes实战】在k8s环境下部署OrangeHRM人力资源管理系统

【云原生之kubernetes实战】在k8s环境下部署OrangeHRM人力资源管理系统 一、OrangeHRM介绍1.1 OrangeHRM 简介1.2 OrangeHRM特点1.3 OrangeHRM使用场景二、相关知识介绍2.1 本次实践存储介绍2.2 k8s存储介绍三、本次实践介绍3.1 本次实践简介3.2 本次环境规划3.3 部署前需准备工…

【高等数学】第四章习题:多元函数微分学及其运用

文章目录 一. 微分方程二. 多元函数微分学1. 多元函数基本概念1.1. 二元函数的连续性1.2. 偏导数1.3. 求极限1.4. 全微分 2. 多元函数微分法2.1. 复合函数求偏导2.2. 隐函数微分法 3. 多元函数的极值与最值3.1. 无条件极值3.2. 拉格朗日乘数法 一. 微分方程 二. 多元函数微分学…