NSDT工具推荐Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 - 3D道路快速建模

如果你心中没有特定的目标或项目,网络上有大量的开放数据可供练习。 但是,如果你想要解决特定问题,很可能需要自己收集数据或与可以为你收集数据的公司合作。

有许多数据收集公司提供众包服务,帮助个人和企业大规模收集数据。 与众包合作伙伴合作,团队可以以传统数据收集方法成本的一小部分收集大量不同的数据。

在选择数据收集合作伙伴之前,请考虑以下因素:

  • 经验:公司是否有成功的数据收集项目的记录? 徽标、感言和案例研究让你可以更仔细地了解公司的背景、解决方案和成果。
  • 技术:外包数据收集过程的主要好处之一是可以使用预先构建的数据收集工具。
  • 质量:在与任何数据收集公司合作之前,询问他们有哪些类型的质量控制机制来确保数据质量。

话不多说,这里是数据收集服务的顶级提供商。

1、Lionbridge AI

Lionbridge AI 是一家数据收集公司,与从研究团队到财富 500 强等有机器学习数据需求的任何人合作。虽然大多数其他数据收集公司不支持英语以外的语言,但 Lionbridge 提供 300 多种语言的数据服务。 Lionbridge AI 在 27 个国家/地区设有解决方案中心,涵盖简单的数据收集用例以及语言复杂的长期项目。 与 MTurk 不同,Lionbridge 管理整个流程,从设计工作流程到寻找合格的员工。

与 Lionbridge 合作可以访问由 500,000 多名合格语言学家、国内演讲者和经验丰富的项目经理组成的网络,这些经理能够收集各种用例的数据。 凭借 20 多年的经验,Lionbridge 已构建了寻找和管理数千名贡献者所需的所有必要的人群管理功能。

除了提供托管众包服务外,Lionbridge AI 还提供开放平台,供用户设计和管理自己的数据收集项目。

2、Amazon Mechanical Turk

Amazon Mechanical Turk 也称为 MTurk,是一个众包市场,旨在招募远程工人来完成劳动密集型任务。 这些人类智能任务 (HIT) 的长度、复杂性和报酬各不相同。 由于其品牌知名度和低成本吸引力,MTurk 已迅速成为收集机器学习研究数据的流行方式。

尽管有这些优点,该工具仅适用于预算有限的小规模数据收集项目。 虽然 MTurk 通常被认为是一种廉价的数据收集解决方案,但实际上存在许多隐藏成本。 请求者必须非常明确地定义 HIT 描述,这可能非常耗时。 因此,好的项目需要付出大量的努力来创建和管理。

使用MTurk收集训练数据的另一个关键问题是质量控制问题。 该平台本身在质量控制机制、高级工人定位或详细报告方面提供的很少。 尽管其他公司对其贡献者进行了严格的测试,但任何拥有计算机和互联网连接的人都可以在 MTurk 上注册并接受工作。

3、Clickworker

Clickworker 是一家总部位于德国的公司,提供广泛的数据收集和注释服务。 Clickworker 人群由在其在线平台上执行小任务(称为微作业)的注册用户组成。 该公司能够使用其专有平台创建音频、照片和视频数据集。 Clickworker 还支持移动应用程序,以便更轻松地从贡献者那里收集数据。

4、Appen

Appen 是一家澳大利亚公司,致力于收集、注释和评估各种机器学习数据类型,包括语音、文本、图像和视频。 该公司利用远程众包来完成社交媒体和在线搜索评估等人工智能用例的任务。 虽然Appen的大部分工作都围绕着内容审核,但他们也支持跨多种语言的数据收集。 作为服务提供商,Appen不提供采集或标注工具。 相反,他们直接提供通过人群获取的数据。

5、Globalme

Globalme 是一家总部位于温哥华的数据收集公司。 虽然该公司不提供对该平台的开放访问,但他们确实提供人群管理和工人外包。 过去,Globalme 曾收集过智能手表、扬声器系统、车载语音系统和通用语音助手的语音样本。 除了数据收集之外,Globalme 还提供测试和本地化服务。


原文链接:Top 5 Data Collection Companies for Machine Learning Projects

BimAnt翻译整理,转载请标明出处