EthicalML

新手上路 2026-2-28 09:45

主楼

自动机器学习

AutoGluon .
Autokeras .
auto-sklearn - 用于自动调整 sklearn 算法和超参数的框架。
Ax - Ax 是一个可访问的通用平台，用于理解、管理、部署和自动化自适应实验。
BoTorch - BoTorch 是一个基于 PyTorch 构建的贝叶斯优化库。
EvalML - EvalML 是一个 AutoML 库，使用特定领域的目标函数构建、优化和评估机器学习管道。
Feature Engine - Feature-engine 是一个 Python 库，包含多个转换器，用于为机器学习模型工程特征。
Featuretools - 一个用于自动化特征工程的开放源代码框架。
FLAML - FLAML 是一个用于自动化机器学习与调优的快速库。
HEBO 在超参数调优任务上进行了测试。
Katib - 一个基于 Kubernetes 的超参数调优和神经架构搜索系统。
keras-tuner - Keras Tuner 是一个易于使用、可分布式的高阶参数优化框架，解决了执行高阶参数搜索时的痛点。Keras Tuner 可以轻松定义搜索空间，并利用内置算法找到最佳高阶参数值。
Optuna - Optuna 是一个自动高阶参数优化软件框架，特别为机器学习设计。
OSS Vizier - OSS Vizier 是一个基于 Python 的黑盒优化和研究服务，是首批设计用于大规模工作的高阶参数调优服务之一。
Perpetual - 一种不需要高阶参数优化的梯度提升机，通过一个简单的预算参数来控制模型复杂度。
TPOT 。
tsfresh - 自动从时间序列中提取相关特征。

计算与通信优化

Accelerate - 仅加速与多 GPU/TPU/混合精度相关的样板代码，其余代码保持不变。
Adapters - Adapters 是一个用于参数高效和模块化迁移学习的统一库。
BitBLAS - BitBLAS 是一个支持在 GPU 上进行混合精度 BLAS 操作的库。
Colossal-AI - Colossal-AI 是面向大模型时代的统一深度学习系统，帮助用户高效快速地部署大型 AI 模型的训练和推理。
Composer - Composer 是一个 PyTorch 库，能够帮助您更快、更低成本、更高精度地训练神经网络。
CuDF - 基于 Apache Arrow 列式内存格式构建，cuDF 是一个用于加载数据、连接、聚合、过滤和其他数据操作的 GPU DataFrame 库。
CuML - cuML 是一套实现机器学习算法和数学原语函数的库，这些函数与其他 RAPIDS 项目共享兼容的 API。
CuPy - CUDA 上的 NumPy 兼容多维数组实现。CuPy 包括核心多维数组类 cupy.ndarray 以及许多相关函数。
DEAP - 一种用于快速原型设计和测试想法的新型进化计算框架。它旨在使算法显式化并使数据结构透明化。它与多进程和 SCOOP 等并行化机制完美协同工作。
DeepEP 。它提供高通量、低延迟的全对全 GPU 内核，也称为 MoE 调度和合并。该库还支持低精度运算，包括 FP8。
DGL - DGL 是一个易于使用、高性能和可扩展的图深度学习 Python 包。
DLRover - DLRover 使大型 AI 模型的分布式训练变得简单、稳定、快速和绿色。
Dask - 用于 Pandas 和 NumPy 计算的分布式并行处理框架。
DeepSpeed - DeepSpeed 是一个深度学习优化库，使分布式训练和推理变得简单、高效和有效。
FlagGems - FlagGems 是一个基于 OpenAI Triton 的高性能通用算子库。它构建在一系列后端无关的内核上，旨在加速 LLM 训练和推理，支持多种硬件平台。
Flashlight - 一个由 Facebook AI Research 和 Torch、TensorFlow、Eigen 以及 Deep Speech 的创造者用 C++ 完全编写的快速、灵活的机器学习库。
Flax - 一个为 JAX 设计的灵活的神经网络库和生态系统。
GPUStack - GPUStack 是一个开源的 GPU 集群管理器，用于运行 AI 模型。
Hivemind - PyTorch 中的去中心化深度学习。
Horovod - Uber 的分布式训练框架，支持 TensorFlow、Keras 和 PyTorch。
Jax - 可组合的 Python+NumPy 程序转换：微分、向量化、JIT 到 GPU/TPU 等。
Kompute - 高速、轻量级且支持移动设备的 Vulkan 计算框架，专为高级 GPU 数据处理用例优化。
Lava - Lava 是一个开源框架，用于开发适用于神经形态硬件架构的应用程序。
Liger Kernel - Liger Kernel 是一组专为 LLM 训练设计的 Triton 内核。
LightGBM - LightGBM 是一个基于梯度的提升框架，使用基于树的机器学习算法。
MLX - MLX 是在 Apple Silicon 上进行机器学习的数组框架。
Modin - 通过修改一行代码即可加速您的 Pandas 工作流程。
NVIDIA TensorRT - TensorRT 是一个用于 NVIDIA GPU 和深度学习加速器的高性能推理的 C++库。
Nevergrad - Nevergrad 是一个无梯度的优化平台。
Norse - Norse 旨在利用受生物启发的神经组件的优势，这些组件是稀疏和事件驱动的——与人工神经网络的根本区别。
Numba - 一个用于 Python 数组和数值函数的编译器。
Optimum - Optimum 是 Transformers 和 Diffusers 的扩展，提供了一套优化工具，能够在目标硬件上高效地训练和运行模型，同时保持易用性。
PEFT 可用于各种下游应用，而无需微调模型的所有参数。
PaddlePaddle - PaddlePaddle 是一个用于进行大规模深度网络训练的框架，其数据源分布在数百个节点上。
PyG 用于与结构化数据相关的广泛应用。
PyTorch Lightning - PyTorch Lightning 在多个 GPU 和 TPU 上进行 AI 模型的预训练、微调和部署，无需任何代码更改。
PyTorch - PyTorch 是一个用于开发和训练基于神经网络的深度学习模型的库。
Ray - Ray 是一个灵活、高性能的分布式执行框架，用于机器学习。
SetFit - SetFit 是一个高效且无需提示的框架，用于 Sentence Transformers 的少样本微调。
Sonnet - Sonnet 是一个基于 TensorFlow 2 构建的库，旨在为机器学习研究提供简单、可组合的抽象。
Streaming - 用于高效神经网络训练的数据流库。
TensorFlow - TensorFlow 是一个领先的库，用于开发和部署最先进的机器学习应用程序。
ThunderKittens ThunderKittens 是一个框架，用于轻松编写 CUDA 中的快速深度学习内核。
TorchOpt - TorchOpt 是一个基于 PyTorch 构建的高效可微分优化库。
Triton - Triton 是一种语言和编译器，用于编写高效的定制深度学习原语。Triton 的目标是提供一个开源环境，以比 CUDA 更高的生产力编写快速代码，同时比其他现有的 DSL 具有更高的灵活性。
Vaex 。
Vowpal Wabbit Vowpal Wabbit 是一个机器学习系统，它通过在线学习、哈希、allreduce、reductions、learning2search、主动学习和交互式学习等技术推动机器学习的边界。
XGBoost - XGBoost 是一个高度优化的分布式梯度提升库，设计上高效、灵活且可移植。
YDF 是一个用于训练、评估、解释和部署随机森林、梯度提升决策树、CART 和隔离森林模型的库。
bitsandbytes ，以及 8 位和 4 位量化函数。
einops - einops 是一个灵活且强大的张量操作库，用于编写可读性和可靠性高的代码。
scikit-learn - scikit-learn 是一个强大的机器学习库，提供各种模块用于数据访问、数据准备和统计模型构建。
snnTorch - snnTorch 是一个用于脉冲神经网络（spiking neural networks）的深度和在线学习库。
通过编辑声明式的 yaml 配置文件，而不是 Python 代码，即可进行 torchdistill 实验。
torchkeras torchkeras 库是一个简单的工具，用于以 keras 风格在 pytorch 中训练神经网络。
veScale - veScale 是一个 PyTorch 原生的 LLM 训练框架。
yellowbrick - yellowbrick 是一个基于 matplotlib 的模型评估绘图工具，用于 scikit-learn 和其他机器学习库。

数据标注与合成

Argilla - Argilla 帮助领域专家和数据团队在更短的时间内构建更好的 NLP 数据集。
cleanlab 标注下一个。
COCO Annotator - 基于网络的图像分割工具，用于目标检测、定位和关键点。
CVAT 是 OpenCV 的基于网络的标注工具，用于视频和图像，以供计算机算法使用。
Doccano - 开源文本标注工具，供人类使用，提供情感分析、命名实体识别和机器翻译等功能。
Gretel Synthetics - Gretel Synthetics 是结构化和非结构化文本的合成数据生成器，具有差分隐私学习功能。
Label Studio - 多领域数据标注和标注工具，具有标准化的输出格式。
NeMo Curator - NeMo Curator 是一个基于 GPU 加速的高效大型语言模型数据管理框架。
refinery - 数据科学家开源选择，用于扩展、评估和维护自然语言数据。
SDV 是一个合成数据生成库生态系统，允许用户轻松学习单表、多表和时序数据集，以便之后生成具有与原始数据集相同格式和统计特性的新合成数据。
语义分割编辑器 - 日立的开源工具，用于标记相机和激光雷达数据。
synthcity - synthcity 是一个用于生成和评估合成表格数据的库。
ViPE - ViPE 是一个空间人工智能工具，用于从原始视频标注相机姿态和密集深度图。
YData Synthetic - YData Synthetic 是一个利用最先进的生成模型生成合成表格和时间序列数据的软件包。

数据管道

Apache Airflow - 基于 Python 构建的数据管道框架，包括调度器、DAG 定义以及用于可视化的 UI。
Apache Nifi - Apache NiFi 专为数据流而设计。它支持高度可配置的数据路由、转换和系统中介逻辑的有向图。
Apache Oozie - 用于 Hadoop 作业的工作流调度器。
Argo Workflows 。
Couler - 统一接口，用于在不同工作流引擎（如 Argo Workflows、Tekton Pipelines 和 Apache Airflow）上构建和管理机器学习工作流。
DataTrove - DataTrove 是一个用于大规模处理、过滤和去重文本数据的库。
Dagster - 用于机器学习、分析和 ETL 的数据编排器。
DBT - 用于在数据仓库内运行转换的 ETL 工具。
Flyte 。
Genie - 用于与基于 Hadoop 的系统接口并触发作业执行的工作调度引擎。
Hamilton 用于替换宏任务中的代码。提供可自托管的 UI，捕获血缘关系与来源、执行遥测与数据摘要，并构建自填充的目录；可用于开发以及生产环境。
Instill VDP 旨在从开始到结束简化数据处理流程。

Instructor - Instructor 可以轻松地从 GPT-3.5、GPT-4、GPT-4-Vision 等大型语言模型以及开源模型中获取结构化数据，如 JSON。

Kedro - Kedro 是一个工作流开发工具，它可以帮助你构建健壮、可扩展、可部署、可重复和版本化的数据管道。
Luigi - Luigi 是一个 Python 模块，它可以帮助您构建复杂的批处理作业管道，处理依赖关系解析、工作流管理、可视化等。
Metaflow - 一个用于数据科学家轻松构建和管理实际数据科学项目的框架。
Pachyderm 。
Ploomber - 最快的数据管道构建方式。迭代开发，随处部署。
Pixeltable – 开源 Python 库，提供声明式、增量式数据基础设施，用于构建和管理多模态 AI 工作负载。
Prefect Core - 工作流管理系统，轻松将数据管道添加重试、日志记录、动态映射、缓存、故障通知等语义。
SeqIO - SeqIO 是一个用于处理序列数据，并将其输入到下游序列模型的库。
Snakemake - 可重复且可扩展的数据分析的流程管理系统。
Towhee - 通用机器学习管道，用于使用一个或多个机器学习模型生成嵌入向量。
unstructured - unstructured 简化并优化了 LLMs 的数据处理流程，用于摄取和预处理图像和文本文档，例如 PDF、HTML、Word 文档等。
ZenML - ZenML 是一个可扩展的开源 MLOps 框架，用于创建可重复的机器学习管道，重点在于自动元数据跟踪、缓存以及与其他工具的许多集成。

数据科学笔记本

Apache Zeppelin - 基于网络的笔记本，支持数据驱动的交互式数据分析和协作文档，支持 SQL、Scala 等。
Deepnote - Deepnote 是 Jupyter 的即插即用替代品，采用 AI 优先设计、简洁的 UI、新的模块和原生数据集成。在您喜欢的 IDE 中本地使用 Python、R 和 SQL，然后扩展到 Deepnote 云，以实现实时协作、Deepnote 代理和可部署的数据应用。
Jupyter Notebooks - 可重复开发的 Web 界面 Python 沙盒环境
Marimo - 反应式 Python 笔记本 — 运行可重复的实验，作为脚本执行，作为应用程序部署，并使用 git 进行版本控制。
Papermill - Papermill 是一个用于参数化笔记本并像 Python 脚本一样执行它们的库。
Polynote ，SQL，和 Vega。
RMarkdown - rmarkdown 包是基于 Pandoc 的下一代 R Markdown 实现。
Stencila - Stencila 是一个用于创建、协作和共享数据驱动内容的平台。内容透明且可重复。
Voilà - Voilà将 Jupyter 笔记本转换为独立的 Web 应用程序，例如可用作仪表板。
.NET Interactive - .NET Interactive 将 .NET 的强大功能嵌入到您的交互式体验中。

数据存储优化

AIStore - AIStore 是一个轻量级对象存储系统，能够随着每个新增存储节点的加入而线性扩展，并特别关注 petascale 深度学习。
Alluxio - 一个虚拟分布式存储系统，连接计算框架和存储系统之间的鸿沟。
Apache Arrow - 一种与 Pandas、基于 Hadoop 的系统等兼容的数据内存列式表示。
Apache Druid 用于介绍。
Apache Hudi 。
Apache Iceberg 。
Apache Ignite 。
Apache Parquet - 数据的磁盘列式表示，与 Pandas、基于 Hadoop 的系统等兼容。
Apache Pinot 。
Casibase 知识数据库，具有 Web UI 和企业级 SSO。
Chroma - Chroma 是一个开源的嵌入数据库。
ClickHouse - ClickHouse 是一个开源的列式数据库管理系统。
Delta Lake - Delta Lake 是一个存储层，为 Apache Spark 和其他大数据引擎带来可扩展的 ACID 事务。
EdgeDB - Gel 通过现代数据模型、图查询、认证和 AI 解决方案等功能，为 Postgres 超级加速。
GPTCache - GPTCache 是一个用于为大型语言模型查询创建语义缓存的库。
InfluxDB 可扩展的指标、事件和实时分析数据存储。
Milvus Milvus 是一个云原生、开源的向量数据库，用于管理机器学习模型和神经网络生成的嵌入向量。
Marqo Marqo 是一个端到端的向量搜索引擎。
pgvector pgvector 帮助在 Postgres 中进行向量相似性搜索。
PostgresML PostgresML 是 PostgreSQL 的机器学习扩展，使您能够使用 SQL 查询对文本和表格数据进行训练和推理。
Safetensors 一种简单、安全的方式来存储和分发张量。
TimescaleDB 。
Weaviate ，以及更多。
Zarr - 一种为并行计算设计的分块、压缩、N 维数组的 Python 实现。

数据流处理

Apache Beam Apache Beam 是一个用于批处理和流处理的统一编程模型。
Apache Flink - 开源流处理框架，具有强大的流和批处理能力。
Apache Kafka - Kafka 客户端库，用于构建输入和输出存储在 Kafka 集群中的应用程序和微服务。
Apache Samza - 分布式流处理框架。它使用 Apache Kafka 进行消息传递，并使用 Apache Hadoop YARN 提供容错、处理器隔离、安全性和资源管理。
Apache Spark - 使用 Apache Spark 框架作为后端进行流式微批处理，支持有状态的一次性语义。
Bytewax - 基于 Rust 引擎构建的灵活的 Python 中心有状态流处理框架。
FastStream - 一个现代的、与代理无关的流式 Python 框架，支持 Apache Kafka、RabbitMQ 和 NATS 协议，受 FastAPI 启发，易于与其他 Web 框架集成。
MOA 是一个用于大数据流挖掘的开源框架。
MosaicML Streaming - 快速、确定性的从云存储中流式传输大型数据集，用于分布式模型训练。
RisingWave - 一个分布式 SQL 流数据库，统一流处理和低延迟服务，非常适合构建和为在线机器学习提供服务特征。
TensorStore - 用于读取和写入大型多维数组的库。

部署与服务

Agenta .
AirLLM - AirLLM 优化推理内存使用，允许 70B 大型语言模型在单个 4GB GPU 显卡上运行推理，无需量化、蒸馏和剪枝。
AITemplate C++ 代码，用于闪电般的推理服务。
BentoML - BentoML 是一个开源的高性能机器学习模型服务框架。
BISHENG - BISHENG 是一个开放的 LLM 应用开发运维平台，专注于企业场景。
DeepDetect - TensorFlow、XGBoost 和 Cafe 模型的机器学习生产服务器，用 C++ 编写并由 Jolibrain 维护。
Dynamo - NVIDIA Dynamo 是一个高吞吐量、低延迟的推理框架，专为在多节点分布式环境中服务生成式 AI 和推理模型而设计。
exo - exo 帮助您使用日常设备在家运行 AI 集群。
Genkit - Genkit 是一个开源框架，用于使用熟悉的以代码为中心的模式构建 AI 驱动的应用程序。Genkit 使开发、集成和测试 AI 功能变得容易，并提供可观察性和评估功能。
Inference - 一个快速、生产就绪的计算机视觉推理服务器，支持部署许多流行的模型架构和微调模型。使用 Inference，您可以使用 Docker 在自己的硬件上部署 YOLOv5、YOLOv8、CLIP、SAM 和 CogVLM 等模型。
Infinity - Infinity 是一个高通量、低延迟的 REST API，用于提供文本嵌入、重新排序模型和 clip。
IPEX-LLM 具有非常低的延迟。
LiteLLM 用于调用 100 多个 LLM API，采用 OpenAI 格式 - Bedrock、Azure、OpenAI、VertexAI、Cohere、Anthropic、Sagemaker、HuggingFace、Replicate、Groq。
LitServe - LitServe 是一个基于 FastAPI 构建的灵活的 AI 模型服务引擎。它支持自定义推理引擎，用于模型、代理、多模态系统、RAG 和复杂的机器学习管道。
Jina-serve - Jina-serve 是一个用于构建和部署通过 gRPC、HTTP 和 WebSocket 通信的 AI 服务的框架。

Kiln - Kiln 是一个用于微调 LLM 模型、合成数据生成以及协作处理数据集的开源工具。

KServe - KServe 为预测和生成式机器学习提供 Kubernetes 自定义资源定义。

KTransformers - KTransformers 是一个用于体验尖端 LLM 推理优化的灵活框架。
Langtrace - Langtrace 是一个基于 Open Telemetry 的开源端到端可观测性工具，用于 LLM 应用，为流行的 LLM、LLM 框架、vectorDB 等提供实时追踪、评估和指标。

Lepton AI - LeptonAI Python 库让您能够轻松地从 Python 代码构建 AI 服务。
LightLLM 推理和服务框架，以其轻量级设计、易于扩展和高速性能而著称。
llama.cpp - llama.cpp 是一个开源软件库，用于在各种大型语言模型（如 Llama）上进行推理。
LMDeploy - LMDeploy 是一个用于压缩、部署和服务 LLM 的工具包。

LM Studio - LM Studio 是一个在本地计算机上部署 LLM 模型的工具，即使是在相对配置较低的机器上，只要满足最低要求即可。

LocalAI - LocalAI 是一个兼容 OpenAI API 规范的本地推理用 REST API 接口。
MindsDB - MindsDB 是一个平台，用于从您的数据库、向量存储和应用程序数据中实时创建、服务和微调模型。
mini-sglang - mini-sglang 是一个用于大型语言模型的轻量级高效服务框架。
MLRun - MLRun 是一个开源的 MLOps 框架，用于快速构建和管理贯穿整个生命周期的持续机器学习和生成式 AI 应用。
MLServer - 机器学习模型的推理服务器，支持多种框架、多模型服务等功能。
Mosec - 一个基于 Rust 的多阶段流水线模型服务器，提供动态批处理等功能。非常易于实现和部署为微服务。
nndeploy - 一个易于使用且高性能的 AI 部署框架。
Nuclio - 一个专注于数据、I/O 和计算密集型工作负载的高性能 "无服务器" 框架。它与流行的数据科学工具（如 Jupyter 和 Kubeflow）集成良好；支持多种数据和流式源；并支持在 CPU 和 GPU 上执行。
OpenLLM 或自定义模型，通过一个命令即可作为 OpenAI 兼容的 API。
OpenVINO - OpenVINO 是一个用于优化和部署 AI 推理的开源工具包。
Open WebUI - Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台，专为完全离线运行而设计。它支持各种 LLM 运行器（如 Ollama 和 OpenAI 兼容的 API），并内置用于 RAG 的推理引擎，使其成为一个强大的 AI 部署解决方案。
OptiLLM - OptiLLM 是一个兼容 OpenAI API 的优化推理代理，实现了 20 多种最先进的技巧，显著提高 LLM 在推理任务上的准确性和性能，而无需进行任何模型训练或微调。
PowerInfer - PowerInfer 是一个利用激活局部性的 CPU/GPU LLM 推理引擎。
Prompt2Model 用于训练一个适合部署的小型专用模型。
RamaLama - RamaLama 是一个开源工具，简化了通过 OCI 容器在本地使用和部署 AI 模型进行推理的过程，无需配置主机系统。
RunAnywhere 在设备上运行，支持 iOS、Android、React Native 和 Flutter - 实现私有化、离线快速移动 AI 应用。
Seldon Core 。
SGLang - SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。
SkyPilot - SkyPilot 是一个框架，用于在任何云上运行 LLMs、AI 和批处理任务，提供最大成本节约、最高 GPU 可用性和管理式执行。
Tensorflow Serving - 高性能框架，通过 grpc 协议提供 Tensorflow 模型服务，每核心可处理每秒 10 万个请求。
text-generation-inference - 大型语言模型文本推理生成。
TorchServe - TorchServe 是一个灵活且易于使用的 PyTorch 模型服务工具。
torchtune - torchtune 是一个 PyTorch 库，用于轻松编写、训练后处理和实验 LLMs。

Transformer Lab - Transformer Lab 是一个开源的 LLM 工作空间，用于本地微调、评估、导出和测试跨推理引擎和平台的模型。

Triton Inference Server - Triton 是一款高性能的开源服务软件，能够在 GPU 和 CPU 上部署来自任何框架的 AI 模型，同时最大化利用。
Vercel AI - Vercel AI 是一个 TypeScript 工具包，旨在帮助您使用 Next.js、React、Svelte、Vue 等流行框架以及 Node.js 等运行时构建 AI 驱动的应用程序。
Vespa - 搜索、推理和组织向量、张量、文本和结构化数据，在任何服务时间和任何规模下。
vLLM - vLLM 是一个针对 LLM 的高吞吐量和内存高效的推理和服务引擎。

评估和监控

AlpacaEval - AlpacaEval 是一个用于指令跟随语言模型的自动评估器。
ANN-Benchmarks - ANN-Benchmarks 是一个用于近似最近邻算法搜索的基准测试环境。
ARES 模型。
BEIR - BEIR 是一个包含多种信息检索任务的异构基准。它还提供了一个通用且易于使用的框架，用于在基准中评估基于 NLP 的检索模型。
代码生成 LM 评估工具 - 代码生成 LM 评估工具是一个用于评估代码生成模型的框架。
COMET - COMET 是一个用于机器学习评估的开源框架。
C-Eval - C-Eval 是一个用于基础模型的全面中文评估套件。
Deepchecks - Deepchecks 是一个面向所有 AI & ML 验证需求的整体开源解决方案，使您能够从研究到生产全面测试您的数据和模型。
DeepEval - DeepEval 是一个简单易用、面向 LLM 应用的开源评估框架。
DomainBed - DomainBed 是一个包含领域泛化基准数据集和算法的测试套件。
EvalAI - EvalAI 是一个用于大规模评估和比较 AI 算法的开源平台。
Evalchemy - Evalchemy 是一个统一且易于使用的工具包，用于评估预训练语言模型。
EvalPlus ，以及一个安全、可扩展的评估工具包。
Evals - Evals 是一个用于评估 OpenAI 模型的框架，以及一个开源的基准测试注册中心。
EvalScope - EvalScope 是一个精简且可定制的框架，用于高效的大型模型评估和性能基准测试。
Evaluate - Evaluate 是一个库，使模型评估和比较以及报告其性能更加容易和标准化。
Evidently - Evidently 是一个开源框架，用于评估、测试和监控基于机器学习和 LLM 的系统。
GAOKAO-Bench 将问题作为数据集，用于评估大型模型的语言理解和逻辑推理能力。
Giskard - Giskard 是一个开源的 Python 库，可以自动检测 AI 应用中的性能、偏差和安全问题。
guidellm - guidellm 是一个用于大型语言模型推理系统的基准测试和性能评估工具。
HumanEval - HumanEval 是一个用于评估代码生成模型功能正确性的基准，使用 Python 编程问题及单元测试。
Helicone - Helicone 是一个全功能的、开源的 LLM 开发平台。
HELM 提供用于整体评估语言模型的工具，包括标准化数据集、统一的各种模型 API、多样化的指标、r 和公平性扰动、提示构建框架以及用于统一模型访问的代理服务器。
Inspect - Inspect 是一个用于大型语言模型评估的框架。
JiWER - JiWER 是一个简单且快速的 Python 包，用于评估自动语音识别系统。
Laminar - Laminar 是一个开源平台，用于跟踪、评估、标记和分析 LLM 数据，用于 AI 产品。
Langfuse - Langfuse 是一个用于基于 LLM 应用的可观察性和分析解决方案。
LangTest - LangTest 是一个用于 NLP 模型的全面评估工具包。
Language Model Evaluation Harness - Language Model Evaluation Harness 是一个用于在大量不同评估任务上测试生成式语言模型的框架。
LangWatch - LangWatch 是一个用于 DSPy 的可视化界面，以及一个完整的 LLM Ops 平台，用于监控、实验、测量和改进 LLM 管道，并采用公平代码分发模型。
LightEval - LightEval 是一个轻量级的 LLM 评估套件。
LLMPerf - LLMPerf 是一个用于评估 LLM API 性能的工具。
lmms-eval - lmms-eval 是一个为 LMM 提供一致且高效评估的精心构建的评估框架。
Melting Pot - Melting Pot 是一个用于多智能体强化学习的测试场景套件。
Meta-World - Meta-World 是一个开源的模拟基准，用于元强化学习和多任务学习，包含 50 个不同的机器人操作任务。
mir_eval - mir_eval 是一个 Python 库，提供了一种透明、标准化和直接的方式来评估音乐信息检索系统。
MLPerf Inference - MLPerf Inference 是一个基准套件，用于测量系统在各种部署场景下运行模型的快慢。
Massive Text Embedding Benchmark 是一个全面的评估框架，评估文本嵌入模型在不同任务和语言中的性能，包含 8 个嵌入任务、58 个数据集和 112 种语言。
NannyML ，检测数据漂移，并将数据漂移警报智能地链接到模型性能的变化。
OGB 是一个包含基准数据集、数据加载器和图机器学习评估器的集合。
Ollama Grid Search - Ollama Grid Search 自动化选择最佳模型、提示或推理参数的过程，以便针对特定用例进行迭代，并可视化检查结果。
OpenCompass 超过 50+ 数据集。
OpenLIT - OpenLIT 是一个开源的 AI 工程平台，通过可观察性、监控、护栏、评估和无缝集成简化 LLM 工作流程。
OpenLLMetry - OpenLLMetry 为开发者提供对大型语言模型应用的深度可见性，通过性能监控、执行跟踪和调试功能。
Opik - Opik 是一个用于评估、测试和监控 LLM 应用的开源平台。
Overcooked-AI - Overcooked-AI 是一个基于广受欢迎的视频游戏 Overcooked 的完全合作的人机任务性能基准环境。
Phoenix - Phoenix 是一个开源的 AI 可观测性平台，专为实验、评估和故障排除而设计。
PromptBench - PromptBench 是一个用于大型语言模型的统一评估框架
Promptfoo - LLM 红队测试和评估框架，用于测试越狱、提示注入和其他漏洞，并支持 CI/CD 集成。
Prometheus-Eval - RagaAI Catalyst 是一个综合平台，旨在提升 LLM 项目的管理和优化。
RagaAI Catalyst - Prometheus-Eval 是一套用于训练、评估和使用专门用于评估其他语言模型的工具集合。
Ragas - Ragas 是一个用于评估 RAG 管道的框架。
RewardBench - RewardBench 是一个用于评估奖励模型能力和安全性的基准测试。
RLBench - RLBench 是一个雄心勃勃的大规模基准测试和学习环境，旨在促进多个视觉引导操作研究领域的科研，包括：强化学习、模仿学习、多任务学习、几何计算机视觉，以及特别地，少样本学习。
SimplerEnv - SimplerEnv 是一个用于真实机器人设置的模拟操作策略评估环境。
SwanLab - SwanLab 是一个 AI 训练跟踪和可视化工具。
语音转文本基准测试 - 语音转文本基准测试是一个极简且可扩展的框架，用于测试不同的语音转文本引擎。
TensorFlow 模型分析是一个用于在分布式方式下对大量数据进行 TensorFlow 模型评估的库，使用其训练器中定义的相同指标。
TorchBench - TorchBench 是一个开源基准测试集合，用于评估 PyTorch 性能。
TruLens - TruLens 提供了一套用于评估和跟踪 LLM 实验的工具。
TrustLLM - TrustLLM 是一个综合框架，用于评估大型语言模型的可靠性，包括原则、调查和基准测试。
VBench - VBench 是一个用于视频生成模型的综合基准测试套件。
VLMEvalKit 。

可解释性与公平性

Aequitas - 一个开源的偏见审计工具包，供数据科学家、机器学习研究人员和政策制定者审计机器学习模型的歧视和偏见，并在开发和部署预测性风险评估工具方面做出明智和公平的决策。
AI Explainability 360 - 数据和机器学习模型的可解释性和可解释性，包括一套全面的算法，涵盖不同维度的解释，以及代理可解释性指标。
AI Fairness 360 - 一套全面的公平性指标，用于数据集和机器学习模型，这些指标的说明，以及用于减轻数据集和模型中偏差的算法。
Alibi - Alibi 是一个用于机器学习模型检查和解释的开源 Python 库。该库的初始重点是黑盒、基于实例的模型解释。
captum - 由 Facebook 开发的 PyTorch 模型可解释性和理解库。它包含了用于 PyTorch 模型的集成梯度、显著性图、smoothgrad、vargrad 等通用实现。
Fairlearn - Fairlearn 是一个用于评估和减轻机器学习模型中不公平性的 Python 工具包。
InterpretML - InterpretML 是一个用于训练可解释模型和解释黑盒系统的开源软件包。
Lightly - 一个用于图像自监督学习的 Python 框架。学习到的表示可用于分析未标记数据中的分布并重新平衡数据集。
LOFO Importance Importance 根据选择的指标和模型，通过迭代地从集合中移除每个特征，并使用选择的验证方案根据所选指标评估模型性能，来计算一组特征的重要性。
mljar-supervised - 一个用于表格数据 AutoML 的 Python 软件包，具有特征工程、超参数调整、解释和自动文档生成功能。
Quantus - Quantus 是一个用于神经网络解释的负责任的评估的可解释人工智能工具包
SHAP - SHapley Additive exPlanations 是一种统一的解释任何机器学习模型输出的方法。
SHAPash - Shapash 是一个 Python 库，提供几种可视化类型，显示所有人都能理解的明确标签。
WhatIf - 一个易于使用的界面，用于扩展对黑盒分类或回归机器学习模型的理解。

功能存储

FEAST 是一个用于机器学习的开源功能存储。Feast 是最快的管理现有基础设施以将分析数据用于模型训练和在线推理的途径。
Featureform - 一个虚拟功能存储。与现有基础设施即插即用。数据科学家认可。发现、治理、血缘关系与协作只需一个 pip 安装即可。支持 pandas、Python、spark、SQL 以及与主要云供应商的集成。
Hopsworks Feature Store 。

行业级异常检测

Alibi Detect - alibi-detect 是一个专注于异常值、对抗性和概念漂移检测的 Python 包。
Darts - Darts 是一个用于时间序列的友好型预测和异常检测的库。
Deequ - 一个基于 Apache Spark 构建的库，用于定义“数据单元测试”，在大数据集中衡量数据质量。
PyOD 。
TFDV 是一个用于探索和验证机器学习数据的库。

行业领先的计算机视觉

Deep Lake - Deep Lake 是一个针对计算机视觉优化的数据基础设施。
Detectron2 - Detectron2 是 Facebook AI Research 的下一代库，提供最先进的检测和分割算法。
KerasCV - KerasCV 是一个面向计算机视觉的 Keras 组件库。
Kornia - Kornia 是一个基于 PyTorch 构建的可微分的计算机视觉库，提供丰富的可微分图像处理和几何视觉算法。
LAVIS - LAVIS 是一个用于语言和视觉智能研究与应用的深度学习库。
libcom - libcom 是一个图像合成工具箱。
LightlyTrain - 在未标记数据上预训练计算机视觉模型，用于工业应用。
MMCV - MMCV 是 OpenMMLab 提供的基础计算机视觉库，提供图像和视频处理、数据转换和增强、CNN 架构以及优化的 CUDA 操作等基本功能。
SuperGradients - SuperGradients 是一个用于训练基于 PyTorch 的计算机视觉模型的开源库。
supervision - Supervision 是一个用于高效计算机视觉流程管理的 Python 库，提供用于标注、可视化和监控模型的工具。
VideoSys - VideoSys 支持多种扩散模型，并采用我们的多种加速技术，使这些模型能够运行得更快并消耗更少的内存。

行业领先的情报检索

AutoRAG - AutoRAG 是一个 RAG AutoML 工具，可自动为您的数据找到最佳的 RAG 流程。
BGE - BGE 为搜索和 RAG 构建了一站式检索工具包。
Cognita - Cognita 是一个用于构建模块化和生产就绪应用的 RAG 框架。
DocArray - DocArray 是一个用于传输嵌套、非结构化、多模态数据的库，包括文本、图像、音频、视频、3D 网格等。它允许深度学习工程师使用 Python 风格的 API 高效地处理、嵌入、搜索、推荐、存储和传输多模态数据。
EmbedAnything - EmbedAnything 是一个用 Rust 编写的极简、轻量级、高性能的嵌入流程，用于从文本、图像、音频、PDF 和其他媒体生成嵌入，支持密集、稀疏、ONNX 和延迟交互嵌入。
Faiss - Faiss 是一个用于高效相似性搜索和密集向量聚类的库。
fastRAG - fastRAG 是一个用于高效和优化检索增强生成管道的研究框架，结合了最先进的 LLMs 和信息检索。
GraphRAG - GraphRAG 是一个数据管道和转换套件，旨在利用 LLMs 的能力从非结构化文本中提取有意义的结构化数据。
HippoRAG 框架受人类长期记忆的神经生物学的启发，使 LLMs 能够持续整合来自外部文档的知识。
JamAI Base 具备内存管理和 RAG 功能。它内置了 LLM、向量嵌入以及 reranker 编排和管理，所有功能均可通过便捷、直观的电子表格式 UI 和简单的 REST API 访问。
LangExtract - LangExtract 是一个使用 LLMs 从非结构化文本文档中提取结构化信息的 Python 库，基于用户定义的指令。它处理临床记录或报告等材料，识别和组织关键细节，同时确保提取的数据与源文本一致。
LightRAG - 一个简单快速的检索增强生成框架。
llmware ，使用小型专用模型，可以私有化部署，安全地与企业知识源集成，并针对任何业务流程进行成本效益高的调整和适配。
Mem0 - Mem0 通过智能记忆层增强 AI 助手和代理，实现个性化 AI 交互。
NGT - NGT 提供命令和库，用于在高维向量数据空间中对大量数据进行高速近似最近邻搜索。
NMSLIB : 一个高效的相似性搜索库，以及用于评估通用非度量空间 k-NN 方法的工具包。
Qdrant - 一个支持扩展过滤的开源向量相似性搜索引擎。
R2R 是一个用于构建、部署和扩展具有混合搜索、多模态支持和高级可观察性的 RAG 应用的综合平台。
RAGFlow - RAGFlow 是一个基于深度文档理解的 RAG 引擎。
RAGxplorer - RAGxplorer 是一个用于构建 RAG 可视化的工具。
RAG-FiT - RAG-FiT 是一个库，旨在通过在专门创建的 RAG 增强数据集上微调模型来提高 LLM 使用外部信息的能力。
TextWorld 代理。
Vanna - Vanna 是一个用于 SQL 生成及相关功能的 RAG 框架。

行业领先的自然语言处理

aisuite - aisuite 是一个简单、统一的接口，用于访问多个生成式 AI 提供商。
Align-Anything ，包括 LLMs、VLMs 以及其他技术，与人类意图和价值观相结合
BERTopic - BERTopic 是一种利用 transformer 和 c-TF-IDF 进行主题建模的技术，能够创建密集的聚类，从而生成易于解释的主题，同时保持主题描述中的重要词汇。
Burr 以及开源、免费且以本地优先的 Burr UI。
CodeTF 和代码智能，为代码智能任务（如代码摘要、翻译、代码生成等）提供无缝的训练和推理界面。
Dify - Dify 是一个开源的 LLM 应用开发平台，其直观的界面结合了代理式 AI 工作流、RAG 管道、代理功能、模型管理、可观察性功能等，让您能够快速从原型到生产。
dspy - 一种用于使用基础模型进行编程的框架。
Dust - Dust 帮助设计和部署大型语言模型应用程序。
ESPnet - ESPnet 是一个端到端的语音处理工具包。
FastChat - FastChat 是一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台。
Flair - 由 Zalando 开发的简单框架，用于最先进的自然语言处理，直接基于 PyTorch 构建。
Gensim - Gensim 是一个用于主题建模、文档索引和相似性检索的 Python 库，适用于大型语料库。
gpt-fast - 简单高效的 PyTorch 原生 Transformer 文本生成工具。
h2oGPT - h2oGPT 是一个开源的生成式 AI，为像贵公司这样的组织提供拥有大型语言模型的能力，同时保护您的数据所有权。
Haystack . Haystack 提供生产就绪的工具，帮助您快速构建类似 ChatGPT 的问答系统、语义搜索、文本生成等。
Interactive Composition Explorer - ICE 是一个用于语言模型程序的 Python 库和跟踪可视化工具。
Jan - Jan 是一个开源的 ChatGPT 替代品，可在您的计算机上 100% 离线运行，允许您下载并在本地运行 LLMs，同时拥有完全的控制权和隐私。

Lamini - Lamini 是一个用于快速定制模型的 LLM 引擎。
LangChain - LangChain 通过可组合性协助构建 LLMs 应用。
LlamaIndex 是您的 LLM 应用的数据框架。

LLaMA 模型并进行推理。
LLaMA-Factory - LLaMA-Factory 可以通过零代码 CLI 和 Web UI 轻松微调 100 多个大型语言模型
LLMBox - LLMBox 是一个用于实现 LLMs 的综合库，包括统一的训练流程和全面的模型评估
LLaMA2-Accessory 和多模态 LLMs
LMFlow - LMFlow 是一个可扩展、便捷且高效的工具箱，用于微调大型机器学习模型
Megatron-LM - Megatron-LM 是一个针对训练大型语言模型高度优化和高效的库。
MindNLP - MindNLP 是一个基于 MindSpore、易于使用且高性能的自然语言处理（NLP）和大型语言模型（LLM）框架，兼容 Huggingface 的模型和数据集。

MLC LLM - MLC LLM 是一种通用解决方案，允许任何语言模型原生部署在多种硬件后端和原生应用程序上，并为每个人提供一个生产力框架，以进一步优化模型性能以适应他们自己的用例。

mlx-lm - MLX LM 是一个 Python 包，用于在 Apple Silicon 上使用 MLX 生成文本和微调大型语言模型，具有与 Hugging Face Hub 集成以及支持量化分布式推理的功能。
Ollama - 在本地快速启动大型语言模型。
olmOCR - olmOCR 是一个用于训练语言模型以处理野外 PDF 文档的工具包。
基于 PaddlePaddle 深度学习框架的 PaddleNLP 开发套件，支持高效的大模型训练、无损压缩以及在不同硬件设备上的高性能推理。

PyLLMs 带有内置的模型性能基准测试。

Semantic Kernel 类似 OpenAI、Azure OpenAI 和 Hugging Face，可与 C#、Python 和 Java 等传统编程语言结合使用。Semantic Kernel 通过允许您定义可以仅用几行代码链式连接的插件来实现这一点。
Sentence Transformers - Sentence Transformers 提供了一种简便的方法来计算句子、段落和图像的密集向量表示。
SpaCy - spaCy 是一个用于 Python 和 Cython 的高级自然语言处理的库。
SWIFT - SWIFT 是一个可扩展的轻量级深度学习模型微调基础设施。
Tensorflow Lingvo - 一个用于在 Tensorflow 中构建神经网络的框架，特别适用于序列模型。
Tensorflow Text - TensorFlow Text 提供了一系列与文本相关的类和操作，可用于 TensorFlow 2.0。
ToolBench - ToolBench 是一个用于训练、部署和评估大型语言模型的开放平台，用于工具学习。
Transformers

行业推荐系统

EasyRec - EasyRec 是一个用于大规模推荐算法的框架。
Gorse - Gorse 旨在成为一个通用的开源推荐系统，可以快速引入到各种在线服务中。
Merlin - NVIDIA Merlin 是一个开源库，提供端到端的 GPU 加速推荐系统，从特征工程和预处理到训练深度学习模型以及在生产中运行推理。
Recommenders - Recommenders 包含构建推荐系统的基准和最佳实践，以 Jupyter 笔记本形式提供。
TorchRec .

行业优势强化学习

Acme - Acme 是一组构建简单、高效且可读的智能体的构建模块。
AReaL - AReaL 是一个强化学习库。
CleanRL - CleanRL 是一个深度强化学习库，提供高质量的单一文件实现和便于研究的功能。实现简洁明了，但我们可以使用 AWS Batch 扩展它以运行数千个实验。
CompilerGym - CompilerGym 是一个易于使用且性能优越的强化学习环境库，用于编译器任务。
d3rlpy - d3rlpy 是一个面向实践者和研究人员的离线深度强化学习库。
D4RL - D4RL 是一个用于离线强化学习的开源基准。
多巴胺
EvoTorch - EvoTorch 是由 NNAISENSE 开发的一个开源进化计算库，基于 PyTorch 构建。
FinRL - FinRL 是首个展示金融强化学习巨大潜力的开源框架。
Gymnasium - Gymnasium 是一个开源的 Python 库，用于开发和比较强化学习算法，它提供了一个标准 API 来在学习和环境之间进行通信，以及一套符合该 API 的标准环境集。
Gymnasium-Robotics - Gymnasium-Robotics 包含一系列使用 Gymnasium API 的强化学习机器人环境。这些环境使用 MuJoCo 物理引擎运行，并使用维护中的 mujoco python 绑定。
Jumanji 环境使用 JAX 编写，为行业驱动的科研提供干净、硬件加速的环境。
MARLlib - MARLlib 是一个基于 RLlib 的综合性多智能体强化学习算法库。它为多智能体强化学习研究社区提供了一个统一的平台，用于构建、训练和评估多智能体强化学习算法。
Mava - Mava 是一个用于 JAX 中的分布式多智能体强化学习的框架。
Melting Pot - Melting Pot 是一个用于多智能体强化学习的测试场景套件。
MetaDrive - MetaDrive 是一个驾驶模拟器，用于组合多样化的驾驶场景以进行泛化强化学习。
Minigrid - Minigrid 库包含一系列离散的网格世界环境，用于进行强化学习研究。这些环境遵循 Gymnasium 标准 API，并设计为轻量级、快速且易于定制。
MiniWorld - MiniWorld 是一个极简的 3D 室内环境模拟器，用于强化学习与机器人研究。
ML-Agents - ML-Agents 是一个开源项目，使游戏和模拟成为训练强化学习智能体的环境。
MLGym 用于训练这些智能体以完成 ML 任务。
MushroomRL 。
OmniSafe 研究。
OpenRLHF 。
PARL - PARL 是一个灵活且高效的强化学习框架。
PettingZoo - PettingZoo 是一个用于进行多智能体强化学习研究的 Python 库，类似于 Gymnasium 的多智能体版本。
ranx - ranx 是一个用 Python 实现的快速排序评估指标库，利用 Numba 进行高速矢量运算和自动并行化。
RL4CO .
RL2 - RL2 是一个强化学习库。
RLinf - RLinf 是一个强化学习库。
ROLL - ROLL 是一个强化学习库。
skrl 并设计注重算法实现的易读性、简洁性和透明度。
slime - slime 是一个用于 RL 扩放的 LLM 后训练框架。
Stable Baselines - OpenAI Baselines 的分支，强化学习算法的实现。
TF-Agents - 一个可靠、可扩展且易于使用的 TensorFlow 库，用于上下文 bandits 和强化学习。
TorchRL 库 for PyTorch。
TRL - 使用强化学习训练 transformer 语言模型。
veRL 训练框架，专为 LLMs 设计。

行业领先的机器人技术

AI2-THOR - AI2-THOR 是一个近乎照片级真实感的交互式框架，用于 AI 代理。
Habitat-Sim - Habitat-Sim 是一个灵活、高性能的 3D 模拟器，用于具身人工智能研究。
IsaacLab - IsaacLab 是一个统一且模块化的机器人学习框架，利用 NVIDIA Isaac Sim。
robosuite - robosuite 是一个基于 MuJoCo 物理引擎的机器人学习模拟框架。
RoboVerse - RoboVerse 是一个具有多样化环境的综合机器人模拟平台。

行业优势可视化

Apache ECharts - Apache ECharts 是一个强大的、交互式的浏览器图表和数据可视化库。
Apache Superset - 一个现代化的、企业级商业智能网络应用程序。
Bokeh - Bokeh 是一个用于 Python 的交互式可视化库，能够在现代网络浏览器中实现数据的美观和有意义呈现。
Bread Dataset Viewer - 一个 VS Code 扩展，用于在编辑器中直接查看和探索大型机器学习数据集（CSV、JSON、Parquet 等），而不会导致 IDE 崩溃。
Bread WandB Viewer - 一个 VS Code 扩展，用于在 IDE 中查看 Weights & Biases 实验记录和工件，无需切换到网络界面，并通过 100% 离线方式保护数据隐私。
数据格式化器 - 通过 AI 迭代转换数据并创建丰富的可视化。
ggplot2 - R 语言的图形语法实现。
gradio - 只需编写 Python 代码即可快速创建和分享模型演示 - 在浏览器中交互式调试模型，从协作者处获取反馈，并生成公共链接而无需部署任何内容。
Kangas - Kangas 是一个用于探索、分析和可视化大规模多媒体数据的工具。它提供了一个简单的 Python API 用于记录大型数据表，并提供一个直观的可视化界面用于对您的数据集执行复杂查询。
matplotlib - 一个用于生成高质量图形的 Python 2D 绘图库，支持多种硬拷贝格式和跨平台的交互式环境。
Netron - Netron 是一个用于查看神经网络、深度学习和机器学习模型的查看器。
Perspective 通过 WebAssembly 实现实时数据透视可视化。
Plotly - 一个交互式、开源的基于浏览器的 Python 图形库。
Redash - Redash 是一个开源的可视化框架，旨在通过利用多个后端轻松访问大型数据集。
Rerun - Rerun 是一个开源的多模态数据记录、存储、查询和可视化 SDK，专为机器人、计算机视觉和空间 AI 设计。
seaborn - Seaborn 是一个基于 matplotlib 的 Python 可视化库。它提供了绘制吸引人统计图形的高级接口。
Spotlight - Spotlight 帮助您识别关键数据段和模型失效模式。它使您能够通过管理高质量数据集来构建和维护可靠的机器学习模型。
Streamlit - Streamlit 可以让你使用看似简单的 Python 脚本为你的机器学习项目创建应用程序。它支持热重载，因此你的应用程序在编辑并保存文件时可以实时更新。
tensorboardX - 使用简单的函数调用即可编写 TensorBoard 事件。
TensorBoard - TensorBoard 是一个用于机器学习实验的可视化工具包，它使托管、跟踪和共享机器学习实验变得容易。
Transformer Explainer - Transformer Explainer 是一个交互式可视化工具，旨在帮助任何人学习基于 Transformer 的模型（如 GPT）的工作原理。
Vega-Altair - Vega-Altair 是一个用于 Python 的声明式统计可视化库。
ydata-profiling 提供了一致且快速的解决方案。

元数据管理

Amundsen - Amundsen 是一个以元数据驱动的应用程序，旨在提高数据分析师、数据科学家和工程师在处理数据时的生产力。
Apache Atlas - Apache Atlas 框架是一个可扩展的核心基础治理服务集合，帮助企业有效高效地满足其在 Hadoop 中的合规性要求，并允许与企业整个数据生态系统集成。
DataHub - DataHub 是 LinkedIn 的通用元数据搜索与发现工具。
Marquez - Marquez 是一个用于数据生态系统元数据的收集、聚合和可视化的开源元数据服务。
Metacat 元数据发现。
ML Metadata - 一个用于记录和检索与机器学习开发者和数据科学家工作流程相关元数据的库。

模型、数据和实验管理

Aim - 一种超级简单的方法，用于记录、搜索和比较人工智能实验。
ClearML 。
DataHub - DataHub 是现代数据栈的开源数据目录。
Dolt - Dolt 是一个 SQL 数据库，你可以像操作 git 仓库一样进行分叉、克隆、分支、合并、推送和拉取。
DVC 是一个 git 分叉版本，用于模型版本管理。
HuggingFace Model Downloader - HuggingFace Model Downloader 是一个用于从 HuggingFace 网站下载模型和数据集的工具。它提供 LFS 文件的多线程下载，并通过 SHA256 校验和确保下载模型的完整性。
Keepsake - 机器学习的版本控制。
KitOps - KitOps 是一个开放且基于标准的 AI/ML 项目打包和版本系统，可与您已使用的所有 AI/ML、开发和 DevOps 工具协同工作。
lakeFS - 基于对象存储的可重复、原子和版本化的数据湖。
MLflow - 用于管理机器学习生命周期的开源平台，包括实验、可重复性和部署。
Neptune - Neptune 是一个可扩展的实验追踪器，适用于训练基础模型的团队。
Polyaxon 。
Quilt - 数据和模型版本控制、可重复性和部署。
Sacred - 帮助您配置、组织、记录和重现机器学习实验的工具。
TerminusDB - 一个类似于 git 存储数据的图数据库管理系统。
Weights & Biases - Weights & Biases 是一个机器学习实验跟踪、数据集版本控制、超参数搜索、可视化和协作工具。

模型训练与编排

AutoTrain Advanced - AutoTrain Advanced 是一个无代码解决方案，只需几次点击即可训练机器学习模型。
Avalanche 代码库，用于快速原型设计、训练和持续学习算法的可重复评估。
Axolotl - Axolotl 是一个用于简化各种 AI 模型微调的工具，支持多种配置和架构。
BindsNET - BindsNET 是一个脉冲神经网络模拟库，旨在开发受生物学启发的机器学习算法。
CML 在机器学习项目中的应用。
CoreNet ，目标分类、目标检测和语义分割。
Determined 。
dstack - dstack 是一个开源的容器编排工具，简化工作负载编排并驱动 GPU 利用率，适用于机器学习团队。
envd - 数据科学和 AI/ML 工程团队的机器学习开发环境。
Fairseq 是一个序列建模工具包，允许研究人员和开发者训练用于翻译、摘要、语言建模和其他文本生成任务的定制模型。
Fire-Flyer 文件系统是一个高性能分布式文件系统，旨在解决 AI 训练和推理工作负载的挑战。它利用现代 SSD 和 RDMA 网络提供共享存储层，简化分布式应用的开发。
H2O-3 等等。
Hopsworks - Hopsworks 是一个数据密集型平台，用于设计和操作机器学习管道。
Ignite - Ignite 是一个高级库，用于在 PyTorch 中灵活透明地帮助训练和评估神经网络。
Kubeflow - Kubeflow 是一个基于 Google 内部机器学习管道的云原生机器学习平台。
Ludwig - Ludwig 是一个低代码框架，用于构建自定义 AI 模型，如 LLMs 和其他深度神经网络。
MFTCoder .
MLeap - 用于 Spark、Tensorflow 和 sklearn 的管道和模型序列化标准化。
Nanotron - Nanotron 提供分布式原语，以利用 3D 并行高效地训练各种模型。
NeMo 域。它旨在通过利用现有代码和预训练模型检查点，帮助您高效地创建、定制和部署新的生成式 AI 模型。
Prime - Prime 是一个用于在互联网上高效、全局分布式训练 AI 模型的框架。
PyCaret
Sematic - 用于使用简单 Python 构建资源密集型管道的平台。
Skaffold - Skaffold 是一个命令行工具，可简化 Kubernetes 应用的持续开发。您可以在本地迭代应用程序源代码，然后部署到本地或远程 Kubernetes 集群。
TFX 是一个基于 TensorFlow 的面向生产的配置框架，用于机器学习，包括监控和模型版本管理。
unsloth - 用于 LLMs 的微调与强化学习。使用 unsloth，您可以以 70%更少的 VRAM，将 OpenAI gpt-oss、DeepSeek-R1、Qwen3、Gemma 3、TTS 的训练速度提升 2 倍。

模型存储优化

AutoAWQ - AutoAWQ 是一个易于使用的 4 位量化模型包。
AutoGPTQ - 一个基于 GPTQ 算法、具有用户友好 API 的 LLMs 量化包，易于使用。
AWQ - 针对 LLM 压缩和加速的激活感知权重量化。
GGML - GGML 是一个高性能的张量库，用于机器学习，能够在 CPU 上实现高效的推理，特别针对大型语言模型进行了优化。
neural-compressor ，蒸馏和神经架构搜索在主流框架上。
NNEF - 神经网络交换格式（NNEF）是一个开放标准，用于表示神经网络模型，以实现跨不同机器学习框架和平台的互操作性和可移植性。
ONNX 是一种开源格式，旨在促进机器学习模型在不同框架和平台之间的互操作性和可移植性。
PFA - PFA（分析便携格式）是一种标准，用于表示和交换预测模型和分析工作流，采用基于 JSON 的可移植格式。
PMML - PMML（预测模型标记语言）是一种基于 XML 的标准，用于在不同应用程序之间表示和共享预测模型。
Quanto - Quanto 旨在简化深度学习模型的量化过程。

隐私和安全

AI Gateway - AI Gateway 是一个极速的 AI 网关，集成了安全防护机制。
ART 提供工具，使开发者和研究人员能够防御和评估机器学习模型和应用，以应对对抗性威胁，包括规避、中毒、提取和推理。
CipherChat - CipherChat 是一个用于评估 LLM 安全对齐泛化能力的框架。
DeepTeam - DeepTeam 是一个简单易用、开源的 LLM 红队测试框架，用于渗透测试和安全防护大型语言模型系统。
FATE 是世界上第一个工业级联邦学习开源框架，使企业和机构能够在保护数据安全和隐私的同时协作数据。
FedML - FedML 提供了一个用于任何规模、任何地点的联邦/分布式机器学习的集成研究和生产边缘云平台。
Flower - Flower 是一个具有统一方法的联邦学习框架。它能够将任何机器学习工作负载、任何机器学习框架和任何编程语言进行联邦化。
Google 的差分隐私 - 这是一个 C++库，包含ε-差分隐私算法，可用于对包含私人或敏感信息的数值数据集生成汇总统计数据。
Guardrails - Guardrails 是一个允许用户为大型语言模型的输出添加结构、类型和质量保证的软件包。
NeMo Guardrails - NeMo Guardrails 是一个开源工具包，可轻松为基于 LLM 的对话系统添加可编程的护栏。
Opacus - Opacus 是一个库，支持使用差分隐私训练 PyTorch 模型。它支持在客户端进行最少的代码更改即可进行训练，对训练性能影响很小，并允许客户端在线跟踪在任何给定时刻消耗的隐私预算。
OpenFL 和 Intel Labs。
PySyft 在 PyTorch 内部。
Tensorflow Privacy - 一个 Python 库，包含 TensorFlow 优化器的实现，用于使用差分隐私训练机器学习模型。
TF Encrypted - 一个在 TensorFlow 中加密数据上进行机密机器学习的框架。

其他精彩列表

Awesome AI Regulation - 涵盖治理、合规和监管框架，这些对于在不同司法管辖区负责任地部署 ML 系统至关重要。
Awesome Production GenAI - 专注于生成式 AI 部署，包括 LLM 操作、提示工程和 GenAI 特定的监控和安全工具。
Awesome RAG Production - 精选的生产级工具和最佳实践，用于构建可扩展的 RAG 系统。

回复点赞举报

精选优秀开源库列表，可用于部署、监控、版本控制和扩展机器学习系统