Proyectos impresionantes construidos con Transformers:
Esta página muestra proyectos increíbles basados en Transformers, una comunidad de proyectos y el Hugging Face Hub.

gpt4all:

Un ecosistema de chatbots de código abierto entrenados en grandes colecciones de datos. Ofrece modelos de lenguaje grandes como LLaMA y GPT-J.

recommenders:

Repositorio con ejemplos y mejores prácticas para sistemas de recomendación, proporcionados como cuadernos de Jupyter.

lama-cleaner:

Herramienta de retoque de imágenes impulsada por Stable Diffusion. Elimina objetos, defectos o personas no deseados de las fotos.

flair:

Potente marco de PNL en PyTorch, cubriendo tareas importantes como NER, análisis de sentimientos, etiquetado de partes del discurso, entre otros.

mindsdb:

Plataforma de ML de bajo código que automatiza e integra varios marcos de ML en la pila de datos como “Tablas de IA”.

langchain:

Dirigido a asistir en el desarrollo de aplicaciones que fusionan LLMs con otras fuentes de conocimiento.

LlamaIndex:

Proporciona una interfaz central para conectar tus LLM con datos externos.

ParlAI:

Marco de Python para compartir, entrenar y probar modelos de diálogo.

sentence-transformers:

Marco para calcular representaciones vectoriales densas para oraciones, párrafos e imágenes.

ludwig:

Marco de aprendizaje automático declarativo que facilita la definición de flujos de trabajo de ML.

InvokeAI:

Motor para modelos de Stable Diffusion dirigido a profesionales y artistas.

PaddleNLP:

Biblioteca de PNL fácil de usar y potente, especialmente dirigida a idiomas chinos.

stanza:

Biblioteca oficial de NLP en Python del Stanford NLP Group.

DeepPavlov:

Biblioteca de IA conversacional de código abierto para desarrollar chatbots y sistemas conversacionales complejos.

alpaca-lora:

Contiene código para reproducir los resultados de Stanford Alpaca usando adaptación de bajo rango (LoRA).

imagen-pytorch:

Implementación de código abierto de Imagen, la red neuronal de texto a imagen de Google.

adapter-transformers:

Extensión de la biblioteca de Transformers de HuggingFace, integrando adaptadores en modelos de lenguaje.

NeMo:

Kit de herramientas de IA conversacional de NVIDIA para investigadores en ASR, TTS, LLMs y NLP.

Runhouse:

Permite enviar código y datos a cualquier infraestructura de cómputo o datos en Python.

MONAI:

Marco de aprendizaje profundo para la imagenología médica.

simpletransformers:

Permite entrenar y evaluar rápidamente modelos Transformer.

JARVIS:

Sistema que intenta fusionar LLMs como GPT-4 con la comunidad de ML de código abierto.

transformers.js:

Biblioteca de JavaScript para ejecutar modelos de transformers directamente en el navegador.

bumblebee:

Ofrece modelos de redes neuronales preentrenados en Axon, una biblioteca de redes neuronales para el lenguaje Elixir.

argilla:

Plataforma de código abierto para etiquetado avanzado de NLP, monitoreo y espacios de trabajo.

haystack:

Marco de NLP de código abierto para interactuar con tus datos usando modelos Transformer y LLMs.

spaCy:

Biblioteca para NLP avanzado en Python y Cython.

speechbrain:

Kit de herramientas de IA conversacional de código abierto basado en PyTorch.

skorch:

Biblioteca compatible con scikit-learn que envuelve PyTorch.

bertviz:

Herramienta interactiva para visualizar la atención en modelos de lenguaje Transformer.

mesh-transformer-jax:

Biblioteca haiku que utiliza los operadores xmap/pjit en JAX para paralelismo de modelo de transformadores.

deepchem:

Apunta a democratizar el uso del aprendizaje profundo en descubrimiento de drogas, ciencia de materiales, química cuántica y biología.

OpenNRE:

Paquete de código abierto para extracción de relaciones neuronales.

pycorrector:

Herramienta de corrección de texto chino que utiliza un modelo de lenguaje para detectar y corregir errores.

nlpaug:

Biblioteca de Python para aumentar el nlp para proyectos de aprendizaje automático.

dream-textures:

Biblioteca dirigida a traer soporte de difusión estable dentro de Blender.

seldon-core:

Convierte tus modelos de ML en microservicios de producción REST/GRPC.

open_model_zoo:

Incluye modelos de aprendizaje profundo optimizados y un conjunto de demostraciones.

ml-stable-diffusion:

Repositorio de Apple que lleva el soporte de Stable Diffusion a Core ML en dispositivos Apple Silicon.

stable-dreamfusion:

Implementación en pytorch del modelo de texto a 3D Dreamfusion.

txtai:

Plataforma de código abierto para búsqueda semántica y flujos de trabajo impulsados por modelos de lenguaje.

djl:

Biblioteca de Java de código abierto para aprendizaje profundo.

lm-evaluation-harness:

Proporciona un marco unificado para probar modelos de lenguaje generativo en un gran número de tareas de evaluación diferentes.

gpt-neox:

Registra la biblioteca de EleutherAI para entrenar modelos de lenguaje a gran escala en GPU.

muzic:

Proyecto de investigación en música AI que potencia la comprensión y generación de música con aprendizaje profundo e inteligencia artificial.

dalle-flow:

Flujo de trabajo interactivo para generar imágenes de alta definición a partir de un mensaje de texto.

lightseq:

Biblioteca de alto rendimiento para entrenamiento e inferencia para procesamiento y generación de secuencias implementada en CUDA.

LaTeX-OCR:

El objetivo de este proyecto es crear un sistema basado en aprendizaje que tome una imagen de una fórmula matemática y devuelva el código LaTeX correspondiente.

open_clip:

Implementación de código abierto de CLIP de OpenAI.

dalle-playground:

Un patio de recreo para generar imágenes a partir de cualquier mensaje de texto usando Stable Diffusion y Dall-E mini.

FedML:

iblioteca de aprendizaje federado y análisis que permite el aprendizaje seguro y colaborativo en datos descentralizados.

gpt-code-clippy:

Versión de código abierto de GitHub Copilot, un modelo de lenguaje basado en GPT-3 llamado GPT-Codex.

TextAttack:

Marco de Python para ataques adversarios, aumento de datos y entrenamiento de modelos en NLP.

OpenPrompt:

Biblioteca para adaptar modelos de lenguaje preentrenados a tareas de NLP.

text-generation-webui:

Web UI de Gradio para ejecutar modelos de lenguaje grandes.

libra:

Biblioteca de aprendizaje automático ergonómica para usuarios no técnicos.

alibi:

Biblioteca de Python de código abierto para la inspección e interpretación de modelos de aprendizaje automático.

tortoise-tts:

Programa de texto a voz con capacidades multivoz fuertes y prosodia e intonación altamente realistas.

flower:

Flower es un marco para construir sistemas de aprendizaje federado.

fast-bert:

Biblioteca de aprendizaje profundo que permite a desarrolladores y científicos de datos entrenar y desplegar modelos basados en BERT y XLNet.

towhee:

Facilita la construcción de canalizaciones de procesamiento de datos neuronales para aplicaciones de IA.

alibi-detect:

Biblioteca de Python de código abierto centrada en la detección de adversarios, anomalías y deriva.

FARM:

Facilita el aprendizaje por transferencia con BERT & Co de forma simple, rápida y preparada para empresas.

aitextgen:

Herramienta robusta de Python para entrenamiento y generación de texto basada en la arquitectura de GPT-2 y GPT-3 de EleutherAI.

diffgram:

Integra la supervisión humana en plataformas, apoyando a tu equipo a cambiar programáticamente la IU.

ecco:

Crea visualizaciones interactivas directamente en cuadernos de Jupyter que explican el comportamiento de modelos de lenguaje basados en Transformer.

s3prl:

Se centra en el aprendizaje previo auto-supervisado y el aprendizaje de representación para la voz.

ru-dalle:

Apunta a ser similar a DALL-E, dirigido al ruso.

DeepKE:

Kit de herramientas de extracción de conocimiento para la construcción de grafos de conocimiento.

Nebuly:

Plataforma de próxima generación para monitorear y optimizar tus costos de IA en un solo lugar.

imaginAIry:

Ofrece una CLI y una API de Python para generar imágenes con Stable Diffusion.

sparseml:

Kit de optimización de modelos de código abierto que te permite crear modelos dispersos optimizados para inferencia.

opacus:

Biblioteca que permite entrenar modelos PyTorch con privacidad diferencial.

LAVIS:

Biblioteca de aprendizaje profundo de Python para investigación y aplicaciones de inteligencia de lenguaje y visión.

buzz:

Transcribe y traduce audio fuera de línea en tu computadora personal. Impulsado por Whisper de OpenAI.

rust-bert:

Modelos y canalizaciones de procesamiento del lenguaje natural de última generación nativos de Rust.

EasyNLP:

Kit de herramientas de desarrollo y aplicación de NLP en PyTorch, lanzado por primera vez dentro de Alibaba en 2021.

TurboTransformers:

Un tiempo de ejecución rápido y fácil de usar para la inferencia del transformador en CPU y GPU.

hivemind:

Biblioteca de PyTorch para aprendizaje profundo descentralizado a través de Internet.

docquery:

Biblioteca y herramienta de línea de comandos que facilita el análisis de documentos semi-estructurados y no estructurados.

CodeGeeX:

Modelo de generación de código multilingüe a gran escala con 13 mil millones de parámetros.

ktrain:

Envoltura ligera para la biblioteca de aprendizaje profundo TensorFlow Keras para ayudar a construir, entrenar y desplegar modelos de ML y NLP.

FastDeploy:

Kit de herramientas de despliegue de modelos de IA fácil de usar y de alto rendimiento para la nube, móviles y el borde.

underthesea:

Kit de herramientas de NLP vietnamita de código abierto.

hasktorch:

Biblioteca para tensores y redes neuronales en Haskell.

donut:

Método nuevo de comprensión de documentos que utiliza un modelo Transformer de OCR libre.

transformers-interpret:

Herramienta de explicabilidad de modelos diseñada para trabajar exclusivamente con el paquete de transformers.

mlrun:

Plataforma abierta de MLOps para construir y administrar rápidamente aplicaciones continuas de ML a lo largo de su ciclo de vida.

FederatedScope:

Plataforma integral de aprendizaje federado que proporciona uso conveniente y personalización flexible.

pythainlp:

Paquete de Python para procesamiento de texto y análisis lingüístico, con enfoque en el idioma tailandés.

FlagAI:

Kit de herramientas rápido, fácil de usar y extensible para modelos a gran escala.

pyserini:

Kit de herramientas de Python para investigación reproducible en recuperación de información.

baal:

Biblioteca de aprendizaje activo que admite aplicaciones industriales y casos de uso de investigación.

cleanlab:

Paquete estándar de IA centrado en datos para calidad de datos y aprendizaje automático con datos y etiquetas del mundo real.

BentoML:

Marco unificado para construir, enviar y escalar aplicaciones de IA listas para producción.

LLaMA-Efficient-Tuning:

Ofrece un marco de ajuste fino fácil de usar que incorpora PEFT.

Fuente: https://github.com/huggingface/transformers/blob/main/awesome-transformers.md