Proyectos impresionantes construidos con Transformers:
Esta página muestra proyectos increíbles basados en Transformers, una comunidad de proyectos y el Hugging Face Hub.
gpt4all:
Un ecosistema de chatbots de código abierto entrenados en grandes colecciones de datos. Ofrece modelos de lenguaje grandes como LLaMA y GPT-J.
recommenders:
Repositorio con ejemplos y mejores prácticas para sistemas de recomendación, proporcionados como cuadernos de Jupyter.
lama-cleaner:
Herramienta de retoque de imágenes impulsada por Stable Diffusion. Elimina objetos, defectos o personas no deseados de las fotos.
flair:
Potente marco de PNL en PyTorch, cubriendo tareas importantes como NER, análisis de sentimientos, etiquetado de partes del discurso, entre otros.
mindsdb:
Plataforma de ML de bajo código que automatiza e integra varios marcos de ML en la pila de datos como “Tablas de IA”.
langchain:
Dirigido a asistir en el desarrollo de aplicaciones que fusionan LLMs con otras fuentes de conocimiento.
LlamaIndex:
Proporciona una interfaz central para conectar tus LLM con datos externos.
ParlAI:
Marco de Python para compartir, entrenar y probar modelos de diálogo.
sentence-transformers:
Marco para calcular representaciones vectoriales densas para oraciones, párrafos e imágenes.
ludwig:
Marco de aprendizaje automático declarativo que facilita la definición de flujos de trabajo de ML.
InvokeAI:
Motor para modelos de Stable Diffusion dirigido a profesionales y artistas.
PaddleNLP:
Biblioteca de PNL fácil de usar y potente, especialmente dirigida a idiomas chinos.
stanza:
Biblioteca oficial de NLP en Python del Stanford NLP Group.
DeepPavlov:
Biblioteca de IA conversacional de código abierto para desarrollar chatbots y sistemas conversacionales complejos.
alpaca-lora:
Contiene código para reproducir los resultados de Stanford Alpaca usando adaptación de bajo rango (LoRA).
imagen-pytorch:
Implementación de código abierto de Imagen, la red neuronal de texto a imagen de Google.
adapter-transformers:
Extensión de la biblioteca de Transformers de HuggingFace, integrando adaptadores en modelos de lenguaje.
NeMo:
Kit de herramientas de IA conversacional de NVIDIA para investigadores en ASR, TTS, LLMs y NLP.
Runhouse:
Permite enviar código y datos a cualquier infraestructura de cómputo o datos en Python.
MONAI:
Marco de aprendizaje profundo para la imagenología médica.
simpletransformers:
Permite entrenar y evaluar rápidamente modelos Transformer.
JARVIS:
Sistema que intenta fusionar LLMs como GPT-4 con la comunidad de ML de código abierto.
transformers.js:
Biblioteca de JavaScript para ejecutar modelos de transformers directamente en el navegador.
bumblebee:
Ofrece modelos de redes neuronales preentrenados en Axon, una biblioteca de redes neuronales para el lenguaje Elixir.
argilla:
Plataforma de código abierto para etiquetado avanzado de NLP, monitoreo y espacios de trabajo.
haystack:
Marco de NLP de código abierto para interactuar con tus datos usando modelos Transformer y LLMs.
spaCy:
Biblioteca para NLP avanzado en Python y Cython.
speechbrain:
Kit de herramientas de IA conversacional de código abierto basado en PyTorch.
skorch:
Biblioteca compatible con scikit-learn que envuelve PyTorch.
bertviz:
Herramienta interactiva para visualizar la atención en modelos de lenguaje Transformer.
mesh-transformer-jax:
Biblioteca haiku que utiliza los operadores xmap/pjit en JAX para paralelismo de modelo de transformadores.
deepchem:
Apunta a democratizar el uso del aprendizaje profundo en descubrimiento de drogas, ciencia de materiales, química cuántica y biología.
OpenNRE:
Paquete de código abierto para extracción de relaciones neuronales.
pycorrector:
Herramienta de corrección de texto chino que utiliza un modelo de lenguaje para detectar y corregir errores.
nlpaug:
Biblioteca de Python para aumentar el nlp para proyectos de aprendizaje automático.
dream-textures:
Biblioteca dirigida a traer soporte de difusión estable dentro de Blender.
seldon-core:
Convierte tus modelos de ML en microservicios de producción REST/GRPC.
open_model_zoo:
Incluye modelos de aprendizaje profundo optimizados y un conjunto de demostraciones.
ml-stable-diffusion:
Repositorio de Apple que lleva el soporte de Stable Diffusion a Core ML en dispositivos Apple Silicon.
stable-dreamfusion:
Implementación en pytorch del modelo de texto a 3D Dreamfusion.
txtai:
Plataforma de código abierto para búsqueda semántica y flujos de trabajo impulsados por modelos de lenguaje.
djl:
Biblioteca de Java de código abierto para aprendizaje profundo.
lm-evaluation-harness:
Proporciona un marco unificado para probar modelos de lenguaje generativo en un gran número de tareas de evaluación diferentes.
gpt-neox:
Registra la biblioteca de EleutherAI para entrenar modelos de lenguaje a gran escala en GPU.
muzic:
Proyecto de investigación en música AI que potencia la comprensión y generación de música con aprendizaje profundo e inteligencia artificial.
dalle-flow:
Flujo de trabajo interactivo para generar imágenes de alta definición a partir de un mensaje de texto.
lightseq:
Biblioteca de alto rendimiento para entrenamiento e inferencia para procesamiento y generación de secuencias implementada en CUDA.
LaTeX-OCR:
El objetivo de este proyecto es crear un sistema basado en aprendizaje que tome una imagen de una fórmula matemática y devuelva el código LaTeX correspondiente.
open_clip:
Implementación de código abierto de CLIP de OpenAI.
dalle-playground:
Un patio de recreo para generar imágenes a partir de cualquier mensaje de texto usando Stable Diffusion y Dall-E mini.
FedML:
iblioteca de aprendizaje federado y análisis que permite el aprendizaje seguro y colaborativo en datos descentralizados.
gpt-code-clippy:
Versión de código abierto de GitHub Copilot, un modelo de lenguaje basado en GPT-3 llamado GPT-Codex.
TextAttack:
Marco de Python para ataques adversarios, aumento de datos y entrenamiento de modelos en NLP.
OpenPrompt:
Biblioteca para adaptar modelos de lenguaje preentrenados a tareas de NLP.
text-generation-webui:
Web UI de Gradio para ejecutar modelos de lenguaje grandes.
libra:
Biblioteca de aprendizaje automático ergonómica para usuarios no técnicos.
alibi:
Biblioteca de Python de código abierto para la inspección e interpretación de modelos de aprendizaje automático.
tortoise-tts:
Programa de texto a voz con capacidades multivoz fuertes y prosodia e intonación altamente realistas.
flower:
Flower es un marco para construir sistemas de aprendizaje federado.
fast-bert:
Biblioteca de aprendizaje profundo que permite a desarrolladores y científicos de datos entrenar y desplegar modelos basados en BERT y XLNet.
towhee:
Facilita la construcción de canalizaciones de procesamiento de datos neuronales para aplicaciones de IA.
alibi-detect:
Biblioteca de Python de código abierto centrada en la detección de adversarios, anomalías y deriva.
FARM:
Facilita el aprendizaje por transferencia con BERT & Co de forma simple, rápida y preparada para empresas.
aitextgen:
Herramienta robusta de Python para entrenamiento y generación de texto basada en la arquitectura de GPT-2 y GPT-3 de EleutherAI.
diffgram:
Integra la supervisión humana en plataformas, apoyando a tu equipo a cambiar programáticamente la IU.
ecco:
Crea visualizaciones interactivas directamente en cuadernos de Jupyter que explican el comportamiento de modelos de lenguaje basados en Transformer.
s3prl:
Se centra en el aprendizaje previo auto-supervisado y el aprendizaje de representación para la voz.
ru-dalle:
Apunta a ser similar a DALL-E, dirigido al ruso.
DeepKE:
Kit de herramientas de extracción de conocimiento para la construcción de grafos de conocimiento.
Nebuly:
Plataforma de próxima generación para monitorear y optimizar tus costos de IA en un solo lugar.
imaginAIry:
Ofrece una CLI y una API de Python para generar imágenes con Stable Diffusion.
sparseml:
Kit de optimización de modelos de código abierto que te permite crear modelos dispersos optimizados para inferencia.
opacus:
Biblioteca que permite entrenar modelos PyTorch con privacidad diferencial.
LAVIS:
Biblioteca de aprendizaje profundo de Python para investigación y aplicaciones de inteligencia de lenguaje y visión.
buzz:
Transcribe y traduce audio fuera de línea en tu computadora personal. Impulsado por Whisper de OpenAI.
rust-bert:
Modelos y canalizaciones de procesamiento del lenguaje natural de última generación nativos de Rust.
EasyNLP:
Kit de herramientas de desarrollo y aplicación de NLP en PyTorch, lanzado por primera vez dentro de Alibaba en 2021.
TurboTransformers:
Un tiempo de ejecución rápido y fácil de usar para la inferencia del transformador en CPU y GPU.
hivemind:
Biblioteca de PyTorch para aprendizaje profundo descentralizado a través de Internet.
docquery:
Biblioteca y herramienta de línea de comandos que facilita el análisis de documentos semi-estructurados y no estructurados.
CodeGeeX:
Modelo de generación de código multilingüe a gran escala con 13 mil millones de parámetros.
ktrain:
Envoltura ligera para la biblioteca de aprendizaje profundo TensorFlow Keras para ayudar a construir, entrenar y desplegar modelos de ML y NLP.
FastDeploy:
Kit de herramientas de despliegue de modelos de IA fácil de usar y de alto rendimiento para la nube, móviles y el borde.
underthesea:
Kit de herramientas de NLP vietnamita de código abierto.
hasktorch:
Biblioteca para tensores y redes neuronales en Haskell.
donut:
Método nuevo de comprensión de documentos que utiliza un modelo Transformer de OCR libre.
transformers-interpret:
Herramienta de explicabilidad de modelos diseñada para trabajar exclusivamente con el paquete de transformers.
mlrun:
Plataforma abierta de MLOps para construir y administrar rápidamente aplicaciones continuas de ML a lo largo de su ciclo de vida.
FederatedScope:
Plataforma integral de aprendizaje federado que proporciona uso conveniente y personalización flexible.
pythainlp:
Paquete de Python para procesamiento de texto y análisis lingüístico, con enfoque en el idioma tailandés.
FlagAI:
Kit de herramientas rápido, fácil de usar y extensible para modelos a gran escala.
pyserini:
Kit de herramientas de Python para investigación reproducible en recuperación de información.
baal:
Biblioteca de aprendizaje activo que admite aplicaciones industriales y casos de uso de investigación.
cleanlab:
Paquete estándar de IA centrado en datos para calidad de datos y aprendizaje automático con datos y etiquetas del mundo real.
BentoML:
Marco unificado para construir, enviar y escalar aplicaciones de IA listas para producción.
LLaMA-Efficient-Tuning:
Ofrece un marco de ajuste fino fácil de usar que incorpora PEFT.
Fuente: https://github.com/huggingface/transformers/blob/main/awesome-transformers.md