총 134건
RAG를 사용하여 LLM 애플리케이션을 구축하기 위한 데이터 프레임워크. 문서 수집(300개 이상의 커넥터), 인덱싱 및 쿼리를 전문으로 합니다. 벡터 인덱스, 쿼리 엔진, 에이전트 및 다중 모드 지원 기능. 문서 Q&A, 챗봇, 지식 검색 또는 RAG 파이프라인 구축에 사용하세요. data-c에 가장 적합
모든 제품은 AI로 구동됩니다. 문제는 제대로 만들 것인지, 아니면 생산 과정에서 실패한 데모를 보낼 것인지입니다. 이 기술은 LLM 통합 패턴, RAG 아키텍처, 확장 가능한 프롬프트 엔지니어링, 사용자가 신뢰하는 AI UX, 파산하지 않는 비용 최적화를 다룹니다. w 사용
요약, 트리밍, 라우팅 및 컨텍스트 썩음 방지를 포함한 LLM 컨텍스트 창 관리 전략: 컨텍스트 창, 토큰 제한, 컨텍스트 관리, 컨텍스트 엔지니어링, 긴 컨텍스트.
단기, 장기, 엔티티 기반 메모리를 포함한 LLM 대화를 위한 지속 메모리 시스템: 대화 메모리, 기억, 기억 지속성, 장기 메모리, 채팅 기록.
LLM 훈련을 위한 GPU 가속 데이터 큐레이션. 텍스트/이미지/비디오/오디오를 지원합니다. 퍼지 중복 제거(16배 더 빠름), 품질 필터링(30개 이상의 휴리스틱), 시맨틱 중복 제거, PII 재액션, NSFW 탐지 기능을 갖추고 있습니다. RAPIDS로 GPU 전반에 걸쳐 확장 가능. 고품질 교육 데이터셋 준비에 사용, cle
Wanda 및 SparseGPT와 같은 가지치기 기법을 사용하여 LLM 크기를 줄이고 추론 속도를 높입니다. 모델을 재훈련 없이 압축할 때, 최소한의 정확도 손실로 50% 희소성을 달성하거나 하드웨어 가속기에서 더 빠른 추론을 가능하게 할 때 사용하세요. 비정형 가지치기, 정형 가지치기, N:M s를 다룹니다
arXiv 2401.10774 (2024) 기반 - MEDUSA: 다중 디코딩 헤드가 있는 간단한 LLM 추론 가속 프레임워크
추측 디코딩, 메두사 다중 헤드, 그리고 전방 디코딩 기법을 사용하여 LLM 추론을 가속화하세요. 추론 속도를 최적화하거나(1.5-3.6배 속도 향상), 실시간 애플리케이션의 지연 시간을 줄이거나, 계산 속도가 제한된 모델을 배포할 때 사용하세요. 초안 모델, 트리 기반 주의, Jac을 다룹니다
멀티백엔드 실행을 통해 18개 이상의 하네스(MMLU, 휴먼에벌, GSM8K, 세이프티, VLM)의 100개 이상의 벤치마크에서 LLM을 평가합니다. 로컬 Docker, 슬럼 HPC 또는 클라우드 플랫폼에서 확장 가능한 평가가 필요할 때 사용하세요. 재현 가능한 벤치를 위한 컨테이너 우선 아키텍처를 갖춘 NVIDIA의 엔터프라이즈급 플랫폼
클라이언트 또는 구성된 제공자에게 MCP 컨텍스트를 통해 LLM 텍스트 생성을 요청합니다.
Axolotl - YAML 구성, 100개 이상의 모델, LoRA/QLoRA, DPO/KTO/ORPO/GRPO를 사용한 LLM 미세 조정을 위한 전문가 지침, 멀티모달 지원
LLaMA-Factory를 사용한 LLM 미세 조정을 위한 전문가 지침 - WebUI 노코드, 100개 이상의 모델, 2/3/4/5/6/8비트 QLoRA, 멀티모달 지원
LlM을 위한 매개변수 효율적인 미세 조정은 LoRA, QLoRA 및 25개 이상의 방법을 사용합니다. GPU 메모리가 제한된 대형 모델(7B-70B)을 미세 조정할 때, 정확도 손실을 최소화하면서 파라미터를 1% 미만으로 훈련해야 할 때 또는 멀티 어댑터 서빙에 사용하세요. 트랜스포머와 통합된 허깅페이스 공식 라이브러리
**파일:** `llms-txt.md`
연구, 이해관계자 인터뷰, 다중 LLM 검토를 통해 세부적이고 세분화된 실행 계획을 수립합니다. 철저한 사전 구현 분석이 필요한 기능을 계획할 때 사용하세요.
이 단계에서는 CLI 하위 에이전트를 사용하여 독립적인 검토를 위해 `claude-plan.md`를 외부 LLM(Gemini 및 Codex)으로 보냅니다.
NVIDIA 하드웨어 없이 CPU, Apple 실리콘 및 소비자 GPU에서 LLM 추론을 실행합니다. 엣지 배포, M1/M2/M3 Mac, AMD/Intel GPU 또는 CUDA를 사용할 수 없는 경우에 사용하세요. CPU에서 메모리 감소와 PyTorch 대비 4-10배 빠른 속도 향상을 위해 GGUF 양자화(1.5-8비트)를 지원합니다.
RadixAttention 접두사 캐싱을 통해 LLM을 위한 빠른 구조화된 생성 및 서비스. JSON/regex 출력, 제약 디코딩, 도구 호출을 통한 에이전트 워크플로우, 또는 접두사 공유를 통한 vLLM보다 5배 빠른 추론이 필요할 때 사용하세요. xAI, AMD, NVIDIA, LinkedIn에서 30만 개 이상의 GPU에 전력을 공급합니다.
Langfuse의 전문가 - 오픈 소스 LLM 관측 플랫폼. 추적, 신속한 관리, 평가, 데이터셋 및 LangChain, LamaIndex, Open과의 통합을 다룹니다AI. 프로덕션에서 LLM 애플리케이션을 디버깅, 모니터링 및 개선하는 데 필수적입니다. 사용 시기: 랑퓨즈, llm 관측 가능성,
클로드 사이언티픽 라이터를 위해 Microsoft의 MarkItDown 도구를 사용하는 포괄적인 기술이 개발되었습니다. 이 기술은 LLM 프로세스에 최적화된 15개 이상의 파일 형식을 Markdown으로 변환할 수 있게 합니다