총 500건
이 문서는 이 기술을 구축하는 데 사용된 모든 권위 있는 출처를 주제별로 정리한 목록입니다.
이 참고 자료는 닐 난다, 안드레이 카르파티, 세바스찬 파르쿠하르, 자카리 립튼, 제이콥 스타인하르트 등 저명한 ML 연구자들의 글쓰기 조언을 종합한 것입니다.
Neur를 위한 출판 준비 ML/AI 논문 작성하기IPS, ICML, ICLR, ACL, AAAI, COLM. 연구 보고서에서 논문 초안을 작성하거나, 논증을 구성하거나, 인용을 검증하거나, 카메라 준비가 된 제출물을 준비할 때 사용하세요. LaTeX 템플릿, 리뷰어 가이드라인, 인용 검증 워크플로우가 포함되어 있습니다.
**📝 重要说明 / 중요 공지**: 本仓库借助커서 在AAAI 2026官方模板基础上改进得到。如果遇到不满足或有冲突的情况,请积极提issues。
다음 지침은 ACL 회의에 검토를 위해 제출된 논문(이하 "검토 버전") 또는 그 절차에서 출판이 수락된 논문(이하 "최종 버전")의 저자를 위한 것입니다
이 디렉토리에는 *ACL 컨퍼런스를 위한 최신 LaTeX 템플릿이 포함되어 있습니다.
CoLM 2025의 템플릿 및 스타일 파일
이 디렉토리에는 주요 머신 러닝 및 AI 컨퍼런스를 위한 공식 LaTeX 템플릿이 포함되어 있습니다.
LoRA, QLoRA를 위한 완전한 하이퍼파라미터 구성과 다양한 모델 크기에 걸친 완전한 미세 조정.
맘바의 핵심 혁신은 상태 공간 모델 매개변수를 입력 의존적으로 만드는 **선택적 SSM(S6)** 계층입니다.
**맘바-1.4B 대 트랜스포머-1.3싱글 A100 80의 B**GB:
'''bash'''
O(n) 복잡도와 트랜스포머의 O(n²)를 비교한 상태 공간 모델. 5배 빠른 추론, 백만 토큰 시퀀스, KV 캐시 없음. 하드웨어 인식 설계를 갖춘 선택적 SSM. 맘바-1 (d_state=16)과 맘바-2 (d_state=128, 멀티헤드). 허깅페이스 모델 1억 3천만-2.8억.
NanoGPT는 교육 목적으로 최소한의 코드로 깨끗한 GPT-2 아키텍처를 구현합니다.
NanoGPT는 효율적인 로딩을 위해 **바이너리 토큰 파일**을 사용합니다:
NanoGPT의 `train.py`는 의존성이 최소화된 독립형 학습 스크립트입니다.
RWKV는 **타임 믹싱**(시퀀스 처리) 블록과 **채널 믹싱**(피처 처리) 블록을 번갈아 가며 사용합니다.
RWKV-7은 2025년 3월에 출시된 최신 버전으로, 멀티모달 기능을 도입하고 14B+ 매개변수로 확장성을 개선했습니다.
KV 캐시가 있는 트랜스포머와 달리, RWKV는 이전의 모든 컨텍스트를 요약하는 **고정 크기의 순환 상태**를 유지합니다.
RNN+Transformer 하이브리드와 O(n) 추론. 선형 시간, 무한 컨텍스트, KV 캐시 없음. GPT(병렬)처럼 훈련하고, RNN(순차)처럼 추론하세요. 리눅스 재단 AI 프로젝트. Windows, Office, NeMo에서 제작. RWKV-7 (2025년 3월). 최대 14B 매개변수를 모델링합니다.