애플이 WWDC 2026에서 발표한 자체 파운데이션 모델 AFM 3의 기술 상세가 공개됐어요. 온디바이스 최강 버전 AFM 3 Core Advanced는 20B 파라미터 희소 구조로, 일반 아이폰에서 실행됩니다. 구글 Gemini 지식 증류로 학습했지만 실제 추론은 기기 안에서 완전히 처리돼요.
WWDC 2026 키노트에서 대부분의 관심은 구글 Gemini를 탑재한 새 시리와 Claude·ChatGPT를 iOS 27 기본 AI로 선택할 수 있다는 뉴스에 쏠렸는데요 — 사실 그 날 조금 더 기술적으로 중요한 발표가 조용히 나왔어요. 애플 머신러닝 리서치팀이 "제3세대 애플 파운데이션 모델(AFM 3)" 기술 논문을 공개한 거예요.
총 5개 모델이에요. 온디바이스 2종, 클라우드 3종. 이름도 다 달라요. 클라우드 최상위인 AFM 3 Cloud Pro는 구글 클라우드의 엔비디아 GPU 위에서 돌아간다고 밝혔어요. Gemini 기반 시리와 다른, 애플이 직접 만들고 운영하는 모델이에요.
근데 가장 흥미로운 건 온디바이스 최상위 모델인 AFM 3 Core Advanced예요. 전체 파라미터는 20B인데, 실제 작동할 때는 요청 난이도에 따라 1~4B만 활성화되는 희소(sparse) 구조예요. 메모리 제약이 있는 아이폰에서 20B짜리 AI를 어떻게 돌리냐고요? 여기서 애플이 새로 개발한 기법이 등장해요.
**IFP(Instruction-Following Pruning)**라는 이 기술, 간단히 말하면 전체 20B 가중치는 플래시 저장소에 두고, 요청이 들어올 때마다 필요한 전문가(expert) 가중치만 DRAM으로 로딩하는 방식이에요. 덕분에 기기 메모리가 충분하지 않아도 모델 전체를 올려놓지 않아도 돼요. 단순 요청엔 약 1B, 복잡한 요청엔 최대 4B가 활성화되는 식이에요.
이게 왜 중요하냐면, 사용자 데이터가 밖으로 나가지 않아도 된다는 거예요. 기존 시리의 경우 복잡한 요청은 서버로 올려야 했는데, AFM 3 Core Advanced부터는 꽤 고급 요청도 기기 안에서 처리할 수 있어요. 프라이버시 면에서 한 단계 올라간 거예요.
참, 이 모델들이 완전히 독자 기술이냐 하면 그건 아니에요. 구글 Gemini에서 지식 증류(distillation)를 거쳐 만들어졌어요. 부모 모델이 Gemini인 셈인데, 실제 추론은 기기 안에서 AFM 3 모델이 담당해요. "Gemini가