← всі звіти · huggingface-top20-pharma-marketing-2026-05-01.md

HuggingFace TOP-20 — фарма та маркетинг (свіжі ~квітень 2026)

Що завантажено за останні 2-4 тижні і що з цього варте уваги для Deltamedical. Дата звіту: 2026-05-01. Фільтр пошуку: HuggingFace ?sort=modified за різними тематиками (medical, clinical, drug, pharma, marketing, advertising, sentiment, ukrainian).

TL;DR

HealthGPT-Pro-8B (lintw, 16 хв тому на момент скану) — свіжий мультимодальний Med-MLLM на Qwen3-VL-8B з 14 типами модальностей (CT, X-ray, MRI, OCT, гістопатологія). Оцінки на медичних бенчах рівня 61-69% — реально юзабельний для нашого Med Detective як локальний vision-помічник по знімках.
II-Medical-8B (Intelligent-Internet) — медичний reasoning на Qwen3-8B, 70.49% по 10 бенчах і HealthBench 40% (рівень o1/GPT-4.5). 4k+ завантажень. Реальний кандидат на заміну/доповнення Gemini у Case Builder Crew як офлайн-fallback.
MedReg AI / ai-medical-router (ExperienceIV) — RoBERTa 0.4B, російська мова, симптом-роутер на 10 спеціалізацій. Унікальна — мало рос/укр медичних моделей у HF. Прямо лягає на пацієнтський бот / pre-screening воронку.
Marketing-Gemma-4 (marketeam) — анонс на Gemma-4-26B-A4B-it під теги seo/aeo/influencer/campaign/ppc/social/content. Поки "coming soon" — поставити на радар.
Тенденція: в HF за останні 2-4 тижні бум саме медичних reasoning-моделей (SFT+RLVR/GRPO/DAPO на PubMedQA, MedMCQA) на базі Qwen3 і Gemma-4 — це корисно для нас як темплейт fine-tune'у на українському корпусі. У маркетингу — навпаки, рух у бік agent-based та RL (Trust-Aware Marketing Agent, AdCopy MAB Optimizer).

💊 Фарма / медицина (10 проектів)

1. HealthGPT-Pro-8B

Тип: Model (multimodal LLM, Image-Text-to-Text)
Що це: SOTA Med-MLLM під медичні модальності — текст + 2D знімки + 3D об'єми (CT/MRI/X-ray/Ultrasound/Fundus/OCT/Endoscopy/Histopathology, 14 типів).
Розмір/база: 9B params, base Qwen3-VL-8B-Instruct, BF16, Apache 2.0
Дата оновлення: 2026-05-01 (16 хв тому)
Бенчмарки: MMLU-Med 83.1%, MedMCQA 68.5%, PubMedQA 79.2%, VQA-RAD 78.4%, PathVQA 70.7%
Мови: EN (база Qwen3-VL мультимовна, можна донавчити)
Use case для нас: Med Detective — vision-додаток до квестів (читання знімків, dermoscopy, OCT). Pediatric News — модерація медичних візуалів. Тренувальний backbone для kz/ua-fine-tune.

2. HealthGPT-Pro-4B

Тип: Model (multimodal LLM)
Що це: Лайт-версія HealthGPT-Pro на Qwen3-VL-4B — для запуску на 1×24GB GPU.
Розмір/база: 4B params, Qwen3-VL-4B-Instruct
Дата оновлення: 2026-05-01 (16 хв тому)
Мови: EN
Use case: локальний edge-deploy на VPS для Med Detective test-инстансу (порт 8766) без вантаження великої моделі.

3. II-Medical-8B

Тип: Model (text reasoning LLM)
Що це: Медичний reasoning-LLM з SFT+DAPO RL на 555k samples (PubMedQA/MedMCQA + synthetic QwQ + R1 traces). HealthBench 40% — рівень GPT-4.5/o1.
Розмір/база: 8B params, base Qwen/Qwen3-8B, BF16
Дата оновлення: 2025-08-12 (стара, але популярна — 4 086 dl/міс, 209 ❤️)
Мови: EN (Qwen3 мультилінгвальна базово)
Use case для нас: Case Builder Crew — офлайн reasoning-агент замість Gemini для clinical case generation; legal-advisor — як second-opinion перевірка симптомів; кандидат на vLLM серверну установку.

4. Lingshu-7B

Тип: Model (multimodal medical LLM)
Що це: Мультимодальний медичний LLM — image+text reasoning на медичних знімках.
Розмір/база: 7B params
Дата оновлення: 2025-09-17 (5.94k dl, 75 ❤️)
Мови: EN/CN (китайський акцент)
Use case: альтернатива HealthGPT-Pro для VQA задач, легший fine-tune.

5. Gemma-4-E2B-IT-SFT-RLVR-Medical-GGUF

Тип: Model (quantized GGUF)
Що це: Gemma-4-E2B донавчена SFT + RLVR на PubMedQA. PubMedQA 73.10% (vs 58.10% базової), MedQA-USMLE 43.05%.
Розмір/база: 5B (Gemma-4-E2B-it), Q4_K_M = 3.42GB
Дата оновлення: ~4 дні тому (2026-04-27), 5 002 dl/міс
Мови: EN
Use case: edge-deploy на VPS через llama.cpp — для Med Detective backup-LLM, дешевий cost-per-call.

6. MedReg AI / ai-medical-router ⭐

Тип: Model (Text Classification, RoBERTa-based)
Що це: Симптом-чекер / routing-модель російською мовою — 10 категорій спеціалістів (терапевт, кардіолог, гастро, дерма, ЛОР і т.д.).
Розмір/база: 0.4B params, RoBERTa, F32, MIT
Дата оновлення: ~26 квітня 2026 (5 днів тому), 18 dl
Мови: RU (єдина свіжа рос-мовна симптом-модель у скані)
Use case для нас: Arteggia/Vertebra бот — preliminary triage у Telegram-боті; Pediatric News — auto-классифікатор повідомлень батьків; UA/KZ адаптація через fine-tune (RU→UK досить близько).

7. SeongryongJung/medical-o1-reasoning-sft-gpt-4.1-mini-rewrite-hints

Тип: Dataset (SFT corpus)
Що це: 19.7k медичних кейсів з полями Question / Complex_CoT / Response / teacher_context — chain-of-thought reasoning trace під медичні задачі (cardio, neuro, infectious, endocrine, OB-GYN, surgery).
Розмір: 19 700 рядків, 45.6 MB, parquet
Дата оновлення: 1 день тому (~2026-04-30)
Мови: EN
Use case для нас: Case Builder Crew — додатковий тренувальний корпус для відтворення стилю клінічних кейсів; перекласти 1-2k семплів на UA для української fine-tune.

8. PatSnap/drug-approvals

Тип: Dataset
Що це: 500 рядків — корпус FDA approvals (новинна інформація по препаратах від PatSnap).
Розмір: 500 rows
Дата оновлення: ~2 дні тому (2026-04-29)
Мови: EN
Use case: Pediatric News / Med Detective — додатковий контент по новим затвердженим препаратам, релевантно для контент-агенту по фарма-новинам.

9. eve-bio/drug-target-activity

Тип: Dataset
Що це: 563k рядків drug-target activity — біоактивність молекул для drug discovery / interaction prediction.
Розмір: 563k rows
Дата оновлення: ~2 дні тому (2026-04-29)
Мови: N/A (структуровані дані)
Use case: довгостроково — analytic backbone для будь-якої drug-interaction фічі (Vertebra/Arteggia + інші ЛЗ Deltamedical).

10. ynguyen1010/medical_vietnamese_datasets

Тип: Dataset
Що це: 68.5k рядків медичного тексту в'єтнамською — приклад регіонального медичного корпусу.
Розмір: 68 500 rows
Дата оновлення: ~8 годин тому (2026-05-01)
Мови: VI
Use case для нас: методологічний референс — формат і структура для збору власного UA-medical корпусу під fine-tune (важливо: лежить як готова база, можна копіювати схему).

📈 Маркетинг (10 проектів)

1. Marketing-Gemma-4 ⭐

Тип: Model (any-to-any, anonsovana)
Що це: Marketing-fine-tuned Gemma-4-26B-A4B-it під теги seo / aeo / ppc / influencer / campaign / social / content. Команда marketeam.
Розмір/база: 26B (A4B MoE — лише 4B активних), Gemma-4
Дата оновлення: ~28 днів тому (2026-04-03), статус "coming soon"
Мови: EN
Use case для нас: як вийде — Ad Crew / Search Campaign Builder — заміна або доповнення до Gemini для генерації SEO-контенту, кампаній, influencer-брифів. Поставити на watchlist.

2. Walter1975/ia-marketing-software-v1

Тип: Model (Text Generation)
Що це: Llama-1B fine-tune під маркетингові задачі.
Розмір/база: 1B params, Llama, BF16, Apache 2.0
Дата оновлення: ~28 днів тому (2026-04-03), 392 dl/міс
Мови: ES (іспанська) — натяк що метод стоковий до non-English fine-tune
Use case: референс як 1B Llama fine-tune'ять під маркетинг — застосовуємо рецепт до української Llama-3.2-1B або Gemma-3-1B.

3. canon-chiu/Marketing_Data_Analytics

Тип: Model
Що це: Маркетингова аналітика — модель під data analytics задачі.
Дата оновлення: ~5 днів тому (2026-04-26)
Мови: EN
Use case: Ad Analytics Hub — потенційний reasoning helper для дашбордів (метрики, аномалії).

4. Umesh1902/marketing-phi-adapter

Тип: Model (Phi adapter)
Що це: LoRA-адаптер на Phi для маркетингових задач, 15 dl.
Дата оновлення: ~7 днів тому (2026-04-24)
Мови: EN
Use case: дешевий сам-по-собі як edge-маркетинговий помічник, можна перетренувати на UA-корпусі.

5. trust-aware-marketing-agent

Тип: Space (live RL dashboard)
Що це: RL-демо для прийняття бренд-стратегічних рішень з урахуванням trust-метрик.
Дата оновлення: ~5 днів тому (2026-04-26), running on CPU
Use case для нас: Brand Threads / Med Detective trust-калібрування — методологічний референс як комбінувати trust+reward у бренд-стратегії на основі реальних even-з даних.

6. AdCopy MAB OptimizerPro

Тип: Space (Gradio CSV-tool)
Що це: Multi-armed bandit для оптимізації розподілу ad copy між варіантами на основі вхідних CSV.
Дата оновлення: 2025-09-19 (старий, але робочий)
Use case: Ad Crew — готовий MAB-сервіс для split-testing рекламних копій, можна форкнути в наш ecosystem.

7. thebosskt/brand-sentiment

Тип: Model (Sentiment Analysis)
Що це: Sentiment-класифікатор по бренду.
Дата оновлення: ~22 дні тому (2026-04-09)
Мови: EN (треба перевірити)
Use case: Reviews Workflow — автоаналіз тональності відгуків Хеафолік / Vertebra / Arteggia. Якщо EN-only — fine-tune на UA-відгуках.

8. Bencode92/tradepulse-finbert-sentiment

Тип: Model (FinBERT sentiment)
Що це: Свіжа FinBERT 0.1B sentiment-модель.
Розмір/база: 0.1B, FinBERT
Дата оновлення: ~12 годин тому (2026-05-01)
Мови: EN
Use case: методологічний приклад domain-specific BERT — покажемо як зробити "PharmaBERT-UA" на наш ринок.

9. vectorized-dev/brandspotter

Тип: Model (Object Detection / OCR for brands)
Що це: Виявлення брендів на зображеннях — object detection.
Дата оновлення: ~18 днів тому (2026-04-13)
Мови: N/A (vision)
Use case: аналіз креативів конкурентів — на скрінах/банерах конкурентів виявляти бренди (Solgar, Bayer, Doppelherz). Інтегрувати в Meta Ads toolkit.

10. vs-marketing-bot

Тип: Space (chatbot)
Що це: Маркетинговий чат-бот-агент (метадата 500-помилка при перевірці, але є в індексі за останні 2 дні).
Дата оновлення: ~2 дні тому (2026-04-29)
Use case: референс як власник запакував marketing-агент у Space; дивитись на UI/UX.

Категоризація і рекомендація

Топ-3 які варто протестувати найближчим часом:

HealthGPT-Pro-8B + HealthGPT-Pro-4B (фарма) — пакет vision-medical моделей нової генерації (Qwen3-VL-base, Apache 2.0). Запустити 4B-варіант на med-detective-test інстансі через vLLM, прогнати на наших знімках з кейсів (Menopace, ProFLEX). Обґрунтування: безкоштовна, свіжа (16 хв тому), реальні бенчмарки 78%+ на VQA-RAD. ETA на тест: 2-3 години інженерної роботи.
MedReg AI / ai-medical-router (RU) (фарма) — єдина свіжа російськомовна модель симптомів/роутингу. Перевірити accuracy на українських запитах (через CLI), якщо >70% — підключаємо до Arteggia-бота і pediatric-news як preliminary triage. Обґрунтування: дефіцит UA/RU медичних моделей, 0.4B розмір — летить на CPU. ETA: 1 година для CLI-теста.
II-Medical-8B + medical-o1-reasoning датасет (фарма) — для Case Builder Crew: спочатку тестово підключити II-Medical-8B як офлайн-агент (Qwen3-8B база, 70.49% по 10 бенчах) і перевірити чи якість кейсів не гірша ніж від Gemini Pro. Якщо так — економимо $/токен. Обґрунтування: економія Gemini-квоти + контрольований стиль. ETA: 1 день інженерії + 1 день валідації Case Builder review gate.

Watchlist (поставити нагадування):

Marketing-Gemma-4 (marketeam) — як вийде з "coming soon" перевірити на наших задачах генерації Search кампаній.
PatSnap/drug-approvals dataset — раз на тиждень підтягувати нові FDA approvals в Pediatric News pipeline.

Загальне спостереження: HuggingFace-екосистема за квітень 2026 чітко рухається в сторону medical reasoning моделей (Qwen3 + Gemma-4 базі) з SFT+RL. Для нас це означає — час перестати чекати "магічну" модель і почати fine-tune'ити власну UA/KZ-medical-LLM на II-Medical-8B як seed (там Qwen3-8B всередині, який вже добре знає українську). Пропонована наступна задача: скласти ТЗ для Desktop Claude на pilot fine-tune Qwen3-8B на 5k UA-medical SFT samples (взяти переклад medical-o1-reasoning датасету).