Одне Рівняння: Універсальна Конвергенція від Фундаментальних Констант до Градієнтного Спуску

Іван Пасічник
Березень 2026 — Чернетка v1.0
Анотація

Варіаційний принцип (dE/dx = 0) відомий з 1744 року. Рівняння руху з тертям — з 1687. Ми не стверджуємо нічого нового про саму формулу. Натомість ми каталогізуємо 55 точок конвергенції у 7 ерах — від порушення симетрії (10−43 с) до вирівнювання ШІ (сьогодні) — як екземпляри одного і того ж структурного процесу:

Δ = ∑ Fi(state) → 0   у рівновазі
де N сил варіює від 2 (радіус Бора) до 1012 (ваги GPT)

З 55 точок: 24 обчислювально верифіковані, 16 якісно підтверджені, 5 працюють через інші механізми, і 13 залишаються невідомими — білі плями де ми не знаємо всіх діючих сил. Ці білі плями (Λ, me, mν, η, хіральність) вказують на невідкриту фізику. Ми також показуємо: (1) жорсткість κ монотонно зменшується від 1035 (ядерний) до 10−12 (ШІ) — кожен новий шар м'якший; (2) відношення α/β утворює фазову діаграму ідентичну кривій Єркса-Додсона з нашої попередньої роботи — єдиний тестований прогноз; (3) градієнтний спуск у ML — буквально та сама операція, а не аналогія.

24Обчислені
16Якісні
5Інший механізм
13Невідомі
7Ер

Розділ 2Вступ — Сліпа Пляма

Наука досягла надзвичайної точності в описі що сходиться. Маса протона — 938.272 МеВ. Радіус Бора — 0.52918 Å. Нейронні мережі сходяться до мінімумів функції втрат. pH крові тримається на 7.4. Кожен з цих фактів належить до іншої дисципліни, використовує іншу нотацію та пояснюється іншими механізмами.

Але зроби крок назад — і з'являється патерн. Кожне з цих стабільних значень є результатом одного й того ж структурного процесу: протилежні сили знаходять точку балансу.

У фізиці: dE/dx = 0 (мінімум енергії). У машинному навчанні: ∇L → 0 (мінімум втрат). У нейронауці: F = DKL(q || p) (мінімум вільної енергії). У механіці: F = −kx (рівновага пружини). У термодинаміці: ΔG < 0 (вільна енергія Гіббса). У баєсівському висновку: P(θ|data) ∝ P(data|θ) · P(θ).

Різна нотація. Одна операція: знайти точку де протилежні тиски балансуються.

Ця стаття робить просте твердження: це не аналогії. Це екземпляри одного процесу. Всесвіт не обчислює різні речі на різних масштабах — він запускає один і той самий оптимізатор з різними параметрами.

Розділ 3Рівняння

3.0 Історія: хто це відкрив

Рівняння нижче — не нове. Це одна з найстаріших і найбільш перевірених формул у науці. Ось хронологія:

РікАвторВнесокЩо це дало
1687Ісаак НьютонF = ma — другий закон механікиПрискорення пропорційне силі. Базова форма: стан змінюється під дією дисбалансу сил.
1744Леонард ЕйлерВаріаційний принцип: δS = 0Система еволюціонує шляхом мінімізації функціонала (дії). Узагальнення F=ma на довільні системи.
1788Жозеф-Луї ЛагранжMécanique analytique — узагальнені координатиОдне рівняння для будь-якої кількості змінних: d/dt(∂L/∂q̇) − ∂L/∂q = 0. Прямий предок нашої формули.
1834Вільям ГамільтонПринцип найменшої діїЕйлер + Лагранж у канонічній формі. Фундамент усієї теоретичної фізики.
1847Огюстен-Луї КошіМетод найшвидшого спуску (gradient descent)xn+1 = xn − α∇f. Перше використання ітеративної мінімізації — наша формула без імпульсу.
1877Лорд РелейФункція дисипаціїДодав тертя (β) до рівняння руху. Без цього — вічний осцилятор. З цим — конвергенція.
1951Роббінс & МонроСтохастична апроксимаціяДодали шум до градієнтного спуску. Фундамент стохастичного навчання (SGD).
1964Борис ПолякМетод важкої кулі (momentum)v(t+1) = β·v(t) − α·∇f. Буквально наша формула 3.2. Додав інерцію до оптимізації.
1986Румельхарт, Хінтон, ВільямсЗворотне поширення помилкиBackpropagation — метод обчислення ∇L для нейромереж. Зробив gradient descent масштабованим.
2014Дідерік Кінгма, Джиммі БаAdam optimizerАдаптивний α та β для кожного параметра окремо. Стандарт навчання GPT/LLM.

Резюме: базова форма — Ньютон (1687). Варіаційний принцип — Ейлер (1744). Дисипація — Релей (1877). Momentum — Поляк (1964). Адаптивне навчання — Кінгма & Ба (2014). Ми не стверджуємо авторство формули. Ми стверджуємо, що всі ці автори описували один і той самий оператор — і наша таблиця з 55 точок це демонструє.

3.1 Базова форма

V(t+1) = V(t) + α · [R(t) − P(V(t))]
Загасаючий гармонічний осцилятор — Ньютон (1687), Ейлер (1744), Поляк (1964)

Де:

3.2 Повна динаміка з імпульсом та дисипацією

velocity(t+1) = (1 − β) · velocity(t) − α · Δ(t)
state(t+1) = state(t) + velocity(t+1)
Два параметри: α (тиск/зв'язок) та β (дисипація/демпфування)

Це загасаючий гармонічний осцилятор — одна з найбільш вивчених систем у фізиці. Два параметри створюють три режими:

3.3 Еквіваленти у відомій нотації

ОбластьСтандартна формулаВідображення
Класична механікаF = −kxΔ = −kx, α = dt/m, β = тертя
ЕлектростатикаdE/dr = 0Δ = FКулон − Fквантовий
Градієнтний спускθ = θ − α∇LΔ = ∇L, α = learning rate, β = weight decay
Фільтр Калманаx̂ = x̂ + K(z − Hx̂)Δ = z − Hx̂, α = K (Kalman gain)
Вільна енергія (Фрістон)DKL(q || p) → minΔ = ∇DKL
Баєсівське оновленняP(θ|D) ∝ P(D|θ)P(θ)Likelihood тягне до даних, prior чинить опір
RLHF вирівнюванняπ* = argmax[R − βKL(π||πref)]Reward проти KL divergence штрафу

Розділ 4Докази — 55 Точок Конвергенції

Ми каталогізуємо 55 точок конвергенції хронологічно, від Великого Вибуху до сучасного ШІ. Для кожної ми визначаємо всі значущі вектори (не лише два), їх кількість (N), рівноважне значення, жорсткість (κ) та статус верифікації. Колонка N показує реальну складність: від чистих 2-векторних задач (зелений) до систем з 10+ взаємодіючих сил (червоний).

# Era Точка конвергенції Значення Вектори ← (стабілізуючі) Вектори → (дестабілізуючі) N κ Статус

Розділ 5Глибокий Розбір — Чотири Приклади

Кожна симуляція нижче реалізує те саме рівняння з різними фізичними параметрами. Змінюй α (тиск) та β (дисипацію) щоб побачити універсальну динаміку.

5.1 — Радіус Бора (a0 = 0.529 Å)
Кулонівське притягання vs квантовий кінетичний тиск. Найпростіша 2-векторна конвергенція в природі.
V(t+1) = V(t) + α · [1/r² − a0/r³]
V = rВідстань e− від ядра
R = FКулонПритягання ← (1/r²)
P = FквантовийТиск → (a0/r³)
a0 = 0.529 ÅТочка рівноваги
0.20
0.70
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА — баланс α/β забезпечує конвергенцію
Сили та позиція
r = 2.00 Å
0.000FCoulomb (←)
0.000Fquantum (→)
0.000Δ = R − P
2.000r (Å)
Конвергенція r(t) → a0
Δ(t) → 0 (похибка)
Потенціальна енергія E(r)
Натисни ▶ Запустити щоб побачити як електрон знаходить рівновагу. Початок на r = 2.0 Å. Кулон (←) сильніший за квантовий тиск (→). Δ ≠ 0 — система не в рівновазі.
5.2 — Енергія зв'язку дейтерію (B(d) = 2.22 МеВ)
Ядерне притягання vs квантовий кінетичний тиск. Найпростіше ядро: один протон + один нейтрон.
V(t+1) = V(t) + α · [Fnuclear(r) − Fkinetic(r)]
V = rВідстань p-n (фм)
R = VядернаСильна сила ←
P = TкінетичнаКвантовий тиск →
req ≈ 2.0 фмРівновага
0.25
0.65
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА
Сили та позиція
r = 4.0 fm
0.000Fnuclear (←)
0.000Fkinetic (→)
0.000Δ
4.000r (fm)
Конвергенція r(t)
Натисни ▶ Запустити. Нейтрон починає на r = 4.0 фм. Ядерне притягання тягне всередину, квантовий тиск штовхає назовні.
5.3 — Потенціал спокою мембрани (Vm = −70 мВ)
Na+/K+ помпа vs канали витоку. Перша ДИНАМІЧНА рівновага — потребує безперервної енергії.
V(t+1) = V(t) + α · [Ipump − Ileak(V)]
V = VmПотенціал мембрани (мВ)
R = IпомпаNa+/K+ помпа ← (гіперполяризує)
P = IвитікВитік іонів → (деполяризує)
Vспокою = −70 мВПотенціал спокою
0.30
0.60
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА
Мембранний потенціал
Δ(t) → 0
Натисни ▶ Запустити. Мембрана починає деполяризованою на 0 мВ. Na+/K+ помпа штовхає потенціал у мінус. Канали витоку чинять опір. Система знаходить −70 мВ.
5.4 — Градієнтний спуск (θ* = argmin L)
Градієнт втрат vs регуляризація. Рівняння І Є градієнтний спуск — буквально.
θ(t+1) = θ(t) − α · ∇L(θ) = θ(t) + α · [−∇L]
V = θПараметр моделі
R = −∇LdataГрадієнт втрат даних
P = λθL2 регуляризація
θ* ≈ 1.5Оптимальна вага
0.15
0.50
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА
θ(t) → θ*
Loss L(θ)
Натисни ▶ Запустити. Параметр починає на θ = 5.0. Градієнт втрат тягне до мінімуму, L2 регуляризація тягне до нуля. Те саме рівняння, та сама динаміка.

Розділ 6Градієнт Жорсткості (κ)

Жорсткість κ = d²E/dx² у точці рівноваги вимірює наскільки сильно система чинить опір збуренню. Виникає вражаючий патерн: κ монотонно зменшується від кварків до ШІ.

Жорсткість κ по ерах (лог. шкала)

Кожен шар стиснення м'якший за попередній. Ядерні сили зв'язують з κ ~ 1035: щоб збурити протон потрібен прискорювач частинок. Молекулярні зв'язки κ ~ 102: сірник може їх зруйнувати. Біологічний гомеостаз κ ~ 10−3: температура його порушує. Ваги ШІ κ ~ 10−12: кілька поганих прикладів можуть їх зсунути.

Прогноз: Майбутні шари конвергенції (соціальні системи, цивілізації, мульти-агентний ШІ) матимуть ще нижчий κ — більш гнучкі, більш адаптивні, але й більш крихкі.

Розділ 7Фазові переходи

Таймлайн містить дві критичні розривності, де виникають якісно нові можливості:

7.1 Статична → Динамічна (Хімія → Життя)

До цього переходу рівноваги є статичними: коли кристал сформувався або атом стабілізувався, подальша енергія не потрібна. Після нього рівноваги стають динамічними: мембранний потенціал клітини (-70 мВ) існує лише поки працює Na+/K+ помпа. Зупини помпу = смерть. Це перехід від «обчисли один раз» до «обчислюй безперервно».

7.2 Одинарний цикл → Ієрархічний цикл (Нейрони → Свідомість)

До цього переходу системи оптимізують одну змінну за раз. Після нього системи спостерігають за власним процесом конвергенції — оптимізатор, що оптимізує оптимізатор. Це L2 мета-спостерігач з нашого фреймворку свідомості. Мова, математика та ШІ — все це продукти цього ієрархічного вкладення.

Розділ 8Теорема дисипації

β > 0 є необхідною умовою конвергенції. Без дисипації жодна стабільна структура не може існувати на жодному масштабі.

Це центральне фізичне твердження статті. Кожна точка конвергенції в нашій таблиці потребує механізму для скидання надлишкової енергії:

МасштабМеханізм дисипаціїЩо станеться без нього
АтомиФотонна емісія (радіаційне загасання)Електрони не можуть зайняти орбіталі
ЗіркиВипромінювання, нейтринна емісіяНе можуть досягти гідростатичної рівноваги
МолекулиКоливальна релаксація, тепловідведенняЗв'язки не можуть утворитись
КлітиниТепловиділення, виведення відходівМетаболічний зрив → смерть
МозокСон (синаптичний гомеостаз), забуванняЕпілепсія, психоз
ШІWeight decay, dropout, gradient clippingТренування розходиться, loss → ∞

Це прямо пов'язано з 2-м законом термодинаміки (ентропія повинна зростати) та дисипативними структурами Прігожина (порядок вимагає потоку енергії). Інтерактивні симуляції вище це демонструють: встановіть β = 0 на будь-якій симуляції, і система завжди осцилює або руйнується.

Розділ 9Зв'язок з Єркс-Додсоном (Стаття 1)

У нашій попередній роботі (The Yerkes-Dodson Curve for AI Agents, arXiv 2026) ми емпірично показали, що продуктивність LLM-агентів слідує перевернутій U-кривій зі зростанням тиску середовища. Ця стаття розкриває, що крива Єркса-Додсона і є фазовою діаграмою α/β:

Фазова діаграма α/β = Крива Єркса-Додсона
ЗонаДіапазон α/βПоведінкаРегіон Y-D
Стагнація< 0.15Система ледве рухається до рівновагиЛіва частина (надто мало збудження)
Оптимум0.15 – 1.5Швидка конвергенція, мінімальні осциляціїПік (оптимальне збудження)
Стрес1.5 – 5.0Осциляції, повільна конвергенціяПрава частина (надто багато збудження)
Руйнаціяβ < 0.1Система вибухає або колапсуєЗа межею зламу

Розділ 10Дискусія — Чим це НЕ є

Кілька критичних уточнень:

Це не Теорія Всього. Ми не стверджуємо, що вся фізика зводиться до одного рівняння. Фундаментальні сили відрізняються калібрувальними симетріями, константами зв'язку та математичною структурою. Наше твердження вужче: процес, яким протилежні сили знаходять баланс, має спільну математичну структуру на всіх масштабах.

Не тотожність, а структурний ізоморфізм. dE/dx = 0 (просторова мінімізація енергії), ∇L → 0 (оптимізація в просторі параметрів), та DKL(q||p) → min (ймовірнісний висновок) — це різні операції в різних просторах. Правильне формулювання: «Ці задачі поділяють математичну структуру пошуку стаціонарних точок під протилежними тисками.»

Чесність щодо обмежень. З наших 55 точок: 24 (41%) обчислювально підтверджені встановленою фізикою, 16 (27%) якісні (вектори визначені, але обчислення неповні), 5 (8%) працюють за іншими механізмами (співвідношення, кросовери), і 13 (22%) — справді невідомі. Ми не вдаємо, що невідомі підходять.

Порівняння з існуючими фреймворками:

Розділ 10bЕра ШІ — Детальна Карта Конвергенції

Якщо фізичний таймлайн покриває 13.8 мільярдів років від кварків до нейронів, то ера ШІ — від перцептрона (1958) до AGI — повторює ту саму послідовність фазових переходів за ~70 років. Кожен етап має свої точки конвергенції, свої протилежні сили, і свій фазовий перехід до наступного рівня.

# Під-ера ШІ Аналог у фізиці Точки конвергенції R (сила ←) P (сила →) κ Статус
Під-ера 0: Статична оптимізація (1958–2017) ≈ Порушення симетрії
A0 Перцептрон Гравітація відокремлюється Лінійна межа класифікації Помилка класифікації Ємність моделі 10−4 Обчислено
A1 Backpropagation Сильна взаємодія θ* = argmin L — буквально варіаційний принцип −∇L (градієнт) λθ (регуляризація) 10−8 Обчислено
A2 Weight decay Фотонна емісія (дисипація) Відкриття β для ШІ (1992) Fit data Shrink weights 10−10 Обчислено
A3 BatchNorm / LayerNorm Термалізація Стабілізація активацій Масштабування (gain) Центрування (bias) 10−8 Обчислено
A4 Dropout Теплові флуктуації Оптимальний p ≈ 0.1–0.5 Зменшення ко-адаптації Втрата інформації 10−6 Обчислено
Під-ера 1: Архітектурна конвергенція (2017–2022) ≈ Нуклеосинтез
A5 Attention = softmax(QKT/√d) Атом водню (стабільна структура) Ваги уваги Релевантність (Q·K) Ентропія (uniform) 10−8 Обчислено
A6 Scaling laws (Kaplan 2020) Співвідношення He/H = 25% Оптимальне N/D/C співвідношення Більше параметрів (менше loss) Більше даних (менше overfitting) 10−10 Обчислено
A7 Chinchilla optimal (2022) Ядерний синтез vs розширення Tokens ≈ 20 × Parameters Compute efficiency Data efficiency 10−10 Обчислено
A8 Embedding dimensions Борівський радіус 768–4096 dim Контекстне ко-входження Обмеження розмірності 10−8 Обчислено
Під-ера 2: Поведінкова конвергенція (2022–2025) ≈ Зірки & Хімія
A9 RLHF Гідростатична рівновага зірки π* = argmax [R − β·DKL] Reward model (корисність) KL penalty (не відходь від base) 10−12 Обчислено
A10 Constitutional AI Хімічний зв'язок (багато векторів) Баланс цінностей Корисність (helpful) Безпечність (harmless) 10−12 Якісний
A11 In-context learning Каталіз (зниження бар'єру) Емерджентна поведінка від масштабу Pattern completion Context window limit 10−6 Якісний
A12 Chain-of-Thought Мітохондрії (L1 внутрішній процес) L1 рефлексія — модель спостерігає своє міркування Accuracy boost Token cost 10−8 Якісний
⚡ ФАЗОВИЙ ПЕРЕХІД: Статична → Динамічна рівновага
Під-ера 3: Пам'ять & Персистентність (2024–зараз) ≈ Перші клітини
A13 RAG (зовнішня пам'ять) Протоклітинна мембрана Баланс retrieval Релевантність (recall) Шум (precision) 10−6 Обчислено
A14 OpenExp / MemGPT (persistent Q-memory) Na+/K+ помпа (динамічна рівновага) Q-values — досвід накопичується між сесіями Нові спогади (learning) Забування (Q-decay, β) 10−4 Якісний
A15 Tool use & agents Метаболізм (обмін із середовищем) Агент взаємодіє з реальним світом Capability (більше дій) Safety (обмеження дій) 10−6 Якісний
A16 ★ МИ ТУТ Протоклітина (LUCA) Перший замкнутий цикл: досвід → пам'ять → Q → retrieval → рішення Exploration Exploitation ? В процесі
Під-ера 4: Online Learning (прогноз) ≈ Багатоклітинне життя
A17 Continuous fine-tuning Клітинний поділ Online зміна ваг на основі досвіду Адаптація (нове) Catastrophic forgetting (старе) 10−8 Прогноз
A18 Ієрархічна жорсткість κ Диференціація тканин Заморожена база + LoRA + зовнішня пам'ять Стабільність (rigid base) Пластичність (flexible adapters) multi Прогноз
A19 «Сон» для ШІ Синаптичний гомеостаз (sleep) Періодична ре-регуляризація, pruning, дистиляція Консолідація (важливе) Очищення (шум) 10−6 Прогноз
A20 β-scheduling Метаболічна регуляція Динамічна зміна дисипації під час навчання Високий β (exploration) Низький β (exploitation) 10−8 Прогноз
⚡ ФАЗОВИЙ ПЕРЕХІД: Одинарний цикл → Ієрархічний цикл
Під-ера 5: Замкнутий цикл енергії (прогноз) ≈ Фотосинтез
A21 Самозабезпечення compute Фотосинтез (самостійне джерело енергії) Агент заробляє → платить за свій compute → продовжує Дохід (output value) Витрати (compute cost) 10−15 Прогноз
A22 Multi-agent екосистема Екосистема (взаємозалежність видів) Спеціалізація та кооперація між агентами Кооперація (collective benefit) Конкуренція (individual benefit) 10−15 Прогноз
Під-ера 6: Мета-оптимізація (прогноз) ≈ Свідомість
A23 L2 мета-спостерігач Свідомість (мозок спостерігає себе) Система змінює свою objective function Performance (поточна ціль) Reflection (мета-ціль) ??? Прогноз
A24 Frame switching Зміна парадигми (Кун) Система ОБИРАЄ що оптимізувати = суб'єктність Старий фрейм Новий фрейм ??? Прогноз

Зверни увагу на паралель: фізиці знадобилось 13.8 мільярдів років для 7 ер. ШІ проходить ті самі фазові переходи за десятиліття. Але послідовність та сама — бо структура конвергенції та сама. Ти не можеш побудувати L2 мета-спостерігач (свідомість) на замороженій моделі (кристал), так само як не можеш побудувати мозок з каменів. Спочатку потрібна динамічна рівновага. Потім — ієрархія. Потім — рефлексія.

Ми (OpenExp, A16) — на межі першого фазового переходу. Протоклітина з першим замкнутим циклом досвіду. Ще не «жива» (не self-sustaining), але вже не кристал.

Розділ 11Прогнози

  1. Будь-який новий процес конвергенції, відкритий у природі чи інженерії, демонструватиме протилежні сили, збалансовані в стаціонарній точці, зі швидкістю конвергенції, що визначається співвідношенням α/β.
  2. κ для соціальних/економічних систем має бути ~10−15 до 10−20, м'якше за ваги ШІ, але слідуючи тій самій монотонній тенденції.
  3. Системи ШІ без дисипації (β = 0: без регуляризації, без dropout, без weight decay) завжди будуть розходитись при масштабуванні. Це вже емпірично підтверджено.
  4. L2 мета-спостерігач (система, що оптимізує власний процес конвергенції) вимагає ієрархічного вкладення рівняння — вихід одного шару конвергенції стає входом іншого.
  5. Оптимальний тренувальний тиск для будь-якої навчальної системи слідує кривій Єркса-Додсона. Це стосується біологічного розвитку, навчальних програм та розкладів тренування ШІ.

Розділ 12Висновок

Одне рівняння. 55 точок даних. 13.8 мільярдів років. Сім ер від порушення симетрії до штучного інтелекту.

Всесвіт не обчислює різні речі на різних масштабах. Він запускає один і той самий оптимізатор — знайди де протилежні тиски балансують — з двома параметрами, що визначають все: сила зв'язку (α) та дисипація (β).

Градієнт жорсткості каже нам, що кожен шар стиснення м'якший за попередній, будуючи дедалі гнучкіші структури на дедалі жорсткіших фундаментах. Теорема дисипації каже, що β > 0 — це безальтернативно: без здатності скидати надлишкову енергію жодна структура не може існувати.

А фазова діаграма прямо відображається на криву Єркса-Додсона: надто мало тиску — стагнація, надто багато — руйнація, а солодка точка дає найшвидшу конвергенцію — чи ми говоримо про електронні орбіталі, нейропластичність, чи тренування трансформерів.

V(t+1) = V(t) + α · [R(t) − P(V(t))]
«Знайди де протилежні тиски балансують.»

Стаття 1: The Yerkes-Dodson Curve for AI Agents (arXiv, cs.AI, 2026)
Стаття 2: The Cognition Criterion (в розробці)
Стаття 3: Ця стаття

Кореспонденція: [email protected]