Skribita de: CB Garcia kaj WI Zangwill

Profesoroj pri Administra Scienco ĉe la Butiklerneja Komerco (ambaŭ emeritaj)

Reviziita aŭgusto 18, 2018 de (Garcia kaj Zangwill [8, 9]).

Ŝlosilvortoj: Ludoteorio, kaptita dilemo, bayesiaj, subjektivaj probabloj

abstrakta: Von Neumann kaj Morgenstern (VNM), uzante la atendatan utilan hipotezon, provizis la fundamentan formuladon de la problemo pri ludoteorio. Ĝis ĉi tiu punkto tamen tiu formulado estis malfacile solvebla sen trudi aldonajn supozojn. Nash devis supozi, ke la ludantoj estis interparolataj tiel, ke la probablo de ludanto A fari agon sendepende de la probablo de ludanto B fari agon. En ĉi tiu papero ni forigas la supozojn de Nash, inkluzive de supozo, ke la strategioj de ludantoj estas oftaj scioj, kaj proponas modelon tute ekvivalentan al la ĝenerala VNM-problemo. Nia facile solvebla formuliĝo forigas iujn el la enecaj malfacilaĵoj kun la Nash-agado, kiu ofte produktis kontraŭdirajn kaj kontraŭintuitivajn rezultojn, ekz. Al la dilemo de la malliberulo, la kokida ludo, la paradokso de Newcomb, la ĉasĉasado kaj multaj aliaj ludoj. Ekzemple, forpuŝante la reciprokan sendependecon de Nash en la dilemo de la malliberulo, nia modelo pruvas, ke la ludantoj kapablas atingi superajn rekompencojn, kaj atingi tion, ili ne bezonas ludi kunlabore aŭ komuniki, sed simple apliki teorion de Bayes, laŭ la stilo de (Harsanyi [10]; Kadane kaj Larkey [11]). Nia alproksimiĝo dividas la probablospacon en du duonpacojn aŭ regionojn, kies relativa grandeco dependas de la elspezoj. Nun oni ne bezonas taksi precize la probablon, sed nur determini en kiu regiono ĝi estas. Ĉi tio donas signifajn avantaĝojn ĉar, se unu regiono estas konsiderinde pli granda ol la alia, tio tuj produktas substancajn komprenojn pri kiel ludi la ludon. Nia ĝenerala solvo, kiu ne rilatas, diras en la senco de Aumann [1], enhavas la Nash-ekvilibrojn kiel apartajn solvojn. Kontraste al la priskribaj Nash-solvoj, nia solvo estas preskriba paro de raciaj atendoj puraj strategioj, donante novan fundamenton por ludoteorio. Ni etendas nian aliron al ĝeneralaj M-Personaj ludoj, kiel ni ilustras en la ludo de roko-papero-tondilo kaj la problemo de stangoj.

Resumo de Rezultoj.

Ni nun resumas iujn rezultojn, bazitaj sur la detaloj kaj eksplicitaj rekompencoj donitaj sube. Ni kredas, ke ĉi tiuj rezultoj montras la valoron de nia agado por instruado kaj esplorado, ĉar la rezultoj ofte prezentas novajn solvojn.

Kunordiga ludoLa Nash-supozo pri sendependeco maltrafas la superan Bayesian aliron. Por la pagoj donitaj sube, ludu la unuan strategion, se vi kredas, ke la probablo de la kontraŭulo ludi sian unuan strategion estas almenaŭ 1 / 3, alie ludi la duan strategion. Nash donas neniujn komprenojn pri kiam apliki tiun strategion. Ankaŭ, se la rekompencoj estas ŝanĝitaj, nia aliro provizas reviziitajn probablojn. Batalo de la seksoj: Du partioj malsamas sur kie ili devas iri, sed ne rajtas komuniki. Ambaŭ partioj akiras bonan rekompencon se ili ambaŭ iras al la sama elekto, ĉar almenaŭ ambaŭ estas kune. Dona partio ricevos bonbonon se ili ambaŭ iras al la elekto de tiu partio. Nek ricevas bonan rekompencon se ili iras diversajn lokojn. Konsiderante la rekompencojn prezentitajn sube, ludanto A devas ludi sian deziratan strategion, se ĝi kredas, ke la alia ludanto ankaŭ elektos la deziratan elekton de A kun probableco de almenaŭ 33%. En kontrasto, Nash provizas tri ekvilibrojn sen kompreno pri kiu ludi kiam kaj neniu analizo de la probabloj. Parigaj centonoj: Du ludantoj, Even kaj Odd, samtempe rivelas centonon. Se la centonoj egalas, Eĉ konservas ambaŭ centonojn; alie Odd gardas ambaŭ monerojn. La unika Nash-ekvilibro por ĉi tiu nulo-suma ludo estas por ambaŭ ludantoj ludi hazarde. Konsiderante la elspezojn sube, Eĉ devus ludi kapojn se ĝi kredas, ke Odd ludos kapojn kun probableco de almenaŭ 50%. Aliflanke, Odd devus ludi kapojn se ĝi kredas, ke Eĉ ludos kapoj kun probableco maksimume 50%. Kokida ludo: Du aŭtoj rapidas unu al la alia kaj preskaŭ akcidentas. Nash sugestas, ke unu aŭto devas ruliĝi kaj la alia iras rekte, sed ofertas malmultan komprenon pri kiu devas ŝvebi. Konsiderante sube, niaj aliroj sugestas vin ŝvebi, se vi kredas, ke la kontraŭulo suferas probable kun 90% maksimume, male. Observu ĉi tie ke ambaŭ ludantoj svingantaj (aŭ ambaŭ irante rekte) ne estas Nash-ekvilibro sed ke ambaŭ ludantoj ŝvebantaj (aŭ ambaŭ iros rekte) atendante ke la kontraŭulo iros rekta (aŭ ŝvebas) estas ekvilibra scenaro. Ankaŭ, se la rekompencoj estas ŝanĝitaj, nia aliro provizas ĝisdatigitajn probablojn. Armilo-Kuro: ĉiu lando komence stokas armilojn por ke ĝi ne estu atakita. Sed kiel montrite sube, malpliiĝantaj revenoj de stokado de brakoj materiigas, malfermante ŝancon por paca traktato. Nash ne identigas la okazon por la paca traktato. Stag ĉaso: ĉasi ĉagrenon, se vi kredas, ke la kontraŭulo ĉas ĉifonon kun probableco almenaŭ 50%, alie ĉasos leporon. (La puraj Nash-ekvilibroj estas por ambaŭ por ĉasi cervojn, aŭ por ambaŭ ĉasi leporon). La problemo de Newcomb: se la problemo de Newcomb estas prezentita kiel dilemo de malliberuloj, la solvo de Newcomb-problemo povas alveni laŭ du manieroj: kiel la ne-kunlabora Nash-ekvilibro uzanta la principan dominadon, aŭ kiel kunlabora solvo uzante la atendatan utilan hipotezon. Roko-papero-tondilo: La Nash-ekvilibro estas por vi ludi 3-flankan morton hazarde. Kio ŝajnas esti nova strategio por ĉi tiu praa ludo, estas por vi ludi rokon se vi kredas, ke via kontraŭulo ludos paperon kun probablo de maksimume 33% kaj tondiloj kun probableco de almenaŭ 33%; ludi paperon se vi kredas, ke via kontraŭulo ludos tondilon kun probableco maksimume 33% kaj ŝtonas kun probable 33% almenaŭ; alie ludi tondilon. (Nia alproksimiĝo povas helpi vin se dirite, vi havas datumojn pri la antaŭaj ludoj de via kontraŭulo.) Trinkeja ludo havas 3-amikojn A, B, kaj C: Iu, kiu iras al la trinkejo sola, ricevas nenion - resti hejme estas pli bona elekto. Se du amikoj iras al la trinkejo, tio estas la plej bona eblo. Se ĉiuj tri iras, la stango elĵetas ĉiujn tri. La Nash-ekvilibroj servas por ĉiuj resti hejme, aŭ por ĉiuj ludi sian unuan strategion kun probableco egala al 33%. Sed se vi komprenas viajn amikojn kaj povas taksi la Bayesianajn probablojn pri ilia konduto, nia strategio povas helpi.

Ni ankaŭ etendas nian aliron al la M-persona ludo kaj akiras similajn komprenojn. Ekzemple, ni montras la kompletan solvon por ĝeneralaj 2-personaj ludoj kaj ĝeneralaj 3-homoj x 2-strategiaj ludoj.

La Atendita Hipotezo.

En ludo 2-Persono, lasu ludantojn A kaj B havi 2-strategiojn: A1 aŭ A2 por ludanto A, kaj B1 aŭ B2 por ludanto B.

La bazo por atendata utila teorio estas la von Neumann - Morgenstern-utileca teoremo (von Neumann kaj Morgenstern [20]): lasu Aij kaj Bij esti rekompencaj al ludantoj A kaj B respektive se ludanto A ludas Ai kaj ludanto B ludas Bj, por i , j = 1 aŭ 2. La atendata utileco-hipotezo konstatas, ke ludantoj A kaj B devas maksimumigi siajn atendatajn rekompencojn1:

kie pA (Ai kaj Bj) estas la probablo de ludanto A, ke A ludas Ai kaj B ludas Bj, kaj simile por ludanto B.

Kondiĉaj Probabloj[1].

Por nia alproksimiĝo, ni faligi Nash supozas, ke la probabloj de ludantoj estas reciproke sendependaj. Ĉi tio permesas nian problemon (1) esti pli ĝenerala kaj akiri pli da solvoj, kiuj kontentigas la atendatan utilecan hipotezon.

Estu EP (A | Ai) kaj EP (B | Bj) la atendataj rekompencoj[2],[3] de A kaj B respektive, ke A ludas Ai kaj B ludas Bj, por i, j = 1, 2:

Ni komencu per pruvo de elementa "Bayesiana" teoremo de ludoj kiu pruvas la ekvivalentecon de nia alproksimiĝo al la formulado de VNM:

Teoremo 1[5]. Problemoj (3) sube estas ekvivalentaj al problemoj (1)[6]:

Pruvo. Per la teoremo de Bayes,

tiam,

La maksimumo[7] de la ĉi-supra ekvacio estas pA (A1) = 1 (t.e., ludu strategion A1) se EP (A | A1) ≥ EP (A | A2), aŭ pA (A1) = 0 (t.e., ludu strategion A2) se EP ( A | A1) EP (A | A2). Tial (3) tenas por ludanto A. Simila argumento validas por ludanto BQED

VNM-Regnoj.

Difinu la VNM-regionojn A1 kaj A2 por esti la konveksaj politopoj:

Kiel montras sube, A devas ludi strategion A1 se ĝi atendas ke B estu en regiono A1. Alie, A devus ludi A2. La ekvilibra linio

disigas la probablospacon en la du regionoj kaj donas videblan rimedon por analizi la situacion[8].

Graveco de la Regionoj: La du regionoj gravas praktike, ĉar nun oni ne bezonas taksi precize la probablon, sed nur determini, kiu el du regionoj ĝi estas. Ofte oni vidos, ke la antaŭa probablo estas en unu regiono. , kaj identigo de tiu regiono estas sufiĉaj informoj por sugesti la taŭgan ludadon de la ludo. Ekzemple, supozu ke regiono A1 estas konsiderinde pli granda ol la alia, do tre probable estas en tiu regiono A1. Ĉi tio provizas informojn, ke ludanto A probable ludos A1.

Analoge por B:

La VNM-regionoj dependas de la antaŭaj probablodistribuoj de la ludantoj, ofte simple nomataj prioraj (Jaynes [13]; Harsanyi [10]; Kadane kaj Larkey [11]), kiuj estas la esprimo de la ludantoj kredoj pri la probablodistribuado de ilia kontraŭulo. [9]

Korolario 2. Donita (3), A ludas strategion A1 se kaj nur se ĝi atendas ludanton B esti en VNM-regiono A1. Alie, A ludas strategion A2. Simile, B ludas strategion B1 se kaj nur se ĝi atendas ludanton A esti en VNM-regiono B1. Alie, B ludas strategion B2.

Pruvo. EP (A | A1) ≥ EP (A | A2) se kaj nur se A11 pA (B1 | A1) + A12 pA (B2 | A1) ≥ A21 pA (B1 | A2) + A22 pA (B2 | A2) se kaj nur se (A11 - A12) pA (B1 | A1) + (A21 - A22) pA (B2 | A2) + A12 - A21 ≥ 0.

Simile, EP (B | B1) ≥ EP (B | B2) se kaj nur se B11 pB (A1 | B1) + B21 pB (A2 | B1) ≥ B12 pB (A1 | B2)

+ B22 pB (A2 | B2) se kaj nur se (B11 - B21) pB (A1 | B1) + (B12 - B22) pB (A2 | B2) + B21 - B12 ≥ 0. QED

De Teoremo 1 kaj Korolario 2, por punktoj en la regionoj (5) kaj (7), la atendata utila hipotezo tenas, t.e., la VNM-regionoj difinas la ĝeneralan solvon por la ludo 2-Persono.[10].

Nash Ekvilibro.

Se la probabloj de ludantoj estas reciproke sendependaj, la regionoj de VNM simpligas:

Propono 3. Supozu, ke Nash-ekvilibro (p (A1), p (B1)) estas en VNM-regiono Ai kaj VNM-regiono Bj respektive, por iuj i, j = 1, 2. Poste, ludanto A ludos strategion Ai kaj ludanto B ludos strategion

Bj.

Pruvo. La ekvilibra problemo de Nash estas problemo (1), kie pA (Ai kaj Bj) = pB (Ai kaj Bj) = p (Ai) p (Bj), aŭ problemo (3), kie pA (Bj | Ai) = p (Bj ) kaj pB (Ai | Bj) = p (Ai), por i, j = 1, 2. Tiel, Korolario 2 tenas, kie VNM-regionoj estas difinitaj de (8), por pA (B1) = p (B1) kaj pB (A1) = p (A1). QED

Memoru, ke la ekvilibraj ekvacioj

apartigu la VNM-regionojn, tiel donante la ĝeneralan solvon al iu ajn ludo. Ĉi tiuj samaj ekvilibraj ekvacioj, kie pB (A1) = p (A1) kaj pA (B1) = p (B1), donas la miksitan Nash-ekvilibron11, kiel ni montras en la suba tabelo.

Propono 4. Donita ajna ludo A = [[A11, A12], [A21, A22]] kaj B = [[B11, B12], [B21, B22]], la Nash-ekvilibroj por la ludo estas kalkulitaj el la aplikebla vico de Tabelo 112.

Pruvo. Observu ke (i, j) estas pura Nash-ekvilibro se kaj nur se sgn (2i - 1) * (A11 - A21)> 0 kaj sgn (2j - 1) * (B11 - B12)> 0, por i, j = 0, 1. Uzante ĉi tiun fakton, por ĉiu vico en Tabelo 1, ni listigas ĉiujn parojn (i, j) kiuj estas puraj ekvilibroj de Nash.

Fine, por ke la paro (a, b) difinita de (9) estu miksa Nash-ekvilibro, ni bezonas nur montri, ke 0 <a <1 kaj 0 <b <1. Sed rimarku, ke por vicoj 6, 7, 10 kaj 11 de Tabelo 1, la numeratoro kaj nomanto de a, 1 - a, b aŭ 1 - b estas ambaŭ pozitivaj aŭ ambaŭ negativaj; tial a, 1 - a, b, 1 - b estas ĉiuj pli grandaj ol 0. QED

Iterated Dominance Ekzemplo[13].

Lasu A = [[2, 2], [3, 1]] kaj B = [[0, 1], [0, 2]]. "Ludi A1 & B2" estas la Nash-ekvilibro.

Propono 5. Donita A = [[2, 2], [3, 1]] kaj B = [[0, 1], [0, 2]], tiam ludanto A ludos A1 kaj ludanto B ludos B2.

Pruvo. VNM-regiono A1 estas: pA (B2 | A2) ≥ 1 / 2, kaj VNM-regiono B2 estas: pB (A2 | B2) ≥ -1. Tial ludanto B ludos B2. Ludanto A ankaŭ scias, ke tiel okazas, tial pA (B2 | A2) = 1. Ĉar pA (B2 | A2) = 1 estas punkto en VNM-regiono A1, ludanto A ludas A1. QED

Ekzemplo de kunordigo.

Lasu A = B = [[2, 0], [0, 1]]. Estas 3 Nash-ekvilibraj punktoj: "ludi A1 & B1", "ludi A2 & B2", kaj "ludi A1 (aŭ B1) kun probableco 1 / 3". VNM-regiono A1 estas: 2pA (B1 | A1) ≥ pA (B2 | A2) kaj VNM-regiono B1 estas: 2pB (A1 | B1) ≥ pB (A2 | B2). Analizante videble ĉi tiujn VNM-regionojn, A kaj B probable elektos strategiojn A1 kaj B1 respektive.

Propono 6. Konsiderante A = B = [[2, 0], [0, 1]], se la probabloj de ludantoj estas reciproke sendependaj, tiam ludu la unuan strategion, se vi kredas, ke la probablo de la kontraŭulo ludi sian unuan strategion estas almenaŭ 1 / 3, alie ludu la duan strategion.

Pruvo. VNM-regiono A1 estas: pA (B1) ≥ 1 / 3 kaj VNM-regiono B1 estas: pB (A1) ≥ 1 / 3. QED

Ekzemplo de Batalo de la Sepoj.

Lasu A = [[3, 1], [1, 2]] kaj B = [[2, 1], [1, 3]]. Estas 3 Nash-ekvilibraj punktoj: "ludi A1 & B1", "ludi A2 & B2", kaj "ludi A1 kun probablo 2 / 3, ludi B1 kun probablo 1 / 3". VNM-regiono A1 estas: 2pA (B1 | A1) ≥ pA (B2 | A2) kaj VNM-regiono B1 estas: pB (A1 | B1) ≥ 2pB (A2 | B2). A prefere elektus A1 kaj B prefere elektus B2.

Propono 7. Donita A = [[3, 1], [1, 2]] kaj B = [[2, 1], [1, 3]], se la probabloj de ludantoj estas reciproke sendependaj, tiam: ludu A1 se pA (B1 ) ≥ 1 / 3, alie ludu A2; Ludu B1 se pB (A1) ≥ 2 / 3, alie ludi B2.

Pruvo. La VNM-regiono A1 estas: pA (B1) ≥ 1 / 3 kaj VNM-regiono B1 estas: pB (A1) ≥ 2 / 3. QED

Egala ekzemplo de Pennies.

Lasu A = [[1, -1], [-1, 1]] kaj B = [[-1, 1], [1, -1]]. Ĉi tiu nula suma ludo havas miksitan Nash-ekvilibron: "ludi A1 kun probablo 1 / 2, ludi B1 kun probablo 1 / 2".

Propono 8. Donita A = [[1, -1], [-1, 1]] kaj B = [[-1, 1], [1, -1]], se la probablecoj de la ludantoj estas reciproke sendependaj, tiam: ludu A1 se pA (B1) ≥ 1 / 2, alie ludu A2; ludi B1 se pB (A1) 1 / 2, alie ludu B2[14].

Pruvo. La regiono VNM A1 estas: pA (B1) ≥ 1 / 2 kaj VNM-regiono B1 estas: pB (A1) 1 / 2. QED

Ekzemplo pri kokido (Sugden [19]).

Lasu A = [[0, -1], [1, -10]] kaj B = [[0, 1], [-1, -10]]. La Nash-ekvilibroj estas "ludi A1 (ŝvebi) & B2 (iri rekte)", "ludi A2 (iru rekte) & B1 (ŝvebi)" kaj "ludi A1 (B1) kun probablo 0.9".

Propono 9. En la kokida ludo, se la probabloj de ludantoj estas reciproke sendependaj, tiam: ŝercu, se vi kredas, ke la kontraŭulo ŝvebos kun maksimume 90%, alie rekte.

Pruvo. La VNM-regiono A1 estas: pA (B1) + 11pA (B2) ≥ 2, aŭ pA (B1) ≤ 9 / 10. Simile, la VNM-regiono B1 estas: pB (A1) ≤ 9 / 10. QED

Observu, ke se via kontraŭulo montras tro da entuziasmo (almenaŭ 90%) por ŝvebi, vi devas rekte.

Preferita scenaro: La ludantoj pli probable ŝvebas ol rekte.

Kokida scenaro: Supozu pA (B1) = pB (A1) = 0. Ambaŭ ludantoj atendas, ke la alia ludanto iros rekta. Ambaŭ ŝvebos.

Scenaro pri katastrofo: Supozu pA (B1) = pB (A1) = 1. Ambaŭ ludantoj atendas, ke la alia ludanto plonĝu. Ambaŭ iros rekte[15].

Nash-ekvilibra scenaro: Supozu pA (B1) = 1 - pB (A1), kaj pB (A1) = 0 aŭ 1. La ludanto, kiu atendas, ke la alia ludanto iros rekta, ĵuros, kaj la ludanto, kiu atendas, ke la alia ludanto ŝvebos, iros rekte.

Ekzemplo de Armiloj.

En Propono 9, lasu A = [[0, -x], [1, -10x]], B = [[0, 1], [-y, -10y]], por x, kaj ≥ 0. Lasu A1 aŭ B1 esti "serĉi pacon" kaj A2 aŭ B2 esti "nuklea atako". La valoroj x kaj y nomas la brakojn stokon de B kaj A respektive.

Lando A serĉas pacon se la probablo, ke la lando B-atakoj estas pli granda ol 1 / (9x + 1); alie A atakas. La probabla kurbo pA (B1) = 1 / (9x + 1) falas rapide, ekz. PA (B1) = 1 / 2 je x = 1 / 9, sed baldaŭ draste platas: B devas rapide stoki komence, sed kiel la kurbo flattensoj, estos malmulte da profito al B por stokado de brakoj.

Kaj simile por la lando B.

Resume, ĉiu lando komence stokas armilojn, por ke ĝi ne estu atakita. Sed rapide malpliiĝantaj revenoj de stokado de brakoj materiigas, malfermante okazon por serĉi pacan traktaton.

Kiel ilustraĵo, konsideru la taksitan mondan nuklean stokon de 2018[16] de Tabelo 2.

Surbaze de la pagoj supre kaj Tabelo 2, racia Nord-Koreio devas serĉi pacan traktaton kun Usono kaj Rusio.

Skirms [16]).

Lasu A = [[4, 1], [3, 2]] kaj B = [[4, 3], [1, 2]]. La Nash-ekvilibroj estas "ludi A1 (Stag) & B1 (Stag)", "ludi A2 (Leporo) & B2 (Leporo") kaj "ludi A1 (B1) kun probablo 0.5".

Propono 10. En la ĉasĉasado, se la probabloj de ludantoj estas reciproke sendependaj, tiam: ĉasi stagon, se vi kredas, ke la kontraŭulo ĉas raŭkon kun probableco de almenaŭ 50%, alie ĉasos leporon.

Pruvo. La VNM-regiono A1 estas: 3pA (B1) + pA (B2) ≥ 2, aŭ pA (B1) ≥ 1 / 2. Simile, la VNM-regiono B1 estas: pB (A1) ≥ 1 / 2. QED

Malliberulo[17].

Lasu A12 <A22 <A11 <A21, kaj lasu B egali la transpon de A. Ĉar A11 <A21 kaj A12 <A22, la uzo de la reganta principo produktas la Nash-ekvilibron, nome la ne-kunlaboran solvon "ludas A2 (difekto) kaj B2 (difekto) ”. Sed ĉar A22 <A11, A kaj B estas pli bonaj, se ili ambaŭ ludas la kunlaboran solvon "ludu A1 (silento) kaj B1 (silento)".

Propono 11. En la malliberulo, se la probabloj de ludantoj estas reciproke sendependaj, tiam ludantoj ne kunlaboras[18].

Pruvo. Konsideru la maldekstran flankon de VNM-regiono A1:

(A11 - A12 - A21 + A22) pA(B1) + A12 - A22.

Se A11 - A12 - A21 + A22 ≤ 0, tiam (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ A12 - A22 <0. Aliflanke, se A11 - A12 - A21 + A22> 0, tiam (A11 - A12 - A21 + A22) pA(B1) + A12 - A22 ≤ (A11 - A12 - A21 + A22) + A12 - A22 = A11 - A21 <0. Tiel, por iu ajn antaŭa por ludanto A, VNM-regiono A1 estas la nula aro, tial ĝi devas ludi strategion 2.

Simile, ludanto B devas ludi strategion 2. QED

Propono 11 klare montras, ke la supozo de sendependeco limigas nin al la ne kunlabora solvo.

Ekzemplo de dilemo de klasika malliberulo.

En la dilemo de klasika malliberulo, A = [[-1, -3], [0, -2]] kaj B = [[-1, 0], [-3, -2]].

Propono 12. En la dilema klasika kaptito, se la antaŭuloj de la ludantoj estas: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2, pB (A1 | B1) + pB (A2 | B2) ≥ 3 la ludantoj ludos la kunlaboran solvon2.

Pruvo. La regiono VNM A1 estas: pA (B1 | A1) + pA (B2 | A2) ≥ 3 / 2, kaj la regiono VNM B1 estas: pB (A1 | B1) + pB (A2 | XXUMX Tial, por la donitaj superuloj, ludantoj A kaj B devas ludi la kunlaboran solvon. QED

En Propono 12, notu la altan stangon bezonatan por ludi la kunlaboran solvon. La ludantoj prefere elektus ludi la ne-kunlaboran solvon.

Stacio kie la Nash-Alproksimiĝo malsukcesas konsideri ludi la kunlaboran strategion.

Pripensu la dilemon de la malliberulo kie A11 - A12 = A21 - A22, A21 = A11 + m kaj A22 = A11 - M, kie m> 0 estas malgranda kaj M> 0 tre granda. Ekzemple, A = [[100, -3], [101, -2]]. Memoru el Propono 11, ke se la probabloj de ludantoj estas reciproke sendependaj, tiam ludantoj ludos ne kunlabore.

Evidente estus malsaĝe, ke la ludantoj eĉ ne pripensu ludi strategion 1 ĉar se ludanto ludas 2, la ebleco, ke la alia ludanto ankaŭ ludas 2, produktus signifan perdon, do kial riski ĝin. Klare, la alproksimiĝo de Nash malsukcesas konsideri ludi la kunlaboran solvon eĉ kiam ĝi estas la evidenta solvo ludi - tre grava punkto, diskutoj pri merkataj rompoj en ĝeneralaj ekonomiaj ekvilibraj modeloj.

Aliflanke, kiel montras la sekva propono, forpuŝante la supozon de sendependeco, nia aliro ludos la kunlaboran solvon anstataŭ la ne-kunlaboran solvon.

La nigra linio estas la indiferenta linio por la dilemo de la klasika malliberulo. Ludanto pli verŝajne ludas strategion 2 pro la neverŝajna probablo de esti en la regiono por ludi strategion

1.

La verda linio estas la indiferenta linio por ĉi tiu petskribo de la kaptita dilemo: pA (B1 | A1) + pA (B2 | A2) = 1 + m / (M + m). Ĉi tie, la grandeco de la probablregiono por strategio 1 estas preskaŭ tiu por strategio 2. Nia alproksimiĝo konsilas al la ludantoj pripensi ludi strategion 1.

Propono 13. Konsiderata dilemo de malliberulo, kie A11 - A12 = A21 - A22, A21 = A11 + m kaj A22 = A11 - M, kie m> 0 estas malgranda kaj M> 0 estas tre granda, ludantoj A kaj B ludos la kunlaboran solvon20.

  • Sekve, ludantoj ne ludos la ne-kunlaboran solvon.
  • Nuntempe, por atingi la kunlaboran solvon, oni aldonas supozojn, ekz., Limigita racieco, nekompletaj informoj (Aumann kaj Maschler [2]; Acevedo kaj Krueger [4]); La atendataj kunaj probabloj de Daley Donita al A, A kaj Bj), A konkludas, ke pA (A1 kaj B1) devas esti proksime de 1. Tio estas ĉar A kaj B verŝajne ludos strategion 1, kie iliaj pagoj estas sufiĉe altaj kaj nur m unuoj malpli ol maksimume.

Tial pA (B1 | A1) = pA (A1 kaj B1) / pA (A1) devas ankaŭ esti proksime al 1.

A ankaŭ konkludas, ke pA (A2 kaj B2) pA (A2 kaj B1) ĉar B verŝajne ludas strategion 2 se A ludas strategion 2. Tial pA (B2 | A2) = pA (A2 kaj B2) / (pA (A2 kaj B1) + pA (A2 kaj B2)) 1 / 2. A konkludas, uzante Fig. 1, ke B sufiĉas en VNM-regiono A1. Simile, B ludos strategion 1. QED

Newcomb's Paradokso kiel Versio de la Malliberulo-Dilemo.

En la fama paradokso de Newcomb (Wolpert kaj Benford [21]), ekzistas prognozilo B, ludanto A kaj kesto X. Al la ludanto A oni elektas preni la skatolon X aŭ la skatolon X plus $ 1,000. Antaŭ ol A faras sian elekton, B antaŭdiras, kion A faros, kaj la antaŭdiroj de B estas preskaŭ certaj. Se B antaŭdiras, ke A prenos nur skatolon X, tiam B metas $ 1,000,000 en la skatolon X. En ĉi tiu kazo, ĉar la skatolo havas $ 1,000,000 en ĝi, A ricevos $ 1,000,000 aŭ $ 1,001,000 depende de ĉu A elektas skatolon X aŭ X plus $ 1,000. Aliflanke, se B antaŭvidas, ke A prenos skatolon X plus $ 1,000, tiam B metas nenion en la skatolon X. En ĉi tiu kazo, depende de sia elekto, A ricevas aŭ $ 1,000 aŭ nenion.

La paradokso de Newcomb estas, ke du perfekte raciaj analizoj donas konfliktajn respondojn al la optimumiga problemo de ludanto A: sub la atendata utila hipotezo, ludanto A devas preni nur X-skatolon, ĉar la atendita elpago de prenado de X estas multe pli alta. Aliflanke, sub domina principo, ludanto A devas preni skatolon X plus $ 1,000.

La paradokso estas pli bone komprenita per pasejo en (Wolpert kaj Benford [21]): "... Newcomb diris, ke li nur prenos X; kial batali kun simila Dio? Nozick tamen diris, 'Al preskaŭ ĉiuj, estas perfekte klare kaj evidente, kion fari. La malfacilo estas, ke ĉi tiuj homoj dividiĝas preskaŭ egalaj sur la problemon, kun multaj nombroj opiniante, ke la kontraŭa duono nur estas sensenca. '...' ”.

Wolpert kaj Benford solvas la paradokson montrante ke Newcomb-problemo fakte reprezentas du malsamajn ludojn kun malsamaj probabilismaj rezultoj.

En ĉi tiu sekcio, ni solvos la paradokson per la problemo de Newcomb kiel malliberulo. Tiel farante la solvon de la problemo de Newcomb eblas atingi ĝin per du manieroj: kiel la ne kunlabora solvo (prenu skatolon X plus $ 1,000) uzante la principan dominadon, aŭ kiel la kunlaboran solvon (prenu nur skatolon X) uzante la atendatan utila hipotezo.

Supozu, ke ekzistas riĉa bonfaranto, kiu promesas financi pagan matricon por antaŭdiro B, cedante la jenan ludon: A = [[$ 1,000,000, 0], [$ 1,001,000, $ 1,000]] kaj B = [[$ 1,000,000, $ 1,001,000 ], [0, $ 1,000]].

Se B antaŭvidas ĝuste, B ricevas tion, kion ludanto A ricevas. Sed se B antaŭvidas malĝuste, B ricevas 1,001,000 $ malpli ol kio A akiras21.

De la Propono 13, ludantoj A kaj B ludos kunlabore en ĉi tiu ludo.

Se kiel Nash, la ludanto solvas la problemon uzante la principon de regado, same faras la prognozilon. Ambaŭ prognozisto kaj ludanto estos ĉe la nekunlabora solvo: prenu X plus $ 1,000. Se la ludanto solvas la problemon uzante la atendatan utilan hipotezon, same faras la antaŭdiro, kaj ambaŭ prognozilo kaj ludanto estos ĉe la kunlabora solvo: prenu nur X. Ambaŭkaze la antaŭdiro de la antaŭdiro estas

kaj Sadowski [6]) aŭ novaj metodoj estas priskribitaj, ekz., tit-por-tat, korelaciaj ekvilibroj (Axelrod [3]; Aumann [1]).

21 Rimarku, ke prezentante la problemon de Newcomb kiel PD-problemon, la antaŭdiro donas personan stimulon, kiu forestas en la problemo de Newcomb.

certaj. Ĉar de la Propono 13, ludantoj ne ludos la ne-kunlaboran solvon, ni konsentas kun Newcomb, ke kunlaboro estas la evidenta strategio.

Noto en Fig. 1 tamen la regiono por kunlaboro estas nenege malpli granda ol tiu por ne-kunlaboro. Ni tiam ne surprizas nin, se homoj dividas egale laŭ kiu strategio adopti.

Ĝeneraligo de Dilemo de Malliberuloj al M-Personoj.

Por pli bone kompreni kiel la Nash-solvo povus diseriĝi en ĝeneralaj ekonomiaj ekvilibraj modeloj, ni ĝeneraligu la dilemon de la malliberulo al M-Personoj, kun ĉiu ludanto havanta 2-strategiojn, por M 2.

Ni priskribu la ludon de M-Persono per binaraj arboj.

Fig. 2 estas la dilemo de la kaptito por ludanto A. Tree (2, 1) estas la binara arbo kun ludanto B (ludanto 2) kiel gepatro, kaj ludanto A (ludanto 1) kiel infano. Por akiri la rekompencon por ludanto B, simple ŝanĝu la rolojn de gepatro kaj infano al Arbo (1, 2). Memoru, ke por la dilemo de malliberulo, A12 <A22 <A11 <A21.

Tuj poste, supozu Arbo (M - 1, M - 2, ..., 2, 1) nomas la rekompencon de ludanto A por (M - 1) -Persona ludo, por M 3 Konstruu la rekompencan arbon de ludanto A (M, M - 1, ..., 2, 1) por ludo de M-Persono lasante la arbon de ludanto A (M - 1, M - 2, ..., 2, 1) esti la subarboj de ambaŭ branĉoj de gepatristo M.

La nombraj valoroj de la salajro en la dekstra subarbo supozas malsamajn de tiuj de la maldekstra subarbo, kondiĉe ke la rilato A12 <A22 <A11 <A21 estas konservita ĉie en la arbo.

Fine, donita Arbo (M, M - 1, ..., 2, 1) por ludanto A, kreu Arbon (1, M, M - 1, ..., 3, 2) por ludanto B (ludanto 2) igante 1 la plej alta gepatro; Arbo (1, 2, M, M - 1, ..., 4, 3) por ludanto 3 igante 2 la dua plej alta gepatro, ..., Arbo (1, 2, 3, ..., M - 2, M, M - 1 ) por ludanto M - 1 igante M - 2 la tria plej malalta infano, Arbo (1, 2, 3, ..., M - 1, M) por ludanto M igante M - 1 la dua plej malalta infano.

Ĉi tio kompletigas la priskribon de la pagoj de ludantoj por dilema ludo de M-Person-malliberulo, kun ĉiu ludanto havas 2-strategiojn.

Teoremo 14. Por la dilemo de M-Persona prizonulo, M 2, uzante la dominan principon, la Nash-solvo estas por la ludantoj ludi strategion 2.

Pruvo. Ni jam scias, ke la teoremo tenas por M = 2. Supozu per indukto, ke la teoremo tenas por M - 1, por M 3 Ni montru, ke la teoremo tenas por M.

Donita Arbo (M, M - 1, ..., 2, 1) por ludanto A, memoru, ke per konstruo, la subarboj maldekstre kaj dekstraj branĉoj havas la formon Arbo (M - 1, M - 2, ..., 2 , 1) por ludanto 1, Arbo (M, M - 1, ..., 2) por ludanto 2, Arbo (2, M, M - 1, ..., 4, 3) por ludanto 3, ..., Arbo (2, ... , M - 2, M, M - 1) por ludanto M - 1. Ĉi tiuj subarboj estas identaj por ludantoj 1, 2, ..., M - 1, krom la etikedado en la nodoj de gepatroj. Notu, ke la strategio de ĉiu ludanto 2 regas sian strategion 1 sub ajnaj kondiĉoj. Per indukto, uzante la dominan principon, ludantoj 1 al M - 1 ludos strategion 2.

Tial, donita Arbo (1, 2, ..., M - 1, M) por ludanto M, se M ludas 1, la rekompenco por ludanto M estas b (la dua dekstra nodo de la arbo) dum se M ludas 2, la rekompenco por ludanto M estas A22 (la plej dekstra nodo de la arbo). Laŭ la reganta principo, ĉar A12 <A22, ludanto M ankaŭ ludos strategion 2. QED

Nun supozu, ke iu ajn elspezo de la tipo A11 estas multe pli granda ol iu ajn elpago de la tipo A22; kaj tiu A21 = A11 + m, kie elpagoj A11 kaj A21 estas en apudaj nodoj.

Klare, la alproksimiĝo de Nash malsukcesas konsideri ludadon de la kunlabora solvo "lud-strategio 1" eĉ kiam ĝi estas la evidenta solvo ludi.

Sekvante la induktan argumenton de Teoremo 14, ni ankaŭ povas konkludi ke, ĉar la subarboj maldekstre kaj dekstraj branĉoj havas la formon Arbo (M - 1, M - 2, ..., 2, 1) por ludanto 1, Arbo ( M - 1, M - 2, ..., 2) por ludanto 2, Arbo (2, M, M - 1, ..., 4, 3) por ludanto 3, ..., Arbo (2, ..., M - 2, M, M-1) por ludanto M-1, per indukto, uzante la atendatan utilan hipotezon, ludantoj 1 al M-1 ludos strategion 1 kie la rekompenco estas de la tipo A11.

Tial, donita Arbo (1, 2, ..., M - 1, M) por ludanto M, se M ludas 1, la rekompenco por ludanto M estas (la plej maldekstra nodo de la arbo), dum se M ludas 2, la rekompenco por ludanto M estas A21 = A11 + m (la dua maldekstra nodo de la arbo). Ekde A11 <A21, ludanto M povas esti tentata ludi strategion 2. Sed kial riski ludi strategion 2 por m unuoj pli ol A11, kiam ĝi povus konduki al rekompenco de la tipo A22, rekompenco signife malpli ol A11?

Laŭ la atendata utila hipotezo, ludanto M ankaŭ devas ludi strategion 1.

Ĝeneralaj M-personaj Ludoj.

Fine ni ĝeneraligas Teoremon 1 por ĝeneralaj M-personaj ludoj.

Estu M-ludantoj, kie ĉiu ludanto i havas eblajn strategiojn por ĉiu i = 1, 2, ..., M. Konsiderante la vektoran strategion (j1, j2, ..., jM), lasu la pagon al ludanto i estu Aij1j2 ... jM. Xi estu miksita strategio por ludanto i, t.e., strategio xi kie Σj xij = 1, xij 0, ĉiuj j, kaj lasu x = (xi, xi) nomumi la strategiojn de ĉiuj ludantoj. La problemo de Nash estas:

kie EP (i | xi) estas la atendata rekompenco al ludanto i donita xi kaj kie la sumado estas super ĉiuj jk kaj ĉiuj k.

Strategio x * estas Nash-ekvilibro se xi * estas solvo de la problemo de ludanto i supre, donita xi *.

Por nia alproksimiĝo, lasu pij1, j2, ..., jM esti ludanto, mi estas atendita probableco ke ludanto k ludas jk, por ĉiuj jk kaj ĉiuj k. La atendata utila teorio de Von Neumann-Morgenstern diras, ke la celo de ludanto i estas maksimumigi sian atendatan rekompencon:

kie la sumado super ĉiuj jk kaj ĉiuj k.

Difini

kie -i ludas j-i signifas ke ludanto k ludas jk kaj kie la sumado estas super ĉiuj jk, por ĉiuj k i.

Teoremo 15. Problemoj (13) ĉi-sube samvaloras al problemoj (11):

Pruvo.. De difino,

kie la sumado estas super ĉiuj rk, por iu ajn k i.

La nomanto de (14) estas la probablo pi (mi ludas ji). Tial,

ekde Σ pi (mi ludas ji) = 1 kaj pi (mi ludas ji) 0 por ĉiuj ji, sekvas ke ludanto i ludas strategion [arg maxji EP (i | i ludas ji)]. QED

Metodo por trovi la plej bonan strategion por ludanto i estas jena: Por iuj paroj de strategioj por ludanto i, ekzemple strategio r kaj strategio s, kalkulu la lokon de punktoj, kie mi estas atendata rekompenco kondiĉa ke ludanto i ludas aŭ r aŭ egalas. . Ĉi tio difinas indiferentan surfacon, kiu dividas la kondiĉan probablan spacon en 2 VNM-regionojn. Unu VNM-regiono estas etikedita r ĉar la strategio de elekto estas r, kaj la alia VNM-regiono estas etikedita s ĉar la strategio de elekto estas s.

Post la ŝtonoj supre, ĉiu regiono de VNM estos etikedita tiom da fojoj kiom estas distingaj paroj da strategioj. Por iu donita VNM-regiono, prenu iujn ajn el du multnombraj etikedoj kaj forigu unu el ili surbaze de la indiferenta surfaco kreita de ĉi tiu paro de etiketoj. La procezo finiĝas kiam ĉiu regiono de VNM havas nur unu etikedon.

Ĝeneralaj 2-personaj Ludoj.

Lasu ludanton A havi strategiojn Ai, i = 1, 2, ... n1 kaj ludanto B havas strategiojn Bj, j = 1, 2, ... n2. Supozu, ke la probabloj de ludantoj estas reciproke sendependaj. Problemo (13) estas:

Tial la VNM-regionoj estas difinitaj per konveksaj politopoj:

Kiel videblas en (16), trovi la solvon agordita al ĝenerala 2-persona ludo estas simpla. Ekzemple, konsideru la pli ol du miljaran ludon Rock-Paper-Tondilo, kie estas la Nash-ekvilibro: ludu ajnan strategion kun 33%-probablo:

Strategio A1 aŭ B1 (roko) perdas al strategio A2 aŭ B2 (papero) perdas al strategio A3 aŭ B3 (tondilo) perdas al roko.

Por ludanto A, ĝenerale ni havas, kie 0 pA (Bj) 1,

kiu reduktas al

Kaj simile por ludanto B.

Kio ŝajnas esti nova strategio por ĉi tiu antikva ludo: ludu rokon se vi kredas, ke via kontraŭulo ludos paperon kun probablo de maksimume 33% kaj tondiloj kun probableco de almenaŭ 33%; ludi paperon se vi kredas, ke via kontraŭulo ludos tondilon kun probablo de maksimume 33% kaj rokos kun probableco de almenaŭ 33%; alie ludi tondilon22.

3-personaj Ludoj Kie Ĉiu Persono Havas 2-Strategiojn.

Ni apliku Teoremon 15 por trovi la solvon agordita al 3-persona ludo, kie ĉiu ludanto A, B, kaj C havas 2-strategiojn Ai, Bi, Ci, por i = 1, 2 respektive.

Supozu, ke la probabloj de ludantoj estas reciproke sendependaj. Por ludanto A, ekvacio (13) estas

kaj simile por ludantoj B kaj C. Uzante teoremon 15, la solvo estas difinita de:

Ni uzu la supre por la ludo Bar-crowding[21]:

Se la ludanto estas hejme, ĝia rekompenco estas 1; se la ludanto estas sola ĉe la stango, ĝia elpago estas 0; se la ludanto estas ĉe la stango kun alia persono, ĝia rekompenco estas 2; alie, ĝia elpago estas -1.

Ni havas: A111 - A211 = -2, A112 - A212 = A121 - A221 = 1, A122 - A222 = -1, tial la regiono VNM A1 estas la regiono -3pA (B1) (C1) - 2 ≥ 1, aŭ ekvivalente la regiono[22] pA (B1) ≥ (1 - 2pA (C1)) / (2 - 3pA (C1)). Simile, VNM-regiono B1 estas la regiono pB (A1) ≥ (1 - 2pB (C1)) / / 2 - 3pB (C1)) kaj VNM-regiono C1 estas la regiono pC (B1) ≥ (1 - XN) / (2 - 1pC (A2)). La Nash-ekvilibroj estas p (A) = p (B) = p (C) = 3 kaj p (A) = p (B) = p (C) = 1 / 1.

Agnosko.

Ni ŝatus danki Al Roth kaj Todd Davies pro iliaj senvaloraj konsiloj kaj gvidado pri preparado de ĉi tiu artikolo.

Piednotoj

[1] Por simpleco, ni faras la komunan supozon, ke utileco estas lineara funkcio de la salajro (Starmer [18]). Tial maksimumigi atenditan utilecon estas same kiel maksimumigi atenditan rekompencon.

[2] Nia Bayesiana aliro por ludoj diferencas de antaŭa Bayesiana laboro (ekzemple, Acevedo kaj Krueger [4]; Aumann [1]; Daley kaj Sadowski [6]; McKelvey kaj Palfrey [12]; Quattrone kaj Tversky [15]) pro tio, male al la aliaj aliroj, nia aliro aliĝas al kondiĉaj probabloj sendistinge al la atendata utila hipotezo, kiun nia solvo ĉiam kontentigas.

[3] Kritikisto deklaras, ke "raciaj ludantoj ne devas kaj ne konsideru kondiĉajn probablojn ... Imagu agenton, kiu scias, ke la probablo de pluvo estas p. Via 'solvo' ŝajnas esti, ke la agento devas porti pluvombrelon kun li se ĝi pluvos kaj lasos la pluvombrelon se ĝi ne pluvas ".
Teoremo 1 montras, ke la antaŭa kritiko estas maljuste. Koncerne ĉi-lastan kritikon, EP (agento | alportu pluvombrelon) = p, kaj EP (agento | ne alportu pluvombrelon) = 1 - p. Nia solvo tiam estus: alporti pluvombrelon se p ≥ 1 / 2; ne alportu pluvombrelon se p ≤ 1 / 2.

[4] La kondiĉaj probabloj de (2) ne malobservas la principon en Spohn [17]: "Ajna taŭga kvanta decida modelo ne devas enhavi eksplicite aŭ implicite iujn ajn subjektivajn probablojn por agoj ..." La kondiĉaj probabloj de ludanto estas subjektaj probabloj por la kontraŭulo. strategioj, ne pro siaj propraj strategioj.

[5] Ĉi tiu teoremo estos ĝeneraligita al unu por M-personaj ludoj.

[6] Estas neniu signalado inter la ludantoj.

[7] Oni supozas, ke la sendependaj variabloj pA (B1 | A1) kaj pA (B2 | A2) estas donitaj en la maksimuma problemo, simpligo, kiu evitas la problemon de malfinia regreso (simile al la supozo de Nash, ke p (B1) estas donita por ludanto A en la formulado de lia maksimumproblemo).

[8] Neegaleco (5) estas la (malkovrita) solvo de la problemo (1) sammaniere, ke la kvadrata formulo estas la solvo al ĝenerala kvadrata ekvacio.

[9] La antaŭuloj de la ludanto eble dependas de parte observeblaj hazardaj eventoj, kiel la vetero. Por la uzo de priokupiloj en ludoj kun nekompletaj informoj luditaj de Bayesianaj ludantoj, bonvolu raporti al (Harsanyi [10]).

[10] Ĉi tiu ĝenerala solvo enhavas la Nash-ekvilibrojn kiel apartajn solvojn. Kontraste al la priskribaj Nash-solvoj, nia solvo estas paro de preskribaj raciaj atendoj puraj strategioj. Plie, se per eraro, ludanto A estas en VNM-regiono A1 kaj ludas A2, Korolario 2 deklaras, ke ludanto A ricevos malpli altan atenditan rekompencon.

[11] Estas interese noti, ke ĉe Nash-miksita ekvilibro, la strategio de ludanto dependas de konado de la bonfara funkcio de la alia ludanto.

[12] Nulo-signoj estas ignorataj en la tabelo, ĉar ĉi tiuj kazoj degeneras: ludanto ne kapablas elekti inter siaj du strategioj. Ankaŭ, estas interese noti, ke ĉiu Nash-ekvilibro aperas en precize kvar vicoj.

[13] La venontaj 3-ekzemploj estas adaptitaj de (Davies [7]) laŭ maniero, kiu povus servi kiel pedagogia tekniko por studentoj en ludoteorio. Tabelo 1 povas esti uzata por rapide trovi la Nash-ekvilibrojn por ĉiuj 2-personaj ludaj ekzemploj priskribitaj ĉi tie.

[14] La agoj de A ne influas la elekton de B-agoj. Ĉi tio estas ĉar la kredoj de A ne rilatas al la kredoj de B. Aliflanke, se kredoj rilatas, tiam ambaŭ probabloj de ludantoj devas egali 50%, alie, se diri la probabloj de ludantoj ambaŭ> 50%, A scias, ke B ludos strategion 2 (vostoj), tial ludas strategion 1 (kapoj) ne povas esti ĝusta preskribo por A. Se dirite, la probablo de A estas> 50% kaj B la probablo estas <50%, B scias, ke A ludos kapojn, tial ludado de kapoj ne povas esti ĝusta preskribo por A. Etc. Unika solvo estas do la Nash-ekvilibro: ludi hazarde por ambaŭ.

[15] Rimarku, ke pA (B1) = pB (A1) = 0 aŭ 1 estas ekvilibra scenaro: ambaŭ ludantoj gluiĝas (aŭ ambaŭ iras rekte) se ambaŭ ludantoj atendas, ke la alia ludanto iras rekte (aŭ ŝvebas). Kontraŭe, p (A1) = p (B1) = 0 aŭ 1 ne povas esti Nash-ekvilibro: se B iras rekte (aŭ gluiĝas), A glitos (aŭ iros rekte).

[16] Fontoj: Arms Control Association, Federacio de Usonaj Sciencistoj, Internacia Panelo pri Fissilaj Materialoj, Usona Departemento pri Defendo, Usona Ŝtata Departemento kaj Stokholma Internacia Pac-Esplora Instituto.

[17] Ekde la originala papero de Flood kaj Dresher, miloj da artikoloj estis publikigitaj rilate ĝin. La serĉado de Google Scholar pri "dilemo de malliberuloj" donas 104,000-rezultojn el ĉi tiu skribo. Bonvolu doni (Kuhn [14]).

[18] Tial ludantoj ne ludos la kunlaboran solvon.

[19] Se via kontraŭulo ludas ne hazarde, via antaŭulo povus esti influita de la antaŭaj ludoj de via kontraŭulo de ĉi tiu ludo.

[20] La formulo povas esti etendita al M-homoj, por M> 3.

[21] Ĉi tiu ludo baziĝas sur la bar-problemo El Farol (Arturo [5]).

[22] La loko de indiferenteco estas kvadrata kurbo pasanta tra la punktoj (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

Referencoj

[1] Aumann RJ (1974) Subjektiveco kaj Korelacio en Randomigitaj Strategioj. Revuo por Matematika Ekonomiko 1: 67-96

[2] Aumann RJ, Maschler M (1995) Ripetitaj Ludoj kun Nekompleta Informo. MIT Press, Cambridge London

[3] Axelrod R (1984) La Evoluado de Kunlaboro. Bazaj Libroj

[4] Acevedo M, Krueger JI (2005) Evidenta rezonado en la dilemo de la Malliberulo. Usona Revuo pri Psikologio 118: 431-457

[5] Arthur WB (1994) Induktiva rezonado kaj ligita racieco. Usona Ekonomia Revizio 84: 406-411

[6] Daley B, Sadowski P (2017) Magia Pensado: Rezultado de Reprezento. Teoria Ekonomiko 12: 909-956 24 Ĉi tiu ludo baziĝas sur la El Farol-trinkeja problemo (Arturo [5]). 25 La loko de indiferenteco estas kvadrata kurbo pasanta tra la punktoj (pA (C1), pA (B1)) = (0.5, 0), (0.33, 0.33), (0, 0.5).

[7] Utileca Teorio kaj Ludoteorio Davies T (2004). Notoj pri Prelego

[8] Garcia CB, Zangwill WI (2017) Nova Alproksimiĝo al Milito aŭ Paco. Labora papero

[9] Garcia CB, Zangwill WI (2018) Regado, Atendita Utilo kaj la Malliberulo. Labora papero

[10] Harsanyi J (1967) Ludoj Kun Nekompleta Informo Ludita de "Bayesiaj" Ludantoj I - III. J. Management Science 14 (3): 159-182

[11] Kadane JB, Larkey PD (1982) Subjektiva Probablo kaj la Teorio de Ludoj. Administra Scienco 28 (2): 113-120

[12] McKelvey RD, Palfrey TR (1995) Kvantala Respondeca Ekvilibro por Normalaj Ludaj Formoj. Ludoj kaj Ekonomia Konduto 10: 6-38

[13] Antaŭaj Probabloj de Jaynes ET (1968) IEEE-Transakcioj pri Sistemoj-Scienco kaj Kibernetika 4 (3): 227-241

[14] Kuhn S (2017) Malliberulo. La Stanforda Enciklopedio de Filozofio

[15] Quattrone GA, Tversky A (1984) Kaŭza Versus Diagnoza Kontingentoj: Sur Mem-trompo kaj sur la Iluzio de Voĉdonanto. Journal of Personality and Social Psychology 46: 237-248

[16] Skyrms B (2004) La Staga Ĉaso kaj Evolucio de Socia Strukturo. Cambridge University Press, Kembriĝo

[17] Spohn W (1977) Kie Luce kaj Krantz Do Vere Ĝeneraligas la Decidan Modelon de Savage. Erkenntnis 11: 113-134

[18] Pli fortaj C (2000) Evoluoj en ne atendita utila teorio: la ĉaso por priskriba teorio de elekto sub risko. Revuo por Ekonomia Literaturo 38: 332-382

[19] Sugden R (2005) La Ekonomiko pri Rajtoj, Kunlaboro kaj Bonstato. Palgrave MacMillan, 2-eldono: 132

[20] Von Neumann J, Morgenstern O (1953) Teorio de Ludoj kaj Ekonomia Konduto. Princeton University Press, Nov-Jerseyerzejo

[21] Wolpert DH, Benford G (2011) La Leciono de Newcomb's Paradokso. Sinteza 190: 1637-164