Sterrekunde

Bestaan ​​'n plaasvervanger vir Dexter? ('N Gereedskap wat data rekonstrueer uit 'n pdf van 'n grafiek)

Bestaan ​​'n plaasvervanger vir Dexter? ('N Gereedskap wat data rekonstrueer uit 'n pdf van 'n grafiek)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Dexter was 'n instrument van die Duitse Astrophysical Virtual Observatory, wat deur die Centre for Astronomy van die Heidelberg Universiteit (ZAH) vervaardig is. Dit kon data van 'n grafiek rekonstrueer as u 'n pdf of 'n afbeelding van die grafiek verskaf het. Dit het op Java staatgemaak, en aangesien blaaiers die ondersteuning vir Java gestaak het, werk dit nie meer nie.

Webwerf vir verwysing: https://dc.zah.uni-heidelberg.de/dexter/ui/ui/custom

Weet iemand van 'n ander instrument wat dieselfde doen?

Dankie


U vraag het my laat dink aan 'n instrument wat ek die eerste keer in die 80's (ek weet reg!) Teëgekom, genaamd 'data thief'. Toe Mac-toepassings 'n skepper-kode 'van vier letters gehad het, het die kode' DIEF '(wat die Nederlandse woord vir' dief 'is).

Dit lyk asof ek stilstaan ​​- en aangesien dit nie op 'n blaaier staatmaak nie, kan dit heel moontlik nog werk (ek het dit al jare nie probeer nie).

Kyk hier


Onlangse resultate oor toegekende en nie-toegekende afstandsmetrie met toepassings op proteïenmolekules en nanostrukture

In die twee jaar sedert ons laaste 4OR-oorsig van meetkundige metodes vir afstand met toepassings op proteïene en nanostrukture, is daar vinnige vordering met die behandeling van onsekerhede in die diskretiseerbare afstandsgeometrieprobleem, en 'n nuwe klas meetkundeprobleme is begin ondersoek, naamlik probleme met meetkundige probleme . In hierdie werk ondersoek ons ​​hierdie vordering in die konteks van die vorige literatuur.

Dit is 'n voorskou van intekenaarinhoud, toegang via u instelling.


Belangrike punte

Omdat die tegnieke vir beskikbaarheid en skaal verskil van dié van die relasionele databasis-enjin, is 'n kort opsomming van sleutelpunte 'n effektiewe inleiding tot tegnieke wat by Analysedienste gebruik word:

Analysedienste maak gebruik van die hoë beskikbaarheids- en skaalbaarheidsmeganismes wat in die Windows-bedienerplatform ingebou is: netwerkbelastingbalansering (NLB), Window Server Failover Clustering (WSFC), of albei.

Die Always On-funksie van die relasionele databasis-enjin strek nie tot Analysedienste nie. U kan nie 'n Analysedienste-instansie opstel om in 'n beskikbaarheidsgroep altyd aan te pas nie.

Alhoewel Analysedienste nie in Always On-beskikbaarheidsgroepe aangebied word nie, kan dit data ophaal en verwerk uit Always On-verhoudingsdatabasisse. Raadpleeg Analysiedienste met Always On-beskikbaarheidsgroepe vir instruksies oor hoe u 'n baie beskikbare verhoudingsdatabasis kan opstel sodat dit deur Analysedienste gebruik kan word.

Hoë beskikbaarheid, as uitsluitlike doel, kan bereik word deur bedieneroorbodigheid in 'n failover-groep. Daar word aanvaar dat vervangingsnodusse dieselfde hardeware- en sagtewarekonfigurasie het as die aktiewe knoop. Op sigself bied WSFC u hoë beskikbaarheid, maar sonder skaal.

Skaalbaarheid, met of sonder beskikbaarheid, word bereik via NLB via leesalleen databasisse. Skaalbaarheid is gewoonlik kommerwekkend as die vraagvolumes groot is of onderhewig is aan skielike toename.

Belastingsbalansering, tesame met verskeie leesalleen databasisse, gee u beide skaal en hoë beskikbaarheid, want alle nodusse is aktief, en wanneer 'n bediener afgaan, word versoeke outomaties onder die oorblywende nodusse versprei. Wanneer u beide skaalbaarheid en beskikbaarheid benodig, is 'n NLB-groep die regte keuse.

Vir verwerking is die doelstellings van hoë beskikbaarheid en skaalbaarheid minder bekommerd omdat u die tydsberekening en omvang van bewerkings beheer. Verwerking kan gedeeltelik en inkrementeel wees oor dele van 'n model, alhoewel u op 'n stadium 'n model volledig op een bediener moet verwerk om die konsekwentheid van data in alle indekse en samevoegings te verseker. 'N Robuuste skaalbare argitektuur is afhanklik van hardeware wat die volle verwerking kan akkommodeer, ongeag die kadens wat benodig word. Vir groot oplossings is hierdie werk gestruktureer as 'n onafhanklike onderneming met sy eie hardewarehulpbronne.


Halfsibbe-regressie vir tydreekse

Hierbo het ons die data gemodelleer as 'n onafhanklike en identies verspreide (id) monster. In die praktyk kan die gegewens egter verkry word uit ewekansige prosesse wat 'n tydstruktuur erf. Ons veralgemeen nou die i.i.d. metode na die tydreeksinstelling.

Model aannames.

Spesiale geval van die tydreeksmodel. (Q t) t, (N t) t en (R t) t is (gesamentlik) onafhanklik van mekaar, maar elkeen kan outokorreleer. Regresserende Y t op (X t) t blokkeer slegs paaie wat Q t vermy: die skatting Y ^ t ≔ Y t - E [Y t | (X t) t] van Y t verminder geen veranderlikheid wat deur Q t veroorsaak word nie en is meer akkuraat as die i.i.d. skat Y t - E [Y t | X t]. Deur Y t op Y t - 1 terug te trek, blokkeer twee paaie: een vermy Q t, en die ander nie. Die eerste kan die skatting van Q t verbeter, maar die tweede kan dit vererger. Oor die algemeen kan die bydrae van albei dele nie geskei word nie. Dit kan egter vir bepaalde tydreekse (Qt) t wees.

Die gebruik van die tydafhanklikhede.

Anders as die i.i.d. geval, Qt, Nt en Rt word nou beïnvloed deur onderskeidelik hul eie Qt - s, N t - en R t - s, terwyl Y t ​​en X t slegs deur Q t en N beïnvloed word. t, onderskeidelik, soos in die iid saak. Dit kan 'n tydafhanklikheid veroorsaak in beide (X t) t en (Y t) t. Ons sal nou fokus op hoe om dit te benut om die rekonstruksie van (Q t) t te verbeter.

In die i.i.d. geval, het ons Q t geskat met Q ^ t S ≔ Y t - E [Y t | X t]. In beginsel kan ons die tydsafhanklikheid van (X t) t gebruik deur Y t oor die hele toekoms en verlede van (X t) t terug te trek. Dit lei tot die moontlik verbeterde beramer Q ^ t T ≔ Y t - E [Y t | (X t) t ∈ ℤ]. In sommige situasies kan dit ook nuttig wees om die tydafhanklikheid van (Y t) t te benut. In teenstelling met die regressie van Y t op X t [of (X t) t], kan die regressie van Y t op (Y s) s blind t egter gedeeltes van Q t regresseer en die resultate verswak. Om dit te sien, oorweeg Fig. 3: Alhoewel die covariates (X t) t geen inligting oor Q t bevat nie, sien die covariate Y t - 1 byvoorbeeld d skeiding (3). Daarom kan die terugvoer van Y t op ander waardes Y s, s ≠ t in die algemeen inligting van Q t uit Y t verwyder. Dit kan egter verander as ons addisionele aannames oor Q t maak. Dit is die doel van Seine met kompakte ondersteuning.

Seine met kompakte ondersteuning.

Ons neem nou aan dat Q t uitgedruk kan word as Q t = h (S t, F t), dit wil sê, ons vervang die eerste vergelyking in [7] met Y t = f (N t) + h (S t, F t), [8] waar N t 1, S t 2 en F t 3 gesamentlik onafhanklik is vir alle keuses van t 1, t 2, en t 3, en h is 'n vaste funksie. As ons deur ℐ transito ≔ [t 0 - Δ / 2 t 0 + Δ / 2] 'n venster met breedte Δ rondom t 0 aandui, neem ons verder aan dat F t = c vir t ∉ ℐ transit, [9] waar c is 'n konstante. In die voorbeeld van die eksoplanet-soektog wat hieronder beskryf word, gebruik ons ​​h (s, f) = s ⋅ f en c = 1. (S t) t kom ooreen met die helderheid van die ster (wat veranderlik is), en die sein van belang, (F t) t, is die vermenigvuldigingsverandering in die waargenome helderheid as gevolg van 'n gedeeltelike okklusie van die waargenome ster deur 'n planeet wat deur die siglyn tussen ster en teleskoop. Sulke deurgange is gesentreer rondom sommige t 0 en het 'n lengte Δ, wat ons as 'n RV beskou. Die RV's F t vir t ∈ ℐ transit beskryf die vorm van die transit. Vgl. 9dek egter ook additiewe effekte deur h (s, f) = s + f en c = 0 te gebruik. Ons neem aan dat t 0 onbekend is en dat Δ deur sommige begrens kan word α: ℙ (Δ & lt α) = 1. Die doel is om die deurgange op te spoor, dit wil sê die streke waar F t ≠ c. Ons beskryf nou die metode wat ons later op die datastel van die exoplanet sal toepas.

Metode.

In die i.i.d. In die geval het ons voorgestel om elke Y t van die ander sterre X t te voorspel en dan die residue te gebruik as 'n rekonstruksie vir Q t (tot sy gemiddelde). As ons regtig belangstel in die opsporing van deurgange (F t) t eerder as om Q t = h (S t, F t) te rekonstrueer, kan ons probeer om die outoregressiewe (AR) komponent van (Y t) t uit te filter. kom van (f (N t)) t en (S t) t, solank dit nie F t beïnvloed nie. Beskou α, δ ∈ ℕ & gt 0 met ℙ (Δ & lt α) = 1, soos hierbo. Hier, δ spesifiseer die grootte van vensters in die verlede en die toekoms wat ons as regressie-insette sal gebruik. Definieer W ≔ [- α - δ, - α] ∪ [α, α + δ]. Ons skryf verder Y t + W ≔ (Y t + s) s ∈ W. Die metode bestaan ​​uit die volgende stappe.

Halfsibbe-regressie vir tydreekse

i) Kies 'n toetsstel wat die punte bevat waar ons wil voorspel, met indekse ℐ toets. Konstrueer 'n oefenstel met indekse ℐ trein, wat al die punte bevat wat deur meer as α + δ van die toetsstel geskei word.

ii) Registreer Y t op Y t + W en X t deur al die t ∈ ℐ-treine te gebruik vir opleiding en afstelling van die hyperparameter. Gebruik die resulterende model om Y ^ t van Y t + W en X t te voorspel vir alle t ∈ ℐ-toets.

In beginsel kan ℐ-toets 'n enkelvoud wees, in welke geval ons 'n model vir 'n enkele toetspunt bou. As ons dit moet doen vir elke moontlike keuse van daardie punt, word berekeningsvereistes taamlik groot. In die praktyk gebruik ons ​​dus 'n toetsstel wat ongeveer 'n derde van die data bevat, wat beteken dat ons bogenoemde prosedure drie keer moet uitvoer om modelle vir alle moontlike toetspunte te bou.

Omdat die belangstellingsteken F t verskil van c slegs op 'n kompakte steun, kan ons bewys dat die metode geen relevante inligting oor die transitte in F t vernietig nie, solank ons ​​die parameters noukeurig kies α en δ.

Voorstel 6. Aanvaar dat, vir enige t ∈ ℤ , ons het Y t = f (N t) + h (S t, F t) met F t soos in [9]. Aanvaar verder dat Y ^ t ≔ ϕ (Y t + W, X t) met ϕ (y, x) = E [Y t | Y t + W = y, X t = x] gebou deur halfsus regressie vir tydreekse soos hierbo beskryf hier, ϕ is goed gedefinieër as ons aanvaar dat die voorwaardelike verspreiding van Y t gegee f (N t + W) + S t + W en X t hang nie af van nie t. Dan Y ^ t ╨ F t f o r a l l t ∈ ℐ transito. [10] As gevolg hiervan kan ons Y ^ t gebruik om die waargenome Y t reg te stel, en verwyder ons nooit enige inligting oor die transito F t nie. Die bewys is onmiddelik omdat ons vir 'n vaste toets ∈ ℐ deurgang het dat Y t, Y t + W en X t vir t ∈ ℐ trein, sowel as Y test + W en X t toets, onafhanklik is van (Δ , (F t) t ∈ ℐ transito).

Oor die algemeen sal Y ^ t nie onafhanklik van F t vir t ∉ ∉ transit wees nie, met ander woorde, die regstelling van Y t met behulp van Y ^ t (bv. Deur aftrek) kan die sein buite die transito-tydvenster ℐ transit verstoor. Dit word in Fig. 4 gevisualiseer. In die praktyk bevat die oefenstel gewoonlik meer as een transito. In hierdie geval kan ons nie bewys dat [10]. Ons sal egter slegs 'n werklike vervorming van die transito sein verwag as die transitte volop is en dus weer 'n beduidende fraksie van die oefenstel vorm, sien Fig. 4.

Gesimuleerde transito-rekonstruksie deur middel van halfsibbe-regressie vir tydreekse, maar sonder om terug te sak op X t. Van onder na bo: (F t) t, (Y t) t, (Y ^ t) t met Y t = S t F t, en Q ^ t ≔ (Y t - Y ^ t) t. Die skatting Y ^ t is opgelei met behulp van rugregressie met reguleringsparameter λ = 0.1. Transitte was ook in die opleidingsstel aanwesig. Let daarop dat die transito self behoue ​​bly. Sommige artefakte (hier: hobbels) word egter aan die regter- en linkerkant van die transito voorgestel.


Argief van gebeurtenislogboek

Tydens die ontleding van gebeurtenislogboeke kan verwysing na historiese logboeke help om patrone te identifiseer om te sien of 'n gebeurtenis waarskynlik weer sal plaasvind. Maar om dit te doen, het u 'n instrument nodig wat gebeurtenislêers stelselmatig kan stoor en ophaal wanneer nodig. Een groot probleem is die terabyte geheue-ruimte wat historiese gebeurtenisboeke in beslag neem, wat lei tot verlies aan stoorplek en hoër bokoste.

Met EventLog Analyzer kan u die argief van die gebeurtenislogboek outomatiseer deur die aantal dae in te stel waarna die logboeke na die argief moet verskuif. Sodra dit ingestel is, sal EventLog Analyzer gebeurtenislogboeke outomaties in vouers skuif en die vouers komprimeer voordat dit geënkripteer word om integriteit te verseker en peuter te voorkom. Die argief-loglêers kan op enige tydstip in EventLog Analyzer gelaai word vir doeleindes soos logforensies en -analise.

Met al die bogenoemde funksies, tesame met nog meer soortgelyke gebeurteniskorrelasie en bedreigingsintelligensie, bewys EventLog Analyzer dat dit 'n kragtige netwerkbeveiligingsoplossing is.


Regressie-raamwerk

Gaussiese proses regressie

Die basiese doelstelling in regressie is om 'n onbekende funksiewaarde (f (< mathbf >) ) by 'n paar nuwe (< mathbf > ) punt, aangesien ons die funksiewaardes by 'n ander ken (< mathbf > ) punte. 'N Bayesiaanse benadering tot hierdie taak word voorsien deur Gaussiese prosesregressie, waarin ons ons mate van oortuiging oor enige stel funksiewaardes as 'n gesamentlike Gaussiese pdf uitspreek. Ons onderstreep hier dat hierdie pdf in 'n suiwer Bayesiese sin verstaan ​​moet word - dit beteken geen willekeur in die ware funksie wat ons benader nie.

Ons begin met die definiëring van 'n notasie en terminologie, wat kursief die terminologie aandui wat algemeen in die huisarts en masjienleerliteratuur gebruik word. Elke invoerpunt (< mathbf > ) het m komponente (kenmerke), wat in ons geval ooreenstem met massas en menghoeke uit die MSSM-kwark- en glinosektor. Ons dui aan met (< mathbf > _ * ) die nuwe invoerpunt (toetspunt) waarvoor ons die onbekende, ware funksiewaarde (f_ * equiv f (< mathbf) sal skat > _ *) ), hier 'n NLO-produksie-deursnit. Ons laat (< mathbf > _i ) met (i = 1, lpunte, n ) dui die n invoerpunte (opleidingspunte) waarop ons die funksiewaardes ken (f_i equiv f (< mathbf > _i) ) (teikens). Die gekombineerde stel (< mathcal > = << mathbf > _i, f_i > _^) word na verwys as die opleidingsstel. Die volledige stel toevoerkomponente in ons opleidingsstel kan uitgedruk word as 'n matriks (n keer m ) (X = [< mathbf > _1, lpunte, < mathbf > _n] ^ mathrm ). Net so kan die volledige stel bekende funksiewaardes in 'n vektor (< mathbf > = [f_1, ldots, f_n] ^ mathrm ). Ons oefenstel kan dus ook uitgedruk word as (< mathcal >= >>) .

Die vertrekpunt vir regressie van die huisarts is die formulering van 'n gesamentlike Gaussiese voorafgaande pdf Voetnoot 2

wat ons mate van geloof vir moontlike funksiewaardes by beide die opleidingspunte formeel beskryf X en die toetspunt (< mathbf > _ * ) voordat ons na die opleidingsdata kyk. Hierdie prior word indirek gekies deur 'n gemiddelde funksie (m ( cdot) ) en a kovariansie funksie of kern (k ( cdot, cdot) ), gedefinieer om die volgende verwagtingswaardes vir willekeurige invoerpunte te spesifiseer:

Ons merk op dat hoewel die gemiddelde funksie en kern gedefinieer word as funksies van insette in (< mathbf > ) ruimte, stel die funksiewaardes gemiddelde en kovariansie in f ruimte. Ons gesamentlike Gaussiese prior kan dan uitgedruk word as

Die keuse en optimalisering van die kern- en gemiddelde funksie vorm die grootste uitdaging in die regressie van die huisdokter, en ons sal hierdie aspekte breedvoerig in die volgende afdelings bespreek.

Ons doel is om 'n voorspellende posterior pdf te verkry vir die onbekende funksiewaarde (f _ * ) by (< mathbf > _ * ). Van die vooraf gespesifiseerde huisdokter kan ons dit eenvoudig vind deur die opleidingsdata (< mathbf > ), dws deur van die huisarts vooraf te kom (p (< mathcal >, f_ * | < mathbf > _ *) ) die voorwaardelike pdf

Die gemiddelde en variansie van hierdie eenveranderlike Gaussiaan kan in geslote vorm uitgedruk word as

Die voorspelling ( mu _ * ) vir (f _ * ) is dus eenvoudig die voorafgaande gemiddelde (m (< mathbf > _ *) ) plus 'n verskuiwing gegee deur 'n geweegde som van die verskuiwings van die bekende funksiewaardes vanaf hul ooreenstemmende vorige middele, (< mathbf > - m (X) ). Die gewigte is eweredig aan die kovariante tussen die voorspelling by (< mathbf > _ * ) en die bekende funksiewaardes by die opleidingspunte X, soos ingestel deur die kern (k (< mathbf > _ *, X) ). Die voorspellingsafwyking ( sigma _ * ^ 2 ) word gegee as die vorige variansie (k (< mathbf > _ *, < mathbf > _ *) ) verminder met 'n term wat die addisionele inligting voorstel wat deur die opleidingsdata verskaf word oor die funksiewaarde by (< mathbf > _ * ). Dit hang natuurlik net van die kern af. Ons verwys na die breedte ( sigma _ * ) bloot as die regressiefout of GP-voorspellingsfout, terwyl ons in gedagte hou dat dit op 'n Bayesiese manier geïnterpreteer moet word.

Kernkeuse en optimalisering

Die keuse van die pit, Vgl. (3), is die vernaamste stap in die regressie van die huisarts. Dit bepaal effektief watter soorte funksionele strukture die huisdokter sal kan vasvang. Dit kodeer veral die gladheid en die periodisiteit (indien van toepassing) van die funksie wat gemodelleer word, aangesien dit die verwagte korrelasie tussen funksiewaardes op twee verskillende punte beheer. Die keuse van vorige gemiddelde funksie, Vgl. (2), is tipies baie minder belangrik, soos ons aan die einde van hierdie gedeelte bespreek.

Die vraag na die optimale kernkeuse word in meer besonderhede in Ref. [4, 37]. Die kwadraat-eksponensiële kern

is die standaard keuse. Dit lei tot 'n eksponensieel dalende korrelasie namate die Euklidiese afstand tussen twee invoerpunte toeneem ten opsigte van 'n lengteskaal-hiperparameter ( ell ). Die seinafwyking ( sigma _f ^ 2 ) is 'n hiperparameter wat inligting bevat oor die amplitude van die gemodelleerde funksie. Dit is 'n universele kern [38], wat beteken dat dit in beginsel in staat is om enige deurlopende funksie te benader gegewe genoeg data. Die oneindige onderskeibaarheid en eksponensiële gedrag van hierdie kern lei gewoonlik tot 'n baie gladde posterior gemiddelde.

Vir ons doeleindes het die kwadraat-eksponensiaal egter probleme. Die sensitiwiteit daarvan vir veranderinge in die funksie beteken dat die lengteskaal ( ell ) gewoonlik bepaal word deur die kleinste 'wiggle' in die funksie [37]. Ons beskou dus ook die Matérn-kernfamilie: soos die kwadraat-eksponensiaal, is dit universeel en stilstaande, dit wil sê slegs funksies van die relatiewe posisies van die twee invoerpunte, maar bevat ook 'n gladheidshiperparameter ( nu ) na aanleiding van die basiese vorm

waar ( varGamma ( nu) ) die gammafunksie is en (K _ < nu> ) 'n aangepaste Bessel-funksie van die tweede soort is. Vir die modellering van deursnitfunksies neem ons die Maternn-kernklas aan op grond van sy uitstekende prestasie. Dit het gevolg op beduidende toetsing en kruisvalidasie oor 'n aantal verskillende probleme [39,40,41]. Tydens die toets het ons gevind dat ( nu = frac <3> <2> ) optimaal is vir ons doeleindes, in welke geval Vgl. (13) vereenvoudig tot

Om rekening te hou met die feit dat sommige rigtings in die invoerruimte van massas en menghoeke meer invloed op die deursnitwaardes kan hê as ander, gebruik ons ​​'n anisotropiese, vermenigvuldigende Matérn-kern,

waar ons ook 'n seinvariansie-hyperparameter ( sigma _f ^ 2 ) ingesluit het, soortgelyk aan die in Vgl. (12). Hier (x ^ <(d)> ) dui die (d hbox aan ) komponent van die invoervektor (< mathbf > ), en ( varvec < ell> ), met komponente ( ell _d ), is 'n vektor wat een lengteskaal bevat per (< mathbf > ) komponent. Die produk oor die afmetings van die parameterruimte het tot gevolg dat punte net sterk gekorreleer word as hulle in elke dimensie klein is ten opsigte van die betrokke lengteskaal.

Tot dusver het ons gefokus op die "geraasvrye" geval, waarin die opleiding teiken (< mathbf > ) is die presiese waardes van die ware funksie by die opleidingspunte. In hierdie geval is die voorspellende posterior (p (f_ * | < mathcal >, < mathbf > _ *) ) stort ineen na 'n delta-funksie wanneer (< mathbf > _ * ) is gelyk aan 'n opleidingspunt. In teorie is dit 'n redelike benadering, aangesien ons 'n plaasvervangende model is vir 'n duur, maar presiese en deterministiese numeriese berekening. In die praktyk lei dit egter tot 'n meer goedgedraaide en stabiele regressiemodel as 'n mate van onsekerheid ook op die oefenpunte voorsiening gemaak word. Die hoofrede hiervoor is dat die addisionele kronkelruimte in die modellering die uitdagende matriksgetalle van GP-regressie kan vergemaklik, soos wat ons in detail in Sekt bespreek. 2.3.

Ons voeg dus 'n "witruis" term by,

na ons kern, waar ( sigma _ < epsilon> ^ 2 ) die hiperparameter is wat die hoeveelheid “geraas” instel. Die effek van hierdie term is eenvoudig om ( sigma _ < epsilon> ^ 2 ) by te voeg langs die diagonaal van die kovariansiematriks ( varSigma ), sowel as die vorige variansie by die toetspunt, ( k (< mathbf > _ *, < mathbf > _ *) ). Dit staan ​​bekend as homoscedastic geraas, want dit is dieselfde vir alle datapunte.

Om hierdie addisionele afwykingstermyn in te sluit, is dit in die algemene praktisyn van die geraasvrye geval na 'n scenario met luidrugtige opleidingsdata. Die teikens word dan beskou as metings (y_i equiv y (< mathbf > _i) = f (< mathbf > _i) + epsilon _i ), met die geraas ( epsilon _i ), bekendgestel tydens die uitvoering van die (i hbox ) meting, gemodelleer deur 'n Gaussiese verspreiding (< mathcal > (0, sigma _ epsilon ^ 2) ). Ons herinner die leser egter daaraan dat hierdie Gaussiese pdf vir ons 'n effektiewe Bayesiese mate van geloof in die akkuraatheid van die opleidingsdata is, eerder as 'n uitdrukking van werklike ewekansige geraas.

Konseptueel moet ons dan die vervanging (f rightarrow y ) in ons definisies uit Afdeling maak. 2.1. Ons oefenstel word (< mathcal >= > > ), met (< mathbf > = [y_1, ldots, y_n] ^ mathrm ), en die huisarts word 'n gesamentlike pdf vir (< mathbf > ) en (y _ * ):

Die vorige gemiddelde funksie en kern spesifiseer nou verwagtingswaardes in y ruimte,

waar ons daarop let dat (< mathbb > [y (< mathbf >)] = < mathbb > [f (< mathbf >)] ) aangesien die Gaussiese geraasterm geen gemiddelde het nie. Net so word die voorspellende posterior pdf

Ons volledige kern word dan gegee deur

Die bevestiging van ( nu = frac <3> <2> ), soos hierbo bespreek, sit ons met die stel ( mathbf < theta> = < sigma _f ^ 2, varvec < ell> , sigma _ epsilon ^ 2 > ) van onbepaalde hiperparameters. Om volledig Bayesiaans te wees, sou 'n voorafgaande pdf (p ( mathbf < theta>) ) vir die hiperparameters bekendgestel word en die GP posterior (p (y_ * | < mathcal) verkry >, x _ *) ) deur te marginaliseer oor ( mathbf < theta> ),

In ons hoë-dimensionele geval met groot datastelle, sou sulke integrasie 'n geweldige koste van berekeninge beloop, selfs met MCMC-metodes. Daarom volg ons die algemene benadering om 'n skatting van die punt vir die hiperparameters te gebruik, wat gevind word deur die log-waarskynlikheidsfunksie te maksimeer [4]

Die bepaling van 'n voldoende stel hiperparameters vorm die modelopleidingsstap in die huisartsbenadering. Dit word bemoeilik deur die feit dat elke optimalisasiestap die inverse en determinant van die (n maal n ) kovariansiematriks ( varSigma ) benodig, wat swak skaal met die aantal opleidingspunte n. Om spoed en numeriese stabiliteit te verhoog, word ( varSigma ) in die praktyk gewoonlik nie direk omgekeer nie, en word die Cholesky-ontbinding daarvan gebruik. In 'n poging om plaaslike optima te vermy, gebruik ons ​​die SciPy-implementering van die differensiële evolusiemetode [42, 43], eerder as om 'n gradiënt-gebaseerde soektog uit te voer.

Onlangse werk het getoon dat die teoretiese voorspellingsfout ( sigma _ * ^ 2 ) in Vgl. (22) onderskat die gemiddelde kwadraatvoorspellingsfout stelselmatig wanneer die hiperparameters uit die data geleer word [44]. Soos daar voorgestel, neem ons rekening met die onsekerheid oor die skatting van die hyperparameter deur 'n regstellingsterm by te voeg tot ( sigma _ * ^ 2 ), afgelei van die Hybrid Cramér – Rao Bound. In ons geval, met 'n konstante vorige gemiddelde funksie, beloop hierdie ekstra term

waar (< mathbf <1>> equiv [1, ldots, 1] ). In die besonder verhoog dit die voorspellingsfout by toetspunte ver van die opleidingsdata.

In vergelyking met die keuse van kern, is die keuse van die vorige gemiddelde funksie, Vgl. (18), is tipies minder belangrik. Na kondisionering op 'n voldoende groot oefenstel, word die prior oorweldig en word die posterior gemiddelde hoofsaaklik beïnvloed deur die opleidingsdata gedurende die tweede kwartaal in Vgl. (21). Om hierdie rede word die gemiddelde gemiddelde funksie gewoonlik as nul beskou. Desondanks is dit verstandig om ons kennis van die gemiddelde op te neem, en daarom gebruik ons ​​die steekproefgemiddelde van die teikenwaardes (< mathbf > ) as 'n voorafgaande gemiddelde funksie wat konstant is in (< mathbf >) .

Regularisering van die kovariansiematriks

'N Praktiese uitdaging by die opleiding van huisdokters is om numeriese stabiliteit te verseker wanneer die kovariansiematriks ( varSigma ) omgekeer word. Die presisie van die resultaat word beheer deur die voorwaarde nommer ( kappa ) van ( varSigma ), wat beskou kan word as 'n maatstaf van die sensitiwiteit van die inversie tot afrondingsfout. Dit word bereken as die verhouding ( lambda _ < mathrm > / lambda _ < mathrm > ) tussen die hoogste en laagste eiewaardes van ( varSigma ), en word oneindig vir 'n enkelvoudige matriks. Die verlies aan numeriese presisie by hoë ( kappa ) word die duidelikste wanneer die voorspellende variansie, bereken volgens Vgl. (22), evalueer tot 'n negatiewe getal. Om hierdie probleem te voorkom, is dit noodsaaklik om te verstaan ​​hoe u ( kappa ) beheer.

Wanneer die teikenwaardes van oefenpunte sterk gekorreleer is, is die ooreenstemmende rye en kolomme in ( varSigma ) byna identies. Dit lei tot eiewaardes naby nul en 'n baie groot toestand. Daar is getoon dat ( kappa ) in die ergste geval lineêr kan groei met die aantal oefenpunte en kwadraties met die sein-ruis-verhouding (< mathrm > = sigma _f / sigma _ epsilon ) [45].

Die verhoging van die geraasvlak verbeter die numeriese stabiliteit, aangesien 'n groter diagonale bydrae ( sigma _ epsilon ^ 2 ) tot ( varSigma ) die verskil tussen anders soortgelyke rye en kolomme verhoog. Daarom voeg ons 'n term by die log waarskynlikheid in Vgl. (25) wat hiperparameterkeuses met uiters hoë sein-tot-ruis-verhoudings straf, soos voorgestel in Verw. [45]. Ons objektiewe funksie vir die opleiding van huisdokters word dan

Die groot eksponent waarborg dat situasies waar (< mathrm > & gt < mathrm > _ < mathrm > ) is die enigste waar die straftermyn 'n beduidende uitwerking het. Ons gebruik (< mathrm > _ < mathrm >=10^4) .

In sommige gevalle is die waarskynlikheidstraf in Vgl. (27) verminder die toestand nie voldoende om die inversie te stabiliseer nie. Die keuse van 'n laer totale waarde vir (< mathrm > _ < mathrm > ) verdun die inligting in die opleidingsdata tot 'n mate dat dit soms deur geraas gepas kan word, selfs al is dit onnodig. Ons kyk dus na die optimalisering met die straftermyn die voorwaarde en gaan voort met die verhoging van die homoscedastiese geraas ( sigma _ epsilon ^ 2 ) net vir die inversiestap totdat die toestandgetal onder 'n redelike waarde daal ( kappa _ < mathrm >) [46]:

Ons stel ( kappa _ < mathrm > = 10 ^ 9 ), ongeveer ooreenstem met 'n maksimum verlies van nege syfers akkuraatheid van die totaal van 16 in 'n 64-bis dubbele presisie drywingsgetal.

Dit lyk of hierdie maatreëls die prestasie van ons regressiemodel verswak, maar dit is nodig om die numeriese stabiliteit te verseker. Die onderliggende rede is dat ons in wese geruislose data het, en dat ons die perke van swaai-punt-presisie bereik tydens die berekening van die voorspellings van die huisdokter. In vergelyking met die skaal en PDF-onsekerhede op die dwarsdeursnee, bly die gevolglike regressiefoute tog klein, soos ons in Afdeling aantoon. 4.

Verspreide Gaussiese prosesse en voorspellingsaggregasie

Met n opleidingspunte, die kompleksiteit van die matriks-inversie-bedrywighede in vgl. (21) en (22) skaal as (n ^ 3 ), wat standaard huisartsregressie ongeskik maak vir probleme wat groot oefenstelle benodig. Om hierdie uitdaging te oorkom, bou ons 'n regressiemodel gebaseer op verspreide Gaussiese prosesse (DGP's) [5]: ons verdeel die totale opleidingsstel (< mathcal > ) in d hanteerbare onderstelle (< mathcal > _i ), en vir elke (< mathcal > _i ) oefen ons 'n nuwe huisdokter (< mathcal > _i ). Daar word na hierdie huisarts verwys as kundiges. Die voorspelling van ons regressiemodel word verkry deur die voorspellings van die individuele kundiges saam te voeg. Vir hierdie voorspellingsaggregasie volg ons die benadering wat bekend staan ​​as die Algemene Robuuste Bayesiese komiteemasjien (GRBCM) [6], waarvoor ons die hoofstappe hieronder saamvat.

Eers konstrueer ons 'n data-onderstel (< mathcal > _1 equiv < mathcal > _c ), lukraak gekies uit (< mathcal > ) sonder vervanging, wat gebruik sal word om 'n enkeling op te lei kommunikasie deskundige (< mathcal > _c ). Vervolgens verdeel ons die oorblywende data in onderstelle ( << mathcal > _i > _^ d ), wat elkeen sal dien om een ​​kundige op te lei (< mathcal > _i ). Na aanleiding van verwysings. [5, 6], word alle kundiges dan gelyktydig opgelei, sodat hulle 'n algemene stel hiperparameters deel.

Die GRBCM-benadering plaas geen beperkinge op hoe om die data te verdeel om die onderstelle te vorm nie ( << mathcal > _i > _^ d ). Empiriese studies het egter getoon dat 'n mate van groepering van data die kundiges kan help om sensitief te raak vir plaaslike, kortskaalse veranderlikes van die teikenfunksie [6, 47]. In vergelyking met die gebruik van 'n eenvoudige ewekansige partisie, het ons geringe verbeterings opgemerk met 'n losstaande partisie, waar die data in plaaslike onderverdelings verdeel word op grond van die massaparameter met die kleinste langskaalse hiperparameter. Toetse met k- beteken groepering het nie verdere verbeterings in ons geval aangedui nie, en ook nie toetse met sorteer op minder dominante kenmerke nie.

Die spesiale rol van die kommunikasie deskundige (< mathcal > _c ) word duidelik in die voorspellingsstadium. Vir elkeen van die kundiges ( << mathcal > _i > _^ d ), bou ons 'n verbeterde kenner (< mathcal > _ <+ i> ) deur die ooreenstemmende datastel (< mathcal > _i ) met die uitgebreide stel (< mathcal > _ <+ i> = << mathcal > _i, < mathcal > _c > ). Die kommunikasiedatastel (< mathcal >_) word gedeel deur al die kundiges (< mathcal > _ <+ i> ). Die kommunikasie deskundige (< mathcal > _c ) dien as 'n algemene basis waarop die kundiges (< mathcal > _ <+ i> ) kan vergelyk word. In die finale kombinasie word die voorspelling van deskundige (< mathcal > _ <+ i> ) sal geweeg word volgens die differensiële entropieverskil tussen die voorspellende verspreiding daarvan en die van (< mathcal >_) .

Die sentrale benadering wat berekeningswinste in DGP's en verwante benaderings moontlik maak, is 'n aanname dat die individuele kundiges as onafhanklik hanteer kan word, wat ooreenstem met die benadering van die kernmatriks van die gekombineerde probleem, dws sonder verdeling in kundiges, as blokdiagonaal. In die GRBCM-benadering word hierdie benadering uitgedruk as die voorwaardelike onafhanklikheid aanname (< mathcal > _i perp < mathcal > _j | < mathcal > _c, y_ *, < mathbf > _ * ) vir (2 le i ne j le d ), wat die benadering moontlik maak (p (< mathcal > _i | < mathcal > _j, < mathcal > _c, y_ *, < mathbf > _ *) ongeveer p (< mathcal > _i | < mathcal > _c, y_ *, < mathbf > _ *) ). Dit wil sê wanneer die inligting vervat in die kommunikasiestel (< mathcal > _c ) bekend is, neem ons aan dat die voorspellende verdeling vir punte in subversameling (< mathcal > _i ) moet nie sterk beïnvloed word deur die addisionele inligting in subgroep (< mathcal > _j ).

Met behulp van Bayes se stelling en bogenoemde onafhanklikheidsveronderstelling, is die presiese voorspellingsverdeling (p (y_ * | < mathcal >, < mathbf > _ *) ) kan nou benader word as

where we have introduced the weights (eta _i) for the predictions from different experts, and defined (eta _1 equiv -1 + sum _^d eta _i) . By applying Bayes’ theorem again, we can express our approximation for (p(y_* | >, >_*)) in terms of the corresponding predictive distributions from the individual experts, (p_ <+i>(y_* | >_<+i>, >_*)) and (p_c (y_* | >_c, >_*)) . Leaving out normalisation factors, the distribution for the aggregated prediction becomes

Following Ref. [6], we set the weights (eta _i) to

The reason for assigning weight (eta _2 = 1) for expert (>_<+2>) is that the transition

in Eq. (29) is exact for (i=2) , (eta _2=1) . For each remaining expert (>_<+ige 3>) , the weight is taken to be the difference in differential entropy between the baseline predictive distribution of the communication expert, (p_c(y_* | >_c, >_*)) , and that of the given expert, (p_<+i>(y_* | >_<+i>, >_*)) . Thus, if an expert (>_<+i>) provides little additional predictive power over (>_) , its relative influence on the aggregated prediction is low.

Requiring the experts to share a common set of hyperparameters effectively disfavours overfitting of individual experts. Moreover, the risk of overfitting is alleviated by the fact that after training, each expert is extended with the communication dataset (>_c) that it did not see during training, and its weight in the prediction aggregation is regularised through the comparison to the communication expert.

The GRBCM split of the dataset into d experts reduces the complexity of training from (n^3) to (>(d (n/d)^3 = n^3d^<-2>)) . The memory, storage space, and evaluation all depend directly on the size of the matrix, and scale as (>(n^2)) for a regular GP, but as (>(n^2/d)) in the GRBCM approach.


7: Analysis of Bivariate Quantitative Data

  • Contributed by Peter Kaslik
  • Professor (Mathematics) at Pierce College Fort Steilacoom

For the past three chapters you have been learning about making inferences for univariate data. For each research question that could be asked, only one random variable was needed for the answer. That random variable could be either categorical or quantitative. In some cases, the same random variable could be sampled and compared for two different populations, but that still makes it univariate data. In this chapter, we will explore bivariate quantitative data. This means that for each unit in our sample, two quantitative variables will be determined. The purpose of collecting two quantitative variables is to determine if there is a relationship between them.

The last time the analysis of two quantitative variables was discussed was in Chapter 4 when you learned to make a scatter plot and find the correlation. At the time, it was emphasized that even if a correlation exists, that fact alone is insufficient to prove causation. There are a variety of possible explanations that could be provided for an observed correlation. These were listed in Chapter 4 and provided again here.

  1. Changing the x variable will cause a change in the y variable
  2. Changing the y variable will cause a change in the x variable
  3. A feedback loop may exist in which a change in the x variable leads to a change in the y variable which leads to another change in the x variable, etc.
  4. The changes in both variables are determined by a third variable
  5. The changes in both variables are coincidental.
  6. The correlation is the result of outliers, without which there would not be significant correlation.
  7. The correlation is the result of confounding variables.

Causation is easier to prove with a manipulative experiment than an observational experiment. In a manipulative experiment, the researcher will randomly assign subjects to different groups, thereby diminishing any possible effect from confounding variables. In observational experiments, confounding variables cannot be distributed equitably throughout the population being studied. Manipulative experiments cannot always be done because of ethical reasons. For example, the earth is currently undergoing an observational experiment in which the explanatory variable is the amount of fossil fuels being converted to carbon dioxide and the response variable is the mean global temperature. It would have been considered unethical if a scientist had proposed in the 1800s that we should burn as many fossil fuels as possible to see how it affects the global temperature. Likewise, experiments that would force someone to smoke, text while driving, or do other hazardous actions would not be considered ethical and so correlations must be sought using observational experiments.

There are several reasons why it is appropriate to collect and analyze bivariate data. One such reason is that the dependent or response variable is of greater interest but the independent or explanatory variable is easier to measure. Therefore, if there is a strong relationship between the explanatory and response variable, that relationship can be used to calculate the response variable using data from the explanatory variable. For example, a physician would really like to know the degree to which a patient&rsquos coronary arteries are blocked, but blood pressure is easier data to obtain. Therefore, since there is a strong relationship between blood pressure and the degree to which arteries are blocked, then blood pressure can be used as a predictive tool.

Another reason for collecting and analyzing bivariate data is to establish norms for a population. As an example, infants are both weighed and measured at birth and there should be a correlation between their weight and length (height?). A baby that is substantially underweight compared to babies of the same length would raise concerns for the doctor.

In order to use the methods described in this chapter, the data must be independent, quantitative, continuous, and have a bivariate normal distribution. The use of discrete quantitative data exceeds the scope of this chapter. Independence means that the magnitude of one data value does not affect the magnitude of another data value. This is often violated when time series data are used. For example, annual GDP (gross domestic product) data should not be used as one of the random variables for bivariate data analysis because the size of the economy in one year has a tremendous influence on the size of it the next year. This is shown in the two graphs below. The graph on the left is a time series graph of the actual GDP for the US. The graph on the right is a scatter plot that uses the GDP for the US as the x variable and the GDP for the US one year later (lag 1) for the y value. The fact that these points are in such a straight line indicates that the data are not independent. Consequently, this data should not be used in the type of the analyses that will be discussed in this chapter.

A bivariate normal distribution is one in which y values are normally distributed for each x value and x values are normally distributed for each y value. If this could be graphed in three dimensions, the surface would look like a mountain with a rounded peak.

We will now return to the example in chapter 4 in which the relationship between the wealth gap, as measured by the Gini Coefficient, and poverty were explored. Life can be more difficult for those in poverty and certainly the influence they can have in the country is far more limited than those who are affluent. Since people in poverty must channel their energies into survival, they have less time and energy to put towards things that would benefit humanity as a whole. Therefore, it is in the interest of all people to find a way to reduce poverty and thereby increase the number of people who can help the world improve.

There are a lot of possible variables that could contribute to poverty. A partial list is shown below. Not all of these are quantitative variables and some can be difficult to measure, but they can still have an impact on poverty levels

  1. Onderwys
  2. Parent&rsquos income level
  3. Community&rsquos income level
  4. Job availability
  5. Mental Health
  6. Knowledge
  7. Motivation and determination
  8. Physically disabilities or illness
  9. Wealth gap
  10. Race/ethnicity/immigration status/gender
  11. Percent of population that is employed

In Chapter 4, only the relationship between wealth gap and poverty level was explored. Data was gathered from seven states to determine if there is a correlation between these two variables. The scatter plot is reproduced below. The correlation is -0.65.

As a reminder, correlation is a number between -1 and 1. The population correlation is represented with the Greek letter ( ho), while the sample correlation coefficient is represented with the letter (r). A correlation of 0 indicates no correlation, whereas a correlation of 1 or -1 indicates a perfect correlation. The question is whether the underlying population has a significant linear relationship. The evidence for this comes from the sample. The hypotheses that are typically tested are:

This is a two-tailed test for a non-directional alternative hypothesis. A significant result indicates only that the correlation is not 0, it does not indicate the direction of the correlation.

The logic behind this hypothesis test is based on the assumption the null hypothesis is true which means there is no correlation in the population. An example is shown in the scatter plot on the left. From this distribution, the probability of getting the sample data (shown in solid circles in the graph at the right), or more extreme data (forming a straighter line), is calculated.

The test used to determine if the correlation is significant is a t test. The formula is:

There are n - 2 degrees of freedom.

This can be demonstrated with the example of Gini coefficients and poverty rates as provided in Chapter 4 and using a level of significance of 0.05. The correlation is -0.650. The sample size is 7, so there are 5 degrees of freedom. After substituting into the test statistic, (t = dfrac<-0.650 sqrt<7 - 2>>>), the value of the test statistic is -1.91. Based on the t-table with 5 degrees of freedom, the two-sided p-value is greater than 0.10 (actual 0.1140). Consequently, there is not a significant correlation between Gini coefficient and poverty rates.

Another explanatory variable that can be investigated for its correlation with poverty rates is the employment-population ratio (percent). This is the percent of the population that is employed at least one hour in the month

.

The correlation for this data is -0.6445, (t) = -2.80 and (p) = 0.0174. Notice at the 0.05 level of significance, this correlation is significant. Before exploring the meaning of a significant correlation, compare the results of the correlation between Gini Coefficient and poverty rate which was -0.650 and the results of the correlation between Employment-Population Ratio and poverty rates which is -0.6445. The former correlation was not significant while the later was significant even though it is less than the former. This is a good example of why the knowledge of a correlation coefficient is not sufficient information to determine if the correlation is significant. The other factor that influences the determination of significance is the sample size. The Employment-Population Ratio/poverty rates data was determined from a larger sample size (13 compared with 7). Sample size plays an important role in determining if the alternative is supported. With very large samples, very small sample correlations can be shown to be significant. The question is whether significant corresponds with important.

The effect of sample size on possible correlations is shown in the four distributions below. These distributions were created by starting with a population that had a correlation of ( ho = 0.000).10,000 samples of size 5,15,35, and 300 were drawn from this population, with replacement.

Look carefully at the x-axis scales and the heights of the bars. Values near the middle of the graphs are likely values while values on the far left and right of the graph are unlikely values which, when testing a hypothesis, would possibly lead to a significant conclusion. With small sample sizes, the magnitude of the correlation must be very large to conclude there is significant correlation. As the sample size increases, the magnitude of the correlation can be much smaller to conclude there is significant correlation. The critical values for each of these are shown in the table below and are based on a two-tailed test with a level of significance of 5%.

n 5 15 35 300
t 2.776 2.145 2.032 1.968 |r| 0.848 0.511 0.334 0.113

In the histogram in the bottom right in which the sample size was 300, a correlation that exceeds 0.113 would lead to a conclusion of significant correlation, yet there is the question of whether a correlation that small is very meaningful, even if it is significant. It might be meaningful or it might not. The researcher must determine that for each situation.

Returning to the analysis of Gini coefficients and poverty rates, since there was not a significant correlation between these two variables, then there is no point in trying to use Gini Coefficients to estimate poverty rates or focusing on changes to the wealth gap as a way of improving the poverty rate. There might be other reasons for wanting to change the wealth gap, but its impact on poverty rates does not appear to be one of the reasons. On the other hand, because there is a significant correlation between Employment-Population Ratio and poverty rates, then it is reasonable to use the relationship between them as a model for estimating poverty rates for specific Employment-Population Ratios. If this relationship can be determined to be causal, then it justifies improving the employment-population ratio to help reduce poverty rates. In other words, people need jobs to get out of poverty.

Since the Pearson Product Moment Correlation Coefficient measures the strength of the linear relationship between the two variables, then it is reasonable to find the equation of the line that best fits the data. This line is called the least squares regression line or the line of best fit. A regression line has been added to the graph for Employment-Population Ratio and Poverty Rates. Notice that there is a negative slope to the line. This corresponds to the sign of the correlation coefficient.

The equation of the line, as it appears in the subtitle of the graph is (y = 35.8284 &ndash 0.3567x), where (x) is the Employment-Population Ratio and (y) is the poverty rate. As an algebra student, you were taught that a linear equation can be written in the form of (y = mx + b). In statistics, linear regression equations are written in the form (y = b + mx) except that they traditionally are shown as (y' = a + bx) where (y') represents the y value predicted by the line, (a) represents the (y) intercept and (b) represents the slope.

To calculate the values of (a) and (b), 5 other values are needed first. These are the correlation (r), the mean and standard deviation for (x) ((ar) en (s_x)) and the mean and standard deviation for (y) ((ar) en (s_y)). First find (b) using the formula: (b = r(dfrac)). Next, substitute (ar), (ar), and (b) into the basic linear equation (ar = a + bar) and solve for (a).

For this example, (r = -0.6445), (bar = 61.76), (s_x = 4.67), (bar = 13.80), and (s_y = 2.58).

Therefore, the final regression equation is (y' = 35.79 - 0.3561x). The difference between this equation and the one in the graph is the result of rounding errors used for these calculations.

The regression equation allows us to estimate the y value, but does not provide an indication of the accuracy of the estimate. In other words, what is the effect of the relationship between (x) and (y) on the (y) value?

To determine the influence of the relationship between (x) and (y) begins with the idea that there is variation between the (y) value and the mean of all the (y) values ((bar)). This is something that you have seen with univariate quantitative data. There are two reasons why the (y) values are not equivalent to the mean. These are called explained variation and error variation. Explained variation is the variation that is a consequence of the relationship (y) has with (x). In other words, (y) does not equal the mean of all the (y) values because the relationship shown by the regression line influences it. The error variation is the variation between an actual point and the (y) value predicted by the regression line that is a consequence of all the other factors that impact the response random variable. This vertical distance between each actual data point and the predicted (y) value ((y')) is called the residual. The explained variation and error variation is shown in the graph below. The horizontal line at 13.8 is the mean of all the (y) values.

The total variation is given by the sum of the squared distance each value is from the average (y) value. This is shown as (sum_^ (y_i - ar)^2).

The explained variation is given by the sum of the squared distances the (y) value predicted by the regression equation ((y')) is from the average (y) value, (ar). This is shown as

The error variation is given by the sum of the squared distances the actual (y) data value is from the predicted (y) value ((y')). This is shown as (sum_^ (y_i - y_i ')^2).

The relationship between these can be shown with a word equation and an algebraic equation.

Total Variation = Explained Variation + Error Variation

The primary reason for this discussion is to lead us to an understanding of the mathematical (though not necessarily causal) influence of the (x) variable on the (y) variable. Since this influence is the explained variation, then we can find the ratio of the explained variation to the total variation. We define this ratio as the coefficient of determination. The ratio is represented by (r^2).

The coefficient of determination is the square of the correlation coefficient. What it represents is the proportion of the variance of one variable that results from the mathematical influence of the variance of the other variable. The coefficient of determination will always be a value between 0 and 1, that is (0 le r^2 le 1). While (r^2) is presented in this way, it is often spoken of in terms of percent, which results by multiplying the (r^2) value by 100.

In the scatter plot of poverty rate against employment-population ratio, the correlation is (r = - 0.6445), so (r^2 = 0.4153). Therefore, we conclude that 41.53% of the influence on the variance in poverty rate is from the variance in the employment-population ratio. The remaining influence that is considered error variation comes from some of the other items in the list of possible variables that could affect poverty.

There is no definitive scale for determining desirable levels for (r^2). While values close to 1 show a strong mathematical relationship and values close to 0 show a weak relationship, the researcher must contemplate the actual meaning of the (r^2) value in the context of their research.

Calculating correlation and regression equations by hand can be very tedious and subject to rounding errors. Consequently, technology is routinely employed to in regression analysis. The data that was used when comparing the Gini Coefficients to poverty rates will be used here.

Gini Coefficient Poverty Rate
0.486 10.1 0.443 9.9 0.44 11.6 0.433 13 0.419 13.2 0.442 14.4 0.464 10.3

To enter the data, use Stat &ndash Edit &ndash Enter to get to the lists that were used in Chapter 4. Clear lists one and two by moving the cursor up to L1, pushing the clear button and then moving the cursor down. Do the same for L2.

Enter the Gini Coefficients into L1, the Poverty Rate into L2. They must remain paired in the same way they are in the table.

To determine the value of t, the p-value, the r and r2 values and the numeric values in the regression equation, use Stat &ndash Tests &ndash E: LinRegTTest. Enter the Xlist as L1 and the Ylist as L2. The alternate hypothesis is shown as (eta) & ( ho): ( e) 0. Put cursor over Calculate and press enter.

LinRegTTest
(y = a + bx)
(eta e 0) and ( ho e 0)
t = -1.912582657
p = 0.1140079665
df = 5
b = -52.72871602
(s = 1.479381344) (standard error)
(r^2 = 0.4224975727)
(r = -0.6499981406)

Microsoft&rsquos Excel contains an add-in that must be installed in order to complete the regression analysis. In more recent versions of Excel (2010), this addin can be installed by

  • Select the file tab
  • Select Options
  • On the left side, select Add-Ins
  • At the bottom, next to where it says Excel Add-ins, click on Go Check the first box, which says Analysis ToolPak then click ok. You may need your Excel disk at this point.

To do the actual Analysis:

  • Select the data tab
  • Select the data analysis option (near the top right side of the screen)
  • Select Regression
  • Fill in the spaces for the y and x data ranges.
  • Click ok.

A new worksheet will be created that contains a summary output. Some of the numbers are shown in gray to help you know which numbers to look for. Notice how they correspond to the output from the TI 84 and the calculations done earlier in this chapter.


Does a replacement exist for Dexter? (A tool that reconstructs data from a pdf of a graph) - Astronomy

I have reviewed the assorted MS documentation on updating a list item value. I am using an out of box LIST and I am using HTTPClient object to insert and (attempt to) update list items. I successfully insert list items with REST URL like:

and a JSON data load like:

I want update the item I just inserted and change the Title field. The REST URL is like:

the JSON data load is like:

The Headers (as reported by Fiddler) are:

Authorization NOT DISPLAYED IN THIS FORUM
Accept application/atom+xml
X-RequestDigest 0x9C809D551C77096537550B3D9C6BAB6F3C4F6A9B0EA72DD4ABD69F2E0AAD1AC8A07DDAD8C74C4C9FB8442179F0D157C4C90796E2BE68337DD653
X-HTTP-Method Merge
If-Match "1"
Content-Type : application/json odata=verbose
Content-Length : 63

The HTTP Error is: Bad Request and the Sharepoint error is:

SPError Code: -1 Text: Microsoft.SharePoint.Client.InvalidClientQueryException
Message: The parameter __metadata does not exist in method GetById.

Note That I AM supplying the X-HTTP-Method and IF-Match Etag Headers as required.

Answers

I could give it a try. I've done this with C# before, but not with HttpClient. There is a sample that does some list operations with C# here:

It doesn't update a list item, though, and it doesn't use HttpClient.

All replies

I've successfully tested the approach copied below. Could you pass along the code that you are using to make the request?

Thanks for the quick response.

I am using C# and the HTTPClient object to make my calls and as such I am not using the symbol replacement which . Our Headers seem to match between the two calls. Our urls differ. I am calling explicitly:

and you are calling (in symbolic form):

The variable replacements which executor.executeAsync is preforming are a little unclear to me.

Could you PLEASE let me see how your call resolves once it is sent over the wire (via a Fiddler capture)

I'm using the cross-domain library, which accounts for the different look of the endpoint. That endpoint ends up pointing to the host web but goes through a proxy on the app web. I don't need an authorization header when using the cross-domain library, but I don't think that that would account for the different result.

I do notice that your Accept header is "application/atom+xml". Again, though, I don't think that that would make a difference, since I don't think that you need this header at all.

Here's what Fiddler tells me:

POST _api/SP.AppContextSite(@target)/web/lists/getbytitle('TestList')/items(1)[email protected]='https://jcrowleyapps.sharepoint.com' HTTP/1.1

Accept: application/json odata=verbose

Content-Type: application/json odata=verbose

X-RequestDigest: 0x9E26DF1A099552A072C24134F6FBA8FF9F416856FE3A63F37EF281D584C921D611CF63868E098CDAEF102B8DE87544D16ED36CF2EC06D8799F3E59F210516E38,09 Oct 2013 16:41:07 -0000

Thanks again for your rapid response. I am using Framework 4.5 and the HTTPClient object to access the REST API and I see you are using the Javascript LIB for Sharepoint apps. I am using the reference articles which start with the series:

all of these examples work fine with Framework 4.5 and the HTTPClient object with the sole exception of the update item field values

(I have varied the Accept Header to allow a JSON return and have also tried changing the if-Match header to a value of '*'. All to no avail. If I vary the JSON data package and the error message remains the same except that whatever item is first in the package is the one reported in the error message in the :

SPError Code: -1 Text: Microsoft.SharePoint.Client.InvalidClientQueryException
Message: The parameter does not exist in method GetById.

If someone is willing to try I can post the entire C# code I am using and perhaps someone can get it to work or fail. I am stumped.


The Deluge of Spurious Correlations in Big Data

Very large databases are a major opportunity for science and data analytics is a remarkable new field of investigation in computer science. The effectiveness of these tools is used to support a “philosophy” against the scientific method as developed throughout history. According to this view, computer-discovered correlations should replace understanding and guide prediction and action. Consequently, there will be no need to give scientific meaning to phenomena, by proposing, say, causal relations, since regularities in very large databases are enough: “with enough data, the numbers speak for themselves”. The “end of science” is proclaimed. Using classical results from ergodic theory, Ramsey theory and algorithmic information theory, we show that this “philosophy” is wrong. For example, we prove that very large databases have to contain arbitrary correlations. These correlations appear only due to the size, not the nature, of data. They can be found in “randomly” generated, large enough databases, which—as we will prove—implies that most correlations are spurious. Too much information tends to behave like very little information. The scientific method can be enriched by computer mining in immense databases, but not replaced by it.

Dit is 'n voorskou van intekenaarinhoud, toegang via u instelling.


How to Configure the Fund Analyzer for Transaction (e.g., "Clean") Share Calculations

The Fund Analyzer can evaluate trades for traditional mutual fund share classes, ETF, ETN and money market shares, and for transaction (or "clean") mutual fund shares. "Transaction Shares" is a term that applies to any share of any fund whereby any transaction generates a sales load or commission post the initial investment. Traditional load shares — A, B, or C — can be considered transaction shares when, for example, assets are traded among fund firms. In such cases, the free exchange privilege does not apply and thus, a new load applies. Transaction shares are similar to traditional no-load shares except that, in some cases, a brokerage firm may apply a commission to transactions. If your trades generate a commission, work with your financial professional to estimate your trading frequency (also called annual turnover) for the fund. This frequency may be related to how often you rebalance, reallocate, or redeploy assets in your portfolio.

You may configure the Fund Analyzer to apply a custom load (referred to as the "Commission Rate"). When a transaction share is configured with a custom commission rate (or load), the Analyzer will turn off the fund's front- and back-end loads (as defined in the prospectus) and use the load or commission assessed by the brokerage firm (via the Loads, Commissions and CDSCs advanced option). In some cases, you may elect to use the fund's existing prospectus loads instead of a custom load. This election can also be turned on or off via the Loads, Commissions and CDSCs advanced option.