Problémy a výzvy aplikované statistiky

Dnešní datum: 25. 09. 2017   | Hlavní stránka | Seznam rubrik | Download | Weblinks |  
  Hlavní menukulatý roh
Hlavní stránka
Seznam témat
Download
Weblinks
Ankety

Rozšířené vyhledávání

  Tématakulatý roh
mínus 1. Abstrakty
mínus 2. Vizualizace
mínus 3. R
mínus 4. Informace
mínus 5. Připomínky
mínus 6. Ostatní

  Informacekulatý roh
Problémy a výzvy aplikované statistiky

2005
DL

Počet zobrazených článků: 15 (z celkem 65 nalezených)

|0-15|15-30|30-45|45-60|60-65|

1. Abstrakty

* Adéla Drabinová: Detekce odlišného fungování položek pomocí rozšířené logistické regrese

Vydáno dne 19. 04. 2017 (10 přečtení)

Odlišné fungování položek (tzv. DIF z angl. Differential Item Functioning) je jedno z klíčových témat v psychometrii. Pro jeho detekci se mimo jiné hojně využívá metoda založená na logistické regresi, ta však nebere v úvahu možnost, že správná odpověď může být uhodnuta bez nutné znalosti. Proto v této práci model logistické regrese rozšiřujeme tak, aby dolní asymptota mohla nabývat i nenulových hodnot. Podobně uvažujeme případ, kdy horní asymptota nabývá menších hodnot než jedna, a model tak může zachytit pravděpodobnost nepozornosti dotazovaného. Podrobnější analýzu jednotlivých odpovědí pro neskórovaná data provádíme pomocí multinomické regrese, která může odhalit odlišné fungování distraktorů (tzv. DDF z angl. Differential Distractor Functioning). V příspěvku popisujeme tyto a další možné modely pro detekci DIF a DDF a zabýváme se metodami odhadů parametrů a testování. Demonstrujeme také implementaci v R balíčku difNLR a v aplikaci ShinyItemAnalysis, která poskytuje detailní analýzu pedagogických a psychologických testů pomocí shiny.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Žaneta Miklová: Data Science aneb prediktivní modelování v praxi

Vydáno dne 10. 10. 2016 (26 přečtení)

V dnešní době, víc než kdy jindy, si firmy začínají uvědomovat potřebu analýzy shromážděných dat a dolování tzv. přidané hodnoty, která by zvýšila jejich zisk a umožnila by jim být o krok napřed před svou konkurencí. Tato potřeba otevřela nové možnosti, jak využít matematické a statistické dovednosti v praxi. V tomto semináři bych se s vámi chtěla podělit o své zkušenosti, nastínit vám, co dneska znamená pojem Data Science a jaké modely ve své práci využívám. Vysvětlíme si například, co je to supervised a unsupervised learning, co je to overfitting a jak se s ním vypořádat.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Kristýna Sovová: Statistická analýza hmotnostně spektrometrických dat v metabolomice – analýza dechu

Vydáno dne 06. 05. 2016 (24 přečtení)

V poslední době se velice rozvíjí vědní obor “metabolomika”. V oblasti medicíny se využívá zejména ke stanovení metabolických biomarkerů jako indikátorů různých chorob či odpovědí zprostředkované léčivem. Jedním z konkrétních příkladů je analýza těkavých metabolitů v dechu. Pro potřebu takového výzkumu je nutné rychle a přesně stanovit koncentrace těchto stopových látek. Metody, které v současné době umožňují během několika sekund analyzovat páry takových látek, jsou založeny na principech hmotnostní spektrometrie, příkladem je hmotnostní spektrometrie v proudové trubici, SIFT-MS. Tento pokrok v přístrojové technice tak umožňuje získání velkého množství dat ve velice krátkém čase. Taková data jsou statisticky vyhodnocována, avšak často dochází k zavádějící interpretaci získaných výsledků.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Martin Otava: Bayesovské metody ve farmaceutické výrobě

Vydáno dne 31. 03. 2016 (23 přečtení)

Jedním z typických statistických problémů ve farmaceutickém výrobním procesu je vyhodnocení budoucího experimentu, který formálně ověří kvalitu daného procesu vzhledem ke standardizovaným kritériím. Pravděpodobnost „úspěchu“ takového experimentu se pak vypočítává na základě dat získaných během předchozích stupňů vývoje. Vzhledem k tomu, že mnoho kritérií se vztahuje na individuální pozorování, častým řešením je odhad prediktivních intervalů či tolerančních intervalů (které berou v potaz variabilitu bodových odhadů střední hodnoty a rozptylu). Alternativním postupem je Bayesovská analýza problému a přímý odhad rozdělení individuálních hodnot. Výhodou je snadné zahrnutí náhodných efektů (často z několika různých zdrojů variability) a především snadná interpretace výstupu analýzy, kterým je pravděpodobnost úspěchu daného budoucího experimentu.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Petra Burdejová & W. K. Härdle, P. S. Kokoszka, Q. Xiong: Change point and trend analyses of annual expectile curves of tropical storms

Vydáno dne 07. 12. 2015 (149 přečtení)

Motivated by the conjectured existence of trends in the intensity of tropical storms, this work proposes new inferential methodology to detect a trend in the annual pattern of environmental data. The new methodology can be applied to any data which form a time series of functions. Other examples include annual temperature or daily pollution curves at specific locations. Within a framework of a functional regression model, we derive two tests of significance of the slope function, which can be viewed as the slope coefficient in the regression of the annual curves on year. One of the tests relies on a Monte Carlo distribution to compute the critical values, the other is pivotal with the chi–square limit distribution. Full asymptotic justification of both tests is provided. Their finite sample properties are investigated by a simulation study. Applied to tropical storm data, these tests show that there is a significant trend in the shape of the annual pattern of upper wind speed levels of hurricanes.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Ondřej Vencálek, Antonín Šípek: Analýza vývoje výskytu Downova syndromu na území České republiky od 60. let 20. století do současnosti

Vydáno dne 06. 11. 2015 (34 přečtení)

Výskyt Downova syndromu (dále DS) je na území České republiky, podobně jako v jiných státech, dlouhodobě sledován. Vývoj v posledních 50 letech je ovlivněn dvěma důležitými skutečnostmi. První z nich je rozšíření možností prenatální diagnostiky, která se začala používat v osmdesátých letech 20. století u jednotlivých případů; později byl zaveden plošný skríning, i ten však prochází změnami. Dnes je většina DS diagnostikována prenatálně. Druhou závažnou skutečností je to, že dnes ženy obecně rodí ve vyšším věku než tomu bylo na začátku sledovaného období. Jsme tak svědky poměrně velkého nárůstu počtu diagnostikovaných případů, neboť je dobře známo, že riziko výskytu DS roste s věkem matky. Otázka, kterou jsme si položili na začátku našeho výzkumu, zněla, zda je možné nárůst počtu případů DS vysvětlit pouze vyšším věkem populace rodiček nebo zda dochází k dlouhodobým trendům v incidenci této vrozené vady. Přednáška si klade za cíl ukázat specifické problémy, se kterými jsme se při analýze dat museli vypořádat.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Martin Otava: Order restricted dose-response modelling

Vydáno dne 10. 09. 2014 (189 přečtení)

Modelling of dose-response relationship is crucial part of multiple stages of drug development process. The type of data varies among stages, as well as approaches and methodology. Parametric methods are more suitable if experiment contains many doses (and there are enough observations per dose), non-parametric methods are applied if just few doses are investigated. Another source of variety is induced by focus of analysis. Different methods are applied for inference, for model selection and for estimation problems. Searching for threshold doses raises very interesting questions and problems, while "clinically significant result" concept is often taken into consideration.

Order restricted assumption is usual common choice for any methodology used, primary to increase the power of inference. Typically, it reduces to monotonicity assumption and inference against simple order alternatives.

In this presentation, we will review various aspects of order restricted dose-response modelling: approaches to tackle the inference, model selection, estimation, model averaging, etc. We will focus on early drug development stage, with only small dataset available. Specifically, multiple contrast tests will be introduced, together with their Bayesian alternative: Bayesian variable selection method.

References:

Bornkamp, B. and Pinheiro, J. C. and Bretz, F. (2009) MCPMod - An R Package for the Design and Analysis of Dose-Finding Studies. Journal of Statistical Software, 29(7):1-23

Kuiper, Rebecca M., and Gerhard, Daniel, and Hothorn, Ludwig A. (2014) Identification of the Minimum Effective Dose for Normally Distributed Endpoints Using a Model Selection Approach. Statistics in Biopharmaceutical Research. 6(1):55-66

Otava, Martin and Shkedy, Ziv and Lin, Dan and Goehlmann, Hinrich W.H. and Bijnens, Luc and Talloen, Willem and Kasim, Adetayo (2014) Dose-Response Modeling Under Simple Order Restrictions Using Bayesian Variable Selection Methods. Statistics in Biopharmaceutical Research, 6(3):252-262

Whitney, Melissa, and Ryan, Louise (2009) Quantifying Dose-Response Uncertainty Using Bayesian Model Averaging. In book: Uncertainty Modeling in Dose Response: Bench Testing Environmental Toxicity. Editor: Cooke, Roger C. John Wiley & Sons, Inc., p 165-179.


Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Matúš Maciak: Change-points recovery in seroprevalence data using regularization approach

Vydáno dne 25. 03. 2014 (114 přečtení)

We point our attention to seroprevalence data collected in Belgium and we investigate it with respect to possible change-point occurrences. The main idea of our approach is to use different concepts of an L1-norm regularization. The main advantage of the case method is that it introduces a fully data-driven approach with no requirement on a prior knowledge of any kind. This is usually not true for classical methods used in such situations: other methods are either not fully automatic as they involve a kind of multiple stage estimation or, they require a prior knowledge for structural break (change-point) positions instead.

We propose various alternatives and a proper statistical inference with theoretical results is briefly discussed. Additionally, a finite sample performance is verified using some simulated examples.


Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Tomáš Jurczyk: Grafické programování

Vydáno dne 26. 02. 2014 (115 přečtení)

Pokud chcete provádět stejné analýzy opakovaně, máte několik možností. První možností je manuálně stále dokola opakovat postup, který vede k cíli. Jistě lepší variantou je naprogramovat makro, které bude jednou naprogramovaný postup provádět automaticky. Tento seminář bude ukázkou relativně nového přístupu k programování a to tzv. grafického programování. Nejde o klasické psaní makra v programovacím jazyce, ale o logické napojování bloků (uzlů) za sebe grafickou metodou (přičemž jednotlivé bloky jsou již naprogramované celky programu, ve kterém grafické programování provádíte). Tento typ programování se stává populárním především proto, že není potřeba znát žádný programovací jazyk, výsledné "makro" je velmi přehledné, snadno editovatelné a pochopitelné i pro člověka, který makro neudělal. Vše bude ukázáno prakticky na reálných příkladech z praxe. Jakákoli debata o tomto stylu programování či o data miningu (se kterým se většinou modul pro tento styl práce dodává) je vítána.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Tomáš Kalibera: Proč výpočty v R bývají pomalé a jak je zrychlovat

Vydáno dne 04. 10. 2013 (127 přečtení)

Přes značnou popularitu jazyka R jsou výpočty typicky řádově pomalejší než například v C/C++, pozorováná byla i stonásobná zpomalení. Nízká výkonnost je dána zejména dynamickými vlastnostmi jazyka v kombinaci se zastaralým běhovým prostředím, které je založeno na interpretaci byte-code téměř bez optimalizací. Sémantika jazyka R dále vyžaduje časté kopírování dat, což je samo a sobě časově náročné a též zatěžuje systém automatické správy paměti.

I ve stávajícím běhovém prostředí lze však programy napsané v R často zrychlit i bez přepisování do C/C++, jak bude ukázano na příkladě. Užitečnými nástroji jsou vestavěný profiler a systémový profiler, spolu se základní znalostí záludností jazyka a chování běhového prostředí. Někdy pomůže i nastavení běhového prostředí a volba systémových knihoven.

Výzkumné implementace běhového prostředí jazyka R se snaží o zrychlení na základě specializace kódu a dat a oddalování výpočtů, s využitím zkušeností s optimalizovanými běhovými prostředími pro jiné dynamické jazyky. Některé vlastnosti jazyka R, zejména líné vyhodnocování parametrů funkcí se side-effecty, jsou pak novou výzvou ve výzkumu překladačů a implementací jazyků.

Folie k přednášce (PDF)


Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Jan Kalina: Testy hypotéz pro mnohorozměrná data

Vydáno dne 01. 03. 2013 (135 přečtení)

Prezentace je věnována problému nestrannosti testů hypotéz pro mnohorozměrná data. V literatuře byly popsány pořadové testy pro dvouvýběrový problém pro mnohorozměrná data, které však nejsou nestranné pro konečné rozsahy výběrů. Proto jsme navrhli několik testů, které jsou založeny na pořadích geometrických vzdáleností. Každý z testů je lokálně nejsilnější nestranný test proti specifické alternativě. Přitom jde o testy, které jsou nestranné pro konečné rozsahy výběrů proti široké třídě alternativ. Zmíníme také některé další testy hypotéz, které byly navrženy speciálně pro vysoce rozměrná data.

Jurečková J., Kalina J. (2012): Nonparametric multivariate rank tests and their unbiasedness. Bernoulli 18 (1), 229-251.


Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Miriam Slezáková, Karel Jílek: Denná a sezónna variabilita koncentrácie radónu v ovzduší areálu SÚRO Praha

Vydáno dne 17. 10. 2012 (125 přečtení)

Pred viac než rokom bola vybudovaná v areáli SÚRO stanica na meranie vonkajšej koncentrácie radónu v rozsahu od prirodzeného pozadia až do havarijných dávok. Okrem merania radónu stanica slúži aj na meranie  meteorologických veličín (teplota, vlhkosť, rýchlosť a smer vetra, intenzita zrážok a atmosférický tlak). Stanica je nezávislá na vonkajšej elektrickej sieti a umožňuje ON-line bezdrátový prenos všetkých dát.

Témou prezentácie je štúdium variability vonkajšej koncentrácie radónu v závislosti na meteorologických veličinách počas obdobia jedného roku od začiatku septembra 2011 do konca augusta 2012. Je skúmaný aj vzťah radónu ku škodlivinám v ovzduší (prachové častice, oxidy dusíku, oxid siričitý) merané ČHMÚ v stanici vo Vršoviciach, ktorá je najbližšie k ústavu.


Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Petr Novák: Odhady podnikových statistik na ČSÚ

Vydáno dne 04. 10. 2012 (141 přečtení)

Kromě často diskutovaných sociálních zjišťování a zpracovávání výsledků voleb zajišťuje Český statistický úřad i celou řadu podnikových šetření s různým záběrem i periodicitou. Vzhledem k velkému počtu sledovaných ukazatelů, vazeb mezi nimi a detailní stratifikační struktuře není vždy snadné aplikovat klasické metody odhadů úhrnů základního souboru z výběru pomocí převažování. V poslední době se ČSÚ při zpracovávání podnikových statistik přiklání k imputačním metodám, kdy se pro každou jednotku spočte odhad každého ukazatele zvlášť na základě tzv. superpopulačního modelu. Tento přístup umožňuje jednak zveřejňovat úhrny v libovolném dělení sledované populace a také snadněji počítat chyby odhadů při složitější struktuře stratifikace i postupném odhadování údajů.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Patrícia Martinková: Analýzy přijímacích zkoušek na medicínu

Vydáno dne 14. 05. 2012 (154 přečtení)

Některé české lékařské fakulty v posledních letech přijímají velkou část studentů bez přijímaček, pouze na základě vynikajícího studijního prospěchu na střední škole a za splnění dalších kritérií. V prezentaci ukážeme výsledky různých statistických analýz dat z let 1999 až po současnost. Pohovoříme o samotných přijímacích testech a vlastnostech jednotlivých položek testů. Ukážeme, jak přijímačky, středoškolský prospěch a další proměnné předpovídají úspěšnost studia a zda jsou současná kritéria pro přijetí bez přijímaček opodstatněná. Diskutovány budou také důsledky současných kritérií pro přijetí.

Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

1. Abstrakty

* Gejza Wimmer: Odhad regresných parametrov lineárneho zmiešaného modelu pre longitudinálne dáta

Vydáno dne 11. 04. 2012 (166 přečtení)

Mnohé praktické štúdie (napr. bio-medicínske, sociologické, psychologické, či behaviorálne výskumy) sa vyznačujú opakovaným meraním určitej vlastnosti na viacerých subjektoch v rôznych časových okamihoch. Cieľom takýchto experimentov je potom na základe získaných pozorovaní odhaliť vplyv času na meranú veličinu. Takéto experimenty sa nazývajú longitudinálne experimenty a práve opakované merania zvolenej vlastnosti na rôznych subjektoch počas určitého časového obdobia sú charakteristickou črtou takzvaných longitudinálnych dát. K ich analýze sa v posledných rokoch vo veľkej miere využíva lineárny zmiešaný model, pričom na odhadovanie neznámych parametrov modelu je vhodné použiť REML funkciu vierohodnosti. Bohužiaľ, presné rozdelenie takto získaného odhadu pevných efektov (regresných parametrov) nie je vo všeobecnosti známe a štatistické inferencie ohľadne nich sú prevažne založené na asymptotických vlastnostiach odhadu regresných parametrov v prípade známych kovariančných parametrov modelu.

Hlavnou témou prezentácie bude konštrukcia približných konfidenčných oblastí známej lineárnej kombinácie vektora pevných efektov lineárneho zmiešaného modelu pre longitudinálne dáta v prípade neznámych kovariančných parametrov daného modelu so zameraním sa na prípad "malého" počtu pozorovaní.

Folie


Autor: Zdeněk Hlávka | Počet komentářů: 0 | Přidat komentář | Informační e-mailVytisknout článek

|0-15|15-30|30-45|45-60|60-65|

  Vstup pro autorykulatý roh
Uživatel:
Heslo:

  Kalendářkulatý roh
<<  Září  >>
PoÚtStČtSoNe
    1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  

  Vyhledáváníkulatý roh

Hledej
v PASTi!