Monday, July 25, 2016

Sanatate, educatie, GINI - un fel de harta

Asta e un proiect mai tehnic in care incerc sa rezolv urmatoarea problema:
Am trei indicatori statistici care imi arata cum stau comparativ cu alte tari. Dar un indicator indica o pozitie buna si ceilalti doi o pozitie proasta. Cum stau de fapt, bine sau rau?

Sa zicem ca aleg (aproape arbitrar) 3 indicatori, sursa Banca Mondiala, doar pentru 67 de tari (cu raportari regulate):

Tuesday, July 12, 2016

"Sponsorizari" medici 2015 - Partea 1

Agentia Nationala a Medicamentului a publicat lista cu sponsorizarile primite de catre medici de la companiile producatoare de medicamente. Cine vrea sa stie ce a primit un anume doctor, farmacist sau asistent (sau mai precis ce declara ANM ca au declarat companiile ca...) poate sa foloseasca vizualizarea de mai jos:

Datele au fost obtinute de pe site-ul anm.ro prin "scraping". Fata de datele de pe anul 2014 care erau aproape imposibil de prelucrat (vezi seria de articole  AFACEREA MEDICAMENTUL), pe 2015 e putin mai bine. Probabil si datorita insistentei ziaristilor de la digi24. Oricum, numai sa downloadezi datele automat dureaza cam 2 ore.

Curatarea si prelucrarea datelor- pobabil inca vreo 30. Fiindca fiecare raportor de date a fost cat se poate de creativ iar baza de date a ajuns sa contina numele unui singur medic afisat in zeci de variante. Daca, spre exemplu, il chema in buletin "Georgescu Mircea Mihai", el ar fi aparut in baza de date sub formele: "Georgescu Mihai", "Georgescu Mircea--Mihai", "DR. Georgescu Mircea Mihai", "CONF. DR Georgescu Mircea" si tot asa...

Explicatiile astea sunt pentru a intelege tipurile de erori care pot fi in varianta prelucrata:

ERORI
1. erori in plus - sunt cauzate in general de proasta raportare- a trebuit sa sterg inregistrari care aratau sponsorizari de cateva milioane de lei pentru un medic. Nu pentru spital sau clinica. Pot fi si raportari gresite ale valutelor in care s-a calculat sponsorizarea. (a trebuit sa fac conversia in ron)

2. tot erori in plus - cauzate de prelucrarea automata a numelor - "clusterizarea"- am facut-o foarte strict dar sigur s-au strecurat si erori la numele foarte comune. Sau din pura coincienta- doi medici cu acelasi nume.

3.erori in minus - cele mai multe erori posibile sunt cele in minus- adica medicii vor aparea cu mai putine sponsorizari decat sunt raportate si cu sume mai mici. Tocmai din cauza prudentei in prelucrarea numelor, acelasi medic va aparea in doua, trei locuri cu nume putin diferite. Au fost cam 70.000 sponsorizari - imposibil de verificat altfel decat cu un soft specializat.

In partea a doua dam topuri...
http://datavizuri.blogspot.ro/2016/07/sponsorizari-medici-2015-partea-doua_18.html