import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import pearsonr

# Cele trei clase de durata a somajului si etichetele lor.
DUR_ORDER = ["M_LT3", "M3T11", "M_GE12"]
DUR_LABEL = {"M_LT3": "sub 3 luni", "M3T11": "3-11 luni", "M_GE12": "12 luni sau mai mult"}

# Citim fisierul salvat local (scos o data din setul OECD complet de ~83 MB).
d = pd.read_csv("data/oecd_duration_snapshot.csv")

# Scoatem cele doua agregate (Uniunea Europeana, OECD): sunt medii ale tarilor, nu tari.
d = d[~d["country"].isin(["European Union (25 countries)", "OECD"])]

print(f"Țări: {d['country'].nunique()}, ani: {int(d['year'].min())}-{int(d['year'].max())}")

Țări: 44, ani: 1990-2024

YEAR = 2024
# Procentul oamenilor someri de 12 luni sau mai mult (somaj de lunga durata), pe tari, in 2024.
lt = d[d["duration"] == "M_GE12"]
lt_year = lt[lt["year"] == YEAR].set_index("country")["share"]

print(f"Șomaj de lungă durată (12+ luni), {YEAR}, {lt_year.size} țări:")
print(f"  medie        : {lt_year.mean():.1f} %")
print(f"  mediană      : {lt_year.median():.1f} %")
print(f"  cel mai des  : {lt_year.round().mode().iloc[0]:.0f} %")
print(f"  împrăștiere  : {lt_year.std():.1f} pp (abatere standard)")
print(f"  cea mai mică : {lt_year.min():.0f} %  ({lt_year.idxmin()})")
print(f"  cea mai mare : {lt_year.max():.0f} %  ({lt_year.idxmax()})")

Șomaj de lungă durată (12+ luni), 2024, 35 țări:
  medie        : 33.9 %
  mediană      : 32.3 %
  cel mai des  : 11 %
  împrăștiere  : 15.2 pp (abatere standard)
  cea mai mică : 3 %  (Mexico)
  cea mai mare : 70 %  (South Africa)

dist = (
    d[d["year"] == YEAR]
    .pivot_table(index="country", columns="duration", values="share")
    .reindex(columns=DUR_ORDER)
    .dropna()
    .sort_values("M_GE12")
)
colors = {"M_LT3": "#2ca25f", "M3T11": "#fec44f", "M_GE12": "#d94545"}
text_color = {"M_LT3": "white", "M3T11": "#444444", "M_GE12": "white"}

fig, ax = plt.subplots(figsize=(11, 12))
left = np.zeros(len(dist))
for dur in DUR_ORDER:
    vals = dist[dur].values
    ax.barh(dist.index, vals, left=left, color=colors[dur],
            label=DUR_LABEL[dur], edgecolor="white", linewidth=0.6)
    # Scriem procentul in fiecare segment, doar unde e destul de lat ca sa incapa.
    for yi, (start, v) in enumerate(zip(left, vals)):
        if v >= 8:
            ax.text(start + v / 2, yi, f"{v:.0f}", va="center", ha="center",
                    fontsize=8, fontweight="bold", color=text_color[dur])
    left += vals

# Ingrosam Romania (rosu) si cele mai extreme 2 tari de sus si 2 de jos.
extremes = set(dist.index[:2]) | set(dist.index[-2:])
for tick in ax.get_yticklabels():
    if tick.get_text() == "Romania":
        tick.set_fontweight("bold")
        tick.set_color("#b03030")
    elif tick.get_text() in extremes:
        tick.set_fontweight("bold")

ax.set_xlim(0, 100)
ax.set_xlabel("Procent din toți șomerii (%)")
ax.set_title(
    f"Cât durează șomajul, pe țări ({YEAR}).\n"
    "Sus: oameni blocați mult timp (roșu). Jos: șomaj scurt (verde). Numerele = % din șomeri.",
    fontsize=13, pad=14, loc="left",
)
# Legenda sub grafic, in afara zonei de bare (nu mai acopera nimic).
ax.legend(loc="upper center", bbox_to_anchor=(0.5, -0.045), ncol=3,
          frameon=False, title="Durata șomajului")
ax.spines["top"].set_visible(False)
ax.spines["right"].set_visible(False)
fig.subplots_adjust(left=0.16, right=0.97, top=0.93, bottom=0.10)
plt.show()

piv = lt.pivot_table(index="country", columns="year", values="share")
pair = piv[[2018, 2024]].dropna().copy()
pair["delta"] = pair[2024] - pair[2018]
r, p = pearsonr(pair[2018], pair[2024])
print(f"Potrivire 2018 vs 2024: r = {r:.3f}  (din {len(pair)} țări)")

# Outlieri = tarile care s-au schimbat cu cel putin 15pp intre 2018 si 2024 (departe de diagonala).
moved = pair["delta"].abs() >= 15

fig, ax = plt.subplots(figsize=(8, 8))
hi = max(pair[[2018, 2024]].max()) * 1.12
ax.plot([0, hi], [0, hi], "--", color="#888", zorder=1, label="dacă o țară rămâne la fel")
ax.scatter(pair.loc[~moved, 2018], pair.loc[~moved, 2024], s=70,
           color="#2d6cdf", edgecolor="white", linewidth=1, zorder=3)
ax.scatter(pair.loc[moved, 2018], pair.loc[moved, 2024], s=120,
           color="#e8702a", edgecolor="white", linewidth=1.2, zorder=4,
           label="s-au schimbat mult (outlieri)")

# Scriem numele tuturor outlierilor (cu cat s-au schimbat). Franta jos, Germania sus, ca sa nu se suprapuna.
out_offset = {"Netherlands": (8, -3), "France": (9, -13), "Germany": (9, 9), "Greece": (8, 5)}
for c, (dx, dy) in out_offset.items():
    ax.annotate(f"{c} ({pair.loc[c, 'delta']:+.0f})", (pair.loc[c, 2018], pair.loc[c, 2024]),
                xytext=(dx, dy), textcoords="offset points", fontsize=10,
                color="#b85214", fontweight="bold")
# Doua tari de reper care au ramas pe loc.
for c in ["Mexico", "Slovak Republic"]:
    ax.annotate(c, (pair.loc[c, 2018], pair.loc[c, 2024]),
                xytext=(7, 5), textcoords="offset points", fontsize=9, color="#555")

ax.set_xlim(0, hi)
ax.set_ylim(0, hi)
ax.set_xlabel("Șomeri de lungă durată în 2018 (%)")
ax.set_ylabel("Șomeri de lungă durată în 2024 (%)")
ax.set_title(f"Fiecare țară rămâne cam pe loc: r = {r:.2f}.\n"
             "Câteva excepții (portocaliu) au scăzut mult.",
             fontsize=13, pad=12, loc="left")
ax.legend(loc="lower right", framealpha=0.95)
ax.set_aspect("equal")
ax.spines["top"].set_visible(False)
ax.spines["right"].set_visible(False)
plt.tight_layout()
plt.show()

Potrivire 2018 vs 2024: r = 0.883  (din 31 țări)

ro = lt.pivot_table(index="country", columns="year", values="share").loc["Romania"]
print("România - % șomeri de lungă durată:")
print(ro.dropna().round(0).to_string())

rank = lt_year.sort_values(ascending=False)
ro_rank = list(rank.index).index("Romania") + 1
print(f"\nÎn {YEAR}: {lt_year['Romania']:.0f}% șomeri de lungă durată, locul {ro_rank} din {len(rank)} (de la cel mai mult).")
print(f"Media celorlalte țări: {lt_year.drop('Romania').mean():.0f}%.")

România - % șomeri de lungă durată:
year
2019    45.0
2024    39.0

În 2024: 39% șomeri de lungă durată, locul 11 din 35 (de la cel mai mult).
Media celorlalte țări: 34%.

Coloană	Conținut
`country`	Țara
`year`	Anul
`duration`	Clasa de durată
`share`	Procent din toți șomerii (%)

Șomajul: pauză scurtă sau blocaj de lungă durată?¶

1. Problema și motivația¶

2. Ipoteza de lucru¶

3. Planul de lucru¶

4. Setul de date¶

5. Statistici descriptive¶

6. Graficul 1: cum se împarte șomajul pe durată, în fiecare țară¶

7. Graficul 2: rămâne o țară pe același loc în timp?¶

8. România în context¶

9. Concluzii¶