Importa dati da PDF a Excel tramite Power Query

Il compito di trasferire i dati da un foglio di calcolo in un file PDF a un foglio Microsoft Excel è sempre "divertente". Soprattutto se non si dispone di costosi software di riconoscimento come FineReader o qualcosa del genere. La copia diretta di solito non porta a nulla di buono, perché. dopo aver incollato i dati copiati sul foglio, molto probabilmente "si uniranno" in una colonna. Quindi dovranno quindi essere accuratamente separati usando uno strumento Testo per colonne dalla scheda Dati (Dati — Testo in colonne).

E, naturalmente, la copia è possibile solo per quei file PDF in cui è presente un livello di testo, ovvero con un documento che è stato appena scansionato da carta a PDF, in linea di principio non funzionerà.

Ma non è così triste, davvero 🙂

Se hai Office 2013 o 2016, in un paio di minuti, senza programmi aggiuntivi, è del tutto possibile trasferire dati da PDF a Microsoft Excel. E Word e Power Query ci aiuteranno in questo.

Ad esempio, prendiamo questo rapporto PDF con un mucchio di testo, formule e tabelle dal sito web della Commissione economica per l'Europa:

Importa dati da PDF a Excel tramite Power Query

... e prova a estrarlo in Excel, ad esempio la prima tabella:

Importa dati da PDF a Excel tramite Power Query

Andiamo!

Passaggio 1. Apri PDF in Word

Per qualche ragione in pochi lo sanno, ma dal 2013 Microsoft Word ha imparato ad aprire e riconoscere i file PDF (anche quelli scansionati, cioè senza un livello di testo!). Questo viene fatto in un modo completamente standard: apri Word, fai clic File – Apri (File — Apri) e specificare il formato PDF nell'elenco a discesa nell'angolo inferiore destro della finestra.

Quindi seleziona il file PDF di cui abbiamo bisogno e fai clic Apri (Aperto). Word ci dice che eseguirà l'OCR su questo documento in testo:

Importa dati da PDF a Excel tramite Power Query

Siamo d'accordo e tra pochi secondi vedremo il nostro PDF aperto per la modifica già in Word:

Importa dati da PDF a Excel tramite Power Query

Naturalmente, il design, gli stili, i caratteri, le intestazioni e i piè di pagina, ecc. voleranno parzialmente via dal documento, ma questo non è importante per noi: abbiamo solo bisogno dei dati delle tabelle. In linea di principio, in questa fase, si è già tentati di copiare semplicemente la tabella dal documento riconosciuto in Word e incollarla semplicemente in Excel. A volte funziona, ma più spesso porta a tutti i tipi di distorsioni dei dati, ad esempio i numeri possono trasformarsi in date o rimanere testo, come nel nostro caso, perché. PDF utilizza non separatori:

Importa dati da PDF a Excel tramite Power Query

Quindi non tagliamo gli angoli, ma rendiamo tutto un po' più complicato, ma giusto.

Passaggio 2: salva il documento come pagina Web

Per poi caricare i dati ricevuti in Excel (tramite Power Query), il nostro documento in Word deve essere salvato nel formato pagina web – questo formato è, in questo caso, una sorta di denominatore comune tra Word ed Excel.

Per fare ciò, vai al menu File: salva con nome (File — Salva con nome) oppure premere il tasto F12 sulla tastiera e nella finestra che si apre, seleziona il tipo di file Pagina Web in un file (Pagina web — File singolo):

Importa dati da PDF a Excel tramite Power Query

Dopo il salvataggio, dovresti ottenere un file con estensione mhtml (se vedi estensioni di file in Explorer).

Fase 3. Caricamento del file in Excel tramite Power Query

Puoi aprire il file MHTML creato direttamente in Excel, ma poi otterremo, in primo luogo, tutto il contenuto del PDF in una volta, insieme a testo e un mucchio di tabelle non necessarie e, in secondo luogo, perderemo nuovamente i dati a causa di errori separatori. Pertanto, eseguiremo l'importazione in Excel tramite il componente aggiuntivo Power Query. Si tratta di un add-on completamente gratuito con il quale è possibile caricare dati in Excel da quasi tutte le fonti (file, cartelle, database, sistemi ERP) e quindi trasformare i dati ricevuti in ogni modo possibile, dandogli la forma desiderata.

Se hai Excel 2010-2013, puoi scaricare Power Query dal sito Web ufficiale di Microsoft: dopo l'installazione vedrai una scheda Power Query. Se hai Excel 2016 o versioni successive, non è necessario scaricare nulla: tutte le funzionalità sono già integrate in Excel per impostazione predefinita e si trovano nella scheda Dati (Data) in gruppo Scarica e converti (Ottieni e trasforma).

Quindi andiamo alla scheda Datio nella scheda Power Query e scegli una squadra Per ottenere dati or Crea query – Da file – Da XML. Per rendere visibili non solo i file XML, cambia i filtri nell'elenco a discesa nell'angolo in basso a destra della finestra in Tutti i file (Tutti i files) e specifica il nostro file MHTML:

Importa dati da PDF a Excel tramite Power Query

Tieni presente che l'importazione non verrà completata correttamente, perché. Power Query si aspetta XML da noi, ma in realtà abbiamo un formato HTML. Pertanto, nella finestra successiva che compare, dovrai fare clic con il tasto destro del mouse sul file incomprensibile a Power Query e specificarne il formato:

Importa dati da PDF a Excel tramite Power Query

Successivamente, il file verrà riconosciuto correttamente e vedremo un elenco di tutte le tabelle che contiene:

Importa dati da PDF a Excel tramite Power Query

Puoi visualizzare il contenuto delle tabelle cliccando con il tasto sinistro del mouse sullo sfondo bianco (non nella parola Tabella!) delle celle nella colonna Dati.

Una volta definita la tabella desiderata, fare clic sulla parola verde Table – e tu “caddi” nel suo contenuto:

Importa dati da PDF a Excel tramite Power Query

Resta da fare pochi semplici passaggi per “pettinare” il suo contenuto, ovvero:

  1. eliminare le colonne non necessarie (fare clic con il pulsante destro del mouse sull'intestazione della colonna - Rimuovere)
  2. sostituisci i punti con le virgole (seleziona le colonne, fai clic con il pulsante destro del mouse - Valori sostitutivi)
  3. rimuovere i segni di uguale nell'intestazione (selezionare le colonne, fare clic con il pulsante destro del mouse - Valori sostitutivi)
  4. rimuovi la riga superiore (Casa – Elimina righe – Elimina le righe superiori)
  5. rimuovere le righe vuote (Home – Elimina righe – Elimina righe vuote)
  6. eleva la prima riga all'intestazione della tabella (Home: usa la prima riga come intestazioni)
  7. filtra i dati non necessari utilizzando un filtro

Quando il tavolo è riportato alla sua forma normale, può essere scaricato sul foglio con il comando chiudi e scarica (Chiudi e carica) on Il principale scheda. E otterremo una tale bellezza con cui possiamo già lavorare:

Importa dati da PDF a Excel tramite Power Query

  • Trasformare una colonna in una tabella con Power Query
  • Suddivisione del testo appiccicoso in colonne

Lascia un Commento