paolo macchi v1.0  paolo macchi v1.0  _______________

Lezione 1: i tipi di files e Internet

"spesso si dice che il nuovo modo di acquisire conoscenze, piluccando nozioni qua e là in Rete per poi riassemblarle, implica una perdita di creatività e originalità. Non è  vero: l'importante è come si fa questo lavoro, e in ogni caso è ormai impossibile separare le intelligenze le une dalle altre, occorre farle lavorare insieme senza rinunciare alla singolarità delle intelligenze individuali"     [Derrick De Kerckhove (*)]

segnspun.wmf (758 byte) 1.0 Per cominciare ...

Oggi volevo scrivere una frase in inglese. Ho pensato di scrivere:

Hello everybody, I’m a line of text!

che vuol dire "Ciao a tutti, sono una riga di testo!". Da un punto di vista letterario non è un granché, però dal punto di vista di una riga di testo è assolutamente veritiera.

Adesso apro un programma per scrivere, la salvo e il programma mi chiede che formato usare. Che fare? Io li provo tutti; salvo e poi vado a vedere cosa ha effettivamente salvato il programma. Ecco la stessa riga nei diversi formati.

Formato Testo semplice (.txt) (completo)

Hello everybody, I’m a line of text!

Formato Rich Text Format (.rtf)

\rtf1\ansi\deff0
\fonttbl\f0\froman\fprq2\fcharset0 Times;
\colortbl\red0\green0\blue0;\red255\green255\blue255;\red128\green128\blue128;
\stylesheet\s1\snext1 Standard;

\info\author \creatim\yr2001\mo3\dy23\hr13\min55\operator
\revtim\yr2001\mo3\dy23\hr13\min56\printim\yr1601\mo1\dy1\hr0\min0\comment StarWriter\vern5690\deftab720
\*\pgdsctbl
\pgdsc0\pgdscuse195\pgwsxn12240\pghsxn15840\marglsxn1800\margrsxn1800\ margtsxn1440\margbsxn1440\pgdscnxt0 Standard;
\paperh15840\paperw12240\margl1800\margr1800\margt1440\margb1440\sectd\ sbknone\pgwsxn12240\pghsxn15840\marglsxn1800\margrsxn1800\margtsxn1440\ margbsxn1440\ftnbj\ftnstart1\ftnrstcont\ftnnar\aenddoc\aftnrstcont\ aftnstart1\aftnnrlc
\pard\plain \s1 Hello everybody, I’m a line of text!
\par

 

Formato PostScript (.ps) (uno stralcio) (un formato molto utile per farsi capire dalle stampanti)

%!PS-Adobe-1.0
%%Creator: KDE 2.0 HTML Library
%%CreationDate: Fri Mar 23 13:59:35 2001
%%Orientation: Portrait
%%Pages: 1
%%DocumentFonts: Helvetica
%%EndComments

% Prolog copyright 1994-2000 Trolltech.
You may copy this prolog in any way
% that is directly related to this document. For   ......................................

 

Formato Portable Document Format (.pdf) (uno stralcio)

(diffuso da quando la ditta Adobe Inc. permette di scaricare gratis il programma per leggerlo (il programma per scriverlo costa invece 250 EUR per Mac e Win, e per Linux c’è un programma Open Source gratuito). PDF si basa sul principio che tutti i computers possono stampare e quindi, all’inverso, capire il formato di stampa. Il formato di stampa è un formato in tutto e per tutto; quando stampate un documento, questo viene prima convertito in formato stampante (ad esempio il PostScript che abbiamo visto sopra), poi passa alla stampante.

%PDF-1.2
%Çì*¢
4 0 obj
<</Length 5 0 R/Filter /FlateDecode>>
stream
x*U/Á
Â0 Dïû ãI ?I´?’
* + Ï S´d *Eìß* =È2Ìcg Vd b*¯[?/ª¨3? ¥ 8Q©#zÊs?Ï*á*Zê
SÓÏ,cghu*Æ*©IdJi’*±$±L*ØÈX Si *÷ îåiÃ5Ü* /SÆ ?Ñ:* ?÷"’ihoPÅ ?¢+)?endstream
endobj
5 0 obj
143
endobj
3 0 obj
<<
/Type /Page
/MediaBox [0 0 612 792]
/Parent 2 0 R
/Resources << /ProcSet [/PDF /Text]
/Font <<
/R6 6 0 R






/Contents 4 0 R





endobj
6 0 obj
<</Type/Font/Name/R6/Subtype/Type1/BaseFont/Helvetica/Encoding 7 0 R>>
endobj
7 0 obj........
%%EOF

Formato HyperTextMarkup Language (.html) (quello delle pagine Internet !)   (completo)


<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>


<BODY>
<P STYLE="margin-bottom: 0in">Hello everybody, I’m a line of text!</P>
</BODY>

</HTML>

 

Formato MicrosoftWord (.doc) (un piccolo stralcio)

00000000: d0cf 11e0 a1b1 1ae1 0000 0000 0000 0000 ................
00000010: 0000 0000 0000 0000 3b00 0300 feff 0900 ........;.......
00000020: 0600 0000 0000 0000 0000 0000 0100 0000 ................
00000030: 0c00 0000 0000 0000 0010 0000 0200 0000 ................
00000040: 0100 0000 feff ffff 0000 0000 0000 0000 ................
00000050: ffff ffff ffff ffff ffff ffff ffff ffff ................
00000060: ffff ffff ffff ffff ffff ffff ffff ffff ................
00000070: ffff ffff ffff ffff ffff ffff ffff ffff ................
00000080: ffff ffff ffff ffff ffff ffff ffff ffff ................
00000090: ffff ffff ffff ffff ffff ffff ffff ffff ................
000000a0: ffff ffff ffff ffff ffff ffff ffff ffff ................
0........
00000800: 0100 feff 030a 0000 ffff ffff 0609 0200 ................
00000810: 0000 0000 c000 0000 0000 0046 1800 0000 ...........F....
00000820: 4d69 6372 6f73 6f66 7420 576f 7264 2d44 Microsoft Word-D
00000830: 6f6b 756d 656e 7400 0a00 0000 4d53 576f okument.....MSWo
00000840: 7264 446f 6300 1000 0000 576f 7264 2e44 rdDoc.....Word.D
00000850: 6f63 756d 656e 742e 3800 f439 b271 0000 ocument.8..9.q..
00000860: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00000870: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00000880: 0100 0002 0000 0000 0000 0000 0000 0000 ................
00000890: 0000 0000 0000 0000 0000 0000 0000 0000 ................
.........000008a0: 000

000011e0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
000011f0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001200: 4865 6c6c 6f20 6576 6572 7962 6f64 792c Hello everybody,
00001210: 2049 276d 2061 206c 696e 6520 6f66 2074 I’m a line of t
00001220: 6578 7421 0d0d 0000 0000 0000 0000 0000 ext!............
00001230: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001240: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001250: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001260: 0000 0000 0000 0000 0000 0000 0000 0000 ................
000.......

00001c60: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001c70: 0000 0000 1300 0000 2801 0000 0000 0000 ........(.......
00001c80: 5700 6f00 7200 6400 4400 6f00 6300 7500 W.o.r.d.D.o.c.u.
00001c90: 6d00 6500 6e00 7400 0000 0000 0000 0000 m.e.n.t.........
00001ca0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001cb0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001cc0: 1a00 0200 ffff ffff ffff ffff ffff ffff ................
00001cd0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001ce0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001cf0: 0000 0000 1800 0000 1d0a 0000 0000 0000 ................
00001d00: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001d10: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001d20: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001d30: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001d40: 0000 0000 ffff ffff ffff ffff ffff ffff ................
00001d50: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001d60: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001d70: 0000 0000 feff ffff 0000 0000 0000 0000 ................
00001d80: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001d90: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001da0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001db0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001dc0: 0000 0000 ffff ffff ffff ffff ffff ffff ................
00001dd0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001de0: 0000 0000 0000 0000 0000 0000 0000 0000 ................
00001df0: 0000 0000 feff ffff 0000 0000 0000 0000 ................


Allora, che ve ne pare?
Spesso i formati semplici sono più che sufficienti, oltre ad essere economici. Formati come .txt o .html sono infatti degli standard mondiali e ci sono tantissimi programmi gratuiti che li scrivono e li leggono; così non obbligate chi riceve a doverseli comperare finendo sul lastrico. Senza contare che dentro dei formati complessi ci possono anche essere nascosti dei programmi male intenzionati, i famosi virus.

Ma allora perché esistono questi formati complessi?
Perché permettono ad esempio di usare dei caratteri di un tipo più fantasioso, o permettono di controllare meglio il risultato stampato. Bisogna chiedersi però, prima di usarli, se non basterebbe usare i formati più semplici e leggibili, .txt e .html.

(tratto da : FDL 2003 Stalkern
- http://www.connettivo.net/article.php3?id_article=34 )



segnspun.wmf (758 byte)
2.0 Alcuni formati di file relativi a documenti  ( http://it.wikipedia.org/wiki/Elenco_di_tipi_di_file )

In informatica, un formato di file è la convenzione che viene usata per leggere, scrivere e interpretare i contenuti di un file.

Un formato di file è il modo concreto in cui le informazioni contenute in un file sono state codificate prima di essere scritte nel file stesso. In genere infatti esiste più di un modo possibile per organizzare i dati da scrivere su un file, e spesso il modo migliore dipende dall'uso che poi si dovrà fare di quei dati.

Poiché i files non sono altro che insiemi ordinati di byte, cioè semplici numeri, per poter associare al loro contenuto cose diverse si usano convenzioni che legano i bytes ad un significato. Ad esempio, un formato di file per immagini può stabilire che i primi due bytes sono l'altezza e la larghezza dell'immagine, e i seguenti i colori secondo uno schema preordinato. I files di testo usano vari standard di codifica (come lo standard ASCII) per rappresentare lettere e formattazioni diverse.

È teoricamente possibile, a meno di leggere manipolazioni, interpretare il contenuto di un file come se fosse codificato secondo un formato diverso da quello con cui è stato creato: i byte letti sono generalmente validi, anche se non dotati di molto senso; ad esempio è possibile leggere un'immagine come se fosse un file musicale, ma molto probabilmente si otterranno solo rumori e non musica.

Il formato di un certo file è comunemente indicato attraverso l'estensione, che è una serie di lettere (in genere tre, per motivi storici) unita al nome del file attraverso un punto. Ad esempio, "prova.txt" è un file di testo (o meglio, il suo contenuto va interpretato come testo), mentre "prova.jpg" è un'immagine

In qualunque ambiente ci si trovi è comunque frequente l'uso di alcune estensioni standard (txt, doc, img, jpg, mov) che permettono di capire subito, in linea di massima, il tipo di contenuto di un file a partire dal nome.

FORMATO RTF
Il formato RTF (Rich Text Format) corrisponde ad un metodo di codifica di testo formattato e immagini compatibile con diverse applicazioni e quindi visibile su tutti i word processor e su tutti i sistemi operativi (MS-DOS, Windows, OS/2, Macintosh, Linux).

FORMATO DOC
Il formato DOC è il formato proprietario di Microsoft Word, il software di scrittura (word processor) incluso nella suite Microsoft Office. I file in formato DOC possono essere visualizzati anche se non si è in possesso della suite di prodotti Microsoft, scaricando il software di visualizzazione gratuito.

FORMATO PDF
Il formato PDF (Portable Document Format) è il più diffuso formato per la gestione di documenti elettronici. E´ stato progettato per l’interscambio di documenti, in modo che il ricevente veda esattamente il documento come è stato creato, con gli stessi caratteri, formattazione, colori e immagini. (Adobe® Reader® Adobe Reader è il software di visualizzazione più diffuso, che consente di visualizzare e stampare file pdf su una serie di piattaforme hardware e sistemi operativi)

FORMATO XLS
l formato XLS è il formato proprietario di Microsoft Excel, il software di foglio elettronico (spreadsheet) e di calcolo incluso nella suite Microsoft Office. I file in formato XLS possono essere visualizzati anche se non si è in possesso della suite di prodotti Microsoft, scaricando il software di visualizzazione gratuito.

FORMATO PPT
Il formato PPT è il formato proprietario di Microsoft Powerpoint, il software di realizzazione e presentazione di slide incluso nella suite Microsoft Office. I file in formato PPT possono essere visualizzati anche se non si è in possesso della suite di prodotti Microsoft, scaricando il software di visualizzazione gratuito.
 
Microsoft Powerpoint 97/2000 Reader
Il visualizzatore di Powerpoint 97/2000 permette di condividere anche in assenza del software presentazioni salvate in formato Powerpoint 97 e 2000. Alcune funzioni di Powerpoint 2000 e 2002 non sono supportate dal visualizzatore. Download e distribuzione sono gratuiti
 
FORMATO HTML

(acronimo per HyperText Mark-Up Language) è un linguaggio usato per descrivere i documenti ipertestuali disponibili su Internet. Non è un linguaggio di programmazione, ma un linguaggio di markup, ossia descrive l'aspetto che deve avere il testo.È stato sviluppato da Tim Berners-Lee al CERN di Ginevra.HTML è un linguaggio di pubblico dominio la cui sintassi è stabilita dal World Wide Web Consortium (W3C).

FORMATO MHT
Internet Explorer o altri programmi Microsoft, come ad ex. Word, possono anche salvare la pagina  includendo le immagini in un solo file MHT, (anche animazioni e applet) di archivio(webarchive).

FORMATO ZIP
è un formato di compressione dei dati molto diffuso nei computer IBM-PC con sistemi operativi Microsoft e basato su una variante dell'algoritmo LZW.
Essendo un formato senza perdita di informazioni, viene spesso utilizzato per inviare programmi o file che non possono essere modificati dal processo di compressione

segnspun.wmf (758 byte) 3.0 Alcuni formati di file grafici

La grafica annovera una lunga lista di formati diversi, perché le immagini possono essere codificate e/o rappresentate in molti modi diversi: inoltre molti programmi di grafica che trattano immagini associano ai dati grafici veri e propri anche una serie di informazioni supplementari, per esempio sulla loro rappresentazione.

FORMATO GIF (Graphics Interchange Format)
è un formato per immagini di tipo bitmap molto utilizzato nel World Wide Web, sia per immagini fisse che per le animazioni. È stato introdotto nel 1987 da CompuServe per fornire un formato adatto alle immagini a colori, rimpiazzando il precedente formato RLE solo in bianco e nero. Il formato GIF si diffuse perché utilizzava l'algoritmo di compressione LZW,

FORMATO JPEG
è l'acronimo di Joint Photographic Experts Group, un comitato ISO/CCITT che ha definito il primo standard internazionale di compressione per immagini a tono continuo, sia a livelli di grigio che a colori.
Attualmente JPEG è lo standard di compressione delle immagini fotografiche più utilizzato. Le estensioni più comuni per questo formato sono .jpeg, .jpg, .jfif, .JPG, .JPE, anche se il più comune in tutte le piattaforme è .jpg.

FORMATO PNG ( Portable Network Graphics )
è un formato di file per memorizzare immagini.
Il PNG è stato creato nel 1995 da un gruppo di autori indipendenti, dopo che nel 1994 il popolarissimo formato GIF iniziò ad avere problemi di brevetti: i detentori del brevetto. Il formato è stato approvato il 1 ottobre 1996 dal World Wide Web Consortium (W3C).. Il formato PNG è superficialmente simile al GIF, in quanto è capace di immagazzinare immagini in modo lossless, ossia senza perdere alcuna informazione, ed è più efficiente con immagini non fotorealistiche (che contengono troppi dettagli per essere compresse in poco spazio).

FORMATO TIFF 
Il Tagged Image File Format è un formato immagine di tipo raster piuttosto diffuso sviluppato da Microsoft e Aldus TIFF è un marchio registrato dalla Aldus, ora detenuto dalla Adobe (ma non registrato).

segnspun.wmf (758 byte) 4.0 Alcuni formati di file audio e video

FORMATO MP3
(o, più esattamente "MPEG-1/2 Audio Layer 3") è un algoritmo di compressione audio in grado di ridurre drasticamente la quantità di dati richiesti per riprodurre un suono, rimanendo comunque una riproduzione fedele del file originale non compresso.

FORMATO MPEG (Moving Picture Experts Group)
è una famiglia di formati dedicati alla compressione di dati multimediali. L'obbiettivo dei creatori dello standard MPEG era la realizzazione di un formato standard per la codifica dei flussi video e audio.

nota

Il termine raster trae origine dalla tecnologia della televisione analogica e, nel campo dell'informatica, indica un'immagine costituita da punti o pixel. La densità dei pixel che costituiscono una immagine viene detta risoluzione ed è espressa in pixel/pollice o pixel/centimetro.
Nelle immagini digitali di tipo bitmap le informazioni sono memorizzate come una sequenza di pixel colorati. Nella maggior parte dei casi l'immagine viene vista come una scacchiera e ad ogni elemento della scacchiera viene associato uno specifico colore. Il colore può essere definito con due tecniche:Il colore viene definito come una unione delle componenti blu, rossa e verde. Questo non è l'unico modo di definire un colore, esistono molti modi che vengono chiamati spazi di colore ma nel caso delle immagini generate al computer il sistema RGB (RED Rosso, GREEN verde BLUE Blu) è il più diffuso dato che le schede grafiche lo utilizzano nativamente per generare il segnale da visualizzare con il monitor.
Rgb-raster-image.png (23610 byte)

La grafica vettoriale è una tecnica volta a rappresentare le informazioni radicalmente diversa dalla grafica bitmap. Mentre nella grafica bitmap le informazioni vengono memorizzate attraverso pixel opportunamente colorati, nella grafica vettoriale le informazioni vengono rappresentate attraverso un insieme di primitive matematiche che sono punti, linee, curve e poligoni opportunamente colorati. I principali vantaggio della grafica vettoriale rispetto alla grafica bitmap sono la qualità, la maggiore compressione dei dati e la più facile gestione delle eventuali modifiche.
Nei personal computer l'uso più evidente è la definizione dei font. Quasi tutti i font utilizzati dai personal computer vengono realizzati in modo vettoriale, per consentire all'utente di variare la dimensione dei caratteri senza perdere di definizione.

segnspun.wmf (758 byte) 5.0 Formati per Internet

Il mondo web, per sua natura, è costituito da documenti, immagini, suoni, video etc collegati (linkati) tra di loro.

Una pagina web è una pagina del World Wide Web, di solito nel formato HTML/XHTML (l'estensione del file è htm o html) con collegamenti ipertestuali che abilitano la navigazione da una pagina o una sezione all'altra. Le pagine web spesso utilizzano grafica per le illustrazioni che possono essere anche link cliccabili. Una pagina web è visualizzata utilizzando un web browser e possono essere costruite utilizzando delle applet (programmi in Java che vengono eseguiti nella pagina) che forniscono grafica animata, interazione e suono.

Un insieme di pagine web memorizzate in una singola cartella o dentro una sua sottocartella di un web server è conosciuto come Sito web. Un sito web include una pagina principale chiamata index.htm o index.html.

Un documento web che contiene, ad esempio, 3 immagini, è costituito, a differenza di un doc word o excel o pdf,  dal documento di testo in html con tre link alle tre immagini. Il browser (ex. Internet Eplorer) quando scarica la pagina di teso HTML individua il link delle immagini e le va a scaricare dal server.

Il formato file della grafica in una pagina web è di solito JPEG per fotografie e GIF o PNG per altre immagini come diagrammi, disegni, grafici, etc. Gli ultimi due formati possono essere utilizzati per foto ma non sono convenienti per lo scopo come JPEG che è un formato a perdita d'informazione mentre GIF e PNG no. GIF è utilizzata per animazioni, GIF e PNG per immagini con pixel trasparenti, PNG per immagini con pixel parzialmente trasparenti (ma non è supportato da IE).

Tutti questi sono grafica raster. I modI più comunI di PRESENTARE Grafica vettoriale sono sia con un file PDF , o con Flash.

Solitamente, quindi, noi avremo sul server Internet, nella cartella principale (root), uno o piu' file HTML (o asp,php..) e in una sottocartella (ad ex. "immagini") le immagini correlate al testo. Cio' è molto importante per capire cosa avviene quando noi salviamo, ad esempio,   un file di word (.doc) in formato html.: viene generato un file html , solitamente di piccole dimensioni, e viene creata una sottocartella in cui risiedono le immagini, presenti nel documento originale, normalmente in formato jpg.

Bisogna, percio', fare attenzione alle DIMENSIONI di queste immagini perchè, nel loro insieme potrebbero creare una mole elevata di informazioni che dovranno essere trasferite in linea. La durata del caricamento delle immagini dipende dalla "larghezza di banda" del nostro canale (collegamento), cioè dalla "strada" che usiamo per collegarci: potremo avere strade comunali (modem su doppino telefonica a 56Kbps), strade statali o autostrade (ADSL a 1,2,...5Mbps) o altro. E non sappiamo, a priori, cosa l'utenza domestica usa!

Occorre, percio', essere in grado di ridurre, anche di un fattore 10, il formato delle immagini, talvolta, semplicemente cambiandone il formato (ad ex. da bmp in jpg) o riducendone il formato con un editor di immagini.

A questo scopo è molto utile usare un programma di grafica (anche a licenza aperta come GIMP http://gimp.linux.it/www/ , mostrato nella figura sottostante) che possa ridimensionare, ed eventualmente cambiare la risoluzione (cioè il numero di pixel per pollice), delle immagini.

ridim.jpg (68138 byte)

Per produrre un documento html da un doc ppt o doc o pub è possibile salvare il documento nel formato html . Tale salvataggio produce, di norma, un file html (che, ricordiamo, è un semplice file di testo) con associata una cartella contenete tutte le immagini . E' possibile anche salvare i file in formato mht in modo da produrre un unico file di archivio contenete testo e immagini.

wpe1.jpg (50479 byte)

segnspun.wmf (758 byte) 6.0 Creare una pagina web

Per vedere una pagina web nel vero senso, c'è bisogno di un tipo di software chiamato user agent o meglio ancora browser web, un tipo di software destinato alla visualizzazione di pagine web. Ci sono differenti tipi di browser web disponibili con differenti caratteristiche e su un gran numero di piattaforme.

Per creare una pagina web, c'è bisogno di un generico editor di testo o un editor HTML come Microsoft FrontPage, Macromedia Dreamweaver, Mozilla Composer e così via, e un programma FTP per effettuare l'upload della pagina verso il server web.

 


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 License.